网站首页 > 编程文章 正文
e代驾面试题
1)笔试
有一张很大的表:TRLOG,该表大概在2T左右
CREATE TABLE TRLOG
( PLATFORM string,
USER_ID int,
CLICK_TIME string,
CLICK_URL string)
row format delimited fields terminated by ‘\t’;
数据:
PLATFORM USER_ID CLICK_TIME CLICK_URL
WEB 12332321 2013-03-21 13:48:31.324 /home/
WEB 12332321 2013-03-21 13:48:32.954 /selectcat/er/
WEB 12332321 2013-03-21 13:48:46.365 /er/viewad/12.html
WEB 12332321 2013-03-21 13:48:53.651 /er/viewad/13.html
…… …… …… ……
把上述数据处理为如下结构的表ALLOG:
CREATE TABLE ALLOG
( PLATFORM string,
USER_ID int,
SEQ int,
FROM_URL string,
TO_URL string)
row format delimited fields terminated by ‘\t’;
整理后的数据结构:
PLATFORM USER_ID SEQ FROM_URL TO_URL
WEB 12332321 1 NULL /home/
WEB 12332321 2 /home/ /selectcat/er/
WEB 12332321 3 /selectcat/er/ /er/viewad/12.html
WEB 12332321 4 /er/viewad/12.html /er/viewad/13.html
WEB 12332321 1 NULL /m/home/
WEB 12332321 2 /m/home/ /m/selectcat/fang/
PLATFORM和USER_ID还是代表平台和用户ID:SEQ字段代表用户按时间排序后的访问顺序,FROM_URL和TO_URL分别代表用户从哪一页跳转到哪一页。某个用户的第一条访问记录的FROM_URL是NULL(空值)。两种办法做出来:
A)实现一个能加速上述处理过程的Hive GenericUDF,并给出此UDF实现ETL过程的Hive SQL
B)实现基于纯Hive SQL的ETL过程,从TRLOG表生成ALLOG表:(结果是一套SQL)
2)技术部分
(1)hdfs原理,以及各个模块的职责
(2)mr的工作原理
(3)shell脚本里如何检查文件是否存在,如果不存在该如何处理?Shell里如何检查一个变量是否是空?
(4)Shell脚本里如何统计一个目录下(包含子目录)有多少个java文件?如何取得每一个文件的名称(不包含路径)
(5)哪个程序同城与nn在一个节点启动?哪个程序和DN在一个节点?如果一个节点脱离了集群应该怎么处理?
(6)列出几个配置文件优化hadoop,怎么做数据平衡?列出步骤
(7)谈谈数据倾斜,如何发生的,并给出优化方案?
(8)Hive跟hbase的区别是什么?
(9)什么是埋点?流程是什么样的?
(10)现有海量日志数据保存在一个超级大的文件中,该文件无法直接读入内存,要求从中提取出某天访问新浪次数最多的那个IP
(11)已知一个表STG.ORDER,有如下字段:Date,Order_id,User_id,amount。请给出sql进行统计:数据样例:2017-01-01,10029028,1000003251,33.57。
A)给出 2017年每个月的订单数、用户数、总成交金额。
B)给出2017年11月的新客数(指在11月才有第一笔订单)
public class Foo{
Public static void main(String[] args){
Try{
badMethod();
System.out.print(“A”);
}catch(Exception ex){
System.out.print(“C”);
}finally{
System.out.print(“B”);
}
System.out.print(“D”);
}
Public static void badMethod(){
Throw new Exception();
}
}
输出结果是什么?
A.CBD B.B C.BD D.编译失败
Public class Foo{
Public static void main(String[] args){
Integer a = new Integer(1);
Integer b = 1;
If(a == b){
System.out.println(“OK”);
}else{
System.out.println(“NO”);
}
}
}
输出结果是什么?为什么?
(12)详细描述HashMap的内部实现。
(13)分别描述ThreadLocal、Volatile、Synchronized的含义以及应用场景
(14)Redis的数据类型有什么?如何使用Redis实现分布式锁?
猜你喜欢
- 2024-11-07 极光大数据开发岗位面试题(极光大数据开发岗位面试题答案)
- 2024-11-07 言之有物大数据面试(数据分析面试题)
- 2024-11-07 亿联银行大数据面试题(亿联银行大数据面试题及答案)
- 2024-11-07 北大英华大数据面试题(北大英华大数据面试题答案)
- 2024-11-07 太平金科大数据开发面试题(太平金科测试面试)
- 2024-11-07 光大信息大数据开发岗位面试题(光大银行大数据招聘)
- 2024-11-07 汇通金财大数据面试题(财汇大数据终端)
- 2024-11-07 知道创宇大数据面试题(知道创宇招聘官网)
- 2024-11-07 同方股份大数据开发岗位面试(同方股份大数据产业本部)
- 2024-11-07 大数据项目特征工程型特征处理(大数据项目特征工程型特征处理包括)
你 发表评论:
欢迎- 06-24一个老爸画了超级有爱的365幅画 | 父亲节献礼
- 06-24产品小白看魏则西事件——用产品思维审视百度推广
- 06-24某教程学习笔记(一):13、脚本木马原理
- 06-24十大常见web漏洞——命令执行漏洞
- 06-24初涉内网,提权那些事(内网渗透提权)
- 06-24黑客命令第16集:47种最常见的**网站方法2/2
- 06-24铭说 | 一句话木马的多种变形方式
- 06-24Java隐藏的10倍效率技巧!90%程序员不知道的魔法方法(附代码)
- 最近发表
- 标签列表
-
- spire.doc (70)
- instanceclient (62)
- solidworks (78)
- system.data.oracleclient (61)
- 按键小精灵源码提取 (66)
- pyqt5designer教程 (65)
- 联想刷bios工具 (66)
- c#源码 (64)
- graphics.h头文件 (62)
- mysqldump下载 (66)
- libmp3lame (60)
- maven3.3.9 (63)
- 二调符号库 (57)
- git.exe下载 (68)
- diskgenius_winpe (72)
- pythoncrc16 (57)
- solidworks宏文件下载 (59)
- qt帮助文档中文版 (73)
- satacontroller (66)
- hgcad (64)
- bootimg.exe (69)
- android-gif-drawable (62)
- axure9元件库免费下载 (57)
- libmysqlclient.so.18 (58)
- springbootdemo (64)
本文暂时没有评论,来添加一个吧(●'◡'●)