程序员开发实例大全宝库

网站首页 > 编程文章 正文

极光大数据开发岗位面试题(极光大数据开发岗位面试题答案)

zazugpt 2024-11-07 13:34:56 编程文章 76 ℃ 0 评论

极光--深圳

学长1

(1)某条SQL语句我不想真正地去执行它,如何判断它是不是合理、效率高低情况?你会怎样处理并优化呢?

(2)如果使用explain分析之后,你会得出哪些信息,有没有一些优化思路?

(3)举个例子:一张表有10个字段,有uid+time+另8个字段,time是不断变化的,uid会有重复,如何查询出第一次登录的uid行数据。

(4)什么情况下使用union all?如果字段个数不一样或字段格式类型不一样还能union吗?如何处理。

(5)Kafka中的broker节点保存了哪些信息?

(6)比如Kafka有5个分区,一个group有10个consumer,如何消费的?如果是多个消费者消费一个分区的数据会有什么问题?

(7)10个消费者消费5个分区,如果10个消费者挂了一个,那么会有几种情况,该怎么处理?

(8)Kafka中数据一致性有几种级别?至少一次级别怎么进行设置?运行的机制是什么?

(9)flume监控的文件名称修改了,造成重复消费怎么办?该怎么处理?

(10)filechannel万一有数据没有保存成功,怎么保证它的成功保存(第一次没成功,第二次还想成功?)?

(11)10台 128g内存,8T硬盘,各个组件内存,以及磁盘怎么分配?

学长2

(1)你做的项目介绍下,主要负责哪块,遇见过什么文件,怎么解决的

(2)小文件文件如何规避的?你们在什么场景下碰见了小文件问题,怎么去处理的?

(3)flume是怎么写到hdfs上,时间吗?那会有临界值问题导致,凌晨的数据写到了第二天?

(4)你负责过哪些指标?有什么字段?具体怎么算出来的,日活每天多少,新增每天多少,留存率比率是多少,总的用户量是多少,sparkstreaming中双流join是具体怎么做的;

你们用的hadoop什么版本,什么公司的;

(5)你们的集群规模是多少,总的集群的磁盘空间是多少?服务器的规格是怎么样的,内存,线程和cpu的配置是什么?

(6)udf 和udtf函数具体怎么用的,flume拦截器是具体实现什么功能;为什么做实时的时候用habase作为最后的存储数据库,数据量很大吗?实时计算计算多少条?

(7)hive里面具体做过哪些优化?

(8)现场临时的sql题目思路怎么写,用什么函数

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表