网站首页 > 编程文章正文

极光大数据开发岗位面试题（极光大数据开发岗位面试题答案）

zazugpt 2024-11-07 13:34:56 编程文章 76 ℃ 0 评论

（1）某条SQL语句我不想真正地去执行它，如何判断它是不是合理、效率高低情况？你会怎样处理并优化呢？

（2）如果使用explain分析之后，你会得出哪些信息，有没有一些优化思路？

（3）举个例子：一张表有10个字段，有uid+time+另8个字段，time是不断变化的，uid会有重复，如何查询出第一次登录的uid行数据。

（4）什么情况下使用union all？如果字段个数不一样或字段格式类型不一样还能union吗？如何处理。

（5）Kafka中的broker节点保存了哪些信息？

（6）比如Kafka有5个分区，一个group有10个consumer，如何消费的？如果是多个消费者消费一个分区的数据会有什么问题？

（7）10个消费者消费5个分区，如果10个消费者挂了一个，那么会有几种情况，该怎么处理？

（8）Kafka中数据一致性有几种级别？至少一次级别怎么进行设置？运行的机制是什么？

（9）flume监控的文件名称修改了，造成重复消费怎么办？该怎么处理？

（10）filechannel万一有数据没有保存成功，怎么保证它的成功保存（第一次没成功，第二次还想成功？）？

（11）10台 128g内存，8T硬盘，各个组件内存，以及磁盘怎么分配？

（1）你做的项目介绍下，主要负责哪块，遇见过什么文件，怎么解决的

（2）小文件文件如何规避的？你们在什么场景下碰见了小文件问题，怎么去处理的？

（3）flume是怎么写到hdfs上，时间吗？那会有临界值问题导致，凌晨的数据写到了第二天？

（4）你负责过哪些指标？有什么字段？具体怎么算出来的，日活每天多少，新增每天多少，留存率比率是多少，总的用户量是多少，sparkstreaming中双流join是具体怎么做的；

你们用的hadoop什么版本，什么公司的；

（5）你们的集群规模是多少，总的集群的磁盘空间是多少？服务器的规格是怎么样的，内存，线程和cpu的配置是什么？

（6）udf 和udtf函数具体怎么用的，flume拦截器是具体实现什么功能；为什么做实时的时候用habase作为最后的存储数据库，数据量很大吗？实时计算计算多少条？

（7）hive里面具体做过哪些优化？

（8）现场临时的sql题目思路怎么写，用什么函数