程序员开发实例大全宝库

网站首页 > 编程文章 正文

言之有物大数据面试(数据分析面试题)

zazugpt 2024-11-07 13:34:55 编程文章 58 ℃ 0 评论

言之有物面试

1)一面:

基础:

(1)Hbase的读写流程

(2)MapReduce的工作原理

(3)Zookeeper的分布式锁(如何保证其他线程来抢锁),watcher机制及实现原理(回调),临时节点(如果有锁的挂了)watcherl是pull还是poll

(4)Redis的事务控制、哨兵模式与watcher的区别(pull/poll)

(5)单刀模式、工厂模式

项目:

(1)说一下项同中spark SQL的优化(写个sql项目中)

(2)数据量增加每天100万,集群需要做什么改动吗?增加节点,数据需要迁移?(我说Hadnp有个reblance)其他节点也增加。

(3)隐语义模型原理与协同过滤的区别

(4)隐代义底层如何实现只拆分成两个小矩阵

(5)ALS的原理

(6)你的有没有测试过你们设计的算记实时推荐对用户有用?

(7)离线:你们怎么知道推荐效果

(8)我们的算法的讲解(那个k次是什么,后来我们数据每周更新一次,这个k次怎么取的)

APP

(1)第二层Flume如果一个挂了,那数据还是会丢失啊

(2)手动维护offset时是消费1条就存offset到2k吗?

那2k压力不会太大吗?

(3)留存率、新鲜度咋算的,(这个需要crontab晚上跑吗?怎么实现)

(4)项目中遇到的难题(我说的移植、改源码)

算法

(1)2亿条数据,内存有限、统计每个ip的个数,自己设计(不能用spavk,MR)

(2)满树50个长度有几个节点

(3)快排

(4)redis实现点击量top100(1000万数据量)

(5)实时实现商品堆度随时间t对用户的影响是递减的(设计一函数算法)

(6)广告的竞价

2)二面:

(1)JVM的垃圾回收为什么采用分代GC。跟语言有关系吗?

(2)Hive的HQL是如何转换为Mr的 例如 select count()from a where r》1 group by ...分了几个job task。

(3)进程和线程的区别。一台机子可以分多少进程和线程。

(4)讲一下协同过滤的原理。

(5)Hbase的原理 regionserver挂了 如何恢复数据 ?新的数据从Hlog里读出来是如何恢复的?

(6)一天的数据量,每天的用户量。

(7)列式存储和行级存储的区别

(8)Hadoop的分片机制 为什么进行分片 有啥好处 是基于什么原理分片的

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表