分享
可以去哪儿找一些hadoop MR程序来练习?
本人最近在面试hadoop/hive开发相关的职位,由于没有写过实际的hadoop MR程序和hive开发,导致面试中碰壁较多。所以还想请教下大家,我可以去哪儿找一些题目/项目来练练手?或者大家有什么好的建议可以分享一下么?以下是个人情况:可以在集群上搭建hadoop环境,可以自主解决一些hadoop常见问题。(对hadoop和hive的基本原理是理解的)阅读和修改过hadoop的部分源码,写过wordcount和一些简单的MR程序。hive只是对基本操作熟悉一些。没有写过实际的hadoop MR程序,也没有hive实际开发经验欢迎大家不吝赐教。。
回复 ( 4 )
《mapreduce设计模式》
《hive编程指南》
第一本教你mapreduce处理数据的思路。
第二本是关于hive的简单应用。
在公司基本上用的hive写写sql即可,但有时候还是要了解底层翻译成mr是大概怎样的,不然可能会出现奇奇怪怪的问题。
另外的应用就是要写hive的udf,真的会比直接写mr方便很多,并且能够一一对应每个mr的流程,但是还是那个问题,其实底层还是会翻译成mr任务,如果不了解他的各个阶段大概数据流是怎么走的,对症下药,经常就会奇奇怪怪的问题,例如 测试时单机没问题,走集群上万个task出来的结果又不一样。
《Hadoop权威指南》也可以看看,但是没必要很详细的看,知道有这么个东西,有这么些参数点,影响哪方面,就好了,遇到再回头翻更深刻。
spark也很火,上手Hadoop后可以看看,思路差不多,整完Hadoop再看,上手会非常快。
基本上就这么多,希望能帮到你。
和楼主差不多,楼主留个QQ,交流交流
所以小伙伴你找到了么?我有点疑惑hive开发是指什么?
可以实现一些图的算法,分布式算法