可以去哪儿找一些hadoop MR程序来练习?

理由
举报 取消

本人最近在面试hadoop/hive开发相关的职位,由于没有写过实际的hadoop MR程序和hive开发,导致面试中碰壁较多。所以还想请教下大家,我可以去哪儿找一些题目/项目来练练手?或者大家有什么好的建议可以分享一下么?以下是个人情况:可以在集群上搭建hadoop环境,可以自主解决一些hadoop常见问题。(对hadoop和hive的基本原理是理解的)阅读和修改过hadoop的部分源码,写过wordcount和一些简单的MR程序。hive只是对基本操作熟悉一些。没有写过实际的hadoop MR程序,也没有hive实际开发经验欢迎大家不吝赐教。。

2017年10月22日 4 条回复 1195 次浏览

发起人:香蕉你个巴辣 初入职场

但行好事,莫问前程

回复 ( 4 )

  1. 王槐铤
    理由
    举报 取消

    《mapreduce设计模式》

    《hive编程指南》

    第一本教你mapreduce处理数据的思路。

    第二本是关于hive的简单应用。

    在公司基本上用的hive写写sql即可,但有时候还是要了解底层翻译成mr是大概怎样的,不然可能会出现奇奇怪怪的问题。

    另外的应用就是要写hive的udf,真的会比直接写mr方便很多,并且能够一一对应每个mr的流程,但是还是那个问题,其实底层还是会翻译成mr任务,如果不了解他的各个阶段大概数据流是怎么走的,对症下药,经常就会奇奇怪怪的问题,例如 测试时单机没问题,走集群上万个task出来的结果又不一样。

    《Hadoop权威指南》也可以看看,但是没必要很详细的看,知道有这么个东西,有这么些参数点,影响哪方面,就好了,遇到再回头翻更深刻。

    spark也很火,上手Hadoop后可以看看,思路差不多,整完Hadoop再看,上手会非常快。

    基本上就这么多,希望能帮到你。

  2. Neef6
    理由
    举报 取消

    和楼主差不多,楼主留个QQ,交流交流

  3. 叶烨
    理由
    举报 取消

    所以小伙伴你找到了么?我有点疑惑hive开发是指什么?

  4. one no
    理由
    举报 取消

    可以实现一些图的算法,分布式算法

我来回答

Captcha 点击图片更换验证码