帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

可以去哪儿找一些hadoop MR程序来练习?

本人最近在面试hadoop/hive开发相关的职位,由于没有写过实际的hadoop MR程序和hive开发,导致面试中碰壁较多。所以还想请教下大家,我可以去哪儿找一些题目/项目来练练手?或者大家有什么好的建议可以分享一下么?以下是个人情况:可以在集群上搭建hadoop环境,可以自主解决一些hadoop常见问题。(对hadoop和hive的基本原理是理解的)阅读和修改过hadoop的部分源码,写过wordcount和一些简单的MR程序。hive只是对基本操作熟悉一些。没有写过实际的hadoop MR程序,也没有hive实际开发经验欢迎大家不吝赐教。。

查看全文

传统BI业务用Hadoop家族产品完全重做,应该怎样选型?

公司从事医疗保险行业BI已经十余年,近期在考虑试水转移到Hadoop,应该搭建怎样的一个结构?数据量并不是很大,最大的项目不超过4T。比较关心的是ETL能否转移到Hadoop,转移后效率能否变高?OLAP部分应该怎样去替换?想用WebService做OLAP结果输出到以前的UI,这个需要用什么做?

查看全文

hadoop中map方法读数据的问题?

看了两天hadoop,有个基础概念没明白,假设块大小是64M,我有128M的数据,按理说会启两个mapper,但是mapper默认是按行读数据,比如说64M有1000行,是每个mapper会循环执行map方法1000次?最后每个mapper汇总这1000次的结果交给reducer? 我在程序里设置了 NLineInputFormat.setNumLinesPerSplit(job, 5); map方法里打印一个tag,测试数据有10行,结果打印了10次tag

查看全文

大数据领域都有什么发展方向?

我去咨询了一个大数据培训机构 告诉我大数据工作分为两个方向 一个是大数据开发 一个是大数据运维 大数据开发比大数据运维少很多岗位还有的说法是 分为数据挖掘和大数据平台运维开发这两个方向 而且还跟我说我只能选大数据平台运维 谁能详细解释一下大数据开发、大数据运维、数据挖掘、大数据平台运维开发都是什么啊?为什么做不了数据挖掘呢?

查看全文