本人最近在面试hadoop/hive开发相关的职位,由于没有写过实际的hadoop MR程序和hive开发,导致面试中碰壁较多。所以还想请教下大家,我可以去哪儿找一些题目/项目来练练手?或者大家有什么好的建议可以分享一下么?以下是个人情况:可以在集群上搭建hadoop环境,可以自主解决一些hadoop常见问题。(对hadoop和hive的基本原理是理解的)阅读和修改过hadoop的部分源码,写过wordcount和一些简单的MR程序。hive只是对基本操作熟悉一些。没有写过实际的hadoop MR程序,也没有hive实际开发经验欢迎大家不吝赐教。。
查看全文传统BI业务用Hadoop家族产品完全重做,应该怎样选型?
公司从事医疗保险行业BI已经十余年,近期在考虑试水转移到Hadoop,应该搭建怎样的一个结构?数据量并不是很大,最大的项目不超过4T。比较关心的是ETL能否转移到Hadoop,转移后效率能否变高?OLAP部分应该怎样去替换?想用WebService做OLAP结果输出到以前的UI,这个需要用什么做?
查看全文未来想成为一名大数据架构师,可是不知如何在hadoop spark Storm中纠结?
因为本人刚刚大学,而且是在自学大数据,就业方面也是在几年后,可是初学总是不知道如何学习,很多人说学习hadoop还有的说spark都学什么的,我也不太能理解大数据架构这个概念,因为还年轻希望能接触有挑战性的技术。
查看全文hadoop中map方法读数据的问题?
看了两天hadoop,有个基础概念没明白,假设块大小是64M,我有128M的数据,按理说会启两个mapper,但是mapper默认是按行读数据,比如说64M有1000行,是每个mapper会循环执行map方法1000次?最后每个mapper汇总这1000次的结果交给reducer? 我在程序里设置了 NLineInputFormat.setNumLinesPerSplit(job, 5); map方法里打印一个tag,测试数据有10行,结果打印了10次tag
查看全文Hadoop集群各个主机jps进程都显示启动,web管理页面也能打开,但是没有显示节点信息?
CentOS 6.7 64位 Hadoop 2.7.1 JDK 1.7.0_79 64位
查看全文HBase中rowkey设计有哪些注意点?分别针对这举出一个实例给予说明。
HBase中rowkey设计有哪些注意点,分别针对这举出一个实例给予说明。
查看全文大数据领域都有什么发展方向?
我去咨询了一个大数据培训机构 告诉我大数据工作分为两个方向 一个是大数据开发 一个是大数据运维 大数据开发比大数据运维少很多岗位还有的说法是 分为数据挖掘和大数据平台运维开发这两个方向 而且还跟我说我只能选大数据平台运维 谁能详细解释一下大数据开发、大数据运维、数据挖掘、大数据平台运维开发都是什么啊?为什么做不了数据挖掘呢?
查看全文