还有必要学习Hadoop 么? 举报 理由 举报 取消 对比Hadoop,spark好评如潮,作为一个没接触过大数据处理的初学者,还有必要学习Hadoop么。谢谢各位指教。 2017年6月23日 7 条回复 1171 次浏览 Hadoop,Spark,学习资料,数据
回复 ( 7 )
谢邀
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了
几年前,还有评论人士称,Hadoop只能应用于企业10%的数据。但今日一份名为《2014年数据库技术现状调查》的数据显示,13%的受访者已经将Hadoop应用于产品生产和测试。未来,Hadoop有望在企业各个角落得到应用。而在性能和用途都有显著增长的同时,Hadoop的部署成本仍然会保持相对低廉。
数据平民化
随着大数据的快速发展,未来五年内,数据量和数据类型都会快速增长,那时,PB级的数据量已经不能被称为大数据了。随着数据的猛增,企业对数据分析和存储能力的需求必然大幅上升。相对于传统数据库和数据仓库技术,Hadoop的优势在于将数据分析和存储平民化。不懂技术的业务人员访问和分析数据将成为趋势。
照目前的创新速度和较低的准入门槛来看,未来五年会有更多的中小型企业持有自己的Hadoop架构。同时,Hadoop的发展会催生一大批初创企业加入到企业级IT领域,虽然短时间内新技术初创企业还不足以影响大的市场格局,但从收购和价值评估中我们可以看到,新兴技术企业的市场价值已经越来越大。
安全性和实时性
物联网作为IT发展的下一个技术热点,会成为变革IT的新力量。传统的数据库技术很难应对大量的传感器数据,而Hadoop将脱颖而出,承担更多的存储和分析功能。
未来五年里,Hadoop会逐渐向企业日常运营必不可少的系统发展。而要实现这一点,其实时分析的能力和安全性将成为掣肘。现在,我们已经看到Kerberos 和一些MapReduce组件用于保障Hadoop的安全性,Spark和Storm等工具正在为Hadoop加速。未来Hadoop的发展也需要这两方面能力的成熟。
或许这两篇文章对你能够有所帮助,我觉得Hadoop还是挺有必要学的,有关注大数据欢迎加我们信微:idacker
(二维码自动识别)
更新一下,经 @晓鹰指正,之前几处的“完全替代”表达有误,这篇回答主要想表达的是spark及其生态圈是大大优于hadoop生态圈的,但是某些组件之间并不存在在完全的替代关系,因为spark生态圈中的很多solution是和hadoop中的思维不一样的。
============================================
从技术的角度来说,spark的确完全可以代替hadoop中的mapreduce(并不能代替hdfs),spark生态圈中的mesos相比于yarn功能也更强大,mllib可以完全代替mahout。dataframe可以代替hive,pig的大部分功能。从找工作的角度来说,现在hadoop还是最主流的分布式计算框架,工作岗位数量比spark多,但几年以后spark必然会超过hadoop。
从技术角度来说,spark速度更快,开发更简单,功能更强大。楼上有人说spark之所以快是因为in memory,memory装不下的数据的时候,spark的速度会非常感人,这其实是对spark最常见的误解,什么叫in memory? 只要是jvm都是in memory的,mapreduce的时候数据当然也要加载到内存中,spark内存装不下的时候mapreduce内存也装不下。实际上,spark可以把计算的中间结果缓存在内存中,因此在做迭代计算时,每一步迭代的中间结果可以暂时放在内存中,因此省略了磁盘读写的时间。即使是非迭代计算,数据量远大于内存容量时,spark性能也比hadoop好(参见 Daytona GraySort contest 2014,和spark作者之一的博文 Spark the fastest open source engine for sorting a petabyte )。Spark1.5 dataframe组件更是开始抛弃java gc,自己管理内存,性能又有了大幅度的提高。
不仅是性能强于mapreduce,spark也提供了更丰富的操作函数,大大加快了开发效率。hadoop要写几十行的东西在spark中可能一两行代码就能解决。
spark功能也比hadoop更多,在核心的DAG计算组件之外,还有机器学习,图计算,流计算(实际上应该是批计算),dataframe组件,像我用的机器学习组件,比hadoop生态圈的mahout强大太多。
尽管如此,现在hadoop开发者的需求量还是远多于spark的,毕竟很多企业已经基于hadoop搭建了整个系统,全部迁移到spark还是要很长时间的。
不要太浮躁了
这种有用无用论
就好像“现在fp突然火了 我还要学oop吗”的即视感
互联网泡沫真的离不开一群浮躁的码农 最近这裁员缩招真是干得漂亮
计算框架而已 工具而已
适用场景不一样
只是spark怒吞了一大片服务和使用场景
spark值得学
但问学hadoop还有必要吗 不予回答
一代确实可以放一放,但你要是以为二代Hadoop还是之前的Hadoop那可就不对了
说白了Hadoop是一个Apache一堆云计算套件的全家桶,并且由YARN做了大一统
其中hdfs提供云存储,yarn在此之上提供计算资源的统一管理,mr以及spark什么的都是跑在yarn上面的应用,所以你用hadoop来和spark比,就相当于用windows和office比,没有什么道理的
至于学什么,就看你的兴趣点是在资源框架,还是在计算框架了
谢邀
楼上说了一个方面,我在补充一点。spark之所以快是因为in memory,做ML什么的Hadoop确实干不过spark。但是真遇到memory装不下的数据的时候,spark的速度会非常感人……
考虑到scala的学习成本,大规模离线日志还是用MapReduce处理,而需要迭代计算的机器学习模型会越来越多的使用spark训练,但hdfs的生命周期会很长。hadoop还有很多适用的场景,多学点总归是好的,不要“书到用时方恨少”啊。
spark的计算框架确实比hadoop得mr强大得多,但是就如之前几位的回答一样,hadoop现在不只是mr计算框架了,他是一个全家桶,说spark是这个全家桶里面的一个大鸡腿也不为过。
退一万步讲,就算hadoop只有mr,spark也不可能代替他,在某些领域数据是以PB为基础算得,spark内存计算模型不一定能够吃得下。