看到星环科技的简介,他们可以将开源版本的Hadoop的性能提升10到100倍!好厉害! 那么:1.为什么开源版本的Hadoop不做到最好,而是留有如此之大的性能提升余地? 2.什么方法什么手段可以提升Hadoop的性能? 3.提升性能用到的是书本上的知识吗?还是工程师自创的提升方法?又或者是顶尖论文里面的方法? 谢谢!
查看全文请问为啥基于yarn的mapreduce架构如此复杂?
我知道标题不明确,因为yarn上可以运行其他应用,不仅仅是mapreduce。我在看hadoop1的时候,感觉这种jobtrack和tasktrack的架构相当简单,后来看基于yarn的就晕掉了,怎么会如此复杂?话说yarn带来的好处是值得吗?相对其复杂的架构而言。还有会不会在实际应用中技术人员更倾向于继续使用hadoop1?毕竟更熟悉而且更容易维护,而且实际的集群也小。
查看全文如何顶层设计一套Hadoop平台架构?
根据功能需求,估计ambari、phoenix、pig、zookeeper、hive、hbase、sqoop、spark都要用上,就应该如何分配组件,计算所需的服务器资源?比如几台服务器装什么处理什么功能之类的,以及估算可能的性能瓶颈?历史数据10个T的样子,每天的新增数据量1G以内,实时统计要求不高,现在数据来源有9个,数据类型相近,基本上都是用Oracle,加上各种应用分布在100多台低端服务器(主要是8G/16G内存这个级别),可增加一批较高配置服务器,现有服务器分布比较远和散(所以虽然属于一个局域网,但网速不算特别好)
查看全文Hadoop在什么情况下会在一个节点启动多个Map task或者Reduce task?
我知道每个datanode只会产生一个Mapper或者一个Reducer,这不是代表一个Map task或Reduce task吗?
查看全文为什么在中国搞不出 Spark 和 Hadoop 这种东西?
先问是不是,再问为什么,不要耍流氓!国内hadoop类似产品不止一个吧,估计还胜过现在的hadoop,现在hadoop可不是啥核心科技———————————-我是一名CS学生,我想听听对题目问题的看法。 我很好奇是哪些本质的东西决定了在美国搞出了这些东西,在中国就没有出现。我能想到的原因就是:我觉得国内的互联网环境更关心怎么赚钱怎么快速迭代产品,而对于技术创新投入不够。
查看全文谁有spark项目分享嘛?
谁能分享下spark的项目么 ?spark环境搭建要点?还有spark搭建好以后,再写代码时,是不是把集群看作一个整体,具体内部怎么调度的不需要我们考虑了?
查看全文