Hadoop - 12Reads管理问答

为何Hadoop开源版本的性能，还可以在提高10到100倍？

李小燚 2017-08-06 1324 次浏览

看到星环科技的简介，他们可以将开源版本的Hadoop的性能提升10到100倍！好厉害！那么：1.为什么开源版本的Hadoop不做到最好，而是留有如此之大的性能提升余地？ 2.什么方法什么手段可以提升Hadoop的性能？ 3.提升性能用到的是书本上的知识吗？还是工程师自创的提升方法？又或者是顶尖论文里面的方法？谢谢！

查看全文

Hive 外部表分区表，分区的数量有没有限制，分区内数据的数量级在什么范围才是合理的？

WAN ZXY 2017-08-06 822 次浏览

查看全文

请问为啥基于yarn的mapreduce架构如此复杂？

郭泽波 2017-07-29 627 次浏览

我知道标题不明确，因为yarn上可以运行其他应用，不仅仅是mapreduce。我在看hadoop1的时候，感觉这种jobtrack和tasktrack的架构相当简单，后来看基于yarn的就晕掉了，怎么会如此复杂?话说yarn带来的好处是值得吗？相对其复杂的架构而言。还有会不会在实际应用中技术人员更倾向于继续使用hadoop1?毕竟更熟悉而且更容易维护，而且实际的集群也小。

查看全文

根据功能需求，估计ambari、phoenix、pig、zookeeper、hive、hbase、sqoop、spark都要用上，就应该如何分配组件，计算所需的服务器资源？比如几台服务器装什么处理什么功能之类的，以及估算可能的性能瓶颈？历史数据10个T的样子，每天的新增数据量1G以内，实时统计要求不高，现在数据来源有9个，数据类型相近，基本上都是用Oracle，加上各种应用分布在100多台低端服务器（主要是8G/16G内存这个级别），可增加一批较高配置服务器，现有服务器分布比较远和散（所以虽然属于一个局域网，但网速不算特别好）

查看全文

Hadoop在什么情况下会在一个节点启动多个Map task或者Reduce task?

张楠 2017-07-16 862 次浏览

我知道每个datanode只会产生一个Mapper或者一个Reducer，这不是代表一个Map task或Reduce task吗？

查看全文

[Hadoop]无法用终端上传文件到HDFS，求助！?

Robot 2017-07-14 1349 次浏览

查看全文

为什么在中国搞不出 Spark 和 Hadoop 这种东西？

李默然 2017-07-09 1396 次浏览

先问是不是，再问为什么，不要耍流氓！国内hadoop类似产品不止一个吧，估计还胜过现在的hadoop，现在hadoop可不是啥核心科技———————————-我是一名CS学生，我想听听对题目问题的看法。我很好奇是哪些本质的东西决定了在美国搞出了这些东西，在中国就没有出现。我能想到的原因就是：我觉得国内的互联网环境更关心怎么赚钱怎么快速迭代产品，而对于技术创新投入不够。

查看全文

谁有spark项目分享嘛？

潇傻哥 2017-07-08 904 次浏览

谁能分享下spark的项目么？spark环境搭建要点？还有spark搭建好以后，再写代码时，是不是把集群看作一个整体，具体内部怎么调度的不需要我们考虑了？

查看全文

1 … 5 6 7 8

找回密码

为何Hadoop开源版本的性能，还可以在提高10到100倍？

Hive 外部表分区表，分区的数量有没有限制，分区内数据的数量级在什么范围才是合理的？

spark是否可以像处理txt文件一样处理xml文件？

请问为啥基于yarn的mapreduce架构如此复杂？

上海做大数据比较好的公司有哪些？

如何顶层设计一套Hadoop平台架构？

Hadoop在什么情况下会在一个节点启动多个Map task或者Reduce task?

[Hadoop]无法用终端上传文件到HDFS，求助！?

为什么在中国搞不出 Spark 和 Hadoop 这种东西？

谁有spark项目分享嘛？

帐户注册

登录

找回密码