如何顶层设计一套Hadoop平台架构？

理由

举报取消

根据功能需求，估计ambari、phoenix、pig、zookeeper、hive、hbase、sqoop、spark都要用上，就应该如何分配组件，计算所需的服务器资源？比如几台服务器装什么处理什么功能之类的，以及估算可能的性能瓶颈？历史数据10个T的样子，每天的新增数据量1G以内，实时统计要求不高，现在数据来源有9个，数据类型相近，基本上都是用Oracle，加上各种应用分布在100多台低端服务器（主要是8G/16G内存这个级别），可增加一批较高配置服务器，现有服务器分布比较远和散（所以虽然属于一个局域网，但网速不算特别好）

2017年7月24日 4 条回复 942 次浏览

Hadoop,数据,架构,系统,计算

回复 ( 4 )

猪头二初入职场
0
举报回复
理由

举报取消

谢邀，

这个问题对我来说太大了。。以我目前的能力还不能给你什么好的建议。

这有百度的经验，你可以参考。你罗列的那么多工具不是都有用的，大数据分析的关键是如何高效的组织数据源的数据，统一接口才能应付堆积如山的需求。

祝安好。
wang z 管理大师
0
举报回复
理由

举报取消

用云多好成本比你自己搞低多了还稳定
笨鸟管理大师
0
举报回复
理由

举报取消

看楼主的数据量不是很大的样子，给个可行的方式吧。3～5台服务器足够了。

解决方案不是一步到位的，就像堆雪人，先滚一个大雪球，稳住了再往上堆四肢头部。在hadoop生态里面，zookeeper和hdfs就是这个雪球。先装一个3节点的zookeeper加hdfs运作起来。然后yarn,hbase,spark,hive一点点往上堆，资源不够了就加机器扩容hdfs和yarn计算资源。

嫌安装脚本麻烦可以考虑一下用cdh的一站式平台，免费的。

系统分区规划暂时不要操心，按默认配置来。该踩得坑必须要踩，不然出问题才麻烦。
烂番薯臭鸟蛋初入职场
0
举报回复
理由

举报取消

题主问的不是问题，是t提了一个需求，在知乎寻找一个能给你解决方案的人，需要根据你公司具体业务来解决

找回密码

如何顶层设计一套Hadoop平台架构？

发起人：穆先生 初入职场

回复 ( 4 )

我来回答

帐户注册

登录

找回密码

如何顶层设计一套Hadoop平台架构？

发起人：穆先生 初入职场

回复 ( 4 )

我来回答

发起人：穆先生初入职场