分享
如何顶层设计一套Hadoop平台架构?
根据功能需求,估计ambari、phoenix、pig、zookeeper、hive、hbase、sqoop、spark都要用上,就应该如何分配组件,计算所需的服务器资源?比如几台服务器装什么处理什么功能之类的,以及估算可能的性能瓶颈?历史数据10个T的样子,每天的新增数据量1G以内,实时统计要求不高,现在数据来源有9个,数据类型相近,基本上都是用Oracle,加上各种应用分布在100多台低端服务器(主要是8G/16G内存这个级别),可增加一批较高配置服务器,现有服务器分布比较远和散(所以虽然属于一个局域网,但网速不算特别好)
回复 ( 4 )
谢邀,
这个问题对我来说 太大了。。 以我目前的能力还不能给你什么好的建议。
这有百度的经验,你可以参考。 你罗列的那么多工具 不是都有用的,大数据分析的关键是如何高效的组织数据源的数据,统一接口才能应付堆积如山的需求。
祝安好。
用云多好 成本比你自己搞低多了还稳定
看楼主的数据量不是很大的样子,给个可行的方式吧。3~5台服务器足够了。
解决方案不是一步到位的,就像堆雪人,先滚一个大雪球,稳住了再往上堆四肢头部。在hadoop生态里面,zookeeper和hdfs就是这个雪球。先装一个3节点的zookeeper加hdfs运作起来。然后yarn,hbase,spark,hive一点点往上堆,资源不够了就加机器扩容hdfs和yarn计算资源。
嫌安装脚本麻烦可以考虑一下用cdh的一站式平台,免费的。
系统分区规划暂时不要操心,按默认配置来。该踩得坑必须要踩,不然出问题才麻烦。
题主问的不是问题,是t提了一个需求,在知乎寻找一个能给你解决方案的人,需要根据你公司具体业务来解决