想搭建一个私有云以及大数据技术的实验环境,做关于云计算和大数据方面的研究,该怎么做? 举报 理由 举报 取消 大学里面的一个科室,经费比较有限,但是想搭建一个私有云以及大数据技术的实验环境,做关于云计算和大数据方面的研究,初始阶段需要怎么样的硬件和软件配置,该怎么做?各位大神有没有什么建议或者相关的资料推荐?如果有相应的建设经验,可以聊聊看看有没有合作的可能。 2017年10月30日 3 条回复 1301 次浏览 实验室,数据,计算
回复 ( 3 )
呃,青椒你好,科室有钱搞大数据云计算真好,让零经费的临时研究人员好生羡慕。
就当年做云计算研究的环境来看,云实验环境本身的构建确实比较复杂。
偷懒的办法就是使用商业解决方案,比如VMware ESX系列。此外,windows server的hyperV其实也不算难用。
然后就是开原方案,对于XEN我相对比较熟,安装过程问题较多,如果只是部署的话,建议直接使用源里面的稳定版本。另外很推荐Xen cloud platform,集成了OpenvSwitch,做SDN(Openflow)的开发也非常方便。KVM没有实际安装过,但从其他组的反馈来看,似乎问题会少。
大数据的话,如果不需要修改Hadoop的话,建议直接安装最新的稳定版,性能更好,安装也简单。至于其他的计算模型,我个人觉得Apache的系统是最好安装和调试的。
至于硬件,我觉得做hadoop也好,云计算也好,I/O是非常严重的瓶颈,建议选择PCIe系列的SSD作为主要存储设备,如果资金宽裕建议全部使用SSD。如果资金有限,至少云计算的镜像文件要保存在SSD中。CPU现在基本上都支持VT-X和VT-D,问题不大,最好用支持vPro的主板。内存自然是越大越好,因为单台物理机中能运行的实例(虚拟机)越多,自然问题更多,研究的结果也有说服力。
另外,虽然现在万兆网络比较贵,但如果有条件请务必使用,这样可以将虚拟机的镜像(文件系统)保存在NAS中,方便迁移,不会造成太大的I/O瓶颈。NAS最好就用高性能的物理机做存储,最好硬盘位比较多,可以组RAID 5,便宜,性能也够了。
当然,如果经费不足,不能上万兆网,千兆网带来的IO问题有点麻烦,迁移不好做,云计算的研究就很难体现出来。
还有一种搞法就是用CloudSim跑跑模拟,发发论文也够了。
另外,现在比较容易发文章的问题主要是多云和跨数据中心的问题吧,如果可能,可以租个几十台云节点,在多个云服务商的系统里面跑跑Hadoop,做点优化,如果能有好的结果,也算是不错的论文。
总之,自己组私有云,请多考虑I/O,当年在I/O上吃的亏有点多,另外就是不要随便碰I/O虚拟化,都是坑。
找个做大数据的朋友参与就行了,涉及到的技术太多,坑也多,会把你折腾死的
过程复杂,费用也不便宜。我所了解的这边至少花了上百万的