是否有技术可以保证hadoop无损地运行在云上。?

理由
举报 取消

在本人浅薄的认识里一直认为hadoop是与云绝缘的。在本人的认知里hadoop为了保证效率最好一个文件能够均匀地分配到所有物理磁盘上,而虚拟化后就无法保证虚拟机上的一个必然对应到唯一的物理磁盘了,文件的写入或读取也就很难无法保证每次都把所有物理磁盘利用起来,甚至出现资源的等待和抢夺。以上是理论上的不可能。另外,我所认识的gp的厂商产品专家也亲口承认过他们的gp是不适合跑在云上的,相信hadoop也是一样的道理。而我们的合作厂商也测试过将hadoop运行在同等配置的虚拟机上,测试结论也是性能下降至少30个百分点。然而,最近参加了微软的技术大会,大会上微软具备大数据智能的公有云azure是其重点推介对象,而其背后的大数据处理平台正是hadoop,那么微软的公有云上是如何保证hadoop的性能的呢?我猜测有几种可能:第一是微软接受这个损失,更看重可管理性和可靠性,性能损失用硬件补足。第二是微软有技术或者虚拟层有技术能够保证每个虚拟磁盘唯一对应到物理磁盘。第三就是其运算大量使用spark这类内存运算,进而不受磁盘io虚拟化的影响。以上仅是猜测,还请诸位大神指点迷津。到底有没有技术保证hadoop可以无损的跑在云上,甚至hadoop是否有必要部署到私有云上?

2017年6月21日 2 条回复 835 次浏览

发起人:邓昳轶 初入职场

本科学的是环境工程。后面转行搞IT。目前已在金融IT行业干了6年。还没啥成绩,想有所突破。

回复 ( 2 )

  1. 桂能
    理由
    举报 取消

    1.hadoop为了保证效率最好一个文件能够均匀地分配到所有物理磁盘上,这个并不是的,hadoop并不会把一个文件均匀地分配到所有的物理磁盘上,先想下这个问题,一个集群有几千个disk,你难道要把每个文件都切几千份么,然后hadoop的文件存放策略并不是越平均越好,如果都平均了,要locality算法干嘛。

    2.在虚拟机上挂物理磁盘不可以么,磁盘只不过是个设备而已,这个设备可以是虚拟磁盘,也可以是物理磁盘,也可以是网络磁盘,哪怕这个分区背后是个dropbox,只要他够快够大就行。重要的是我那么多块磁盘怎么管的问题。

    3.hadoop的磁盘性能是个瓶颈,但是也没有必要一定要“无损”,如果虚拟化带来的便利很大,那么损失一点性能还是可以接受的。

  2. 黄东旭
    理由
    举报 取消

    云平台的一个主要技术就在于资源管理、虚拟化。hadoop与GP同属于MPP架构,因此在小规模集群环境下还是可以的,资源管理相对简单。如果大规模集群可行性就不大。

    而题主题到的无损?更不可能了,虚拟化就是磁盘I/O杀手啊。

我来回答

Captcha 点击图片更换验证码