帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

hadoop,spark在虚拟机集群里跑还有性能上的优势吗?

如题,系统搭建在公司的虚拟机集群上,这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘,我感觉用多线程,多进程的老方法,直接在服务器上跑,省去那些集群间的调度和网络io,是不是会更快一些?小白不懂,求大侠相助

查看全文

如何评价海绵大数据的Sponge系统?

号称 “不仅在性能上全面超越了美国Hadoop平台主导的第一代大数据操作系统,更是填补了我国大数据产业缺乏操作系统的空白,成为全球首个第二代大数据操作系统,这也意味着中国将从数据大国走向数据强国”,请相关专业人士分析一下。- 第二代大数据操作系统在中国首发上市– 海绵数据推出第二代大数据操作系统– 海绵大数据 Sponge

查看全文

hadoop中map方法读数据的问题?

看了两天hadoop,有个基础概念没明白,假设块大小是64M,我有128M的数据,按理说会启两个mapper,但是mapper默认是按行读数据,比如说64M有1000行,是每个mapper会循环执行map方法1000次?最后每个mapper汇总这1000次的结果交给reducer? 我在程序里设置了 NLineInputFormat.setNumLinesPerSplit(job, 5); map方法里打印一个tag,测试数据有10行,结果打印了10次tag

查看全文