hadoop,spark在虚拟机集群里跑还有性能上的优势吗?
如题,系统搭建在公司的虚拟机集群上,这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘,我感觉用多线程,多进程的老方法,直接在服务器上跑,省去那些集群间的调度和网络io,是不是会更快一些?小白不懂,求大侠相助
查看全文分布式内存文件系统Tachyon为什么要改名为Alluxio?
分布式内存文件系统tachyon(Tachyon Home)已于前日更名为Alluxio(Alluxio Project Website),请问为什么会改名呢?貌似在软件界这样的先例也不算太多。
查看全文如何看待Google向Apache基金会提交的Beam(Dataflow)提案?
https://wiki.apache.org/incubator/BeamProposal你如何看待此提议,该项目前景如何?
查看全文如何评价海绵大数据的Sponge系统?
号称 “不仅在性能上全面超越了美国Hadoop平台主导的第一代大数据操作系统,更是填补了我国大数据产业缺乏操作系统的空白,成为全球首个第二代大数据操作系统,这也意味着中国将从数据大国走向数据强国”,请相关专业人士分析一下。- 第二代大数据操作系统在中国首发上市– 海绵数据推出第二代大数据操作系统– 海绵大数据 Sponge
查看全文hadoop中map方法读数据的问题?
看了两天hadoop,有个基础概念没明白,假设块大小是64M,我有128M的数据,按理说会启两个mapper,但是mapper默认是按行读数据,比如说64M有1000行,是每个mapper会循环执行map方法1000次?最后每个mapper汇总这1000次的结果交给reducer? 我在程序里设置了 NLineInputFormat.setNumLinesPerSplit(job, 5); map方法里打印一个tag,测试数据有10行,结果打印了10次tag
查看全文学习排队论是否有助于分布式计算、机器学习?
不知排队论是否对后续的大数据项目有用,处理数据时是否需要排队论的知识来实现分布式计算的负载平衡?
查看全文请问怎么查看最近的vldb会议的论文?
想看看近几年vldb中关于MPP的文章,但是在网上怎么都找不到。进入每年的官网,除来14年有个文章选项点进去能看一些,其他年的官网上都看不到啊。
查看全文