hadoop,spark在虚拟机集群里跑还有性能上的优势吗?
如题,系统搭建在公司的虚拟机集群上,这样还有木有性能上的优势?或者说这样搭建分布式计算系统还有意义么?反正最终都是服务器的内存和硬盘,我感觉用多线程,多进程的老方法,直接在服务器上跑,省去那些集群间的调度和网络io,是不是会更快一些?小白不懂,求大侠相助
查看全文安装hadoop(例如CDH),像hdfs、zookeeper、spark等有没有必要独立到不同机器?
我用的cdh的发行版,服务器每台双U 96G 24TB。有没有必要每个服务都独立的分别部署在不同的机器上,还是可以叠加好一点?请给个分析?谢谢!
查看全文大数据技术中的Hadoop和Spark计算是否适合实现OLTP系统的业务数据分析?
大数据技术一般用来结合机器学习和图计算做数据挖掘和预测。想问问有没有将Spark、Hadoop等计算框架用到传统OLTP系统当中,提高运算速度的。OLTP系统中计算的特点:1. 计算逻辑非常复杂。涉及很多关联、筛选、聚合、分组等。2. 参与单次计算的数据量不会太大。几百M到几G。目前用Spark开发了几个功能做测试,发现效果并不理想。对这块比较迷茫。
查看全文分布式内存文件系统Tachyon为什么要改名为Alluxio?
分布式内存文件系统tachyon(Tachyon Home)已于前日更名为Alluxio(Alluxio Project Website),请问为什么会改名呢?貌似在软件界这样的先例也不算太多。
查看全文spark和deeplearning的关系,想做大数据处理分析,是该专注于学spark还是深度学习呢?
我刚读研一,自己对大数据的处理分析比较感兴趣,导师让我看深度学习方面的论文和deeplearning4j方面的算法源代码,但是自己不知道如何把spark和深度学习结合起来,以后还是想出来工作的不做研究,我该怎么做呢,对了,学习spark需要hadoop基础,我现在没有这方面基础,只有java基础。
查看全文为什么spark支持多种语言编程,而mapreduce只支持java?
为什么spark支持多种语言编程,而mapreduce只支持java?spark对python、scala、java的支持都很好,而mapreduce只支持java,mapreduce用streaming和pipe也可以支持多种语言,但是相比java有很多限制。这是为什么呢?spark可以对多语言支持的这么好,后边的原理是什么?微软都提供了C#的支持(Microsoft/SparkCLR · GitHub)
查看全文