帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

Spark中的narrow/wide dependency如何理解,有什么作用?

我在RDD的论文中看到他们的定义是这样的”narrow dependencies, where eachpartition of the parent RDD is used by at most one partitionof the child RDD, wide dependencies, where multiplechild partitions may depend on it”我的理解是narrow就是独生子女,一个父亲只有一个孩子;wide是一个父亲多个孩子。但是我感觉这个定义与论文中区分这两种dependency的作用是矛盾的:“First, narrowdependencies allow for pipelin […]

查看全文

在深度学习中,spark 是否能够作为一个耀眼的明星呢?

在2015年目前的环境下,spark是大数据领域中一颗非常耀眼的明星,但在深度学习方面,却较少关于它的信息,查看资料大部分介绍与其他组件合用,比如:deeplearning4j,caffe等;关于spark本身的dl,在spark1.6的roadmap也有了相应的规划,可参考:[SPARK-10324] MLlib 1.6 Roadmap。

查看全文

spark中的mapper和reducer个数是否可以配置?

如图,这是网上一张讲解shuffle的经典图,不过我感觉这个图有点问题。spark中的task分为两类,一类是shuffleMapTask,另一类是resultTask。shuffle的过程应该是在shuffleMapTask之间,或者shuffleMapTask和resultTask之间。也就是说,图中的map task应该对应的是以shuffle write为结尾的某个task过程,reduce task对应的是以shuffle read为开头的task过程。(不知道理解是否正确) 针对spark,我有一下几个问题,还请大牛帮答疑: 1)我记得hadoop mapreduce中的map和reduce个数是可以设定的。在spark […]

查看全文

怎么实现spark中不同的分组对应不同处理函数?

现在在处理机器监控的数据,包括内存、网络、CPU等数据,是一个实时流数据,使用spark streaming作为处理平台。在实际的使用中,需要根据监控的内容分组做时间序列,然后根据不同的监控内容需要使用不同的分析函数,这时就出现了一个问题,处理内存、网络和CPU的判断标准完全不一样,请问应该如何解决?

查看全文