我在RDD的论文中看到他们的定义是这样的”narrow dependencies, where eachpartition of the parent RDD is used by at most one partitionof the child RDD, wide dependencies, where multiplechild partitions may depend on it”我的理解是narrow就是独生子女,一个父亲只有一个孩子;wide是一个父亲多个孩子。但是我感觉这个定义与论文中区分这两种dependency的作用是矛盾的:“First, narrowdependencies allow for pipelin […]
查看全文在深度学习中,spark 是否能够作为一个耀眼的明星呢?
在2015年目前的环境下,spark是大数据领域中一颗非常耀眼的明星,但在深度学习方面,却较少关于它的信息,查看资料大部分介绍与其他组件合用,比如:deeplearning4j,caffe等;关于spark本身的dl,在spark1.6的roadmap也有了相应的规划,可参考:[SPARK-10324] MLlib 1.6 Roadmap。
查看全文spark中的mapper和reducer个数是否可以配置?
如图,这是网上一张讲解shuffle的经典图,不过我感觉这个图有点问题。spark中的task分为两类,一类是shuffleMapTask,另一类是resultTask。shuffle的过程应该是在shuffleMapTask之间,或者shuffleMapTask和resultTask之间。也就是说,图中的map task应该对应的是以shuffle write为结尾的某个task过程,reduce task对应的是以shuffle read为开头的task过程。(不知道理解是否正确) 针对spark,我有一下几个问题,还请大牛帮答疑: 1)我记得hadoop mapreduce中的map和reduce个数是可以设定的。在spark […]
查看全文Spark程序中如何判断当前处在Driver还是Executor?
用的是spark on yarn模式,想实现类似下面的代码:if (isDriver) { // 请问如何判断 doSomething()} else { doSomethingElse()}
查看全文一般的互联网企业,Python和Java结合起来处理大数据、机器学习的流程?
如果在公司里,这属于两个工种:算法工程师、Hadoop工程师。那么请描述这两个工作岗位的员工是怎么合作的?工作流程是怎样的?
查看全文怎么实现spark中不同的分组对应不同处理函数?
现在在处理机器监控的数据,包括内存、网络、CPU等数据,是一个实时流数据,使用spark streaming作为处理平台。在实际的使用中,需要根据监控的内容分组做时间序列,然后根据不同的监控内容需要使用不同的分析函数,这时就出现了一个问题,处理内存、网络和CPU的判断标准完全不一样,请问应该如何解决?
查看全文没有集群环境,怎么学好大数据处理框架(Hadoop,Spark)的相关知识?
没有集群环境,怎么学好大数据处理框架(Hadoop,Spark)的相关知识?在已经有Java,scala等丰富经验的前提下。
查看全文