spark中的mapper和reducer个数是否可以配置？

理由

举报取消

如图，这是网上一张讲解shuffle的经典图，不过我感觉这个图有点问题。spark中的task分为两类，一类是shuffleMapTask，另一类是resultTask。shuffle的过程应该是在shuffleMapTask之间，或者shuffleMapTask和resultTask之间。也就是说，图中的map task应该对应的是以shuffle write为结尾的某个task过程，reduce task对应的是以shuffle read为开头的task过程。（不知道理解是否正确）针对spark，我有一下几个问题，还请大牛帮答疑： 1）我记得hadoop mapreduce中的map和reduce个数是可以设定的。在spark中，一个RDD中的分片partition对应一个task，那么我是否可以认为配置文件中的Parallesim参数（设定了partition）就设定了task的个数，也就是上图中reduce和map task的个数？（查资料我得到，当RDD从textfile中读取后，初始的partiton个数由block个数决定）2）针对上面一个问题，sort based shuffle情况下，bypassMergeThreshold这个阈值和配置参数parallesim是什么关系？3）一个job的stage列表中，最后一个stage称为finalStage？它和普通的stage有什么区别？4）实验环境：3台内网服务器，上面部署了hadoop和spark，其中n1作为namenode和master。要进行pagerank测试，实验数据存放在hdfs上（按理应该是分布在各两个datanode n2和n3上）。这是当运行pagerank时，spark worker需要从hdfs上读取数据，那么问题来了——-n2和n3都会优先读取自己hdfs上的数据吗（物理优先）？

2018年2月9日 4 条回复 1383 次浏览

Hadoop,Spark,学习,数据,机器,计算

回复 ( 4 )

狗叔

举报回复