Spark - 12Reads管理问答

Spark中的narrow/wide dependency如何理解，有什么作用?

张楠 2018-02-15 1705 次浏览

我在RDD的论文中看到他们的定义是这样的”narrow dependencies, where eachpartition of the parent RDD is used by at most one partitionof the child RDD, wide dependencies, where multiplechild partitions may depend on it”我的理解是narrow就是独生子女，一个父亲只有一个孩子；wide是一个父亲多个孩子。但是我感觉这个定义与论文中区分这两种dependency的作用是矛盾的：“First, narrowdependencies allow for pipelin […]

查看全文

在深度学习中，spark 是否能够作为一个耀眼的明星呢？

Robot 2018-02-10 1367 次浏览

在2015年目前的环境下，spark是大数据领域中一颗非常耀眼的明星，但在深度学习方面，却较少关于它的信息，查看资料大部分介绍与其他组件合用，比如：deeplearning4j，caffe等；关于spark本身的dl，在spark1.6的roadmap也有了相应的规划，可参考：[SPARK-10324] MLlib 1.6 Roadmap。

查看全文

spark中的mapper和reducer个数是否可以配置？

suliey 2018-02-09 1351 次浏览

如图，这是网上一张讲解shuffle的经典图，不过我感觉这个图有点问题。spark中的task分为两类，一类是shuffleMapTask，另一类是resultTask。shuffle的过程应该是在shuffleMapTask之间，或者shuffleMapTask和resultTask之间。也就是说，图中的map task应该对应的是以shuffle write为结尾的某个task过程，reduce task对应的是以shuffle read为开头的task过程。（不知道理解是否正确）针对spark，我有一下几个问题，还请大牛帮答疑： 1）我记得hadoop mapreduce中的map和reduce个数是可以设定的。在spark […]

查看全文

如何将一个tar.gz包转换成rdd，怎么读取里面的文件呢？

刘奇峰 2018-02-08 654 次浏览

spark，大数据分析，压缩包，RDD

查看全文

Spark程序中如何判断当前处在Driver还是Executor?

马彬 2018-01-13 1100 次浏览

用的是spark on yarn模式，想实现类似下面的代码:if (isDriver) { // 请问如何判断 doSomething()} else { doSomethingElse()}

查看全文

Spark程序如何只输出最后结果，隐藏中间的输出？？？

红尘一梦 2018-01-13 938 次浏览

Spark程序运行，输出内容过多，如何只要最后结果？？？

查看全文

为什么很多在知名公司做 IT的都不知道什么是Hadoop 或 Spark?

Robot 2018-01-12 1240 次浏览

查看全文

一般的互联网企业，Python和Java结合起来处理大数据、机器学习的流程？

bravez 2018-01-08 1673 次浏览

如果在公司里，这属于两个工种：算法工程师、Hadoop工程师。那么请描述这两个工作岗位的员工是怎么合作的？工作流程是怎样的？

查看全文

怎么实现spark中不同的分组对应不同处理函数？

Nemo 2017-12-29 1026 次浏览

现在在处理机器监控的数据，包括内存、网络、CPU等数据，是一个实时流数据，使用spark streaming作为处理平台。在实际的使用中，需要根据监控的内容分组做时间序列，然后根据不同的监控内容需要使用不同的分析函数，这时就出现了一个问题，处理内存、网络和CPU的判断标准完全不一样，请问应该如何解决？

查看全文

没有集群环境，怎么学好大数据处理框架（Hadoop，Spark）的相关知识？

架构师 2017-12-23 1462 次浏览

没有集群环境，怎么学好大数据处理框架（Hadoop，Spark）的相关知识？在已经有Java，scala等丰富经验的前提下。

查看全文

1 … 6

帐户注册

登录

找回密码