Spark - 12Reads管理问答

Hadoop3.0的趋势是什么？

AllOnYarn 2017-09-24 1065 次浏览

是否会把hdfs完全分离出来？有什么架构方面的调整？有什么值得期待的新功能？

查看全文

大数据平台开发人员的核心竞争力是什么？

Robot 2017-09-19 1262 次浏览

做大数据平台开发一般对算法要求不高，但是这些大的框架，每一个都像大的黑盒子，如：spark、hadoop、hive、kafka。我最近在研究kafka，但是仅仅是在会用，会选型的阶段。我觉得只要英语ok，完全没什么门槛。想问的问题是：如果想在这个方向上走得更远，应该怎么做，我觉得把源码都撸一遍好像非常不现实，刚入行半年，我scala也不熟悉，有点迷茫，想问问3-5年的从业人员你们怎么做的？

查看全文

关于大数据、云计算的研究生毕业设计，需要做哪些准备？

Vannahz 2017-08-30 1185 次浏览

我的研究生导师建议我选择如下课题，在下学期开始前前我想多读点资料做一些准备，请大家多给我些建议ლ(•̀ _ •́ლ) 我本科的时候网站、APP这种做的比较多，偏底层的就比较没有接触/(ㄒoㄒ)/~ 然后相关的云计算课程下学期才会上，所以想先多了解一些做些coding，小笨鸟想先飞(~˘▾˘)~ 知乎首问，拜托拜托( ˘ ³˘)♥

查看全文

如何评价王家林其人？

Robot 2017-08-17 1642 次浏览

王家林同学，号称是Spark亚太研究院院长，他的实际能力究竟是怎么样的呢？

查看全文

为何Hadoop开源版本的性能，还可以在提高10到100倍？

李小燚 2017-08-06 1510 次浏览

看到星环科技的简介，他们可以将开源版本的Hadoop的性能提升10到100倍！好厉害！那么：1.为什么开源版本的Hadoop不做到最好，而是留有如此之大的性能提升余地？ 2.什么方法什么手段可以提升Hadoop的性能？ 3.提升性能用到的是书本上的知识吗？还是工程师自创的提升方法？又或者是顶尖论文里面的方法？谢谢！

查看全文

同样是跑随机森林，为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多？

老胡 2017-08-05 1014 次浏览

原数据只是抽出来的一个3万来条的样本，大约60%为0，40%为1。单机用的是R下的randomForest包，准确率能有85%，这个结果还是蛮可靠的。但是同样的数据，放到服务器上用Spark的MLlib跑，准确率只有60%左右，混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了，这是怎么回事呢？

查看全文

最近在配置spark on mesos，在spark和mesos分别配置完成后进行连接时出错？

ruralboy 2017-08-02 1197 次浏览

系统为ubuntu14.04,64位。mesos配置的是单master节点模式，ssh无密码登录已实现。spark方面使用hdfs将spark的tgz包上传，并将相关项配置完成，单机测试通过，但再进行集群测试时报错，内容如下：Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory。

查看全文

spark是否可以像处理txt文件一样处理xml文件？

元白白 2017-08-02 1457 次浏览

查看全文

完全不懂编程，是否可以成为spark专家？

张先生 2017-07-30 1088 次浏览

如题，如果完全不懂编程，从零开始学习spark的话，是否在可以不学编程语言的情况下成为spark专家？本人对云和大数据基本是外行。

查看全文

Spark平台下，scala比java更有优势么？

xaod 2017-07-24 982 次浏览

之前为了用spark学过scala，但后来还是用java实现的。scala有哪些优势？除了在spark平台之外还有哪些地方能用到？这货会取代java么？

查看全文

1 … 3 4 5 6

帐户注册

登录

找回密码