帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

大数据平台开发人员的核心竞争力是什么?

做大数据平台开发一般对算法要求不高,但是这些大的框架,每一个都像大的黑盒子,如:spark、hadoop、hive、kafka。我最近在研究kafka,但是仅仅是在会用,会选型的阶段。我觉得只要英语ok,完全没什么门槛。想问的问题是:如果想在这个方向上走得更远,应该怎么做,我觉得把源码都撸一遍好像非常不现实,刚入行半年,我scala也不熟悉,有点迷茫,想问问3-5年的从业人员你们怎么做的?

查看全文

关于大数据、云计算的研究生毕业设计,需要做哪些准备?

我的研究生导师建议我选择如下课题,在下学期开始前前我想多读点资料做一些准备,请大家多给我些建议ლ(•̀ _ •́ლ) 我本科的时候网站、APP这种做的比较多,偏底层的就比较没有接触/(ㄒoㄒ)/~ 然后相关的云计算课程下学期才会上,所以想先多了解一些做些coding,小笨鸟想先飞(~˘▾˘)~ 知乎首问,拜托拜托( ˘ ³˘)♥

查看全文

为何Hadoop开源版本的性能,还可以在提高10到100倍?

看到星环科技的简介,他们可以将开源版本的Hadoop的性能提升10到100倍!好厉害! 那么:1.为什么开源版本的Hadoop不做到最好,而是留有如此之大的性能提升余地? 2.什么方法什么手段可以提升Hadoop的性能? 3.提升性能用到的是书本上的知识吗?还是工程师自创的提升方法?又或者是顶尖论文里面的方法? 谢谢!

查看全文

同样是跑随机森林,为什么用单机的R跑和在服务器上用Spark的MLlib结果差好多?

原数据只是抽出来的一个3万来条的样本,大约60%为0,40%为1。单机用的是R下的randomForest包,准确率能有85%,这个结果还是蛮可靠的。但是同样的数据,放到服务器上用Spark的MLlib跑,准确率只有60%左右,混淆矩阵也看不出问题。分类型变量也用categoricalFeaturesInfo命令注明了,这是怎么回事呢?

查看全文

最近在配置spark on mesos,在spark和mesos分别配置完成后进行连接时出错?

系统为ubuntu14.04,64位。mesos配置的是单master节点模式,ssh无密码登录已实现。spark方面使用hdfs将spark的tgz包上传,并将相关项配置完成,单机测试通过,但再进行集群测试时报错,内容如下:Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory。

查看全文