帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

为什么在中国搞不出 Spark 和 Hadoop 这种东西?

先问是不是,再问为什么,不要耍流氓!国内hadoop类似产品不止一个吧,估计还胜过现在的hadoop,现在hadoop可不是啥核心科技———————————-我是一名CS学生,我想听听对题目问题的看法。 我很好奇是哪些本质的东西决定了在美国搞出了这些东西,在中国就没有出现。我能想到的原因就是:我觉得国内的互联网环境更关心怎么赚钱怎么快速迭代产品,而对于技术创新投入不够。

查看全文

谁有spark项目分享嘛?

谁能分享下spark的项目么 ?spark环境搭建要点?还有spark搭建好以后,再写代码时,是不是把集群看作一个整体,具体内部怎么调度的不需要我们考虑了?

查看全文

中国的大数据能力是否已经超过美国?

就像临床医学一样,因为看过的病人多,所以水平高。 「我曾经一天看的病人比你一周看的病人还多。」——《北京遇上西雅图》 大数据方面的材料: 然后谈谈大数据问题,湾区那边不少startup动则spark, storm, horizontal sharding…然后一了解,你妹的十几万注册用户是常态,几十万注册(还不说day)就相当不错,上百万用户那就a轮明星。。。所以你可以看到这些big data/realtime处理都是用于log analysis,log嘛,搞出一天上T数据也是可能的,你真要拿来处理user data,那就是一个前同事说的:perfect for hello world….在湾区那帮人一天真实 […]

查看全文

为什么spark的shuffle要求RDD的数据类型是键值对?

比如distinct()操作,为了shuffle还得先利用map将`<K>`变为`<K, null>`。这样设计是出于什么考虑……?抱歉没有描述清楚。我的意思是两种方式都提供,也就是对于非pair RDD来说直接对各条数据进行shuffle。因为我觉得比起把`<K>`转为`<K, null>`再进行shuffle,直接提供一个对于`<K>`的shuffle接口显得更“干净”一点…

查看全文

什么是Hive on Spark?

1.在Hive里设置hive.execution.engine=spark,然后在Hive CLI里执行查询Hive中的表。2.在Spark程序中通过hiveContext.sql()查询Hive中的表。这两种都是Hive on Spark吗?还是说有什么区别?

查看全文