帐户注册

登录

找回密码

忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。

spark自己实现并行化logistic回归?

怎么使用spark实现并行化的logistic回归,并行化体现在哪里?如果用mapreduce的话需要自己写map和reduce,但是spark怎么弄呢?spark的map和reduce和一般的map、reduce有什么关系吗?怎么理解?

查看全文

有哪些好的spark的学习资料?

最近在学习用spark做数据处理(之前一直用的是hadoop实在太难用),但是实在是没有找到十分满意的学习资料。看了几章《fast data processing with spark》,可能是代码更新速度太快,书里面的代码到现在很多都不能用了,而且解释也太过简陋让人看得云里雾里,想问大牛们通过哪些渠道可以迅速系统地学习spark呢?

查看全文

如何评价海绵大数据的Sponge系统?

号称 “不仅在性能上全面超越了美国Hadoop平台主导的第一代大数据操作系统,更是填补了我国大数据产业缺乏操作系统的空白,成为全球首个第二代大数据操作系统,这也意味着中国将从数据大国走向数据强国”,请相关专业人士分析一下。- 第二代大数据操作系统在中国首发上市– 海绵数据推出第二代大数据操作系统– 海绵大数据 Sponge

查看全文

spark streaming 适合处理规模不大的流式数据吗?

我有个疑惑,spark网上说法是用于大数据量处理(可以很轻易的做水平拓展),我感觉用 spark 的框架开发其实也有一定的范式上的简易性。 那么如果说业务开始数据量不是很大的流式任务(或者其他业务)用 spark 合适吗?(有没有杀鸡用牛刀这种问题,造成资源浪费?)

查看全文