怎么使用spark实现并行化的logistic回归,并行化体现在哪里?如果用mapreduce的话需要自己写map和reduce,但是spark怎么弄呢?spark的map和reduce和一般的map、reduce有什么关系吗?怎么理解?
查看全文有哪些好的spark的学习资料?
最近在学习用spark做数据处理(之前一直用的是hadoop实在太难用),但是实在是没有找到十分满意的学习资料。看了几章《fast data processing with spark》,可能是代码更新速度太快,书里面的代码到现在很多都不能用了,而且解释也太过简陋让人看得云里雾里,想问大牛们通过哪些渠道可以迅速系统地学习spark呢?
查看全文如何在windows安装部署spark 求大神们的告知…?
准备初次接触这个,该怎么学习spark,求建议准备完成 基于spark的分类算法的设计与研究 这个毕设 之前不了解数据挖掘 不了解spark 难度高么 求大神们的指点
查看全文如何评价海绵大数据的Sponge系统?
号称 “不仅在性能上全面超越了美国Hadoop平台主导的第一代大数据操作系统,更是填补了我国大数据产业缺乏操作系统的空白,成为全球首个第二代大数据操作系统,这也意味着中国将从数据大国走向数据强国”,请相关专业人士分析一下。- 第二代大数据操作系统在中国首发上市– 海绵数据推出第二代大数据操作系统– 海绵大数据 Sponge
查看全文未来想成为一名大数据架构师,可是不知如何在hadoop spark Storm中纠结?
因为本人刚刚大学,而且是在自学大数据,就业方面也是在几年后,可是初学总是不知道如何学习,很多人说学习hadoop还有的说spark都学什么的,我也不太能理解大数据架构这个概念,因为还年轻希望能接触有挑战性的技术。
查看全文如何将hdfs里某一目录下的所有文件的文件名读取出来?
已知在hdfs某目录下(如hdfs://tmp/englishnovels)有上百部英文小说(txt后缀),想把小说的名字都读取出来,实现遍历。请赐教!
查看全文spark streaming 适合处理规模不大的流式数据吗?
我有个疑惑,spark网上说法是用于大数据量处理(可以很轻易的做水平拓展),我感觉用 spark 的框架开发其实也有一定的范式上的简易性。 那么如果说业务开始数据量不是很大的流式任务(或者其他业务)用 spark 合适吗?(有没有杀鸡用牛刀这种问题,造成资源浪费?)
查看全文