阿里天池竞赛S1怎么解决运算问题? 举报 理由 举报 取消 目前时间是2016年3月12日,阿里天池新出了流行音乐预测比赛。 做过天池的都知道S1是需要本地运算提交结果,S2是在ODPS平台上跑的。本人之前在Kaggle和DC上水过一些数据量小的比赛,天池其实是第一次接触。比较让我头疼的是400M的数据,500多万条的记录我的电脑的计算能力肯定是吃不消的。有些伸手党吧,主要也是想看看有没有和我境遇相同的兄弟。 大家是选择花钱租云平台的集群还是都是有实验室的集群呢?当然有别的方法就更好啊,求教知乎的大大们,第一次提问痕迹很关键! 2017年5月16日 3 条回复 1162 次浏览 学习,数据,机器,阿里巴巴,集团
回复 ( 3 )
400M就要集群? 不需要吧,用集群可能更慢
只有400M的数据是可以直接读到内存,用pandas处理的。如果是几十G的数据,是可以先按id将数据集切分,逐行扫描数据集,统计完各种count之后,再合并到一起。用不上集群的。kaggle上2015微软的流氓软件分类比赛,数据集我记得是有二三百G吧,winner solution的第一名就是单机处理的。
这个问题我也想问,天池这种大数据量,是用python就够用了吗,还是用spark/hadoop,用哪一种比较合适呢?