阿里天池竞赛S1怎么解决运算问题？

理由

举报取消

目前时间是2016年3月12日，阿里天池新出了流行音乐预测比赛。做过天池的都知道S1是需要本地运算提交结果，S2是在ODPS平台上跑的。本人之前在Kaggle和DC上水过一些数据量小的比赛，天池其实是第一次接触。比较让我头疼的是400M的数据，500多万条的记录我的电脑的计算能力肯定是吃不消的。有些伸手党吧，主要也是想看看有没有和我境遇相同的兄弟。大家是选择花钱租云平台的集群还是都是有实验室的集群呢？当然有别的方法就更好啊，求教知乎的大大们，第一次提问痕迹很关键！

2017年5月16日 3 条回复 1224 次浏览

学习,数据,机器,阿里巴巴,集团

回复 ( 3 )

桂能管理专家
0
举报回复
理由

举报取消

400M就要集群？不需要吧，用集群可能更慢
hengchao0248 初入职场
0
举报回复
理由

举报取消

只有400M的数据是可以直接读到内存，用pandas处理的。如果是几十G的数据，是可以先按id将数据集切分，逐行扫描数据集，统计完各种count之后，再合并到一起。用不上集群的。kaggle上2015微软的流氓软件分类比赛，数据集我记得是有二三百G吧，winner solution的第一名就是单机处理的。
Symon 初入职场
0
举报回复
理由

举报取消

这个问题我也想问，天池这种大数据量，是用python就够用了吗，还是用spark/hadoop，用哪一种比较合适呢？

找回密码

阿里天池竞赛S1怎么解决运算问题？

发起人：夜樱 初入职场

回复 ( 3 )

我来回答

帐户注册

登录

找回密码

阿里天池竞赛S1怎么解决运算问题？

发起人：夜樱 初入职场

回复 ( 3 )

我来回答

发起人：夜樱初入职场