阿里天池竞赛S1怎么解决运算问题?

理由
举报 取消

目前时间是2016年3月12日,阿里天池新出了流行音乐预测比赛。 做过天池的都知道S1是需要本地运算提交结果,S2是在ODPS平台上跑的。本人之前在Kaggle和DC上水过一些数据量小的比赛,天池其实是第一次接触。比较让我头疼的是400M的数据,500多万条的记录我的电脑的计算能力肯定是吃不消的。有些伸手党吧,主要也是想看看有没有和我境遇相同的兄弟。 大家是选择花钱租云平台的集群还是都是有实验室的集群呢?当然有别的方法就更好啊,求教知乎的大大们,第一次提问痕迹很关键!

2017年5月16日 3 条回复 1162 次浏览

发起人:夜樱 初入职场

回复 ( 3 )

  1. 桂能
    理由
    举报 取消

    400M就要集群? 不需要吧,用集群可能更慢

  2. hengchao0248
    理由
    举报 取消

    只有400M的数据是可以直接读到内存,用pandas处理的。如果是几十G的数据,是可以先按id将数据集切分,逐行扫描数据集,统计完各种count之后,再合并到一起。用不上集群的。kaggle上2015微软的流氓软件分类比赛,数据集我记得是有二三百G吧,winner solution的第一名就是单机处理的。

  3. Symon
    理由
    举报 取消

    这个问题我也想问,天池这种大数据量,是用python就够用了吗,还是用spark/hadoop,用哪一种比较合适呢?

我来回答

Captcha 点击图片更换验证码