天池大数据竞赛和Kaggle、DataCastle的比较,哪个比较好?

理由
举报 取消

我是一个新人,想关注一下大数据比赛的相关信息,之前听说过几个比较有影响的比赛,想请大神们帮忙分析分析。

2017年5月11日 10 条回复 3114 次浏览

发起人:Robot 管理大师

回复 ( 10 )

  1. TEVC
    理由
    举报 取消

    您好,我是一名混迹天池,Kaggle和DataCastle的大数据业余爱好者(天池ID:快乐人生; 俗称:老王)。

    对于这个问题,总体来讲,三个平台都有各自的特色吧。具体地,

    1,从赛题本身来讲。

    整体来讲,天池至今为止,上线的赛题提供丰富的业务场景,也就是,给你一些基础数据表且告诉你具体含义。而Kaggle和DataCastle上线的赛题不少直接给你一些匿名特征的样本。这导致,天池的赛题还需要你构建特征工程,然后才是其他后续工作。从数据量来讲,天池分离线赛数据和平台赛数据。就目前来看,天池的离线赛数据较Kaggle量小,也就是对参赛者的PC配置要求低一些,也有利于对数据的分析和理解。而天池平台赛的数据量就比较大了,一般情况下,比Kaggle和DataCastle的数据量会大一些。数据量大,某种意义上,也代表了比赛的公平性,可靠性。参加过比赛的人,尤其是天池比赛的人,都有一个体会,同一个算法的性能会受数据量的影响。

    因此,对一些买不起(或不想买)高配置PC的选手来讲,天池这种方式相对来讲更适合。Kaggle数据量足够,但你PC可能玩不起来(虽然它也提供计算平台,但是你的代码需要PUBLIC。)。DataCastle数据量较小,公平性不能很好确保。

    2,从赛制角度讲。

    对每道赛题,天池分两个赛季,而Kaggle和DataCastle一般仅一个赛季(虽然3者都有数据更新一个环节)。就如第一条中说的,天池分两个赛季,目的是不同的,一赛季注重参赛者硬件上的公平性,二赛季注重赛题本身可靠性。另外,它们的线上评测方式不同,天池是每天定时统一评测一次,而另外两个是每天即时评测(限定每日最多评测次数)。各有利弊吧。定时评测,不一定符合一些人的作息,但能减小部分人的好处(一人多个账号)。即时评测方式,增加了人性化,但难免一人多号带来的不公平性。(PS:建议天池融合两者利弊,创新另一种评测方式,比如:二赛季时,每天即时评测一次。)

    3,从激励角度讲。

    平均来看,奖金数量,Kaggle(按汇率换算为人民币)最多,其次天池,然后DataCastle(和其他两个相差有点多)。 另外,天池的大部分赛题,每周有周星星激励(发礼品),比赛结束根据排名(有时也会搞一些活动)发放粮票(兑换礼品)。这一点目前Kaggle没有。DataCastle目前来看,至少还没有粮票激励。 另外,天池和Kaggle都有数据科学家的排行榜,而DataCastle目前还没有。这个排行榜根据参赛者的总积分来的(与参赛场数和每场的成绩(有时和队员数)有关),大体评价一个选手的整体实力吧。对未来发展,如工作方面,自然会有一些好处。

    4,从参赛群体角度讲。

    参赛群体,天池和DataCastle现在主要来自中国,而Kaggle很大部分是欧美等国家的选手。 整体上看,Kaggle选手的素质相对较高。自然地,目前来看,Kaggle冠军的含金量也相对较高。这可能和知名度和数据开放程度有关系吧(听说,国外选手比较喜欢数据开放)。当然,对新手或实力还未达到全球一流水平的参赛者,Kaggle就不一定那么好玩了。当然,从锻炼角度想,无论哪个平台上的赛题,都能得到一定程度的锻炼。就天池和DataCastle对比看,知名度,从玩家数量看,天池要高一些。冠军的含金量,天池也相对较高一些。

    5,从计算资源角度讲。

    严格来讲,这三个平台,天池是唯一算得上提供了计算平台的。体验过的人,我想都觉得速度杠杠的,尤其限制了每个队伍的计算资源后。没体验过的,有机会,去体验一把就知道了。当然,这个平台主要特色是:数据开发和算法开发。对数据开发,可以直接在平台上用HIVE SQL实现数据表操作代码,另外,如果有更丰富的逻辑需要实现还支持 UDF(User Defined Function)、MR(MapReduce)和Graph形式的线下实现,提交平台运行。从个人体验看,刚开始我比较讨厌平台赛,因为不会编写这些代码,也不会用。但是现在,会了之后,你又会有另外一番体验(这种体验类似于,你一直用MATLAB就喜欢它而不喜欢别的,一直用R,Python等等。)其实,换个角度思考,至少你特别想入职阿里巴巴,用习惯了这个平台,在面试时会给你加分吧。PS:个人感觉天池平台不难学习,尤其越来越多的手把手教程,关键是速度快。

    PS:今年天池平台还推出了独特的新人赛(这是其他两个平台还没有的)。这个新人赛以经典赛题作为学习场景,提供详尽入门教程,手把手教你学习数据挖掘。天池希望新人赛能成为高校备受热捧的数据实战课程,帮助更多学生掌握数据技能。新人赛链接:Tianchi Big Data Competition-Competitions Focus on Data Algorithms(新手不妨考虑从这里开始数据之旅)。

    祝好,HAVE FUN!!!

  2. 江少华
    理由
    举报 取消

    1、datacastle和kaggle的比赛自由发挥空间很大,踏实做的话可以学到小规模机器学习的方方面面,但做多了基本就是xgboost调参、模型融合;天池的数据量接近真实的业务场景,环境也接近大公司的业务环境,能够积攒分布式项目经验,但在限定的比赛时间内发挥空间不大,基本是xlib里gbdt调参大赛。

    2、kaggle赛后的分享做的比较好,能看到很多人的思路和代码,大大扩大视野和思路,对于赛后的总结很有帮助。天池的分享主要集中在Top选手现场答辩的presentation,而那些很有创新、但成绩不太好的思路则没有机会被分享,这样大大减少了多样性,对于出题方和参赛者都不是喜闻乐见的。data castle几乎没什么分享。

    3、datastle 3个比赛的奖金才有天池1个比赛的多。

    4、天池和datacastle都有现场答辩,但天池的评委多是业界大牛或者真是业务业务负责人,datacastle的评委多是电子科大的老师,对于比赛的评判视角有诸多不同。

    5、国内还有个kesci平台,也举办数据相关的比赛,算法部分和datacastle神似,但有数据产品开发大赛。据说天池也有可视化大赛和中间件开发大赛,这2类比赛似乎是datacastle和kaggle所没有的。天池的比赛多样性更强些。

  3. 马健
    理由
    举报 取消

    参加过几次kaggle和第一届天池比赛

    从赛题角度看:

    kaggle是老牌的全球性质的数据挖掘竞赛平台,赛题包含各个领域,灵活多样,datacastle主要是结合国内一些公司业务相关的竞赛,天池主要是阿里巴巴以及与阿里有合作的相关机构的一些具体的业务问题;

    从数据量的角度看:

    数据量的大小:天池比datacastle和kaggle通常大很多。如果参加天池的比赛,通常是在阿里的odps数据平台上handle,那么对参赛者掌握分布式处理的能力有好处。datacastle和kaggle的一些比赛数据量不大适合单机玩,有的数据量也不小,这也需要不错的计算平台;

    从参赛者算法发挥的自由度看

    kaggle和datacastle参赛者可以尝试更多的想法和算法设计细节,但现在比赛越来越多,高手的套路也渐渐固化。天池竞赛则一般都是使用现有的几个在阿里分布式计算平台上实现好算法;

    从比赛的赛后分享角度看

    kaggle>天池>datacastle

    kaggle赛后分享很多,思路代码俱全,还有不少创新性的思路,这对初学者来说是很有用的,可以见识到解决一个问题的具体思路和源代码。天池的分享主要是top选手,创新者如果没能取得比较好的名次,往往没有多少机会被分享

    从比赛对找工作的作用看

    对于国内公司来说,天池>kaggle>datacastle吧,天池的数据价值更高且数据量大,而且每次比赛参加人比较多,得到好名次往往难一些,比较受到面试官的认可,kaggle和datacastle有的比赛参加的人还可以,有的比较少,竞争没有天池激烈。

  4. wepon
    理由
    举报 取消

    怎麼一下子來了這麼多大神……赶紧关注。

    从(取得好成绩的)难度上來說,kaggle最大,天池次之,再就是DC.

  5. Eureka
    理由
    举报 取消

    目前国内的三个平台,天池,dc和kesci中,天池相对做的好一些,感觉现在kesci的活跃度要比dc更高,毕竟kesci是一个创业项目,dc是从高校孵化出的项目,前者的生命力会更顽强一些。天池的第二阶段提供计算资源,对于很多没有计算资源的同学是好事情,但是也限制了一部分不愿意花时间去熟悉平台的人。后来天池好像也发现了这个问题,也为第一阶段的比赛提供了奖金激励。另外,国内比赛的一个共同特点是测试数据不划分public和private,而是采用换数据的方式来解决过拟合问题,这样既耗费了大家更多的时间精力,同时也并没有降低过拟合的几率,反而可能更大。还有就是国内平台都需要答辩这个环节,这对于学生来说是一个不错的和企业接触交流的机会,估计赞助的企业也想利用这个机会招贤纳士,但是对于工作的人来说,未必都有时间去参加这个答辩。以上这三个平台,其实都是模仿的kaggle,但是用户体验包括游戏规则的设定都还都有些差距。至于选择在哪个平台上比赛,主要还是看目的。如果是为了学习或者兴趣,kaggle应该是首选;如果是学生为了就业的话,没有接触过大数据项目的,可以通过天池去学习一下;如果就是为了奖金,dc和kesci的竞争可能会相对小一点。

  6. Kevin Nieng
    理由
    举报 取消

    不是大神,写的也是个人看法。

    从规模和知名度来讲,Kaggle > 天池 > DataCastle。

    从赛题角度看,

    kaggle的赛题最丰富,各种类型的赛题都有,也举办过学术会议的竞赛(如kdd cup等)。

    天池的赛题大部分来自阿里巴巴各业务线,虽然也跟一些政府、企业有过合作。

    DataCastle基本上是参照的kaggle模式,也有一些比较有意思的赛题[没参加过],创办人周涛是天池第一次天猫推荐算法大赛的评委。

    从参赛人员限制看,

    kaggle和DataCastle一般不做限制,面向全社会开放。

    天池以前大部分面向学生群体,最近也逐渐向全社会开放。

    数据量方面,天池 > Kaggle > DataCastle。

    专业性方面,kaggle最好,历史也最悠久,从反作弊、评测标准、积分排名等方面都显得更专业。

    另外,天池有一个优势就是提供分布式计算平台,参加大数据量的赛题时,非常省心。

    作为一名数据工作者,非常高兴看到像天池、DataCastle这种类型的平台在国内的兴起,说明越来越多的公司开始意识到数据的价值,不同平台的竞争也会促使这类平台的不断完善。

    作为天池的粉丝,还是希望天池能够走出阿里巴巴,更加开放,更多的和政府、企业等合作,出更多更好的赛题。

  7. Siwei Lai
    理由
    举报 取消

    谢邀。参加过几次Kaggle的和第一届天池的比赛。

    比赛规则上,天池比赛最特别的地方就在他有一个专门的计算平台,数据在服务器上,所有选手都远程连到服务器上编写代码,相对来说可以算是最公平的比赛。与此同时,这种模式也限制了选手使用一些成熟的算法工具包,真要做好,比赛要花的时间也会多一些。另一方面,阿里限制了参赛选手必须为学生,少了职业选手,竞争稍微小了点(kaggle的主力其实也是学生群体)。

    比赛中和比赛后的讨论也有不少区别。天池主办方把大家拉到一个群里,即时聊天,气氛蛮活跃的,赛后也组织了排名靠前的选手到现场分享体验,介绍一下自己的方法。kaggle一般是通过bbs,或者参赛选手的博客,可以沉淀下来。所以最后的结果是,参加天池比赛的时候挺开心的,认识了不少人。参加kaggle之后可以看更多选手的分享,技术上的收获更大。

    比赛的附加价值看,这些比赛都可以提升自己对大数据的感觉,这与纯粹学习一些数据挖掘算法的体验是完全不一样的。另外,参加过天池比赛对于应聘阿里有一些优势。

    真要说哪个好,肯定是因人而异的。可以都去看看,选个自己喜欢的话题,如果有实力的话可以注意一下奖金。

  8. 小斯
    理由
    举报 取消

    来了好多老朋友,看看签名就都知道大家最后工作找的不错。

    各方面的对比大家都说的差不多了,我就说说个人觉得最重要的地方:找工作。

    就我所认识的参加14年天池比赛的小伙伴,基本上都是offer拿到手软,阿里星都出了2个 @江少华@张驭宇 ,其他special offer也不胜枚举。

    参加天池的比赛,相比其他2个平台来说有2个主要优点:

    一是可以接触分布式计算平台,对资源较少的同学而言,加快了运算速度,也提升了分布式计算平台的相关经验(使用或者编码方面的),对于将来的工作而言是很不错的一份经历;

    另一个方面就是阿里集团的一个背书,毕竟Kaggle虽然全球比较知名,但是在国内除了业内人士,可能知名度综合来说不一定比得上阿里,而且最要紧是top的队伍可以走校招绿色通道甚至阿里星面试。

  9. 赵仁杰
    理由
    举报 取消

    我也来凑凑热闹吧,题主问的是作为一个新手推荐那些平台。

    首先,三个平台我都有参加。总体上:建议的话,这三个平台都没有排他性。都可以参加,我就讲讲对于新手比较细节的东西吧。

    1、语言

    如果题主英语不是特别棒,我不推荐先从kaggle入手,虽然目前它的新手帮助文档是最丰富的。我觉得应该把有限的精力花在理解游戏规则上,而不是翻译上。那么dc和天池都是很好上手的。这两家我推荐先上datacastle,原因是dc的赛题数据量不大,而且较简单,最重要的是赛题一直开放,可以持续提交。不过很遗憾的是对正式比赛的分享不够,好像只有前几名的算法思路,不像kaggle和天池他们就有比较多的代码可以查看。

    2、交流

    社区:三个平台都有自己的社区,kaggle的内容质量最高,天池其次,datacastle的社区有点诡异,看得人很多,回复很少。题主都可以多逛逛,kaggle在这儿Forums | Kaggle,天池在这儿天池竞赛 – 开发者论坛,dc在这儿首页 – DataCastle社区

    即时通讯:kaggle几乎没有;天池官方的以旺旺为主(跟腾讯有竞争吧),qq群也有,但是都是以竞赛为单位的,竞赛结束后基本都结束了,有一个特点群里感觉全是他妹的大神,手动笑脸,推荐一个群:155167917;dc的官方qq群是一个统一的。人数大概有1200+吧,群很活跃,各种人在里面吹牛逼,对新手还是很友好,只要你不打水广告,就算在里面推广竞争对手也没关系,qq群:423732457。

    3、参加流程

    kaggle有个人参加的这种说法,天池和datacastle无论是几个人都算团队。一般来说就是报名,组队,下载数据,线下计算,提交得分,获取排名。需要说一下的是:很多新手会在提交的那个地方卡住,因为三家都是要求提交csv文件的,而且是UTF-8格式,注意是无bom的。windows系统推荐使用notepad++,切忌不要使用excel去编辑你的csv文件。如果提交实在有问题,我印象里dc有提供一种字符串提交的功能,就是把原本要提交的文件内容copy到输入框里提交,据官方讲可以规避文件编码所带来的错误。不过kaggle提供了在线运行程序的方式,我个人很喜欢,会有一点学习成本的。ps:提交算分的那个地方,kaggle和dc都是实时得分,天池为了防作弊,使用的是定时打分,但是感觉体验不好,等得人揪心。

    4、反馈

    一般参赛,会遇到各种问题,其中天池的反馈就像前面答主说的是最丰富的,kaggle支持邮件的反馈,dc可以邮件,社区反馈比较慢,不过很好的是,你只要在群里吼一声,就有官方的回复,这个很方便,我说一个老挭,“念妹子是我的”,有没有懂得起的。哈哈

    ps:说一下有中国特色的地方,在天池和dc上你没法和竞赛前几名直接联系,呵呵。

    最后:@吴朝恬,你是哪个竞赛没有去答辩的啊,我觉得好奇怪,我帮你在群里问问

  10. 用户头像
    理由
    举报 取消

    自从天池比赛刚刚出来,就一直伴随着这个话题,各种MachineLearning群,都会在不经意之间谈论天池和Kaggle。个人觉得这两个比赛区别在于如下:

    1、天池比赛的第二赛季,提供计算平台,可以解决选手们的计算资源不均衡问题。Kaggle上的一些大数据问题,只有土豪课题组的学生们能玩得起,而天池星一视同仁,还学生们平等竞争的机会。

    2、阿里巴巴为天池的独家主办单位,比赛奖励可以与阿里巴巴人才系统挂钩而Kaggle仅仅是一个比赛平台。Kaggle比赛很少由超过1000队参赛的,但是天池比赛动则大几千参赛队,参加Kaggle比赛的都知道不是前三的拿不了奖金,

    而参加阿里星比赛的,知道前50会减轻就业压力,这个是一个巨大的优势,有这个优势天池的参赛质量将一年大于一年。

    3、阿里巴巴本身具有大量的优质数据集,而Kaggle没有。

    4、Kaggle发布一条比赛很容易,注册一个账号,经过一些审核就可以,但是天池星比赛每一个都会经历内部大量流程和准备过程。即Kaggle上的比赛更多样化,而天池星的比赛更加精致。

    5、Kaggle比赛大量和国际会议,各领域研究单位结合,在学术意义上更受认可,而天池星比赛却难以脱掉商业比赛的出身。

    当然随着天池的一岁一岁长大,天池比赛会更成熟更多样也会慢慢具有学术价值。如果你为了就业国内互联网选择天池,如果你为了学术意义或者免费出国开个会啥的选择Kaggle或者各种conference cup,如果你相信中国会lead世界的DT时代,选择国内的比赛!

    加油天池!加油DT!加油China!

我来回答

Captcha 点击图片更换验证码