分享
相比统计背景者,为什么CS背景者似乎能建立起准确性更高的预测模型?
在读一篇统计方面的paper, 主要在探讨predictive model和explanatory model的区别。其中作者举了一个例子,2009年Netflix举办了奖金为一百万美金的一个竞赛,目的是优化给用户的作品推荐。作者指出,大部分参赛队伍都有CS背景,而非统计背景。作者并没有给出看法或者解释,但个人还是很好奇为何会有这个现象。paper出处:http://www.stat.berkeley.edu/~aldous/157/Papers/shmueli.pdfnetflix竞赛结果出处:Netflix Prize: Forum / Grand Prize awarded to team BellKor’s Pragmatic Chaos胜出队伍对使用的方法的阐述:http://www.netflixprize.com/assets/GrandPrize2009_BPC_BellKor.pdf
回复 ( 5 )
我觉得明显是因为比赛最终要求把算法写成程序吧……CS里懂统计的很多,统计里懂CS的并没有那么多……
而且你这个材料里面没有说到准确性的问题吧。
作为统计出身的人非常明显感到在工业场景中编程能力的弱势。在毕业论文里改进了一个分类预测算法,校外导师质疑应用效率,并建议学校培养统计工程师。
如最高票所说统计背景不容易兼顾应用场景里的计算效率。但不可否认统计方法在建模里的作用,较好的统计背景可以明晰优化方向和适合的场景。所以身兼统计和CS背景的人也是目前稀缺的。
在信息时代,没有什么秘密模型和算法,paper就在那里摆着,开源到处都是。
所以,所有以实用为目的的机器学习相关项目,归根结底是实验次数和质量的比拼。而这里面实验次数又是最重要的,在限定时间的条件下,实际上就是比拼实验频率。
CS出身的人,较大概率编程能力更强,所以在实验频率上,很大概率秒杀统计出身。
你精心设计一种模型,我试了100种模型,往往后者胜出概率更高。
因为大学里概率统计学对于学计算机专业的人来说是数学必修课,而计算机基础和编程对于统计学专业的人来说是选修课。
算法的实现归根结底还是需要编程实现,光知道算法可不行。现在很多算法知识很容易获取,paper很多。看完论文之后比较容易实现。
这个问题有点割裂了机器学习和统计的关系,其实它们是在最初不同领域各自发展各自借鉴从而逐渐有合并到一起的趋势。我理解的题主所说的统计应该是传统的统计方法,比如samping. 假定有很大的数据量,传统的sampling只是取其中的一个很小的sub set(不论这个sampling方法是怎样的)然后用各种统计方法建模等等。而机器学习里通常是直接用上了整个数据集,而不是其中一小部分(虽然有些方法过程中也会sampling,比如bagging)。所以两边方法一样,看的就是data set的完整程度了,data越大,分布越能体现整体,其结果当然越好。这并不能说计算机的人统计就一定比统计的强,特别是基础理论。
题主所谓的准确性是什么,先看看什么叫置信概率和置信区间吧,还有假设检验。机器学习里只关注模型的期望值,哪有什么置信概率区间可言,虽然背后也有假设某种分布。提这种问题很明显既不懂统计也不懂机器学习。