如何看待王汉生教授的这篇《统计学发展方向的选择》?

理由
举报 取消

全文:王汉生: 统计学发展方向的选择文章基本否定了统计学处理大数据的能力,表示统计学在专业学计算机的面前毫无竞争力。预测了未来统计的发展,应该是将统计与其他专业的知识相结合,成为某一领域的工具。节选几段:

第一,毋庸置疑,在大数据时代,统计学工作者需要多学点计算机技术,好解决大数据分析中的生活自理问题。但是,我认为这不应该成为一个统计学发展的重要方向。为什么?基于两个判断。【1】这条路似乎没啥希望。因为,在这条路上,同计算机专家相比,统计学工作者,没有半点优势。我们输在起跑线上,还不是一点半点。【2】随着计算机技术的进步,现在认为很复杂的(例如)分布式存储和计算,将被一些成熟的软件产品极大地简化,甚至傻瓜化。如果是这样,相关的计算机理论知识(例如:Map-Reduce)就不必要了。更进一步地解释一下【2】,我为什么相信它?首先,我相信市场的力量。市场上绝大多数数据分析工作者,不具备大数据存储计算的专业知识,比统计学者还要差。因此,傻瓜化的大数据分析产品,一定是市场热烈欢迎的产品。其次,在我的周围,已经看到几个优秀的创业团队,他们正在这个方向努力前进,进展可喜!因此,我认为,在大数据相关的计算机基础知识方面,要积极投入但要有限度。对现有大数据计算机技术(例如:并行计算)的盲目跟进,不会成为统计学发展有前途的方向。

第二,那么,统计学发展的方向应该是什么呢?我们不妨看看,在海外极其成功的生物统计学,它为什么发现的那么好?想来想去,就一个原因:生物统计学家懂生物医学知识!具体解释一下,国外的生物统计系一般设立在医学院,或者公共卫生学院下面。独立的生物统计系似乎没有听说过。这样的学科设置,保证了生物统计学者,会花很多时间去跟医生科学家等沟通。因此,他们学会了生物医学的专业语言,也就是我们常说的:业务知识。这使得生物统计学家,对生物医学研究的贡献独特,很难被替代。如果我们对生物统计学的理解是正确的,那么未来,统计学发展的正确方向应该是:学习并积累基于不同行业的业务知识。只有这样,我们才能同不同客户,根据他所处的行业,自由沟通。我们才可能了解需求,创造价值,并为统计学开疆拓土。沿着这样一个逻辑,大胆设想一下,类似于生物统计学,我们是否可以有互联网征信统计学?量化投资统计学?物联网(车联网)统计学?旅游交通统计学?我认为这才是统计学发展的前途所在!

2017年7月11日 8 条回复 1031 次浏览

发起人:常二 初入职场

回复 ( 8 )

  1. 老王
    理由
    举报 取消

    谢邀。

    离学术圈太远,没有能力评价题主说的文章。

    说点就业相关的吧。统计流派和神经网络流派在机器学习领域算三十年河东三十年河西,讲工资现在肯定是深度学习高,但是在推荐系统、舆情管理上,统计流派的支持向量机之类的方法都有成熟的系统在使用,不用担心找不到工作。

  2. 秋天的松鼠
    理由
    举报 取消

    谢邀。由于我不觉得这篇文章能做到有理有据,逻辑严谨以及用词谨慎客观等我比较认同的公共言论风格,所以不打算花太多时间组织长答案讨论,就列几条我确定的事实供参考:

    1 统计学是理解机器学习算法的基础之一,统计学没弄懂,只会调包的数据分析师是干不好的。

    2 统计学对于绝大多数做机器学习的人来说是一门工具,会用就好了,发现更多统计学的定律,分布,还是统计学家应该干的事情。

    3 使我获益匪浅,大大帮助了我理解机器学习算法的一本书,叫All of statistics,出自统计学家Larry Wasserman之手,他专门挑了统计学里对机器学习有用的一部分写出来给想搞机器学习的人看的。他同时是CMU统计系和机器学习系的教授。

    4 我在Google面试时,面的是软件工程师,但其中一轮是一个纯统计学家,他带着一帮码农做机器学习方向的开发。他给我出了一道完全跟编程没有关系的统计题…就因为我说我喜欢机器学习

    5 在美国找工作,绝大多数头衔为Data Scientist/Software Engineer in Machine Learning/Data Analyst/Quantitative Analyst的工作,尤其在IT公司里的,面试时统计学方面的题都会占很大的比重。如果不是的话…那这个职位基本上跟计算机也不会有什么关系。

  3. 眠眠
    理由
    举报 取消

    诚惶诚恐谢邀。

    作为一个Top金融专业毕业,却在医药行业做运营业务(不是R&D)分析的初学者,内心是懵逼的。没有资格对整个行业发展做什么评价,只讲个人应用的体会。高上大的大牛一定是在先进企业或者在学校做深入研究哒,然而祖国遍地民营小企业却在拍脑袋决策–>统计学–>大数据的路途中迷失万里。

    1. 医药是典型的传统行业,而且不用说大家也知道卖药是怎么在做….所以说通过所谓的数据科学,所谓紧跟潮流地去做销售驱动基本是懵逼的。别说统计学和机器学习了,现在传统行业的,民营企业,高层连电脑怎么开机还不知道…..然而他们却自以为已经走到了王老师说的,沉淀到业务基础的方向。在业务这一层,统计学家又还有一定的路途要走,结果在实际运用中就被“业务经营”踩得一文不值。这样的企业不在少数。这一条我想说的是,王老师说的方向且不说对不对,在实际很多企业的运用中,还是比较遥远。

    2. 许多不够大的企业里数据科学家+分析员+一部分coding都是一个人做。所以你要问我统计学家该不该学业务,该不该研究机器学习,我肯定会说应该的。因为在目前的运用中,真的没办法做到那么理想地,每个人都能成为匠人….

    3.王老师说的那种分领域应用、计算机运用我觉得有一定的前景,但还是建立在统计学进一步发展拓宽的基础上的。不能就结论为统计学已死吧!运用前景并不是说根基就不要了啊?提出统计学与行业商务实践结合我觉得倒没有贬低统计学的意思,不需要反应过大的嘛。

    4. 举个不恰当的例子,你说火箭工程、航天学有多重要多重要,但你最终还是要把火箭发上天去了才行嘛。

    没了。

  4. 匿名用户
    理由
    举报 取消

    没有什么新意的讲法。统计学在高通量、大数据时代的发展是很多统计学家深入思考和研究的方向。新一代的统计系学生编程好,会做分布式的为数不少。

    Brad Efron(今年78了)最近几年的两本新书都在讨论这个问题。

    2016

    • Computer Age Statistical Inference: Algorithms, Evidence, and Data Science, with T. Hastie.

    2010

    • Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction
  5. 匿名用户
    理由
    举报 取消

    王汉生教授发在统计之都的这篇文章去年看过,而之前在吴喜之教授的《复杂数据统计方法》里也看到和王汉生教授近似的观点:

    ……故步自封的结果是,三十多年来,统计丢掉了许多属于数据科学的领域,也失去了许多人才。在现成数据模型无法处理大量的复杂数据的情况下,计算机领域的研究人员和部分概率论及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题,诸如人工神经网络、决策树、boosting、随机森林、支持向量机等大量算法模型的相继出现宣告了传统数学模型主导数据分析时代的终结。这些研究最初根本无法刊登在传统统计杂志上,因此大都出现在计算机及各应用领域的杂志里。

    这种论断的来源,私以为与统计学家认为所有与数据预测相关的工作都应该属于统计学的思想有关。

    事实上,我个人理解的现在所谓的data science,是一个综合的、全新的学科,构成其框架的基础学科与分析工具来源于统计学、计算机科学等,并不是哪个学科的专属,也不存在“丢掉领域”的说法。

    对数据科学而言,互联网公司业务发展需要针对已收集数据做精细化管理是其发展的内在动力,大规模分布式储存技术的出现是其得以落地的客观条件。只不过恰好这个进程主要由计算机系的人在推动。

    的确计算机和统计相互重新造了很多轮子。拿最基本的linear regression来说,统计基于小样本做了一堆假设(独立同分布)之后用最小二乘方法进行线性回归模型的参数估计,再对参数做一系列统计检验。计算机/机器学习从损失函数出发再用迭代算法(比如gradient decent)求最优解来得到参数。统计用R-square和AIC、BIC来衡量模型效果,计算机用cross-validation来权衡variance和bias。两者最后殊途同归。

    这也说明一个问题,数据就在那里,统计可以去做,计算机也可以去做。统计学几十年的积累让其在某些领域具有极大的领先优势,完美的理论假设让整个模型看起来的确精巧;计算机能够抛开历史包袱去创造性的提出新的算法和模型。在数据科学的领域,没有先来后到的区分。

    私以为,数据科学的领域还很新,未来发展的空间还很大,统计学已经算是最接近其核心的学科之一了。君不见隔壁的经济学家们都扎堆往湾区的互联网公司跑,想把自己领域擅长的causal inference嫁接到互联网公司的随机试验(比如A/B Testing)上,统计学家把花在小数据时代遗留下来的各种假设与检验上的精力分一些在大规模数据的prediction研究上,才能在这个飞速发展的行业中占据一席之地啊。

  6. Xiao Zhang
    理由
    举报 取消

    这…生统在海外啥时候和“极其成功”沾上边了?实际点说应该是为广大生物苦逼青年提供了一条相对容易的脱坑路,所以才受欢迎,其参与者大多不是“懂一些生物医药知识的统计学家”,而是“懂一些统计的生物医药学家”。

    另外,王教授寄予厚望的傻瓜式软件,还有很长的路要走,大量的现有算法都难以被分布运算完美解决,连最简单的Logistic Regression都只有近似算法,现在就号称计算机已经不需要统计了有点为时过早啊…

  7. 匿名用户
    理由
    举报 取消

    统计之都不还有郁彬的专访吗,那个采访里的观点靠谱的多。至于王老师这个采访,有点像一个做商务统计而不了解大数据的学者的外行否定。

    王汉生是贵校商学院的教授,商务统计的学者做具体问题的多,对统计学的整体把握和对计算机科学的了解却都有限。知乎上还有一个问题问是不是机器学习之类计算机背景的都做不动,只有数学统计背景能做,那也是计算机一位前辈的原话。

    所以这些评论看看就好。说到底很多学者在自己子领域外也是外行,而且很多时候屁股决定脑袋。

    至于答主的问题,我想说现今斯坦福做机器学习最厉害的学者大多在统计系。而斯坦福、伯克利、哈佛三校统计系的主流现在都是做机器学习相关。

  8. 金柔
    理由
    举报 取消

    传统的统计学、大数据相关的计算机科学、机器学习这些并非割裂的东西。如果传统统计出身的学者都故步自封,不去接受新鲜的事物,认为大数据计算、机器学习之类的东西都是学计算机的人去做的我们比不上他们,那传统统计学真是药丸。

我来回答

Captcha 点击图片更换验证码