发起人:Robot 管理大师

回复 ( 8 )

  1. 靳远
    理由
    举报 取消

    本科跟PhD都是应用数学的,PhD毕业后开始做data scientist相关的工作。不同公司(甚至一个公司里面不同部门)data scientist做的东西差别非常大:

    • 有的侧重于分析数据,从海量数据中找到insight,从而帮助公司高层做data-driven的决策/make impact(比如做growth analysis,user experience analysis);
    • 有的则侧重与建立统计或machine learning的模型,用来做prediction或者做成产品(比如fraud detection,pricing或者optimization);
    • 还有的则更像data engineer,对大数据的存储,各种工具要求很高。

    个人感觉,有应数的背景,对于前两种data scientist的职位是非常有帮助的。一方面应数所培养出的数学建模思想非常有用,另一方面,扎实的数学基础对于学习统计或是machine learning的模型至关重要。

    至于找data scientist要准备什么,我就说一下我个人的看法,主要适用于美国的情况吧,希望对你有所帮助。虽然应数所培养出的数学建模思想非常有用,但是我感觉仅有应数学的东西是不够的。至少有五个方面的技能要补:

    1. 应用统计的基础(包括各种distributions,linear models,hypothesis testing,generalized linear model),而且对基础的理论掌握的要精,因为作为数学系出身的学生,大家会对你统计的基础有一个很高的期望的。
    2. data structure/algorithm的基础。统计系/数学出身的学生跟cs出身的学生思维方式很不一样;统计更偏理论上的严谨性,而cs更偏向实际应用的可行性。学一些cs的课程,比如基本的data structure,algorithm,可以培养自己cs方面的思维:像时间/存储复杂度,以及数据的存储和读写;还会学到一些经典的算法(比如我就不止一次被问到如何找percentile的selection algorithm,以及如何证明它的复杂度)
    3. database/big data的基础,至少对传统的relational database,distributed file system/map reduce/parallel computing有一些基础的了解。
    4. machine learning的基础,了解那些经典的算法,比如SVM,PCA,Clustering等。对于数学系的学生,这些东西学起来应该是很快的。
    5. data相关的编程基础,比如R,Python,SQL之类的。在公司里面做data scientist,可能一多半以上的时间都在pull data(比如用SQL或类似的)或者clean data,对相关的编程语言的熟悉是必不可少。对这些语言的测试也是面试中少不了的一部分

    我当时为了准备data scientist的工作,学了几门统计系的课(probability, applied statistics, statistical theory)和几门cs的课(data structure, algorithm, parallel computing, database), 还学了coursera上面的machine learning相关的课程。这些知识,思想和技能 最后都在data scientist的面试不断的问到,相反几乎没有人在面试中问太多应用数学方面的问题(除了让我介绍自己PhD的研究之外)。

    另外,我觉得想要找工业界的工作,最好毕业前要有至少一次业界的实习,所以早点准备总是最好的。

    —————————————————————–

    mark一下,回头有时间来答

  2. Minghia
    理由
    举报 取消

    同数学与应用数学专业,一点浅见:

    • 第一点也是最重要的一点,掌握好本学科的课程!这是你将来的从事这一行业的优势,多少决定了你能在技术的路线上走多远!
    • 就现在而言,数据分析和数据挖掘多少有点区别,主要的发展方向也有偏重业务(Analyst)或是偏重工程(Engineer);偏重业务的话,要对统计学的知识理解深刻,计算机技能主要是SQL语言和一些统计分析软件(SAS/SPSS/R等);偏重工程的话,计算机数据结构,编程语言方面JAVA或C/C++至少一种,Python或R最好也会一个。
    • 明确方向后通过MOOC多学习一些数据分析/数据挖掘的相关课程,买一本业内人士推荐的书籍啃啃也可以。
    • 找到相关的实习当然最好,如果一时找不到可以多参加商业的数据挖掘竞赛,积累实战还能拿点奖金;
    • 学习 Hive/Hadoop/Spark 这些,最快的路线是通过实习,而且是搞大数据的公司。此外,Coding的提升也是通过实习会比较效率,Excel和Matlab总是不够用的,找实习的时候尽量避开。
    • 如果有可能又比较有追求的话,读一个相关方向的研究生是值得考虑的,毕竟数学与应用数学的本科在就业时很受限制。

    最后,再强调一下,先保证能够搞定学业是必需的!不然根本没有精力去拓展和提升,数学专业的学业压力真心不小。

  3. 张夏天
    理由
    举报 取消

    学好数学,学好编程,或者至少学好其中之一。

  4. 匿名用户
    理由
    举报 取消

    作为从数学系到数据挖掘岗位的人,虽然转行不一定很成功,但是工作当中遇到的一些技术点可以拿出来分享一下:

    数据挖掘工作当中需要学习的知识:

    1.Hive,Hadoop之类的,SQL数据库操作需要会。

    2.编程语言最好会python,c/c++,或者java,至少一种。

    3.Linux包括一些脚本语言Shell之类的,最好掌握。

    4.数据挖掘机器学习的基础知识,统计学要掌握。一些数据挖掘的模型需要掌握,特征工程之类的知识最好有所了解。

    暂时只能够想到这些,估计不够的别人来补充吧。

  5. 用户头像
    理由
    举报 取消

    当然可以啊,我就是数学系的学生,但并非纯数学专业,我的专业是信息与计算科学,它相当于数学与计算机的结合。数学专业的数分,高代,空间解析几何,复变函数,实变函数,泛函分析什么的我们也都学,只不过相对纯数学专业的简单一点,数据挖掘之类的有数值分析和数据处理,信息论等课程,我们另外还学了计算机学院的数据结构,数据库等课程,具体你可以找度娘。我觉得你如果想往这个方向发展的话,可以在考研到计算数学方向的专业。

    希望能够帮到你。

  6. Alexander Li
    理由
    举报 取消

    既然楼主是应数的,那么数学这一块先不说了,说下数据科学中其他的部分。其实我也正在向这个方向进发,说一下我自己的一些体会吧。编程方面:楼主可以先熟悉一门语言,一门数据结构与算法课程,一门数据库课程。语言的话比如python,下面我要说的路线是这样的。语言基础->将所学习的东西黏在一起工程化。当基础学习完了,对于之前写代码较少的来说,工程能力应该是不够的,这时候不妨走爬虫这条路,可以选定一个project,自己通过写分布式爬虫,这里数据量大一点对于提升能力还是很有帮助的,等到数据爬完了,这时候你会用到python的一些第三方库,比如numpy,scipy,jieba等。这些将帮助你快速处理原始数据。数据处理完毕之后,需要对数据进行建模,使用算法了(ml),这个相信以楼主的背景加上学习的机器学习的相关课程应该不是问题,这个使用的算法可以是自己造轮子(时间允许的话)或者使用第三方机器学习库,比如sklearn。接下来就是进一步进行数据的分析挖掘,可以掌握一点可视化的技术,比如使用js+flask搭建一个可视化服务,这也相当于在做产品的小demo了。总之,需要学习的东西太多了,我觉得比较快的方式就是跟着一个project走,这个project最后涉及数据科学实际工作的方面多一点,当然也不要太多,太多的话肯定做不深。走一个project流程,既是做的东西是别人做过的,不算创新,那也没关系,最起码自己知道薄弱点在哪里,哪里是最需要学习的。

  7. 王鹏飞
    理由
    举报 取消

    了解行业,尤其你喜欢的,用数据的思维思考问题和现象,提出方案和实施措施,就足够了,最重要的是坚持独立思考,并且拥有兴趣。

  8. 用户头像
    理由
    举报 取消

    考研吧,我大学学的统计,现在就在考研。数学,数据挖掘。

我来回答

Captcha 点击图片更换验证码