应用统计的基础(包括各种distributions,linear models,hypothesis testing,generalized linear model),而且对基础的理论掌握的要精,因为作为数学系出身的学生,大家会对你统计的基础有一个很高的期望的。
data structure/algorithm的基础。统计系/数学出身的学生跟cs出身的学生思维方式很不一样;统计更偏理论上的严谨性,而cs更偏向实际应用的可行性。学一些cs的课程,比如基本的data structure,algorithm,可以培养自己cs方面的思维:像时间/存储复杂度,以及数据的存储和读写;还会学到一些经典的算法(比如我就不止一次被问到如何找percentile的selection algorithm,以及如何证明它的复杂度)
回复 ( 8 )
本科跟PhD都是应用数学的,PhD毕业后开始做data scientist相关的工作。不同公司(甚至一个公司里面不同部门)data scientist做的东西差别非常大:
个人感觉,有应数的背景,对于前两种data scientist的职位是非常有帮助的。一方面应数所培养出的数学建模思想非常有用,另一方面,扎实的数学基础对于学习统计或是machine learning的模型至关重要。
至于找data scientist要准备什么,我就说一下我个人的看法,主要适用于美国的情况吧,希望对你有所帮助。虽然应数所培养出的数学建模思想非常有用,但是我感觉仅有应数学的东西是不够的。至少有五个方面的技能要补:
我当时为了准备data scientist的工作,学了几门统计系的课(probability, applied statistics, statistical theory)和几门cs的课(data structure, algorithm, parallel computing, database), 还学了coursera上面的machine learning相关的课程。这些知识,思想和技能 最后都在data scientist的面试不断的问到,相反几乎没有人在面试中问太多应用数学方面的问题(除了让我介绍自己PhD的研究之外)。
另外,我觉得想要找工业界的工作,最好毕业前要有至少一次业界的实习,所以早点准备总是最好的。
—————————————————————–
mark一下,回头有时间来答
同数学与应用数学专业,一点浅见:
最后,再强调一下,先保证能够搞定学业是必需的!不然根本没有精力去拓展和提升,数学专业的学业压力真心不小。
学好数学,学好编程,或者至少学好其中之一。
作为从数学系到数据挖掘岗位的人,虽然转行不一定很成功,但是工作当中遇到的一些技术点可以拿出来分享一下:
数据挖掘工作当中需要学习的知识:
1.Hive,Hadoop之类的,SQL数据库操作需要会。
2.编程语言最好会python,c/c++,或者java,至少一种。
3.Linux包括一些脚本语言Shell之类的,最好掌握。
4.数据挖掘机器学习的基础知识,统计学要掌握。一些数据挖掘的模型需要掌握,特征工程之类的知识最好有所了解。
暂时只能够想到这些,估计不够的别人来补充吧。
当然可以啊,我就是数学系的学生,但并非纯数学专业,我的专业是信息与计算科学,它相当于数学与计算机的结合。数学专业的数分,高代,空间解析几何,复变函数,实变函数,泛函分析什么的我们也都学,只不过相对纯数学专业的简单一点,数据挖掘之类的有数值分析和数据处理,信息论等课程,我们另外还学了计算机学院的数据结构,数据库等课程,具体你可以找度娘。我觉得你如果想往这个方向发展的话,可以在考研到计算数学方向的专业。
希望能够帮到你。
既然楼主是应数的,那么数学这一块先不说了,说下数据科学中其他的部分。其实我也正在向这个方向进发,说一下我自己的一些体会吧。编程方面:楼主可以先熟悉一门语言,一门数据结构与算法课程,一门数据库课程。语言的话比如python,下面我要说的路线是这样的。语言基础->将所学习的东西黏在一起工程化。当基础学习完了,对于之前写代码较少的来说,工程能力应该是不够的,这时候不妨走爬虫这条路,可以选定一个project,自己通过写分布式爬虫,这里数据量大一点对于提升能力还是很有帮助的,等到数据爬完了,这时候你会用到python的一些第三方库,比如numpy,scipy,jieba等。这些将帮助你快速处理原始数据。数据处理完毕之后,需要对数据进行建模,使用算法了(ml),这个相信以楼主的背景加上学习的机器学习的相关课程应该不是问题,这个使用的算法可以是自己造轮子(时间允许的话)或者使用第三方机器学习库,比如sklearn。接下来就是进一步进行数据的分析挖掘,可以掌握一点可视化的技术,比如使用js+flask搭建一个可视化服务,这也相当于在做产品的小demo了。总之,需要学习的东西太多了,我觉得比较快的方式就是跟着一个project走,这个project最后涉及数据科学实际工作的方面多一点,当然也不要太多,太多的话肯定做不深。走一个project流程,既是做的东西是别人做过的,不算创新,那也没关系,最起码自己知道薄弱点在哪里,哪里是最需要学习的。
了解行业,尤其你喜欢的,用数据的思维思考问题和现象,提出方案和实施措施,就足够了,最重要的是坚持独立思考,并且拥有兴趣。
考研吧,我大学学的统计,现在就在考研。数学,数据挖掘。