实际工作中,从事数据挖掘/机器学习是怎样的?至少要掌握哪些知识? 举报 理由 举报 取消 如果是侧重于运用机器学习算法到实际业务中,而不是偏向于研究和分析理论知识的工作,两者的工作内容会有多大不同?在大公司和小公司有什么差别?两者的职业发展道路又会有多大不同?所谓的“调参侠”就是类似于前者? 2018年1月4日 6 条回复 1337 次浏览 人工智能,分析,学习,数据,数据挖掘,机器
回复 ( 6 )
“应用和业务”与”理论研究”: 两者差异很大,工业界采用的方法在学术界往往10年前就已经有了,学术界更多是扮演探路者的角色,最新的理论研究不一定立即有实用价值,何况即使是学术界,水平也是参差不齐,有高水准又有效的方法而由于门槛太高工业界接触不到,也有低水准却看起来很牛逼的东西。工业界主要是面向业务选择最合适的已经成熟的方法,真正有用的学术研究是解决理论难题。
“大公司小公司差别”: 主要差别是大公司成熟的东西多,方便学习,而小公司机会大。
“调参侠”: 面对业务的程序员都免不了要调参
要掌握的知识:
大公司数据挖掘会体系化,有固定的流程,从项目确定开始就会安排计划好整个项目的参与人数,参与时间,获得收益,付出的成本。小公司不清楚,可能压根就没有数据挖掘。
理论研究是大学或者研究院的事情,工业上讲究的是运用。我们公司有一个算法组全是博士,职业reading paper, 到现在好像也没发现有什么能用的好算法~~
所以,如果想工作,那么要注重运用,注重运用不代表你不需要读paper,看算法。只是研究完理论之后你得想着怎么用起来~
总不会天天没事去写个svm的推导吧,我们讲究的是请用代码实现并且部署上线,至于你怎么写那可能就是你的事情了~~
工业界里能解决问题就行。学术界讲究发论文tier要高,数量要多。每年学术界出现了那么多奇奇怪怪的新算法,有的不给源代码,有的给了但不把调参方法告诉你,有的干脆就是为了发论文,挑了几个表现好的数据集report结果。
工业界筛选/用这些算法的时间成本太高了,也未必有这个能力。所以一般工业界比较爱用经过一定时间沉淀,比较靠谱的算法,或者尝试一下文档齐全并提供了源代码的算法。反正新算法即使好,一般也就是个位数百分比的提升。从结果导向来说,与其弄懂这背后蕴含的一大堆tricks,还不如多想想业务需求和能搞到哪些更好的features。
另外一个挺重要的问题是,工业界对bad cases的容忍度有时候是比较低的,而很多论文有时候就报个mean performance,这使得在未能深入了解的情况下,使用这类算法的未知的风险还是挺高的。
算法工程师,不仅要懂模型本身,还要理解业务的特点,挑对模型,高效率调出好参数。
研究者,要提高模型的能力,能解决更复杂的问题,追求理论的提升和解释性。
研究者是应用者的供应商,就是这样的关系。
研究者需要研究的资源,资金、数据等等,往往是大公司才能提供这些资源,所以Hinton这帮人都跟企业混到一起了。研究者还需要一个好的人际环境,要一个圈子,交流分享、争论竞争,不然很难进步。
应用者混在业务里,少不了什么都要懂点,除了算法精通,成为半个后端、半个前端、半个产品、半个运营也是很正常的。
大公司和小公司。这个时代,能把大公司做得像小公司一样的公司才是好公司。总的来说,高成长的公司比较值得去咯。至于差别,大的小的都能很恶心,也能很开心。大公司的员工比较容易得到社会的广泛认知和认可,对你换工作有好处。小公司成长快的话,你可能更容易财务自由。
导数据、玩表
如果是去公司的话,是要做产品的,,所以理论知识+系统实现,,,,,,