实际工作中,从事数据挖掘/机器学习是怎样的?至少要掌握哪些知识?

理由
举报 取消

如果是侧重于运用机器学习算法到实际业务中,而不是偏向于研究和分析理论知识的工作,两者的工作内容会有多大不同?在大公司和小公司有什么差别?两者的职业发展道路又会有多大不同?所谓的“调参侠”就是类似于前者?

2018年1月4日 6 条回复 1337 次浏览

发起人:Eacon 初入职场

Code is cheap, Show me your mind.

回复 ( 6 )

  1. li Eta
    理由
    举报 取消

    “应用和业务”与”理论研究”: 两者差异很大,工业界采用的方法在学术界往往10年前就已经有了,学术界更多是扮演探路者的角色,最新的理论研究不一定立即有实用价值,何况即使是学术界,水平也是参差不齐,有高水准又有效的方法而由于门槛太高工业界接触不到,也有低水准却看起来很牛逼的东西。工业界主要是面向业务选择最合适的已经成熟的方法,真正有用的学术研究是解决理论难题。

    “大公司小公司差别”: 主要差别是大公司成熟的东西多,方便学习,而小公司机会大。

    “调参侠”: 面对业务的程序员都免不了要调参

  2. 卡牌大师
    理由
    举报 取消

    要掌握的知识:

    1. 数理统计,数据挖掘或机器学习常用模型:如 SVM,随机森林,GBM
    2. 对主流的应用模型有较好的理解和运用,如集成学习算法等
    3. 至少掌握一门编程语言,包括但不局限:C/C++,JAVA,PYTHON,R等(matlab除外,记住!)
    4. 熟悉数据库以及SQL语句,掌握常用的ETL技能
    5. 熟悉hadoop,SPARK等分布式工具!
    6. 掌握模型原理的而不仅仅是调参数!
    7. 不错的英文阅读能力,否则无法提高和培养
    8. 熟悉linux常用命令

    大公司数据挖掘会体系化,有固定的流程,从项目确定开始就会安排计划好整个项目的参与人数,参与时间,获得收益,付出的成本。小公司不清楚,可能压根就没有数据挖掘。

    理论研究是大学或者研究院的事情,工业上讲究的是运用。我们公司有一个算法组全是博士,职业reading paper, 到现在好像也没发现有什么能用的好算法~~

    所以,如果想工作,那么要注重运用,注重运用不代表你不需要读paper,看算法。只是研究完理论之后你得想着怎么用起来~

    总不会天天没事去写个svm的推导吧,我们讲究的是请用代码实现并且部署上线,至于你怎么写那可能就是你的事情了~~

  3. TTKK
    理由
    举报 取消

    工业界里能解决问题就行。学术界讲究发论文tier要高,数量要多。每年学术界出现了那么多奇奇怪怪的新算法,有的不给源代码,有的给了但不把调参方法告诉你,有的干脆就是为了发论文,挑了几个表现好的数据集report结果。

    工业界筛选/用这些算法的时间成本太高了,也未必有这个能力。所以一般工业界比较爱用经过一定时间沉淀,比较靠谱的算法,或者尝试一下文档齐全并提供了源代码的算法。反正新算法即使好,一般也就是个位数百分比的提升。从结果导向来说,与其弄懂这背后蕴含的一大堆tricks,还不如多想想业务需求和能搞到哪些更好的features。

    另外一个挺重要的问题是,工业界对bad cases的容忍度有时候是比较低的,而很多论文有时候就报个mean performance,这使得在未能深入了解的情况下,使用这类算法的未知的风险还是挺高的。

  4. Stark Einstein
    理由
    举报 取消

    算法工程师,不仅要懂模型本身,还要理解业务的特点,挑对模型,高效率调出好参数。

    研究者,要提高模型的能力,能解决更复杂的问题,追求理论的提升和解释性。

    研究者是应用者的供应商,就是这样的关系。

    研究者需要研究的资源,资金、数据等等,往往是大公司才能提供这些资源,所以Hinton这帮人都跟企业混到一起了。研究者还需要一个好的人际环境,要一个圈子,交流分享、争论竞争,不然很难进步。

    应用者混在业务里,少不了什么都要懂点,除了算法精通,成为半个后端、半个前端、半个产品、半个运营也是很正常的。

    大公司和小公司。这个时代,能把大公司做得像小公司一样的公司才是好公司。总的来说,高成长的公司比较值得去咯。至于差别,大的小的都能很恶心,也能很开心。大公司的员工比较容易得到社会的广泛认知和认可,对你换工作有好处。小公司成长快的话,你可能更容易财务自由。

  5. energize spirit
    理由
    举报 取消

    如果是去公司的话,是要做产品的,,所以理论知识+系统实现,,,,,,

我来回答

Captcha 点击图片更换验证码