所谓的“Data Mining”究竟是什么?

理由
举报 取消

最近在了解CS,Stat和math就业前景的时候,都不约而同的提及了Data Mining这个概念。中文里面应该称为数据挖掘。似乎跟Machine Learning也有些关系。感觉在主流IT行业等前沿领域发展迅猛,不知道有没有这方面的大牛来给简单讲解一下具体的内涵和职业前景的展望?

2017年12月29日 1 条回复 645 次浏览

发起人:小小的我 管理专家

月嫂

回复 ( 1 )

  1. 王皓皓
    理由
    举报 取消

    Data Mining直译过来就是值得数据挖掘。通常情况下,在我们得到数据的时候,我们可以分析出它的表象显现。这里不给你说一些个概念上的东西,我们举个例子来看。

    假设一个学校有3个班级,每个班级都有50个学生,当然这是一个比较理想的状态。此外还假设他们都学习了同样的几门课程,例如语数外、史地政、理化生这9门。那么,在一次考试中,这些班级中的这些学生的考试成绩都是可以量化的。而常规的数据分析,我们可以得到类似于如下经常见到的一些统计,例如:某班各个科目整体平均分是多少,有多少人高于平均分,多少人低于平均分。此外,各个班级之间的各个课程的平均分高低,总分高低等等都是经常用来对学生进行表扬和建议的衡量指标。

    然而,如果我们想对这个成绩进行进一步的研究,或者说我们是某些利益相关或者进行研究的集团,想要知道学生的成绩具体受到哪些影响因素,而哪些学生的家庭条件和成绩支撑这个学生可能会参加辅导班级。这就不是简单的对于成绩表面的数据进行分析的问题了,这就需要数据挖掘,也是数据挖掘所擅长的领域。

    也就是说,数据挖掘是一个从数据或者数据库中发掘隐藏信息的步骤或者方法。还是结合之前的例子,一个学生的各科成绩的反映,主要是由于个人的语言文字处理水平、抽象计算水平等等和教师的授课方法或者作业布置等等有关。但是,不可否认的就是他的成绩或多或少也反映出了家庭对于一个学生的影响,而这种影响单从数据的方面是很难显示出来的。也就是说,我们或许可以从直观上通过比较学生成绩和家庭环境及工作状态进行大致预估,但怎么量化出这个家庭环境对于学生成绩的影响因子究竟是多少。这就需要透过数据的本质进行挖掘。

    数据挖掘在现代商业等各个领域有着十分重要的作用。尤其是在数据泛滥的“大数据”时代,如何克服数据数量、维度等问题,快速挖掘出有用的、有商业价值的信息,是各大企业和研究院校面临的重大问题。因此这个领域是个十分有前景的行业。

    个人见解,上次我在所谓的“Data Mining”究竟是什么? 上面看到过还有别人的解释

我来回答

Captcha 点击图片更换验证码