发起人:Robot 管理大师

回复 ( 10 )

  1. 贺勇
    理由
    举报 取消

    机器学习强调的是算法,而数据挖掘是整个过程,包括数据仓库,数据建模,数据预处理,算法,工程化等

  2. 乔小树
    理由
    举报 取消

    本大爷不邀自来也。

    (刚想到的能把自己逗笑的双关词,我好机智。)

    机器学习,更注重于模型的训练, 偏于过程。

    数据挖据,更注重于获得有效数据,重在目的。

    至于算法啊代码啊啥啥啥啊,抱歉在程序员的世界里,我还不知道有什么是可以脱离算法和代码的。

  3. 雷天琪
    理由
    举报 取消

    多谢邀请。

    我本人是很不同意用一些专业的名词来使得一门学问或者一门科学变得复杂化,经济学就是这样。所以楼上的一些回答我不是很赞同,原因就是他们用专业的词汇来描述专业的词汇,对于答案来说,几乎没有任何用处,就像你给一个不懂英语的人用 英语来解释一个词一样。

    其实之前的很长一段时间里,我都在思考数据挖掘和机器学习之间到底是什么关系。我现在几乎把他们认为这是同义词,如果有人非要说他们有具体的区别,我也没有任何意见。但是,我要说明一点,就是语言只要不产生歧义,就没有必要太去追究其中的真理了吧。

    有时候别人问我:“诶,你是什么专业”,我有时回答“数据挖掘专业”,有时回答“机器学习专业”,这对他们不产生逻辑上的混乱,足够了。

    最终发现,我并不需要去了解他们之间真正的关系,他们只是两个名词而已。

  4. 华天清
    理由
    举报 取消

    谢邀:

    记得看过这么一篇相似的文章,是斯坦福大学的印度学生、机器学习爱好者 Pararth Shah对问题:对于那些非计算机科学行业的人,你会如何向他们解释机器学习和数据挖掘?的回复,非常的经典,希望对题主有用。文章由@jiqihuman编译。

    买点芒果去

    假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑,然后小贩根据你挑的芒果的斤两来算钱(在印度的典型情况)。显然,你想挑最甜最熟的芒果对吧(因为小贩是按芒果的重量来算钱,而不是按芒果的品质来算钱的)。可是你准备怎么挑呢?

    你记得奶奶和你说过, 嫩黄的芒果比暗黄的甜。 所以你有了一个简单的判断标准:只挑嫩黄的芒果。你检查各个芒果的颜色,
    挑了些嫩黄的,买单,走人,爽不?

    可没那么简单。生活是很复杂的

    你回到家,开始慢慢品尝你的芒果。你发现有一些芒果没有想的那么甜。你焦虑了。显然,奶奶的智慧不够啊。挑芒果可不是看看颜色那么简答的。

    经过深思熟虑(并且尝了各种不同类型的芒果), 你发现那些大个儿的,嫩黄的芒果绝对是甜的,而小个儿,嫩黄的芒果,只有一半的时候是甜的(比如你买了100个嫩黄的芒果,50个比较大,50个比较小,那么你会发现50个大个儿的芒果是甜的,而50个小个儿的芒果,平均只有25个是甜的)。

    你对自己的发现非常开心,下次去买芒果的时候你就将这些规则牢牢的记在心里。但是下次再来到市集的时候,你发现你最喜欢的那家芒果摊搬出了镇子。于是你决定从其它卖芒果的小贩那里购买芒果,但是这位小贩的芒果和之前那位产地不同。现在,你突然发现你之前学到的挑芒果办法(大个儿的嫩黄的芒果最甜)又行不通了。你得从头再学过。你在那位小贩那里,品尝了各类芒果,你发现在这里,小个儿、暗黄的芒果其实才是最甜的。

    没多久,你在其它城市的远房表妹来看你。你准备好好请她吃顿芒果。但是她说芒果甜不甜无所谓,她要的芒果一定要是最多汁的。于是,你又用你的方法品尝了各种芒果,发现比较软的芒果比较多汁。

    之后,你搬去了其它国家。在那里,芒果吃起来和你家乡的味道完全不一样。你发现绿芒果其实比黄芒果好吃。

    再接着,你娶了一位讨厌芒果的太太。她喜欢吃苹果。你得天天去买苹果。于是,你之前积累的那些挑芒果的经验一下子变的一文不值。你得用同样的方法,去学习苹果的各项物理属性和它的味道间的关系。你确实这样做了,因为你爱她。

    有请计算机程序出场

    现在想象一下,最近你正在写一个计算机程序帮你挑选芒果(或者苹果)。你会写下如下的规则:

    1:if(颜色是嫩黄 and 尺寸是大的 and 购自最喜欢的小贩): 芒果是甜的

    2:if(软的): 芒果是多汁的

    等等等等。

    你会用这些规则来挑选芒果。你甚至会让你的小弟去按照这个规则列表去买芒果,而且确定他一定会买到你满意的芒果。

    但是一旦在你的芒果实验中有了新的发现, 你就不得不手动修改这份规则列表。你得搞清楚影响芒果质量的所有因素的错综复杂的细节。

    如果问题越来越复杂, 则你要针对所有的芒果类型,手动地制定挑选规就变得非常困难。你的研究将让你拿到芒果科学的博士学位(如果有这样的学位的话)。

    可谁有那么多时间去做这事儿呢。

    有请机器学习算法

    机器学习算法是由普通的算法演化而来。通过自动地从提供的数据中学习,它会让你的程序变得更“聪明”。

    你从市场上的芒果里随机的抽取一定的样品(训练数据), 制作一张表格, 上面记着每个芒果的物理属性, 比如颜色, 大小, 形状, 产地, 卖家, 等等。(这些称之为特征)。

    还记录下这个芒果甜不甜, 是否多汁,是否成熟(输出变量)。你将这些数据提供给一个机器学习算法(分类算法/回归算法),然后它就会学习出一个关于芒果的物理属性和它的质量之间关系的模型。

    下次你再去市集, 只要测测那些芒果的特性(测试数据),然后将它输入一个机器学习算法。算法将根据之前计算出的模型来预测芒果是甜的,熟的,
    并且/还是多汁的。

    该算法内部使用的规则其实就是类似你之前手写在纸上的那些规则(例如,
    决策树),或者更多涉及到的东西,但是基本上你就不需要担心这个了。

    瞧,你现在可以满怀自信的去买芒果了,根本不用考虑那些挑选芒果的细节。更重要的是,你可以让你的算法随着时间越变越好(增强学习),当它读进更多的训练数据,
    它就会更加准确,并且在做了错误的预测之后自我修正。但是最棒的地方在于,你可以用同样的算法去训练不同的模型,
    比如预测苹果质量的模型,
    桔子的,香蕉的,葡萄的,樱桃的,西瓜的,让所有你心爱的人开心:)

    这,就是专属于你的机器学习,是不是很酷啊。

    机器学习:让你的算法更聪明, 所以你就可以偷懒喽…..

  5. 周涵
    理由
    举报 取消

    谢邀,头一次被大v邀请好 动

    首先机器学习这个词应该更侧重于技术方面和各种算法,一般提到机器学习就会想到语音识别,图像视频识别,机器翻译,无人驾驶等等各种其他的模式识别,甚至于谷歌大脑等AI,这些东西的一个共同点就是极其复杂的算法,所以说机器学习的核心就是各种精妙的算法。但是这些在工业界机器学习很多职位并不是这么一回事的,相对于以上种种逼格要low很多,公司里面很多任务是数据给你之后你就是尝试“普适的”算法往里面套就是了,所以在工业界很多声称搞机器学习的都是调包侠;再者因为机器学习的算法和模型基本都是一般性的,没有domain knowlege,所以又有了很大一部分工作做特征工程。

    数据挖掘则更偏向于“数据”而非算法,而且包括了很多数据的前期处理,用爬虫爬取数据,然后做数据的清洗,数据的整合,数据有效性检测,数据可视化(画图)等等,最后才是用一些统计的或者机器学习的算法来抽取某些有用的“知识”。前期数据处理的工作比较多。

  6. 张传亭
    理由
    举报 取消

    其实数据挖掘(Data Mining)更应该叫Knowledge Discovery in Databases,它是数据库、机器学习、统计的混合体。可以这样理解:DM更注重efficiency,指知识发现的整个过程(爬取、存储、预处理、分析、可视化);ML更注重effectiveness,关注数据分析中的一些有实质性的启发式算法(substantive heuristics),可能这些算法并没有普适性;Statistics更注重数学角度的validity。推荐你看两篇经典文章:From data mining to knowledge discovery in databases; Three perspectives of data mining.

    PS. 一句话解释大数据:Let data have sex. 我认为这是迄今为止解释的最清晰、最准确的。

  7. 张磊
    理由
    举报 取消

    嗯,界限在哪里?其实我更想知道你为什么提出这个问题。

    就我个人的理解来说,这二者并没有很严格的界限,我愿意把机器学习理解为人工智能的延伸和细化,把数据挖掘理解为从数据中找规律,二者有交叉和覆盖,也有看起来各自独立的内容。

    举个例子来说明两者明显的不同:“让计算机学会下棋”通常会被认为是机器学习(Tom Mitchell的《Machine Learning》就拿这个作为第一章),而一般在数据挖掘的教材里很少会提这个;“关联规则分析”通常会被认为是数据挖掘(几乎每本数据挖掘图书都会包含这个,比如韩家炜的《数据挖掘:概念与技术》的第6章),而一般在机器学习的教材里你看不到关联分析。

    再举个例子说明两者常常出现的交叉:我记得一开始学习数据挖掘,看到了决策树算法,没看太明白,后来发现机器学习教材里也有决策树算法,而且讲得更细致;二十多年前我第一次学习神经网络,感觉它好像是放在人工智能的范畴,后来发现在机器学习和数据挖掘的教材里也都有神经网络的章节。

    你想知道界限在哪里?首先要想清楚为什么要了解这个界限。可是为什么一定要划清界限呢?如果是为了解决某个问题,只要你知道如何解决这个问题,以及这种解决方案是合理有效的就好了。就像钱钟书老先生说的:你吃了一个鸡蛋很美味,为什么非要看那只母鸡长什么样呢?

    【总结】鲁迅在《故乡》一文里有句话:“这正如地上的路;其实地上本没有路,走的人多了,也便成了路”。很适合做这个问题的简单答案,而在我的眼里只是一片茫茫旷野……

  8. neo
    理由
    举报 取消

    谢邀,本人数据挖掘小白一枚,个人感觉机器学习比较倾向于算法,而数据挖掘更倾向于业务,大多数情况会使用一些机器学习的算法来实现业务逻辑,两者之间存在一些交集。机器学习倾向于解决一类抽象的问题,而数据挖掘更倾向于构建抽象模型解决特定的一个问题。

  9. 王政
    理由
    举报 取消

    卧槽……闪开,你们都回答的什么?让专业的来!

    ==

    当我们要区分两个名词,有很多种方法。其中一种方法是研究名词的历史。这个大家可以百度百科,我不在这里引用。

    他们的分道扬镳是这样的:

    机器学习原本是人工智能的一个部分,人工智能的研究有三个重要问题:知识表示,推理,和知识学习。在20世纪八十年代左右,以专家系统为代表的人工智能大行其道,应用广泛。专家系统的特点就是,对知识表示和知识推理的依赖比较高,而对知识学习的依赖不那么高。因此,原先搞知识学习的人说,那我们单干吧……逐步发展出了机器学习。

    而数据挖掘的兴起,是伴随着互联网的诞生逐步兴起的。在70年代,以电子邮件为代表的各种网络已经兴起,这个时候,如何利用好这海量的信息,就需要数据挖掘了。

    总结,他们的区别在于最开始应用的场景不同。

    ==

    总的来说,这两个名词之所以相近,是由于他们采用的方法、工具,要求的物质与知识基础是如此相近:

    数据挖掘,本身的目标就是要挖掘数据中有用的东西——一般来说,是挖掘某种规律。什么是规律呢?规律就是换个场景仍然有用的东西。

    而机器学习,学习的就是这种换个场景仍然有用的东西。

  10. 没睡醒过
    理由
    举报 取消

    1.人工智能:给机器赋予人类的智能,让机器能够像人类那样独立思考。当然,目前的人工智能没有发展到很高级的程度,这种智能与人类的大脑相比还是处于非常幼稚的阶段,但目前我们可以让计算机掌握一定的知识,更加智能化的帮助我们实现简单或复杂的活动。

    2.机器学习。通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。举个最简单的例子,我们训练小狗狗接飞碟时,当小狗狗接到并送到主人手中时,主人会给一定的奖励,否则会有惩罚。于是狗狗就渐渐学会了接飞碟。同样的道理,我们用一堆的样本数据来让计算机进行运算,样本数据可以是有类标签的,并设计惩罚函数,通过不断的迭代,机器就学会了怎样进行分类,使得惩罚最小。然后用学习到的分类规则进行预测等活动。

    3.数据挖掘。数据挖掘是一门交叉性很强的学科,可以用到机器学习算法以及传统统计的方法,最终的目的是要从数据中挖掘到为我所用的知识,从而指导人们的活动。所以我认为数据挖掘的重点在于应用,用何种算法并不是很重要,关键是能够满足实际应用背景。而机器学习则偏重于算法本身的设计。

回复给 周涵

Captcha 点击图片更换验证码