聚类与分类有什么区别?

理由
举报 取消

首先对经验数据进行分析,得到特征属性,以此特性进行挖掘,希望得到划分结果,这属于聚类还是分类?例如,已购买某产品的用户具有一些特性,得到用户画像,我采用某种算法分析出大量用户中可能购买此商品的用户群,这是聚类还是分类?虽然我事先知道划分的结果是可能/不可能,但这个应该属于聚类吧?另外,如能够传授些聚类算法,用于分析用户的就更感谢了!

2018年1月23日 3 条回复 959 次浏览

回复 ( 3 )

  1. 徐凯
    理由
    举报 取消

    —–好吧—–自己的坑自己填上,以下都是自己总结和研究–我尽量以非常通俗的语言解释

    ———————————————–开始————————————————————-

    聚类

    有一天老板给你一堆数据,就像是这样的。。。。。

    然后他说,你给我分类(聚类)出来,然后拍拍屁股走人了,办公室里留下你孤独的身影。。。

    那这种纯属于数据的,一点带标签的影子都没有的有什么用呢?这就要用到聚类了,简单说就是,物以类聚,大伙抱团行动,拿最简单的k-means来说,以‘距离’作为判断规则,就像小时候分校区,你家这块离哪个小学近,就去那个小学上学(现在属于区来选小学了,但这个区也可以用无监督的聚类算法来模拟,这个就跑题了)分完结果是这样的。。。诶?这个我给的数据明明是三维的,你咋给我拍成二维了,因为我用了二向箔武器啊。。。。。。

    不闹

    你要三维的,给你便是;

    刚才从三维到二维,就是进行了’降维打击‘,为什么要进行降维打击呢,这就牵扯到‘维数爆炸’理论了,又跑题了,,,,反正你知道,现实中的数据,无一例外(绝大多数),特别是高维数据(这里的维就是指特征),都是要经过’降维打击‘后再进行处理的。记住先!

    聚类先讲到这—所以说题主的问题得到特征属性这属于聚类

    ——————————————————诶?—————————————————-

    分类:

    老板有一天又和你说,诶?我这有一堆数据,你帮我分类(分类)一下,然后给你一堆数据,他就拍拍屁股走人了,办公室留下你孤独的身影。

    然后数据是这样的;

    (内心活动:我X尼玛)

    这是一个200维(特征)的数据,具体我不能截图,涉及一些实验室的项目,后面201维它实际是个标签,就是说,第一组数据,它属于第六类,这是明确给定的,同理,第二组数据,它数据第10类,那就刺激了对不对,一组数据,它拥有两百个特征,把它想象成这是6号小怪兽,它拥有两百个特征(皮肤,菱角,眼睛颜色,喷火不。。)然后把这些属性归一化,也就是说,最最明显的,归一化后比较高,最不突出的归一化后接近0,这就好了,每头小怪兽都有200个特征,只是表现的突出不突出而已,,,,然后分类的目的就是,把小怪兽都输入数据库(分类器),然后数据库不断更新完善(分类器迭代),之后奥特曼打小怪兽的时候就可以直接扫一下小怪兽,然后传给数据库,数据库根据已有的数据进行预判咯,你这小怪兽,皮肤0.4,菱角0.01,,,,,应该是属于第几类小怪兽,然后奥特曼就放绝招把,哈哈哈哈。。。。

    “严肃点!”

    “好”

    分类分为有监督,无监督,半监督,分别对应有无标签为-有-无-有一点

    有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种

    无监督也就是通常意义上的聚类,只给数据,不给标签

    半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!给个形象的图就是;

    所以日常生活中最多的是半监督分类,比较贴近现实,因为实际生活中,我们获取的数据很多都是未知标签的,然而通过一些渠道我们可以得到一点数据,这就是要用到半监督了,分类算法很多,self-training,主动学习,等等自己看需求。至于题主所说的看商品知道用户群,我个人认为属于分类的一种,应该是半监督分类,用户群是标签,而购买的商品是特征,以上。

    最后的最后,题主想要聚类算法,题主你咋不上天呢!!那么多聚类算法我们怎么说的完!!!

    不过可以推荐看几本书,数据挖掘导论,数据挖掘概念与技术,这里面的基本都是聚类算法和思想,如果我有什么冒犯的地方,题主你可以过来打我啊,哈哈哈

  2. 华天清
    理由
    举报 取消

    谢邀:首先你要明白一个概念,聚类和分类的最基本区别。

    分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。

    而聚类的理解更简单,就是你压根不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体,那就是聚类了。聚类不需要对数据进行训练和学习。

    分类属于监督学习,聚类属于无监督学习。常见的分类比如决策树分类算法、贝叶斯分类算法等聚类的算法最基本的有系统聚类,K-means均值聚类,这些都很常见,网上资料一大推,不再赘述。

我来回答

Captcha 点击图片更换验证码