一个基于统计数据分类实例:请问有哪些适合的分类方法?

理由
举报 取消

假设有反映主体(共N个属性)的n行m列数据(n<N),试将其看成主体的n个属性的m个样本,但是每个样本中的n个属性是从总共的N个属性中随机选择的,并不一一对应,也就是说第1列第1行的数值与第2列第1行的数值不表示同一属性,请问这样的数据可以进行分类吗?有何种分类方法?(我只想把它分成两类,一类是优秀的、一类是劣质的)

2017年7月6日 2 条回复 637 次浏览

回复 ( 2 )

  1. Eric D
    理由
    举报 取消

    我遇到过类似问题,首先把train的属性从n扩展到N,对于N-n部分,也就是某个sample没有的属性,用默认值填充。

    1. 如果是数值型的,可以考虑用mean或者你觉得合适的default value。
    2. 如果1和0的,那就填0 (因为该sample没有这个属性)。
    3. 如果是几个类别的,那就把这个属性再次扩展,比如属性叫State,值为(NSW,VIC,TAS),那就把这个属性列变成三个State=NSW, State=VIC, State=TAS,变成值为1或0的新属性。

    所以最终的属性数目应该超过N好多,具体要看第三类的属性以及unique value多少了。

    这么弄了之后,可以试试跑过随机森林之类的,看看效果如何。然后精心挑选重要的属性。

    PS:个人觉得就工程角度看到Machine Learning,很多时候是数据的准备和处理。核心算法之类都封装得很全面了。所以重要的就是数据预处理,挑选合适模型/参数,挑选合适属性。

  2. 秋天的松鼠
    理由
    举报 取消

    如果能够把属性一一对上号,也就是说只是存在大量缺失值的情况下,我可能会首选NMF看能不能找到一组factors能解释;如果没办法对上。。。真没遇到过 期待大牛回答

我来回答

Captcha 点击图片更换验证码