一个基于统计数据分类实例:请问有哪些适合的分类方法? 举报 理由 举报 取消 假设有反映主体(共N个属性)的n行m列数据(n<N),试将其看成主体的n个属性的m个样本,但是每个样本中的n个属性是从总共的N个属性中随机选择的,并不一一对应,也就是说第1列第1行的数值与第2列第1行的数值不表示同一属性,请问这样的数据可以进行分类吗?有何种分类方法?(我只想把它分成两类,一类是优秀的、一类是劣质的) 2017年7月6日 2 条回复 637 次浏览 学习,数据挖掘,机器,模式识别,统计数据
回复 ( 2 )
我遇到过类似问题,首先把train的属性从n扩展到N,对于N-n部分,也就是某个sample没有的属性,用默认值填充。
所以最终的属性数目应该超过N好多,具体要看第三类的属性以及unique value多少了。
这么弄了之后,可以试试跑过随机森林之类的,看看效果如何。然后精心挑选重要的属性。
PS:个人觉得就工程角度看到Machine Learning,很多时候是数据的准备和处理。核心算法之类都封装得很全面了。所以重要的就是数据预处理,挑选合适模型/参数,挑选合适属性。
如果能够把属性一一对上号,也就是说只是存在大量缺失值的情况下,我可能会首选NMF看能不能找到一组factors能解释;如果没办法对上。。。真没遇到过 期待大牛回答