一个基于统计数据分类实例：请问有哪些适合的分类方法？

理由

举报取消

假设有反映主体（共N个属性）的n行m列数据（n<N），试将其看成主体的n个属性的m个样本，但是每个样本中的n个属性是从总共的N个属性中随机选择的，并不一一对应，也就是说第1列第1行的数值与第2列第1行的数值不表示同一属性，请问这样的数据可以进行分类吗？有何种分类方法？（我只想把它分成两类，一类是优秀的、一类是劣质的）

2017年7月6日 2 条回复 873 次浏览

学习,数据挖掘,机器,模式识别,统计数据

回复 ( 2 )

Eric D 初入职场
0
举报回复
理由

举报取消

我遇到过类似问题，首先把train的属性从n扩展到N，对于N-n部分，也就是某个sample没有的属性，用默认值填充。
1. 如果是数值型的，可以考虑用mean或者你觉得合适的default value。
2. 如果1和0的，那就填0 （因为该sample没有这个属性）。
3. 如果是几个类别的，那就把这个属性再次扩展，比如属性叫State，值为（NSW，VIC，TAS），那就把这个属性列变成三个State=NSW, State=VIC, State=TAS，变成值为1或0的新属性。
所以最终的属性数目应该超过N好多，具体要看第三类的属性以及unique value多少了。

这么弄了之后，可以试试跑过随机森林之类的，看看效果如何。然后精心挑选重要的属性。

PS：个人觉得就工程角度看到Machine Learning，很多时候是数据的准备和处理。核心算法之类都封装得很全面了。所以重要的就是数据预处理，挑选合适模型/参数，挑选合适属性。
秋天的松鼠初入职场
0
举报回复
理由

举报取消

如果能够把属性一一对上号，也就是说只是存在大量缺失值的情况下，我可能会首选NMF看能不能找到一组factors能解释；如果没办法对上。。。真没遇到过期待大牛回答

找回密码

一个基于统计数据分类实例：请问有哪些适合的分类方法？

发起人：张弼尧 初入职场

回复 ( 2 )

我来回答

帐户注册

登录

找回密码

一个基于统计数据分类实例：请问有哪些适合的分类方法？

发起人：张弼尧 初入职场

回复 ( 2 )

我来回答

发起人：张弼尧初入职场