多重插补的结果是否可以用于数据挖掘? 举报 理由 举报 取消 最近在看一些数据挖掘的东西,在数据挖掘前首先要进行数据预处理,而多重插补是一种比较好的插补缺失值对的方法,但是刚刚在一篇文献上看到,多重插补的数据最好不要用于数据挖掘,不知道对不对 2017年10月16日 4 条回复 1360 次浏览 SPSS,分析师,分类,数据,数据挖掘,算法
回复 ( 4 )
生成的插补数据集不存在能否用于研究的问题,关键在于你原始数据集的缺失样本占整体样本的比例,我之前查过文献,对于在10~20%的比例范围内均可使用,10%以下更不用说,一般使用多重插补是针对多属性或高维数据有用,但有类别数据除外。
你这个多重插补确切的说是个什么意思呢?如果存在数据不平衡问题,有很多方法可以做,其中数据预处理是一个重要方法。数据预处理方面有随机采样和smote方法,随机采样有欠采样和过采样,smote方法利用了线性插值的思想,人工构造数据,我自己在做实验时,也存在这样的一个问题。
对于缺失值的话也是有很多方法的,例如在推荐系统中我们可以根据已知的电影评分来估计别的电影评分,就我所知矩阵分解是一个不错的方法,还有流行模型,你可以找这方面论文看一下。
不太确定缺失值怎么处理,有决策树的算法是按照已有样本分权重去算。一般来说建立新样本的方法都要冒险,包括smote的采样,所以慎重制造样本。 有错轻喷
还希望大家多多帮忙啊