做数据挖掘发现变量太多,维数太多,做了因子分析有没有很明显的公因子,这种情况如何降维?谢谢?

理由
举报 取消
2017年7月18日 2 条回复 1064 次浏览

回复 ( 2 )

  1. Slade Sal
    理由
    举报 取消

    非学术论文,常见的工程处理中,方法如下,仅供参考:

    1.值的信息饱和程度

    比如:常常会观察值的IV值,提取更高信息量的变量;会观察变量之间的协方差矩阵,删除共线性高的变量等等

    2.原始变量组合

    以变量组合后,信息量减少最少的方式产出新变量Vi,常见于PCA等

    3.模型筛选

    比如randomforest中的importance,lasso回归等,压缩变量个数降低维度

    4.模型训练

    在模型训练过程中,前馈或者后馈式的删减新增变量,观察模型前后的AIC值、recall值的变化

    5.业务经验

    比如,一个人的信用程度和他是不是帅气没有关系,可以直接删除

  2. Rowlin
    理由
    举报 取消

    要先做KMO和Bartlett检验来看该数据集是否适合降维

我来回答

Captcha 点击图片更换验证码