建立决策树,现在有50多个变量,到底选择哪些变量?如何筛选变量,我是初学者,请高手指点?

理由
举报 取消
2017年11月24日 7 条回复 1631 次浏览

发起人:weed 初入职场

回复 ( 7 )

  1. 贺勇
    理由
    举报 取消

    谢邀。

    五十个特征不算多。

    如果要进行特征选择,决策树自带特征选择的功能,使用的是信息增益,也可以是信息增益率,gini系数。把决策树建立的原理搞明白就懂了,如果需要进行选择,则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等,目的就是为了防止过拟合与提高效率,其实防止过拟合可以使用随机森林(Random Forest)。

    顺便说一下,其它的特征选择方法:

    1. 卡方检验Chi-square

    2. 信息增益(IG,Information Gain)

    3. 信息增益率(IGR)

    4. 基尼系数

    5. 相关系数

    等等。。。

    具体原理,google吧

  2. 匿名用户
    理由
    举报 取消

    决策树不需要你选变量

  3. 笨的平方
    理由
    举报 取消

    计算information gain, 大的就排在树顶,小的依次排下面

  4. 付恒
    理由
    举报 取消

    决策树算法就是这么个过程:

    while True:
        选择最好的特征
        分割数据集
    
  5. 黄钦建
    理由
    举报 取消

    机器学习之决策树(Decision Tree)及其Python代码实现

    今天刚写的一篇读书笔记,是关于机器学习之决策树(Decision Tree)及其Python代码实现,欢迎大家批评指正!

  6. 用户头像
    理由
    举报 取消

    遍历所有变量,选择效果最好的那个,然后递归遍历下去 关于效果的评测,可以自己写一个计算混乱度的方法,混乱度越大,表示效果越差

  7. 吴学华
    理由
    举报 取消

    你是指自己手动选择变量?

我来回答

Captcha 点击图片更换验证码