建立决策树，现在有50多个变量，到底选择哪些变量？如何筛选变量，我是初学者，请高手指点？

理由

举报取消

2017年11月24日 7 条回复 1661 次浏览

数据挖掘

回复 ( 7 )

贺勇初入职场
0
举报回复
理由

举报取消

谢邀。

五十个特征不算多。

如果要进行特征选择，决策树自带特征选择的功能，使用的是信息增益，也可以是信息增益率，gini系数。把决策树建立的原理搞明白就懂了，如果需要进行选择，则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等，目的就是为了防止过拟合与提高效率，其实防止过拟合可以使用随机森林(Random Forest)。

顺便说一下，其它的特征选择方法：

1. 卡方检验Chi-square

2. 信息增益(IG，Information Gain)

3. 信息增益率(IGR)

4. 基尼系数

5. 相关系数

等等。。。

具体原理，google吧
匿名用户管理大师
0
举报回复
理由

举报取消

决策树不需要你选变量
笨的平方初入职场
0
举报回复
理由

举报取消

计算information gain，大的就排在树顶，小的依次排下面
付恒初入职场
0
举报回复
理由

举报取消

决策树算法就是这么个过程：
while True: 选择最好的特征分割数据集
黄钦建初入职场
0
举报回复
理由

举报取消

机器学习之决策树（Decision Tree）及其Python代码实现

今天刚写的一篇读书笔记，是关于机器学习之决策树（Decision Tree）及其Python代码实现，欢迎大家批评指正！
沧海初入职场
0
举报回复
理由

举报取消

遍历所有变量，选择效果最好的那个，然后递归遍历下去关于效果的评测，可以自己写一个计算混乱度的方法，混乱度越大，表示效果越差
吴学华初入职场
0
举报回复
理由

举报取消

你是指自己手动选择变量？

找回密码

建立决策树，现在有50多个变量，到底选择哪些变量？如何筛选变量，我是初学者，请高手指点？

发起人：weed 初入职场

回复 ( 7 )

我来回答

帐户注册

登录

找回密码

建立决策树，现在有50多个变量，到底选择哪些变量？如何筛选变量，我是初学者，请高手指点？

发起人：weed 初入职场

回复 ( 7 )

我来回答