用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
谢邀。
五十个特征不算多。
如果要进行特征选择,决策树自带特征选择的功能,使用的是信息增益,也可以是信息增益率,gini系数。把决策树建立的原理搞明白就懂了,如果需要进行选择,则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等,目的就是为了防止过拟合与提高效率,其实防止过拟合可以使用随机森林(Random Forest)。
顺便说一下,其它的特征选择方法:
1. 卡方检验Chi-square
2. 信息增益(IG,Information Gain)
3. 信息增益率(IGR)
4. 基尼系数
5. 相关系数
等等。。。
具体原理,google吧
决策树不需要你选变量
计算information gain, 大的就排在树顶,小的依次排下面
决策树算法就是这么个过程:
while True: 选择最好的特征 分割数据集
机器学习之决策树(Decision Tree)及其Python代码实现
今天刚写的一篇读书笔记,是关于机器学习之决策树(Decision Tree)及其Python代码实现,欢迎大家批评指正!
遍历所有变量,选择效果最好的那个,然后递归遍历下去 关于效果的评测,可以自己写一个计算混乱度的方法,混乱度越大,表示效果越差
你是指自己手动选择变量?
昵称*
E-Mail*
回复内容*
回复 ( 7 )
谢邀。
五十个特征不算多。
如果要进行特征选择,决策树自带特征选择的功能,使用的是信息增益,也可以是信息增益率,gini系数。把决策树建立的原理搞明白就懂了,如果需要进行选择,则使用前n个特征或者百分比或者信息增益阈值或者限定树的高度等,目的就是为了防止过拟合与提高效率,其实防止过拟合可以使用随机森林(Random Forest)。
顺便说一下,其它的特征选择方法:
1. 卡方检验Chi-square
2. 信息增益(IG,Information Gain)
3. 信息增益率(IGR)
4. 基尼系数
5. 相关系数
等等。。。
具体原理,google吧
决策树不需要你选变量
计算information gain, 大的就排在树顶,小的依次排下面
决策树算法就是这么个过程:
机器学习之决策树(Decision Tree)及其Python代码实现
今天刚写的一篇读书笔记,是关于机器学习之决策树(Decision Tree)及其Python代码实现,欢迎大家批评指正!
遍历所有变量,选择效果最好的那个,然后递归遍历下去 关于效果的评测,可以自己写一个计算混乱度的方法,混乱度越大,表示效果越差
你是指自己手动选择变量?