分享
关于C4.5连续属性信息增益修正问题?
在C4.5中,对连续属性的处理如下:
1. 对特征的取值进行升序排序
2. 两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(InforGain)。优化算法就是只计算分类属性发生改变的那些特征取值。
3. 选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点
4. 计算最佳分裂点的信息增益率(Gain Ratio)作为特征的Gain Ratio。注意,此处需对最佳分裂点的信息增益进行修正:减去log2(N-1)/|D|(N是连续特征的可能的分裂点个数,D是训练数据数目,此修正的原因在于:当离散属性和连续属性并存时,C4.5算法倾向于选择连续特征做最佳树分裂点)
我想问的问题是关于第4点的信息增益修正,N作为连续特征可能的分裂点个数,不就是相当于 D(训练数据数目)- 1 吗? 这个是否正确?
其次的是,在第2点的最后说明那里,并不是每个分裂点都计算,优化算法就是只计算分类属性发生改变的那些特征取值。那这个时候N是保持 D(训练数据数目)- 1 呢?还是只是分类属性发生改变时候的分裂点的数量
回复 ( 1 )
1:为何倾向于连续型属性?
2:是一个阈值的函数,不太明白?