关于C4.5连续属性信息增益修正问题?

理由
举报 取消

在C4.5中,对连续属性的处理如下:

1. 对特征的取值进行升序排序

2. 两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(InforGain)。优化算法就是只计算分类属性发生改变的那些特征取值。

3. 选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点

4. 计算最佳分裂点的信息增益率(Gain Ratio)作为特征的Gain Ratio。注意,此处需对最佳分裂点的信息增益进行修正:减去log2(N-1)/|D|(N是连续特征的可能的分裂点个数,D是训练数据数目,此修正的原因在于:当离散属性和连续属性并存时,C4.5算法倾向于选择连续特征做最佳树分裂点)

我想问的问题是关于第4点的信息增益修正,N作为连续特征可能的分裂点个数,不就是相当于 D(训练数据数目)- 1 吗? 这个是否正确?

其次的是,在第2点的最后说明那里,并不是每个分裂点都计算,优化算法就是只计算分类属性发生改变的那些特征取值。那这个时候N是保持 D(训练数据数目)- 1 呢?还是只是分类属性发生改变时候的分裂点的数量

2017年11月26日 1 条回复 1169 次浏览

发起人:张冕 初入职场

以大多数人的努力程度之低,根本轮不到拼天赋。

回复 ( 1 )

  1. fresh
    理由
    举报 取消

    1:为何倾向于连续型属性?

    2:是一个阈值的函数,不太明白?

我来回答

Captcha 点击图片更换验证码