一组是Decision Tree,一组是SVM,一组是Adaboost,为什么最后留出1/4的数据validation时正确率都在95%以上,但是提交测试时正确率只有75%?大概1800组数据,维度是20000左右的sparse数据。(遇到这种情况很奇怪,希望能听到大家的见解和常见调参数的技巧,我怀疑是overfitting了)
查看全文关于C4.5连续属性信息增益修正问题?
在C4.5中,对连续属性的处理如下: 1. 对特征的取值进行升序排序 2. 两个特征取值之间的中点作为可能的分裂点,将数据集分成两部分,计算每个可能的分裂点的信息增益(InforGain)。优化算法就是只计算分类属性发生改变的那些特征取值。 3. 选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点 4. 计算最佳分裂点的信息增益率(Gain Ratio)作为特征的Gain Ratio。注意,此处需对最佳分裂点的信息增益进行修正:减去log2(N-1)/|D|(N是连续特征的可能的分裂点个数,D是训练数据数目,此修正的原因在于:当离散属性和连续属性并存时,C4.5算法倾向于选择连续特征做最佳树分裂点) 我想问的 […]
查看全文