决策树 - 12Reads管理问答

我训练了三组text classifier有什么问题？

立党 2018-02-13 1294 次浏览

一组是Decision Tree，一组是SVM，一组是Adaboost，为什么最后留出1/4的数据validation时正确率都在95%以上，但是提交测试时正确率只有75%？大概1800组数据，维度是20000左右的sparse数据。（遇到这种情况很奇怪，希望能听到大家的见解和常见调参数的技巧，我怀疑是overfitting了）

查看全文

在C4.5中，对连续属性的处理如下： 1. 对特征的取值进行升序排序 2. 两个特征取值之间的中点作为可能的分裂点，将数据集分成两部分，计算每个可能的分裂点的信息增益（InforGain）。优化算法就是只计算分类属性发生改变的那些特征取值。 3. 选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点 4. 计算最佳分裂点的信息增益率（Gain Ratio）作为特征的Gain Ratio。注意，此处需对最佳分裂点的信息增益进行修正：减去log2(N-1)/|D|（N是连续特征的可能的分裂点个数，D是训练数据数目，此修正的原因在于：当离散属性和连续属性并存时，C4.5算法倾向于选择连续特征做最佳树分裂点）我想问的 […]

查看全文

决策树C5.0 支持设置样本权重和类权重，哪位大神知道二者的实现原理，哪里有参考资料？多谢！?

黑暗骑士 2017-09-15 1215 次浏览

查看全文

跟导师做数据，现在看决策树和随机森林！后来知道它们是属于数据挖掘，怎么入门？数学功底还可以，编程小白？

皮大大 2017-05-05 1192 次浏览

数据挖掘，决策树，随机森林

查看全文

找回密码

我训练了三组text classifier有什么问题？

关于C4.5连续属性信息增益修正问题？

决策树C5.0 支持设置样本权重和类权重，哪位大神知道二者的实现原理，哪里有参考资料？多谢！?

跟导师做数据，现在看决策树和随机森林！后来知道它们是属于数据挖掘，怎么入门？数学功底还可以，编程小白？

帐户注册

登录

找回密码

我训练了三组text classifier有什么问题？

关于C4.5连续属性信息增益修正问题？

决策树C5.0 支持设置样本权重和类权重，哪位大神知道二者的实现原理，哪里有参考资料？ 多谢！?

跟导师做数据，现在看决策树和随机森林！后来知道它们是属于数据挖掘，怎么入门？数学功底还可以，编程小白？

决策树C5.0 支持设置样本权重和类权重，哪位大神知道二者的实现原理，哪里有参考资料？多谢！?