帐户注册

用户名*

邮箱*

密码*

确认密码*

头像

浏览

验证码* 点击图片更换验证码

找回密码

忘记密码了？输入你的注册邮箱，并点击重置，稍后，你将会收到一封密码重置邮件。

我训练了三组text classifier有什么问题？

理由

举报取消

一组是Decision Tree，一组是SVM，一组是Adaboost，为什么最后留出1/4的数据validation时正确率都在95%以上，但是提交测试时正确率只有75%？大概1800组数据，维度是20000左右的sparse数据。（遇到这种情况很奇怪，希望能听到大家的见解和常见调参数的技巧，我怀疑是overfitting了）

2018年2月13日 3 条回复 1333 次浏览

决策树,学习,数据挖掘,机器,集成

发起人：立党 初入职场

公众号：立党说

回复 ( 3 )

peter 初入职场
0
举报回复
理由

举报取消

training sample每次一样吗？既然sample size不大可以试试5 fold cross validation
雨宫管理大师
0
举报回复
理由

举报取消

如果你的feature是n-gram，可以使用information gain，chi-square，fisher score等方法进行feature selection，筛选出少数对分类最effective的n-gram。
Wan Ma 管理大师
0
举报回复
理由

举报取消

可做一下cross validation，同一算法可以多跑几次，每次shuffle一下数据然后再做CV。如果还是这样，那还有一种最蛋疼的情况：训练集和测试集分布差别有点大，虽然这种情况并不常见

帐户注册

登录

找回密码

我训练了三组text classifier有什么问题？

发起人：立党 初入职场

回复 ( 3 )

我来回答

发起人：立党初入职场