我训练了三组text classifier有什么问题? 举报 理由 举报 取消 一组是Decision Tree,一组是SVM,一组是Adaboost,为什么最后留出1/4的数据validation时正确率都在95%以上,但是提交测试时正确率只有75%?大概1800组数据,维度是20000左右的sparse数据。(遇到这种情况很奇怪,希望能听到大家的见解和常见调参数的技巧,我怀疑是overfitting了) 2018年2月13日 3 条回复 920 次浏览 决策树,学习,数据挖掘,机器,集成
回复 ( 3 )
training sample每次一样吗?既然sample size不大可以试试5 fold cross validation
如果你的feature是n-gram,可以使用information gain,chi-square,fisher score等方法进行feature selection,筛选出少数对分类最effective的n-gram。
可做一下cross validation,同一算法可以多跑几次,每次shuffle一下数据然后再做CV。如果还是这样,那还有一种最蛋疼的情况:训练集和测试集分布差别有点大,虽然这种情况并不常见