我训练了三组text classifier有什么问题?

理由
举报 取消

一组是Decision Tree,一组是SVM,一组是Adaboost,为什么最后留出1/4的数据validation时正确率都在95%以上,但是提交测试时正确率只有75%?大概1800组数据,维度是20000左右的sparse数据。(遇到这种情况很奇怪,希望能听到大家的见解和常见调参数的技巧,我怀疑是overfitting了)

2018年2月13日 3 条回复 820 次浏览

发起人:立党 初入职场

公众号:立党说

回复 ( 3 )

  1. peter
    理由
    举报 取消

    training sample每次一样吗?既然sample size不大可以试试5 fold cross validation

  2. 雨宫
    理由
    举报 取消

    如果你的feature是n-gram,可以使用information gain,chi-square,fisher score等方法进行feature selection,筛选出少数对分类最effective的n-gram。

  3. Wan Ma
    理由
    举报 取消

    可做一下cross validation,同一算法可以多跑几次,每次shuffle一下数据然后再做CV。如果还是这样,那还有一种最蛋疼的情况:训练集和测试集分布差别有点大,虽然这种情况并不常见

我来回答

Captcha 点击图片更换验证码