在模型训练中正负样本的选取什么比例比较好?

理由
举报 取消

如题所示,大家觉得在模型训练中,正负样本选取已那种比例比较好,是基于样本的分布选取比例,还是直接1:1,或者与模型有关呢

2017年5月29日 6 条回复 1410 次浏览

回复 ( 6 )

  1. Vincent
    理由
    举报 取消

    简单说下自己的看法

    首先,如果能够做到尽量平衡肯定是极好的,这样你就不用担心这样的问题了。

    然而,如果确实做不到尽量平衡,这个时候就会是Imbalanced Data的问题了,可以去看看cascade learning,或者重采样的方法等等,这个也是基本属于让你数据平衡。

    至于你说的是否和模型有关,这个有的算法是可以做到的,比如Random Forest在采样的时候,可以调整Boostrap时候每个类别下的采样比率,其实这也算是重采样了。个人觉得所谓的比率不一定说哪个比例就不好,你比如如果在Decision Tree的时候,你本身就有一个很明显的分割线能100%正确,那无论你样本比例多少都是不会影响这个分类的,只是说会得到的一个结果是模型随便瞎猜的时候正确率 召回率都很高而已,所以还是得看你怎么取看待你模型预测的结果。

    一个很常见的想法就是指纹识别的问题,如果是本人,刷错了,这个惩罚的代价很小,不是本人,反而刷对了,这个时候惩罚就要很大,从这个角度去考虑,即使你考虑了1:1的数据比例,但是你并不能用正确率和召回率来衡量你的模型的好坏,这个时候你考虑的是够安全的问题。所以通过调整样本分错的惩罚系数也会使得你的分类器具有倾向性。

    希望对你有帮助

  2. 坑王
    理由
    举报 取消

    基于样本的分布选取比例。因为大部分的model都假设train test 的data是iid的。如果条件所限没有真实比例的训练集,可以自己生成一些正例/负例配平 或者用一些可以设置prior的model

  3. 宋殊同
    理由
    举报 取消

    因为很多好的样本模式都是相似的,对于相似的模式不用保留太多的样本。如果负样本和正样本一样多,随机采样的负样本覆盖的特征空间会很小.

  4. 马大糟
    理由
    举报 取消

    假如特征很强,比例偏差一些也没关系。特征弱的话,还是等比吧。

  5. 用户头像
    理由
    举报 取消

    以实验结果为准

  6. 烦恼是什么颜色
    理由
    举报 取消

    1:1吧,差太多就会产生数据倾斜(应该是这个词)

我来回答

Captcha 点击图片更换验证码