在模型训练中正负样本的选取什么比例比较好? 举报 理由 举报 取消 如题所示,大家觉得在模型训练中,正负样本选取已那种比例比较好,是基于样本的分布选取比例,还是直接1:1,或者与模型有关呢 2017年5月29日 6 条回复 1410 次浏览 学习,数据,数据挖掘,机器
回复 ( 6 )
简单说下自己的看法
首先,如果能够做到尽量平衡肯定是极好的,这样你就不用担心这样的问题了。
然而,如果确实做不到尽量平衡,这个时候就会是Imbalanced Data的问题了,可以去看看cascade learning,或者重采样的方法等等,这个也是基本属于让你数据平衡。
至于你说的是否和模型有关,这个有的算法是可以做到的,比如Random Forest在采样的时候,可以调整Boostrap时候每个类别下的采样比率,其实这也算是重采样了。个人觉得所谓的比率不一定说哪个比例就不好,你比如如果在Decision Tree的时候,你本身就有一个很明显的分割线能100%正确,那无论你样本比例多少都是不会影响这个分类的,只是说会得到的一个结果是模型随便瞎猜的时候正确率 召回率都很高而已,所以还是得看你怎么取看待你模型预测的结果。
一个很常见的想法就是指纹识别的问题,如果是本人,刷错了,这个惩罚的代价很小,不是本人,反而刷对了,这个时候惩罚就要很大,从这个角度去考虑,即使你考虑了1:1的数据比例,但是你并不能用正确率和召回率来衡量你的模型的好坏,这个时候你考虑的是够安全的问题。所以通过调整样本分错的惩罚系数也会使得你的分类器具有倾向性。
希望对你有帮助
基于样本的分布选取比例。因为大部分的model都假设train test 的data是iid的。如果条件所限没有真实比例的训练集,可以自己生成一些正例/负例配平 或者用一些可以设置prior的model
因为很多好的样本模式都是相似的,对于相似的模式不用保留太多的样本。如果负样本和正样本一样多,随机采样的负样本覆盖的特征空间会很小.
假如特征很强,比例偏差一些也没关系。特征弱的话,还是等比吧。
以实验结果为准
1:1吧,差太多就会产生数据倾斜(应该是这个词)