在模型训练中正负样本的选取什么比例比较好？

理由

举报取消

如题所示，大家觉得在模型训练中，正负样本选取已那种比例比较好，是基于样本的分布选取比例，还是直接1:1，或者与模型有关呢

2017年5月29日 6 条回复 1501 次浏览

学习,数据,数据挖掘,机器

回复 ( 6 )

Vincent 管理专家
0
举报回复
理由

举报取消

简单说下自己的看法

首先，如果能够做到尽量平衡肯定是极好的，这样你就不用担心这样的问题了。

然而，如果确实做不到尽量平衡，这个时候就会是Imbalanced Data的问题了，可以去看看cascade learning，或者重采样的方法等等，这个也是基本属于让你数据平衡。

至于你说的是否和模型有关，这个有的算法是可以做到的，比如Random Forest在采样的时候，可以调整Boostrap时候每个类别下的采样比率，其实这也算是重采样了。个人觉得所谓的比率不一定说哪个比例就不好，你比如如果在Decision Tree的时候，你本身就有一个很明显的分割线能100%正确，那无论你样本比例多少都是不会影响这个分类的，只是说会得到的一个结果是模型随便瞎猜的时候正确率召回率都很高而已，所以还是得看你怎么取看待你模型预测的结果。

一个很常见的想法就是指纹识别的问题，如果是本人，刷错了，这个惩罚的代价很小，不是本人，反而刷对了，这个时候惩罚就要很大，从这个角度去考虑，即使你考虑了1:1的数据比例，但是你并不能用正确率和召回率来衡量你的模型的好坏，这个时候你考虑的是够安全的问题。所以通过调整样本分错的惩罚系数也会使得你的分类器具有倾向性。

希望对你有帮助
坑王初入职场
0
举报回复
理由

举报取消

基于样本的分布选取比例。因为大部分的model都假设train test 的data是iid的。如果条件所限没有真实比例的训练集，可以自己生成一些正例/负例配平或者用一些可以设置prior的model
宋殊同初入职场
0
举报回复
理由

举报取消

因为很多好的样本模式都是相似的，对于相似的模式不用保留太多的样本。如果负样本和正样本一样多，随机采样的负样本覆盖的特征空间会很小.
马大糟初入职场
0
举报回复
理由

举报取消

假如特征很强，比例偏差一些也没关系。特征弱的话，还是等比吧。
PoisonBOx 初入职场
0
举报回复
理由

举报取消

以实验结果为准
烦恼是什么颜色初入职场
0
举报回复
理由

举报取消

1：1吧，差太多就会产生数据倾斜（应该是这个词）

找回密码

在模型训练中正负样本的选取什么比例比较好？

发起人：黄成炎 初入职场

回复 ( 6 )

我来回答

帐户注册

登录

找回密码

在模型训练中正负样本的选取什么比例比较好？

发起人：黄成炎 初入职场

回复 ( 6 )

我来回答

发起人：黄成炎初入职场