拒绝推断问题？

理由

举报取消

问题是0、1分类有分类器A，分类器A（也是用于同一分类，暂且认为这个分类器是有效的，好于随机但也不够理想）判断为1以后，才可以知道样本的真实标签，换句话说，样本有两个标签，真实标签和是否通过分类器A。如果没有通过分类器A，那么也没有真实标签。问：现在需要训练分类器B取代分类器A，但可以用的有真实标签的样本是已经通过了分类器A的。现在分类器A已经没有了，而且不可知。如果只用知道样本的真实标签的数据进行训练比如会出现偏差（因为分类器A已经过滤了一部分）。怎么处理这个问题？或者说怎么将原本没有通过A的样本的标签表示出来？

2017年9月12日 1 条回复 966 次浏览

人工智能,学习,数据挖掘,机器,概率,统计

回复 ( 1 )

王赟 Maigo 初入职场
0
举报回复
理由

举报取消

没有通过分类器A的那部分数据，你还有吗？

如果没有，那么你就只能用通过了A的那部分数据来训练分类器B了。

如果有，那么对于这部分数据，你至少可以选择相信分类器A，把它们全都标成0类，再用于训练分类器B。

更好一点地，你可以采用semi-supervised方法：先利用通过了分类器A的数据训练一个分类器B，然后用B去预测没有通过A的数据，把其中类别非常确定的数据加到B的训练数据中，重复此过程。

但是，通过了A和没有通过A的数据的分布不一致，这是一个比较严重的问题。

我觉得，分类器B选用generative model会比discriminative model更好。

另外，如果你还有没有通过A的那部分数据，那么你就可以用通过和没通过A的两部分数据重新训练出A，然后跟B组合成一个更强的分类器。

找回密码

拒绝推断问题？

发起人：金戈戈 初入职场

回复 ( 1 )

我来回答

帐户注册

登录

找回密码

拒绝推断问题？

发起人：金戈戈 初入职场

回复 ( 1 )

我来回答

发起人：金戈戈初入职场