拒绝推断问题? 举报 理由 举报 取消 问题是0、1分类有分类器A,分类器A(也是用于同一分类,暂且认为这个分类器是有效的,好于随机但也不够理想)判断为1以后,才可以知道样本的真实标签,换句话说,样本有两个标签,真实标签和是否通过分类器A。如果没有通过分类器A,那么也没有真实标签。问:现在需要训练分类器B取代分类器A,但可以用的有真实标签的样本是已经通过了分类器A的。现在分类器A已经没有了,而且不可知。如果只用知道样本的真实标签的数据进行训练比如会出现偏差(因为分类器A已经过滤了一部分)。怎么处理这个问题?或者说怎么将原本没有通过A的样本的标签表示出来? 2017年9月12日 1 条回复 813 次浏览 人工智能,学习,数据挖掘,机器,概率,统计
回复 ( 1 )
没有通过分类器A的那部分数据,你还有吗?
如果没有,那么你就只能用通过了A的那部分数据来训练分类器B了。
如果有,那么对于这部分数据,你至少可以选择相信分类器A,把它们全都标成0类,再用于训练分类器B。
更好一点地,你可以采用semi-supervised方法:先利用通过了分类器A的数据训练一个分类器B,然后用B去预测没有通过A的数据,把其中类别非常确定的数据加到B的训练数据中,重复此过程。
但是,通过了A和没有通过A的数据的分布不一致,这是一个比较严重的问题。
我觉得,分类器B选用generative model会比discriminative model更好。
另外,如果你还有没有通过A的那部分数据,那么你就可以用通过和没通过A的两部分数据重新训练出A,然后跟B组合成一个更强的分类器。