随机森林中是怎么对数据进行随机选择的? 举报 理由 举报 取消 在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试? 2017年5月20日 2 条回复 1165 次浏览 学习,数据挖掘,机器,算法
回复 ( 2 )
两种都可以,前一种用的多,后一种一般采样三分之二
第二种方法随机500个,然后这500个被用于所有树的训练,这是比较不好的。因为随机森林中决策树的丰富性是很重要的(决策树构建时使用特征的组合作为候选特征也是出于这个目的)。