随机森林中是怎么对数据进行随机选择的?

理由
举报 取消

在随机森林中使用Bagging方法,比如有1000个样本,每一次采用Bootstrap采样(有放回),那么就是说每次选1000个(有重复),但是有的样本在采样中没有被选择过,就把它们当作out-of-bag来进行测试,是这样吗?还是在1000个样本中随机选择一些,比如500个,然后用剩下的500个进行测试?

2017年5月20日 2 条回复 1145 次浏览

发起人:雷天琪 管理大师

这是一个理论终结的时代

回复 ( 2 )

  1. 匿名用户
    理由
    举报 取消

    两种都可以,前一种用的多,后一种一般采样三分之二

  2. 用户头像
    理由
    举报 取消

    第二种方法随机500个,然后这500个被用于所有树的训练,这是比较不好的。因为随机森林中决策树的丰富性是很重要的(决策树构建时使用特征的组合作为候选特征也是出于这个目的)。

我来回答

Captcha 点击图片更换验证码