发起人:猴儿 初入职场

回复 ( 4 )

  1. 董豪晨
    理由
    举报 取消

    来,咱们从头开始推一遍不就明白了吗?

    由书上192页习题8.1,我们知道P(H(n)\leq k)=\sum_{i=0}^{k}{C_{n}^{i}p^i(1-p)^{n-i}}  ,这里令p为分类器正确预测的概率,假设每个基分类器的正确预测概率相同。

    \forall \delta >0 ,有Hoeffding不等式P(H(n)\leq (p-\delta)n)\leq e^{-2\delta^2n} ,则当(p-\delta)T=\frac{T}{2} 向下取整时(因为打不出来向下取整只能用文字描述),\delta=p-\frac{1}{T}\frac{T}{2}\geq p-\frac{1}{2} =\frac{2p-1}{2} ,因为p=1-\epsilon ,所以\delta\geq \frac{1-2\epsilon }{2}

    因为\delta>0这也就表示只有在p>0.5的时候这个式子才会有意义,也就是说当p\leq 0.5时不能用这个式子估计。

  2. xyguo
    理由
    举报 取消

    在用简单的多数投票方法做集成的时候,单个分类器的错误率不能大于0.5,否则(8.3)那个bound是不成立的。

    前一页中说了分类器应该“而不同”,在多数投票的时候,“好”就是至少得比随机猜($\epsilon=0.5$)好。

  3. 张馨宇
    理由
    举报 取消

    对,你理解的没错,只不过基分类器错误率越大,需要的数量越大,毕竟里面那项是带平方的!然后还乘2……

    然后周老师写得很清楚啊,这是个理想条件下的公式,也就是说只能定性分析一下,现实中,这个bound没卵用。

    理想条件,就是不能满足的条件,然后我不觉得有什么好方法能定量推算与『各个分类器错误率独立』这理想条件间的差距。

  4. 猴儿
    理由
    举报 取消

    基分类器数目一定,错误率0.99和错误率0.01的效果是一样的,错误率是0.5时集成错误率是上限是1,也就是说基分类器不能表现的不能太中庸的意思嘛,我实在理解不了错误率0.99分类器组合起来也可以很强大:

    P(f(x) != H(x)) = ∑C(T, i)*0.01^i *0.99^(T-i) =很小 (应该很大才对啊),i从0到T/2

    求解惑

我来回答

Captcha 点击图片更换验证码