为什么分母从n变成n

理由
举报 取消

题主对“有偏估计”和“无偏估计”间的转化,存在一定疑问:为什么分母从n变成n-1,就能把样本的有偏估计转化成无偏估计? 我知道样本方差之所以是有偏估计,是因为它有系统性误差,不管怎么抽样,样本方差值总是小于理论方差值。 之所以存在这样的系统性误差,是因为计算式使用的均值是样本均值Y,不是总体均值u。由于Y是样本中n个X求得的均值,它总是比理论上的u更加靠近这一组样本中心。 同时也知道分母n-1的由来大概是因为自由度。由于Y本身是n个X的均值,并不独立,依赖于每组X抽样。所以均值表达式其实是1个约束式子,方差计算式的自由度就从n变成了n-1。要减去这个约束。 然后呢?为什么减去这个约束,用正确的自由度来描述计算式,它就成了无偏估计?怎么解释系统性误差就完完全全是因为自由度引起的?修正一下自由度就完全解除了系统性误差???想不明白,求大神指教。

2017年8月28日 10 条回复 1518 次浏览

发起人:Stan 管理大师

是因为我写了一个要扩列的QQ号(50584411…

回复 ( 10 )

  1. 胡鞍钢
    理由
    举报 取消

    因为样本均值\overline{X}并不等于期望EX = \mu,而是本身就是一个随机变量。这个随机变量的期望为均值\mu,方差比较小(是\text{Var}(X)n分之一)。(用通俗的语言举个具体的例子,掷均匀六面骰子,点数的期望是 3.5, 是一个确定的数字。但是如果你只是掷六次取平均值,还是有可能掷出六个 1 或者六个 6 —— 这时候平均值分别是 1 和 6, 这体现的就是\overline{X}是随机变量这件事情。)

    原来的问题

    为什么分母从n变成n-1,就能把样本的有偏估计转化成无偏估计?

    其实有点没问到点子上。其实n-1并不是变魔法得到的。解释起来分两个方面,1. 分母是n的时候有偏; 2. 为了无偏经过计算得到的结果是要用一个\dfrac{n}{n-1}的因子来修正。自由度之类的答案并不是说错了,但讲得太滥了有点误导初学者。

    上面说到的两个方面,2. 是计算的结果,不多解释了。1. 需要多解释一下。也就是要回答这个问题:

    如果X是一个随机变量,X_1, \ldots, X_n互相独立且与X独立同分布,

    为什么用 \dfrac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2定义出来的量,并不是X的方差?

    (其中\overline{X} := \dfrac{X_1+\ldots+X_n}{n}

    答: 因为\overline{X}并不是均值EX = \mu,而是一个期望为均值\mu,方差比较小的随机变量(而且这个随机变量和X_1, \ldots, X_n还是相关的,这就是提到自由度的原因之一)。

    方差\text{Var}(X)是由\dfrac{1}{n}\sum_{i=1}^n (X_i - \mu)^2定义的,明白了\overline{X}\mu并不是一回事之后,就可以开始计算原来的那个定义跟方差的定义之间的差异——这就是课本上的标准计算了,简单说就是把

    \dfrac{1}{n}\sum_{i=1}^n (X_i - \mu)^2 = \dfrac{1}{n}\sum_{i=1}^n ((X_i - \overline{X}) + (\overline{X} - \mu))^2

    展开,展开之后会发现,差的那个因子,其实来自于\overline{X}的方差(正好是\text{Var}(X)1/n,因为X_1, \ldots, X_n互相独立且与X独立同分布,所以他们的和的方差是X的方差的 n 倍,除以 n 之后方差变成原来的\dfrac{1}{n^2}. 所以\overline{X}的方差是X的方差的\dfrac{1}{n}.)。

    最后,自由度的说法并没有说错,但是解释得太粗暴了还是容易引起误解。具体细节要看关于\chi^2分布的计算:如果X是标准正态分布,则\sum_{i=1}^n (X_i - \overline{X})^2这个量,是n-1独立同分布的服从标准正态分布的随机变量的平方和,这个n - 1说的其实是\chi^2分布的自由度。

    P.S. 关心最初提到的计算的读者,可以参考这个答案:为什么样本方差(sample variance)的分母是 n-1? – 知乎用户的回答 本答案是由我在那个答案下的一个一句话评论衍生出来的。(顺便说一句,那个问题里面很多答案都似是而非,噪音很多。但上面链接的答案是一个比较有诚意的。作者也说不通过计算没法解释为什么是n-1而不是n-2.)

  2. 草刺猬
    理由
    举报 取消

    听说开头吼一句反对全部特别爽 (^_^) 好像其他答案都在说为什么是n-1,题主根本没在问这个,而是问与自由度联系好吗。

    事实上,无偏估计时,那个分母也不一定是n-1(只是大多数时候是),而一定是自由度

    举个例子,比如说你要测定一种植物生长与肥料的关系,将氮的含量分成三个区间,分别求每个区间的平均数和方差,再得出总方差,这时如果取无偏估计,可以计算分母就是n-3。

    有的人理解n-3的来源是(n1-1)+(n2-1)+(n3-1),n1 n2 n3分别每个区间样本个数,这样理解实际是不确切的。如果我们再取一变量,磷的含量分成三个区间,这样和氮一起,就将原样本分成了9个区间,但无偏估计时,分母却并不是n-9,因为9个区间并不是相互独立的,分母是n-5,等于其自由度。

    首先先考虑自由度为n-1的时候,这是候所有数据是一大坨不分类的,其实这时所有样本都被看做是homogeneous的,自由度的减少并不来自样本本身,而是来自人为的规定:规定你的估计必须是无偏的(从这也可以看出无偏估计其实并不一定是最好的估计)。

    此时方差的定义是

    \frac{1}{n}\sum_{1}^{n}{(x_{i}-u)^2 }

    u是x的数学期望,直接替代成平均数显然是有bias的:

    \frac{1}{n}\sum_{1}^{n}{(x_{i}-u)^2 }=\frac{1}{n}\sum_{1}^{n}{((x_{i}-\bar{x})+(\bar{x} -u) )^2 }=\frac{1}{n}\sum_{1}^{n}{(x_{i}-\bar{x} )^2 } +E(\bar{x} -u)^2

    你看他多出了一项

    无偏估计在计算上还有个优势,就是使平方的和直接变为了和的平方。我们都知道,那个小尾巴始终是方差的n分之一,这就是n-1的来源。

    我们再考虑提到的氮的情况,方差的定义是每个数偏离其数学期望的平方的数学期望,此时数被分成不同的三组,每组有不同的期望,方差为:

    \frac{1}{n}\sum_{i=1}^{3}\sum_{j=1}^{n_{i}}{(x_{ij}-u_{i})^2 }

    你再将它展开,就会发现多出三个小尾巴

    9个区间那个比较麻烦,可以把每个区间平均值按以下公式替换:

    u_{ij}=u+N_{i}+P_{j}   …………………………(1)

    u是general effect, N和P是氮和磷单独的影响,其中

    N(P)_{3}=-N(P)_{1}-N(P)_{2}

    将方差展开,会有五个小尾巴

    这其实就是内在联系:在我们计算方差时,每多一个约束,少一个自由度,方差计算式中就会多一个变量,而全部约束可以分成若干个系列(如N系列和P系列),每一个系列对全部数据包含且仅包含一次。

    我们都进行了一个工作,就是将这个变量换成了这个变量的估计值,这个估计值与变量“相等”但“平方不等”,再计算替换所产生的bias,由于估计是无偏估计,所有线性bias都是0,仅剩下他们的平方差的数学期望\delta 。这个\delta 实际上是某一部分数据的平均值的方差,和这部分数据的方差是成比例的。对于每一个约束系列,显然他们的总\delta 与总方差成比例,是总方差的\frac{m}{n} 倍,其中m为约束在这个约束系列中的自由度,等于约束个数减一。

    所以,那个分母是n-\sum{m}-1 ,其实由(1)式的内涵可以看出,显然,它等于总自由度。

    如果约束之上还有对约束的约束,那上个式子就不对了,不过等于总自由度总是对的。

    ———————————————————-

    另外,我特别想吐槽,自由度来自于物理,是正经的统计学和物理学概念。不是玄学,更不是耍流氓。

  3. 王平民ing
    理由
    举报 取消

    感谢邀请!

    12月13日Update

    具体的样本方差的数学期望,是方差的(n-1)/n倍的推导请看 @LegitMe

    的回答为什么分母从n变成n-1之后,就从【有偏估计】变成了【无偏估计】? – LegitMe 的回答和为什么样本方差(sample variance)的分母是 n-1? – 数学推导,至于自由度的理解我觉得是另一种理解方式。当然,因为我是土木狗,看到自由度是在结构力学里对结构体系稳定与不稳定、静定与超静定里面,和约束相对。在数学上我对自由度的理解没有透彻,不能乱说误导别人。

    12月7日Update

    首先对题主因为前面的误会表示歉意。我刚才再次翻看了浙大版高等教育出版社《概率论与数理统计》对于这个问题是这样描述的。

    图一最后一句话:无偏估计的实际意义就是无系统误差。

    那么我们可不可以这样理解:对于一个系统样本估计量表示的是对样本的偏离程度,即系统误差。引用课本原话

    估计量的无偏性是说对于某些样本值,由这一样本得到的估计量相对于真值偏大,某些则偏小。反复将
    
    这一估计量使用多次,其“平均”来说偏差为零。(图一最下面)
    
  4. LegitMe
    理由
    举报 取消

    不请自来,从理论上给题主推导一下:

    例如有X_1,X_2,...,X_n的随机样本,E(X_i) = \muV(X_i) = \sigma^2

    \zeta^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2还有S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2

    其中\zeta^2是分母为n的样本方差,而S^2则是楼主说的分母为n-1的样本方差。\bar{X}=\mu。接下来算算他们俩倒是是有偏还是无偏(biased or unbiased):

    @王平民ing 提到了无偏估计量的定义:E(\hat{\theta})=\theta

    我们的问题变成了,如果E(\zeta^2)或者E(S^2)等于\sigma^2,那么该估计量就是无偏的;反之,有偏。

    V(X) = E(X^2)-[E(X)]^2 <–这是方差和期望的关系,可以推出:

    E(X_i^2) = V(X_i^2)+[E(X_i)]^2 = \sigma^2 + \mu^2

    E(\bar{X}^2)=V(\bar{X}) + [E(\bar{X})]^2=V(\frac{X_1,X_2,...,X_n}{n})+[E(\bar{X})]^2=\frac{\sigma^2}{n}+\mu^2

    以上两步如果有看不懂的可以具体看:Mean and Variance of Sample Mean

    以下答主表弟回答的 ^ ^:

    E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2-\sum_{i=1}^{n}2X_i\bar{X}+\sum_{i=1}^{n}\bar{X}^2]

    E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2]-E[\sum_{i=1}^{n}2X_i\bar{X}]+E[\sum_{i=1}^{n}\bar{X}^2]

    E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2]-E[2\bar{X}\sum_{i=1}^{n}X_i]+E[\bar{X}^2\sum_{i=1}^{n}1]

    E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2]-E[2\bar{X}(n\bar{X})]+E[n\bar{X}^2]

    之前几步表弟把节操给丢了,现在楼主帮他捡回来:

    E(\zeta^2) = \frac{1}{n} (nE[X_i^2]-nE[\bar{X}^2])

    E(\zeta^2) = E(X_i^2)-E(\bar{X^2})

    同理(因为俩估计量有一个共同项),得出

    E(S^2) = \frac{n}{n-1}[E(X_i^2)-E(\bar{X^2})]

    带入之前我们推导出来的:

    E(\zeta^2) = \sigma^2 + \mu^2 -\frac{\sigma^2}{n} -\mu^2= \frac{n-1}{n} \sigma^2

    E(S^2) = \frac{n}{n-1}(\sigma^2 + \mu^2 -\frac{\sigma^2}{n} -\mu^2)= \frac{n}{n-1}\frac{n-1}{n} \sigma^2=\sigma^2

    结论就出来啦!

    如果发现什么错误或者疑问,请猛戳回复!

  5. Zehang Li
    理由
    举报 取消

    少年,数学问题就要用数学证明,把统计学成玄学是病,要治啊!

  6. DeviliveD
    理由
    举报 取消

    题主,咱豁出去了,强行求个期望看它有偏没偏!

  7. windforce
    理由
    举报 取消

    ……反正一句话解答的问题:你把方差展开求期望就会发现参数差一个n-1而不是n。这对所有用自由度耍流氓的统计量都适用,初中生功课

  8. snowfox18
    理由
    举报 取消

    应该这么说的:在总体期望已知的情况下样本方差的无偏估计是除以n;若总体期望未知,估计期望时用了一个自由度,这时方差的无偏估计就除以n-1

  9. Echo
    理由
    举报 取消

    为免混淆,用sigma^2指代题主所说的方差,下文中的方差泛指所有var(theta).

    自由度的事我也搞不清楚,但就无偏估计而言,还是能给出一个解释,顺带纠正一下无偏估计和有偏估计的概念——无偏估计并不一定优于有偏估计。

    所谓误差(均方误差,MSE)包括方差和偏差,而“无偏估计”,指的是偏差为0,但它并不能保证方差的大小。

    也就是说从均方误差的角度而言,无偏估计并不一定是优于有偏估计的(可能有偏估计可以使方差更小,从而使均方误差更小)。

    王松桂《线性统计模型》

    具体到sigma^2,

    令Esigma^2=sigma^2(前面那个是估计值的期望),可以得到sigma^2的估计值,这就是无偏估计,这个值的分母就是(n-1)。

    这个结果和自由度吻合,两者之间应该是有什么内在关联的吧

  10. 王大锤
    理由
    举报 取消

    以上各位大神说的太专业,我来调节一发气氛。

    此处n可以理解为自由度。

    对于自由度的理解,就是因变量至少由n个自变量确定,那个n就是因变量的自由度。

    —————-正题分割线————————

    当拿到一个容量为n的样本时,样本的均\bar{x} =(x_{1}+x_{2}+\cdot \cdot \cdot +x_{n} )/n值,\bar{x} 由且仅由n个样本点唯一确定,只要有一个样本点未知,\bar{x} 就未知。

    而样本方差就不同了。此时\bar{x} 已知,那么,n个样本点中只要有n-1个已知(最后一个样本点的值可由n-1个样本点和均值来确定),样本方差就可以知道了。因此,最后一个样本点已知和未知情况就无关紧要了。

    要想确定样本方差,只要n-1个样本点已知就够了。

    所以均值的无偏估计是除以n,而方差的无偏估计除以n-1

我来回答

Captcha 点击图片更换验证码