为什么分母从n变成n

理由

举报取消

题主对“有偏估计”和“无偏估计”间的转化，存在一定疑问：为什么分母从n变成n-1，就能把样本的有偏估计转化成无偏估计？ 我知道样本方差之所以是有偏估计，是因为它有系统性误差，不管怎么抽样，样本方差值总是小于理论方差值。之所以存在这样的系统性误差，是因为计算式使用的均值是样本均值Y，不是总体均值u。由于Y是样本中n个X求得的均值，它总是比理论上的u更加靠近这一组样本中心。同时也知道分母n-1的由来大概是因为自由度。由于Y本身是n个X的均值，并不独立，依赖于每组X抽样。所以均值表达式其实是1个约束式子，方差计算式的自由度就从n变成了n-1。要减去这个约束。然后呢？为什么减去这个约束，用正确的自由度来描述计算式，它就成了无偏估计？怎么解释系统性误差就完完全全是因为自由度引起的？修正一下自由度就完全解除了系统性误差？？？想不明白，求大神指教。

2017年8月28日 10 条回复 1647 次浏览

分布,分析,数据,数据统计,统计,统计学

回复 ( 10 )

胡鞍钢初入职场
0
举报回复
理由

举报取消

因为样本均值 $\overline{X}$ 并不等于期望 $EX = \mu$ ，而是本身就是一个随机变量。这个随机变量的期望为均值 $\mu$ ，方差比较小（是 $\text{Var}(X)$ 的分之一）。（用通俗的语言举个具体的例子，掷均匀六面骰子，点数的期望是 3.5, 是一个确定的数字。但是如果你只是掷六次取平均值，还是有可能掷出六个 1 或者六个 6 —— 这时候平均值分别是 1 和 6, 这体现的就是 $\overline{X}$ 是随机变量这件事情。）

原来的问题

为什么分母从n变成n-1，就能把样本的有偏估计转化成无偏估计？

其实有点没问到点子上。其实并不是变魔法得到的。解释起来分两个方面，1. 分母是的时候有偏; 2. 为了无偏经过计算得到的结果是要用一个 $\dfrac{n}{n-1}$ 的因子来修正。自由度之类的答案并不是说错了，但讲得太滥了有点误导初学者。

上面说到的两个方面，2. 是计算的结果，不多解释了。1. 需要多解释一下。也就是要回答这个问题：

如果是一个随机变量， $X_1, \ldots, X_n$ 互相独立且与独立同分布，

为什么用 $\dfrac{1}{n}\sum_{i=1}^n (X_i - \overline{X})^2$ 定义出来的量，并不是的方差?

（其中 $\overline{X} := \dfrac{X_1+\ldots+X_n}{n}$ ）

答: 因为 $\overline{X}$ 并不是均值 $EX = \mu$ ，而是一个期望为均值 $\mu$ ，方差比较小的随机变量（而且这个随机变量和 $X_1, \ldots, X_n$ 还是相关的，这就是提到自由度的原因之一）。

方差 $\text{Var}(X)$ 是由 $\dfrac{1}{n}\sum_{i=1}^n (X_i - \mu)^2$ 定义的，明白了 $\overline{X}$ 和 $\mu$ 并不是一回事之后，就可以开始计算原来的那个定义跟方差的定义之间的差异——这就是课本上的标准计算了，简单说就是把

$\dfrac{1}{n}\sum_{i=1}^n (X_i - \mu)^2 = \dfrac{1}{n}\sum_{i=1}^n ((X_i - \overline{X}) + (\overline{X} - \mu))^2$

展开，展开之后会发现，差的那个因子，其实来自于 $\overline{X}$ 的方差（正好是 $\text{Var}(X)$ 的，因为 $X_1, \ldots, X_n$ 互相独立且与独立同分布，所以他们的和的方差是的方差的倍，除以之后方差变成原来的 $\dfrac{1}{n^2}$ . 所以 $\overline{X}$ 的方差是的方差的 $\dfrac{1}{n}$ .）。

最后，自由度的说法并没有说错，但是解释得太粗暴了还是容易引起误解。具体细节要看关于 $\chi^2$ 分布的计算：如果是标准正态分布，则 $\sum_{i=1}^n (X_i - \overline{X})^2$ 这个量，是个独立同分布的服从标准正态分布的随机变量的平方和，这个说的其实是 $\chi^2$ 分布的自由度。

P.S. 关心最初提到的计算的读者，可以参考这个答案：为什么样本方差（sample variance）的分母是 n-1？ – 知乎用户的回答本答案是由我在那个答案下的一个一句话评论衍生出来的。（顺便说一句，那个问题里面很多答案都似是而非，噪音很多。但上面链接的答案是一个比较有诚意的。作者也说不通过计算没法解释为什么是而不是.）
草刺猬初入职场
0
举报回复
理由

举报取消

听说开头吼一句反对全部特别爽 (^_^) 好像其他答案都在说为什么是n-1，题主根本没在问这个，而是问与自由度联系好吗。

事实上，无偏估计时，那个分母也不一定是n-1（只是大多数时候是），而一定是自由度。

举个例子，比如说你要测定一种植物生长与肥料的关系，将氮的含量分成三个区间，分别求每个区间的平均数和方差，再得出总方差，这时如果取无偏估计，可以计算分母就是n-3。

有的人理解n-3的来源是（n1-1)+(n2-1)+(n3-1),n1 n2 n3分别每个区间样本个数，这样理解实际是不确切的。如果我们再取一变量，磷的含量分成三个区间，这样和氮一起，就将原样本分成了9个区间，但无偏估计时，分母却并不是n-9，因为9个区间并不是相互独立的，分母是n-5，等于其自由度。

首先先考虑自由度为n-1的时候，这是候所有数据是一大坨不分类的，其实这时所有样本都被看做是homogeneous的，自由度的减少并不来自样本本身，而是来自人为的规定：规定你的估计必须是无偏的（从这也可以看出无偏估计其实并不一定是最好的估计）。

此时方差的定义是

$\frac{1}{n}\sum_{1}^{n}{(x_{i}-u)^2 }$

u是x的数学期望，直接替代成平均数显然是有bias的：

$\frac{1}{n}\sum_{1}^{n}{(x_{i}-u)^2 }=\frac{1}{n}\sum_{1}^{n}{((x_{i}-\bar{x})+(\bar{x} -u) )^2 }=\frac{1}{n}\sum_{1}^{n}{(x_{i}-\bar{x} )^2 } +E(\bar{x} -u)^2$

你看他多出了一项

无偏估计在计算上还有个优势，就是使平方的和直接变为了和的平方。我们都知道，那个小尾巴始终是方差的n分之一，这就是n-1的来源。

我们再考虑提到的氮的情况，方差的定义是每个数偏离其数学期望的平方的数学期望，此时数被分成不同的三组，每组有不同的期望，方差为：

$\frac{1}{n}\sum_{i=1}^{3}\sum_{j=1}^{n_{i}}{(x_{ij}-u_{i})^2 }$

你再将它展开，就会发现多出三个小尾巴

9个区间那个比较麻烦，可以把每个区间平均值按以下公式替换：

$u_{ij}=u+N_{i}+P_{j}$ …………………………（1）

u是general effect, N和P是氮和磷单独的影响，其中

$N(P)_{3}=-N(P)_{1}-N(P)_{2}$

将方差展开，会有五个小尾巴

这其实就是内在联系：在我们计算方差时，每多一个约束，少一个自由度，方差计算式中就会多一个变量，而全部约束可以分成若干个系列（如N系列和P系列），每一个系列对全部数据包含且仅包含一次。

我们都进行了一个工作，就是将这个变量换成了这个变量的估计值，这个估计值与变量“相等”但“平方不等”，再计算替换所产生的bias，由于估计是无偏估计，所有线性bias都是0，仅剩下他们的平方差的数学期望 $\delta$ 。这个 $\delta$ 实际上是某一部分数据的平均值的方差，和这部分数据的方差是成比例的。对于每一个约束系列，显然他们的总 $\delta$ 与总方差成比例，是总方差的 $\frac{m}{n}$ 倍，其中m为约束在这个约束系列中的自由度，等于约束个数减一。

所以，那个分母是 $n-\sum{m}-1$ ,其实由（1）式的内涵可以看出，显然，它等于总自由度。

如果约束之上还有对约束的约束，那上个式子就不对了，不过等于总自由度总是对的。

———————————————————-

另外，我特别想吐槽，自由度来自于物理，是正经的统计学和物理学概念。不是玄学，更不是耍流氓。
王平民ing 初入职场
0
举报回复
理由

举报取消

感谢邀请！

12月13日Update

具体的样本方差的数学期望，是方差的（n-1）/n倍的推导请看 @LegitMe

的回答为什么分母从n变成n-1之后，就从【有偏估计】变成了【无偏估计】？ – LegitMe 的回答和为什么样本方差（sample variance）的分母是 n-1？ – 数学推导，至于自由度的理解我觉得是另一种理解方式。当然，因为我是土木狗，看到自由度是在结构力学里对结构体系稳定与不稳定、静定与超静定里面，和约束相对。在数学上我对自由度的理解没有透彻，不能乱说误导别人。

12月7日Update

首先对题主因为前面的误会表示歉意。我刚才再次翻看了浙大版高等教育出版社《概率论与数理统计》对于这个问题是这样描述的。

图一最后一句话：无偏估计的实际意义就是无系统误差。

那么我们可不可以这样理解：对于一个系统样本估计量表示的是对样本的偏离程度，即系统误差。引用课本原话
估计量的无偏性是说对于某些样本值，由这一样本得到的估计量相对于真值偏大，某些则偏小。反复将这一估计量使用多次，其“平均”来说偏差为零。（图一最下面）
LegitMe 初入职场
0
举报回复
理由

举报取消

不请自来，从理论上给题主推导一下：

例如有的随机样本， $E(X_i) = \mu$ ， $V(X_i) = \sigma^2$

设 $\zeta^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2$ 还有 $S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$

其中 $\zeta^2$ 是分母为n的样本方差，而则是楼主说的分母为n-1的样本方差。 $\bar{X}=\mu$ 。接下来算算他们俩倒是是有偏还是无偏（biased or unbiased）：

@王平民ing 提到了无偏估计量的定义： $E(\hat{\theta})=\theta$

我们的问题变成了，如果 $E(\zeta^2)$ 或者等于 $\sigma^2$ ，那么该估计量就是无偏的；反之，有偏。

<–这是方差和期望的关系，可以推出：

$E(X_i^2) = V(X_i^2)+[E(X_i)]^2 = \sigma^2 + \mu^2$

$E(\bar{X}^2)=V(\bar{X}) + [E(\bar{X})]^2=V(\frac{X_1,X_2,...,X_n}{n})+[E(\bar{X})]^2=\frac{\sigma^2}{n}+\mu^2$

以上两步如果有看不懂的可以具体看：Mean and Variance of Sample Mean

以下答主表弟回答的 ^ ^：

$E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2-\sum_{i=1}^{n}2X_i\bar{X}+\sum_{i=1}^{n}\bar{X}^2]$

$E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2]-E[\sum_{i=1}^{n}2X_i\bar{X}]+E[\sum_{i=1}^{n}\bar{X}^2]$

$E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2]-E[2\bar{X}\sum_{i=1}^{n}X_i]+E[\bar{X}^2\sum_{i=1}^{n}1]$

$E(\zeta^2) = E[\sum_{i=1}^{n}X_i^2]-E[2\bar{X}(n\bar{X})]+E[n\bar{X}^2]$

之前几步表弟把节操给丢了，现在楼主帮他捡回来：

$E(\zeta^2) = \frac{1}{n} (nE[X_i^2]-nE[\bar{X}^2])$

$E(\zeta^2) = E(X_i^2)-E(\bar{X^2})$

同理（因为俩估计量有一个共同项），得出

$E(S^2) = \frac{n}{n-1}[E(X_i^2)-E(\bar{X^2})]$

带入之前我们推导出来的：

$E(\zeta^2) = \sigma^2 + \mu^2 -\frac{\sigma^2}{n} -\mu^2= \frac{n-1}{n} \sigma^2$

$E(S^2) = \frac{n}{n-1}(\sigma^2 + \mu^2 -\frac{\sigma^2}{n} -\mu^2)= \frac{n}{n-1}\frac{n-1}{n} \sigma^2=\sigma^2$

结论就出来啦！

如果发现什么错误或者疑问，请猛戳回复！
Zehang Li 初入职场
0
举报回复
理由

举报取消

少年，数学问题就要用数学证明，把统计学成玄学是病，要治啊！
DeviliveD 初入职场
0
举报回复
理由

举报取消

题主，咱豁出去了，强行求个期望看它有偏没偏！
windforce 初入职场
0
举报回复
理由

举报取消

……反正一句话解答的问题：你把方差展开求期望就会发现参数差一个n-1而不是n。这对所有用自由度耍流氓的统计量都适用，初中生功课
snowfox18 初入职场
0
举报回复
理由

举报取消

应该这么说的:在总体期望已知的情况下样本方差的无偏估计是除以n;若总体期望未知，估计期望时用了一个自由度，这时方差的无偏估计就除以n-1
Echo 初入职场
0
举报回复
理由

举报取消

为免混淆，用sigma^2指代题主所说的方差，下文中的方差泛指所有var(theta).

自由度的事我也搞不清楚，但就无偏估计而言，还是能给出一个解释，顺带纠正一下无偏估计和有偏估计的概念——无偏估计并不一定优于有偏估计。

所谓误差（均方误差，MSE）包括方差和偏差，而“无偏估计”，指的是偏差为0，但它并不能保证方差的大小。

也就是说从均方误差的角度而言，无偏估计并不一定是优于有偏估计的（可能有偏估计可以使方差更小，从而使均方误差更小）。

王松桂《线性统计模型》

具体到sigma^2，

令Esigma^2=sigma^2（前面那个是估计值的期望），可以得到sigma^2的估计值，这就是无偏估计，这个值的分母就是（n-1）。

这个结果和自由度吻合，两者之间应该是有什么内在关联的吧
王大锤管理专家
0
举报回复
理由

举报取消

以上各位大神说的太专业，我来调节一发气氛。

此处n可以理解为自由度。

对于自由度的理解，就是因变量至少由n个自变量确定，那个n就是因变量的自由度。

—————-正题分割线————————

当拿到一个容量为n的样本时，样本的均 $\bar{x} =(x_{1}+x_{2}+\cdot \cdot \cdot +x_{n} )/n$ 值, $\bar{x}$ 由且仅由n个样本点唯一确定，只要有一个样本点未知， $\bar{x}$ 就未知。

而样本方差就不同了。此时 $\bar{x}$ 已知，那么，n个样本点中只要有n-1个已知（最后一个样本点的值可由n-1个样本点和均值来确定），样本方差就可以知道了。因此，最后一个样本点已知和未知情况就无关紧要了。

要想确定样本方差，只要n-1个样本点已知就够了。

所以均值的无偏估计是除以n，而方差的无偏估计除以n-1