分享
为什么分母从n变成n
题主对“有偏估计”和“无偏估计”间的转化,存在一定疑问:为什么分母从n变成n-1,就能把样本的有偏估计转化成无偏估计? 我知道样本方差之所以是有偏估计,是因为它有系统性误差,不管怎么抽样,样本方差值总是小于理论方差值。 之所以存在这样的系统性误差,是因为计算式使用的均值是样本均值Y,不是总体均值u。由于Y是样本中n个X求得的均值,它总是比理论上的u更加靠近这一组样本中心。 同时也知道分母n-1的由来大概是因为自由度。由于Y本身是n个X的均值,并不独立,依赖于每组X抽样。所以均值表达式其实是1个约束式子,方差计算式的自由度就从n变成了n-1。要减去这个约束。 然后呢?为什么减去这个约束,用正确的自由度来描述计算式,它就成了无偏估计?怎么解释系统性误差就完完全全是因为自由度引起的?修正一下自由度就完全解除了系统性误差???想不明白,求大神指教。
回复 ( 10 )
因为样本均值并不等于期望,而是本身就是一个随机变量。这个随机变量的期望为均值,方差比较小(是的分之一)。(用通俗的语言举个具体的例子,掷均匀六面骰子,点数的期望是 3.5, 是一个确定的数字。但是如果你只是掷六次取平均值,还是有可能掷出六个 1 或者六个 6 —— 这时候平均值分别是 1 和 6, 这体现的就是是随机变量这件事情。)
原来的问题
其实有点没问到点子上。其实并不是变魔法得到的。解释起来分两个方面,1. 分母是的时候有偏; 2. 为了无偏经过计算得到的结果是要用一个的因子来修正。自由度之类的答案并不是说错了,但讲得太滥了有点误导初学者。
上面说到的两个方面,2. 是计算的结果,不多解释了。1. 需要多解释一下。也就是要回答这个问题:
答: 因为并不是均值,而是一个期望为均值,方差比较小的随机变量(而且这个随机变量和还是相关的,这就是提到自由度的原因之一)。
方差是由定义的,明白了和并不是一回事之后,就可以开始计算原来的那个定义跟方差的定义之间的差异——这就是课本上的标准计算了,简单说就是把
展开,展开之后会发现,差的那个因子,其实来自于的方差(正好是的,因为互相独立且与独立同分布,所以他们的和的方差是的方差的倍,除以之后方差变成原来的. 所以的方差是的方差的.)。
最后,自由度的说法并没有说错,但是解释得太粗暴了还是容易引起误解。具体细节要看关于分布的计算:如果是标准正态分布,则这个量,是个独立同分布的服从标准正态分布的随机变量的平方和,这个说的其实是分布的自由度。
P.S. 关心最初提到的计算的读者,可以参考这个答案:为什么样本方差(sample variance)的分母是 n-1? – 知乎用户的回答 本答案是由我在那个答案下的一个一句话评论衍生出来的。(顺便说一句,那个问题里面很多答案都似是而非,噪音很多。但上面链接的答案是一个比较有诚意的。作者也说不通过计算没法解释为什么是而不是.)
听说开头吼一句反对全部特别爽 (^_^) 好像其他答案都在说为什么是n-1,题主根本没在问这个,而是问与自由度联系好吗。
事实上,无偏估计时,那个分母也不一定是n-1(只是大多数时候是),而一定是自由度。
举个例子,比如说你要测定一种植物生长与肥料的关系,将氮的含量分成三个区间,分别求每个区间的平均数和方差,再得出总方差,这时如果取无偏估计,可以计算分母就是n-3。
有的人理解n-3的来源是(n1-1)+(n2-1)+(n3-1),n1 n2 n3分别每个区间样本个数,这样理解实际是不确切的。如果我们再取一变量,磷的含量分成三个区间,这样和氮一起,就将原样本分成了9个区间,但无偏估计时,分母却并不是n-9,因为9个区间并不是相互独立的,分母是n-5,等于其自由度。
首先先考虑自由度为n-1的时候,这是候所有数据是一大坨不分类的,其实这时所有样本都被看做是homogeneous的,自由度的减少并不来自样本本身,而是来自人为的规定:规定你的估计必须是无偏的(从这也可以看出无偏估计其实并不一定是最好的估计)。
此时方差的定义是
u是x的数学期望,直接替代成平均数显然是有bias的:
你看他多出了一项
无偏估计在计算上还有个优势,就是使平方的和直接变为了和的平方。我们都知道,那个小尾巴始终是方差的n分之一,这就是n-1的来源。
我们再考虑提到的氮的情况,方差的定义是每个数偏离其数学期望的平方的数学期望,此时数被分成不同的三组,每组有不同的期望,方差为:
你再将它展开,就会发现多出三个小尾巴
9个区间那个比较麻烦,可以把每个区间平均值按以下公式替换:
…………………………(1)
u是general effect, N和P是氮和磷单独的影响,其中
将方差展开,会有五个小尾巴
这其实就是内在联系:在我们计算方差时,每多一个约束,少一个自由度,方差计算式中就会多一个变量,而全部约束可以分成若干个系列(如N系列和P系列),每一个系列对全部数据包含且仅包含一次。
我们都进行了一个工作,就是将这个变量换成了这个变量的估计值,这个估计值与变量“相等”但“平方不等”,再计算替换所产生的bias,由于估计是无偏估计,所有线性bias都是0,仅剩下他们的平方差的数学期望。这个实际上是某一部分数据的平均值的方差,和这部分数据的方差是成比例的。对于每一个约束系列,显然他们的总与总方差成比例,是总方差的倍,其中m为约束在这个约束系列中的自由度,等于约束个数减一。
所以,那个分母是,其实由(1)式的内涵可以看出,显然,它等于总自由度。
如果约束之上还有对约束的约束,那上个式子就不对了,不过等于总自由度总是对的。
———————————————————-
另外,我特别想吐槽,自由度来自于物理,是正经的统计学和物理学概念。不是玄学,更不是耍流氓。
感谢邀请!
12月13日Update
具体的样本方差的数学期望,是方差的(n-1)/n倍的推导请看 @LegitMe
的回答为什么分母从n变成n-1之后,就从【有偏估计】变成了【无偏估计】? – LegitMe 的回答和为什么样本方差(sample variance)的分母是 n-1? – 数学推导,至于自由度的理解我觉得是另一种理解方式。当然,因为我是土木狗,看到自由度是在结构力学里对结构体系稳定与不稳定、静定与超静定里面,和约束相对。在数学上我对自由度的理解没有透彻,不能乱说误导别人。
12月7日Update
首先对题主因为前面的误会表示歉意。我刚才再次翻看了浙大版高等教育出版社《概率论与数理统计》对于这个问题是这样描述的。
图一最后一句话:无偏估计的实际意义就是无系统误差。
那么我们可不可以这样理解:对于一个系统样本估计量表示的是对样本的偏离程度,即系统误差。引用课本原话
不请自来,从理论上给题主推导一下:
例如有的随机样本,,
设还有
其中是分母为n的样本方差,而则是楼主说的分母为n-1的样本方差。。接下来算算他们俩倒是是有偏还是无偏(biased or unbiased):
@王平民ing 提到了无偏估计量的定义:
我们的问题变成了,如果或者等于,那么该估计量就是无偏的;反之,有偏。
<–这是方差和期望的关系,可以推出:
以上两步如果有看不懂的可以具体看:Mean and Variance of Sample Mean
以下答主表弟回答的 ^ ^:
之前几步表弟把节操给丢了,现在楼主帮他捡回来:
同理(因为俩估计量有一个共同项),得出
带入之前我们推导出来的:
结论就出来啦!
如果发现什么错误或者疑问,请猛戳回复!
少年,数学问题就要用数学证明,把统计学成玄学是病,要治啊!
题主,咱豁出去了,强行求个期望看它有偏没偏!
……反正一句话解答的问题:你把方差展开求期望就会发现参数差一个n-1而不是n。这对所有用自由度耍流氓的统计量都适用,初中生功课
应该这么说的:在总体期望已知的情况下样本方差的无偏估计是除以n;若总体期望未知,估计期望时用了一个自由度,这时方差的无偏估计就除以n-1
为免混淆,用sigma^2指代题主所说的方差,下文中的方差泛指所有var(theta).
自由度的事我也搞不清楚,但就无偏估计而言,还是能给出一个解释,顺带纠正一下无偏估计和有偏估计的概念——无偏估计并不一定优于有偏估计。
所谓误差(均方误差,MSE)包括方差和偏差,而“无偏估计”,指的是偏差为0,但它并不能保证方差的大小。
也就是说从均方误差的角度而言,无偏估计并不一定是优于有偏估计的(可能有偏估计可以使方差更小,从而使均方误差更小)。
王松桂《线性统计模型》
具体到sigma^2,
令Esigma^2=sigma^2(前面那个是估计值的期望),可以得到sigma^2的估计值,这就是无偏估计,这个值的分母就是(n-1)。
这个结果和自由度吻合,两者之间应该是有什么内在关联的吧
以上各位大神说的太专业,我来调节一发气氛。
此处n可以理解为自由度。
对于自由度的理解,就是因变量至少由n个自变量确定,那个n就是因变量的自由度。
—————-正题分割线————————
当拿到一个容量为n的样本时,样本的均值,由且仅由n个样本点唯一确定,只要有一个样本点未知,就未知。
而样本方差就不同了。此时已知,那么,n个样本点中只要有n-1个已知(最后一个样本点的值可由n-1个样本点和均值来确定),样本方差就可以知道了。因此,最后一个样本点已知和未知情况就无关紧要了。
要想确定样本方差,只要n-1个样本点已知就够了。
所以均值的无偏估计是除以n,而方差的无偏估计除以n-1