跳转至

4.3 点估计的优良性准则⚓︎

This browser does not support PDFs. Please download the PDF to view it: 下载 PDF.

4.3 点估计的优良性准则⚓︎

从前节的例子中我们絮累看到: 同一个参数往往有不止一种 看来都合理的估计法. 因此,自然会提出其优劣比较的问题.

初一看觉得这个问题很容易回答: 设 θ^1θ^2 两个估计量都 用于估计 θ, 则看哪一个的误差小, 就哪一个为优. 但是, 由于 θ 本 身末知, 就不知道估计误差有多大, 这还不是最主要的. 主要问题 在于: θ^1,θ^2 之值都与样本有关.一般情况是: 对某些样本, θ^1 的 误差小于 θ^2 的误差, 而对另一些样本则反之.一个从整体上看不 好的估计, 在个别场合下可能表现很好.反之, 一个很不错的估计, 由于抽到了不易出现的样本, 其表现也可以很差. 如例 1.2 估计学 生学习成绩(以其考分衡量)的问题,大家都会同意: 如抽出 100 个 学生, 以其平均成绩作为估计值, 比以抽出的第一个学生的成绩作 为估计值要好. 但也可以发生这种情况: 所抽第一个学生的成绩很 接近于全校总平均, 而 100 个学生的平均成绩反而与这个总平均 有较大差距.

由此可见, 在考虑估计量的优劣时, 必须从某种整体性能去衡 量它, 而不能看它在个别样本之下的表现如何. 这里所谓“整体性 能”, 有两种意义: 一是指估计量的某种特性, 具有这种特性就是好 的, 否则就是不好的. 如下文要讲的 “无偏性”, 即属于此类.二是指 某种具体的数量性指标. 两个估计量, 指标小者为优. 如下文讲到 的“均方误差”, 即属于此类.应当注意的是:这种比较,归根到底, 也还是相对性的. 具有某种特性的估计是否一定就好? 这在一定

  • 174 • 程度上要看问题的具体情况, 不是绝对的. 下文在讲述无偏估计时 还会涉及这一点, 作为比较准则的数量性指标, 也可以有很多种. 很有可能: 在甲指标之下 θ^1 优于 θ^2, 而在乙指标下则反之.

我们这样说, 当然不是认为优良性准则和估计量的优劣比较 毫无意义. 相反, 这些很有意义, 且是参数估计这个分支学科研究 的中心问题. 我们是想提醒读者, 不要把这些准则绝对化了. 每种 准则在某种情况下都有其局限性.

0.1. 1 估计量的无偏性⚓︎

设某统计总体的分布包含末知参数 θ1,,θk,X1,,Xn 是 从该总体中抽出的样本, 要估计 g(θ1,,θk).g 为一已知函数. 设 g^(X1,,Xn) 是一个估计量. 如果对任何可能的 (θ1,,θk) 都 有

Eθ1,,θk[g^(X1,,Xn)]=g(θ1,,θk)

则称 g^g(θ1,,θk) 的一个无偏估计量. 记号 Eθ1,,θk 是指: 求期 望值时, 是在各样本 X1,,Xn 的分布中的参数为 θ1,,θk 时去 做的. 比如, 我说 X1,X2 是取自正态总体 N(θ,1) 的样本, 让计算 和 X1+X2 的期望值. 这要看参数值 θ 等于多少: θ=1 时, 期望值 为 2;θ=2.5 时, 期望值为 5 . 标出 Eθ, 就明白显示是在哪个 θ 值 之下去算期望值, 也表示 θ 值可以流动. 这在定义 3.1 式中尤其有 意义. 因为在参数估计问题中, 我们并不知参数的真值, 它能在一 定范围内流动. 如废品率 p, 可在 [0,1] 内流动. 当比较两个估计量 时, 需要对种种可能的参数值去比较. 故在 Eθ1,,θk 这个记号中强 调指出 (θ1,,θk) 以及其可以流动, 是重要的. 在不致引起混淆 时, 我们也可以简写为 E.

估计量的无偏性有两个含义. 第一个含义是没有系统性的偏 差, 不论你用什么样的估计量 g^ 去估计 g, 总是时而(对某些样本) 偏低, 时而 (对另一些样本) 偏高. 无偏性表示, 把这些正负偏差在 概率上平均起来, 其值为 0 . 比如用一把秤去秤东西, 误差来源有 二: 一是秤本身结构制作上的问题,使它在秤东西时,倾向于给出 偏高或偏低之值, 这属于系统误差. 另一种是操作上和其他随机性 原因,使秤出的结果有误差, 这属于随机误差, 在此,无偏性的要求 相应于科没有系统误差,但随机误差总是存在. 因此,无偏估计不 等于在任何时候都给出正确无误的估计.

另一个含义是由定义 (3.1) 结合大数定理 (见第三章定理 4.1)引伸出来的. 设想每天把这个估计量 g^(X1,,Xn) 用一次, 第 i 天的样本记为 g^(X1(i),,Xn(i)),i=1,2,,N,. 则按大数 定理, 当 N 时, 各次估计值的平均, 即 i=1Ng^(X1(i),, Xn(i))/N, 依概率收玫到被估计的值 g(θ1,,θk). 所以,若估计 量有无偏性,则在大量次数使用取平均时,能以接近于 100% 的把 握无限逼近被估计的量.如果没有无偏性,则无论使用多少次,其 平均也会与真值保持一定距离一这距离就是系统误差.

由此可见,估计量的无偏性是一种优良的性质.但是,在一个 具体的问题中,无偏性的实际价值如何,还必须结合这问题的具体 情况去考察.如在秤东西那个例中,若你经常去这家商店买东西而 该店用的秤是无系统误差的.这等于说,店里在科上显示的重量, 是你所买的东西的真实重量的无偏估计,则尽管在具体某一次购 买中店里可能少给或多给了你一些, 从长期平均看, 无偏性保证了 双方都不吃亏.在此,无偏性有很现实的意义。

现在设想另一种情况: 工厂每周进原料一批. 在投人使用前, 由实验室对原料中某些成分含量的百分率 p 作一估计,根据估计 值 p 采取相应的工艺调整措施. 无论 p 比真正的 p 偏高或偏低,都 会有损于产品质量. 在此, 即使 p¯p 的无偏估计, 在长期使用中, 估计的正负偏差的效应并不能抵消. 这样 p^ 的无偏性就不见得很 有实用意义了.

例 3.1 设 X1,,Xn 是从某总体中抽出的样本,则样本均 值 X 是总体分布均值 θ 的无偏估计.

这是因为,按定义, 每个样本 Xi 的分布, 与总体分布一样, 因 此其均值 E(Xi) 就是 θ, 而

E(X¯)=i=1nE(Xi)/n=nθ/n=θ

据此可知: 在正态总体 N(μ,σ2) 中用 X¯ 估计 μ, 在指数分布总体中 用 X¯ 估计 1/λ, 在二项分布总体中用 X¯/N 估计 p, 以及在波哇松分 布总体中用 X¯ 估计 λ 等, 都是无偏估计.

例 3.2 由 (1.1) 式定义的样本方差 S2, 是总体分布方差 σ2 的无偏估计.

为证明这一点, 以 a 记总体分布均值: E(Xi)=a. 也有 E(X¯)=a, 把 XiX¯ 写为 (Xia)(X¯a), 有

i=1n(XiX¯)2=i=1n[(Xia)(X¯a)]2=i=1n(Xia)22(X¯a)i=1n(Xia)+n(X¯a)2

注意到 i=1n(Xia)=n(X¯a), 有

i=1n(XiX¯)2=i=1n(Xia)2n(X¯a)2

a=E˙(Xi)=E(X¯), 有

E(Xia)2=Var(Xi)=σ2,i=1,,nE(X¯a)2=Var(X¯)=i=1nVar(Xi)/n2=nσ2/n2=σ2/n

于是得到

E(S2)=1n1E(i=1n(XiX¯)2)=1n1(nσ2nσ2/n)=σ2

这就说明了 S2σ2 的无偏估计.

这就解释了为什么要在样本二阶中心矩 m2=i=1n(Xi X¯)2/n 的基础上, 把分母 n 修正为 n1 以得到 S2. 这与以前讲 过的一点也相合: 在第二章的附录 B 中我们曾讲到 i=1n(XiX¯)2 的自由度为 n1. 这正好是正确的除数,这件事不是一个巧合.

在这里我们还可以对“自由度”这个概念赋予另一种解释: 一 共有 n 个样本, 有 n 个自由度. 用 S2 估计方差 σ2, 自由度本应为 n. 但总体均值 a 也末知, 用 X¯ 去估计之, 用掉了一个自由度, 故只 剩下 n1 个自由度.

如果总体均值 a 已知, 则不用 S2 而用 i=1n(Xia)2/n 去估 计总体方差 σ2 (在 a 末知时不能用), 这是 σ2 的无偏估计, 分母为 n 不用改为 n1. 因为此处 n 个自由度全保留下了 ( a 已知, 不用 估计,没有用去自由度)。

例 3.3 由上例易推知: 用 S 去估计总体分布的标准差 σ (方 差 σ2 的正平方根), 不是无偏估计. 事实上, 据第三章 (2.2) 式及上 例的结果, 有

σ2=E(S2)=Var(S)+(ES)2

由于方差总非负: Var(S)0, 有 σE(S). 因而 E(S)σ. 即如 用 S 去估计 σ, 总是系统地偏低. 在一些情况下, 可以通过简单的 调整达到无偏估计. 办法是把 S 乘上一个大于 1 的、与样本大小 n 有关的因子 cn, 得 cnS. 适当选择 cn 可以使 E(cnS)=cnE(S)= σ. 对正态分布总体 N(μ,σ2) 而言, 不难证明 (习题 21)

cn=n12Γ(n12)/Γ(n2)

E(S)σ 看出: 在例 2.3 中给出的均匀分布 R(θ1,θ2)θ1, θ2 的估计量 (2.2), 即使把 m2 政成 S2, 也是有偏的 ( θ^1 偏高, θ^2 偏低). 可以证明 (习题 22): 能找到常数 cn, 使 X¯cnSX¯+cnS 分别是 θ1,θ2 的无偏估计,但 cn 的具体数值不易定出来.

例 3.4 我们已经知道: 矩估计不必是无偏的, 极大似然估计 也如此. 事实上, 在例 2.7 中, 我们已求出: 正态总体 N(μ,σ2) 的 方差 σ2 的极大似然估计, 就是样本二阶中心矩 m2, 而我们已知后 者不是无偏的. 再看一个例子: 例 2.9 中我们找出均匀分布 R(0, θ)θ 的极大似然估计是 θ=max(X1,,Xn). 不用计算即知 θ 偏低. 因为, 每个样本 Xi 都在 (0,θ) 内, 故其最大值, 即 θ, 也 在这个区间内. 下面通过计算 Eθ(θ) 证明这一点,并找出调整因 子 cn, 此例对下面还有用.

先算 θ 的分布函数 G(x,θ). 因为 0<θ<θ, 有

G(x,θ)=0, 当 x0;G(x,θ)=1, 当 xθ

0<x<θ, 则为了事件 {θx} 发生, 必须 {X1x},,{Xn x}n 个事件同时发生. 由于各样本独立, 且都有均匀分布 R(0, θ), 有 P(Xix)=x/θ, 因而

G(x,θ)=(x/θ)n

x 求导数, 得到 θ 的概率密度函数为

g(x,θ)=nxn1/θn, 当 0<x<θ; 此外为 0

由此得到

Eθ(θ)=0θxg(x,θ)dx=n0θxn dx/θn=nn+1θ

看出以 θ 估计 θ 系统偏低, 且 n+1nθθ 的无偏估计.

0.2. 2 最小方差无偏估计⚓︎

一个参数往往有不止一个无偏估计, 从这些众多的无偏估计 中,我们想挑出那个最优的. 这牵涉到两个问题: 一是为优良性制 定一个准则, 二是在已定的准则之下, 如何去找到最优者. 这涉及 较深的理论问题,许多内容都超出本课程范围之外, 这里我们只能 作一个很初步的介绍.

  1. 均方误差, 设 X1,,Xn 是从某一带参数 θ 的总体中抽出 的样本, 要佔计 θ. 若我们采用估计量 θ^=θ^(X1,,Xn), 则其误 差为 θ^(X1,,Xn)θ. 这误差随样本 X1,,Xn 的具体值而定, 也是随机的, 因而其本身无法取为优良性指标. 我们把它平方以消 除符号, 得 (θ^(X1,,Xn)θ)2, 然后取它的均值, 即取
Mg^(θ)=Eθ[θ^(X1,,Xn)θ)]2

作为 θ^ 的误差大小从整体角度的一个衡量. 这个量愈小, 就表示 θ^ 的误差平均讲比较小, 因而也就愈优. Mg^(θ) 就称为估计量 θ 的 “均方误差” (误差平方的平均) . 不言而喻,均方误差小并不能保证 θ^ 在每次使用时一定给出小的误差. 它有时也可以有较大的误差, 但这种情况出现的机会较少.

用均方误差的观点就容易回答前面提到过的一个问题: 用 100 个学生的平均成绩作为全校学生平均成绩的估计,比用抽出 的第一个学生的成绩去估计好. 事实上, 这两个估计分别是 X¯= (X1++X100)/100X1. 总体分布为正态 N(μ,σ2).X¯X1 的均方误差分别为

E(X¯μ)2=σ2/100,E(X1μ)2=σ2

X1 的均方误差是 X¯ 的 100 倍.

均方误差并不是唯一可供选择的准则. 例如, 平均绝对误差 Eθ|θ^(X1,,Xn)θ|, 以及其他许多别的准则, 看来都很合理且 在某些场合下还确有其优点,但是, 由于平方这个函数在数学上最 易处理,使这个准则成为一切准则中应用和研究得最多的.

按第三章 (2.2) 式,有

Mθ^(θ)=Varθ(θ^)+[Eθ(θ^)θ]2

即均方误差由两部分构成:一部分是 Varθ(θ^), 即 θ^ 的方差, 表示 θ^ 自身变异的程度,另一部分中, Eθ(θ^)θ 表示 θ^ 这个估计量的系 统偏差. 如果 θ^θ 的无偏估计, 则第二项为 0 , 而这时有

Mθ^(θ)=Varθ(θ^)
  1. 最小方差无偏估计. 从前面的讨论看到: 若局限于无偏估 计的范围, 且采用均方误差的准则, 则两个无偏估计 θ^1θ^2 的比 较,归结为其方差的比较: 方差小者为优. 例 3.5 设 X1,,Xn 是从均匀分布总体 R(0,θ) 中抽出的 样本. 在例 3.4 中已指出过 θ 的两个无偏估计: θ^1=2X¯,θ^2= n+1nmax(X1,,Xn). 有(参看第三章, 例 2.5)
Varθ(θ^1)=4Varθ(X¯)=4nVarθ(X1)=4n112θ2=θ23n

为计算 θ^2 的方差, 仍以 θmax(X1,,Xn). 按 θ 的密度函数 (3.3), 得

Eθ(θ)=nn+1θ,Eθ(θ2)=n0θxx+1 dx/θn=nn+2θ2

因此

Varθ(θ)=Eθ(θ2)[Eθ(θ)]2=n(n+1)2(n+2)θ2

Varθ(θ^2)=(n+1n)2Varθ(θ)=1n(n+2)θ2

n>1 时, 总有 n(n+2)>3n. 故除非 n=1,θ^2 的方差总比 θ^1 的方差为小, 且这一点不论末知参数 θ 取什么值都对. 因此, 在 “方差小者为优”这个准则下, θ^2 优于 θ^1, 当 n=1 时, θ^1θ^2 重 合.

如果 θ^θ 的一个无偏估计, 且它的方差对 θ 的任何可能取 的值, 都比任何其他的无偏估计的方差为小, 或至多等于它, 则在 “方差愈小愈好”这个准则下, θ^ 就是最好的, 它称为 θ 的“最小方 差无偏估计”, 简记为 MVU 佔计 .

定义 3.1 设 θ^g(θ) 之无偏估计. 若对 g(θ) 的任何一个无 偏估计 θ^1 都有

Varθ(θ^)Varθ(θ^1)
  • MVU 是“最小方差无偏”的英语 Minimum Variance Unbiased 的缩写. 对 θ 的任何可能取的值都成立, 则称 θ^g(θ) 的一个最小方差无 偏估计(MVU 估计)。

从例 3.5 知 θ^2 的方差小于 θ^1 的方差. 但我们并不能由此就肯 定 θ^2 就是 θ 的 MVU 估计, 因为也可能还存在其他的无偏估计, 其方差比 θ^2 的更小. 那么, 怎样去寻找 MVU 估计呢? 在数理统 计学中给出了一些方法, 我们只能简略地介绍其中的一个. 这个方 法的思想如下: 先研究一下, 在 g(θ) 的一切无偏估计中, 方差最小 能达到多少呢? 如果我们求出了这样一个方差的下界, 则如某个 估计 θ^ 的方差达到这个下界,那它必定就是 MVU 估计.

  1. 求 MVU 估计的一种方法: 克拉美一劳不等式.

我们只考虑单参数的情况. 设总体的概率密度函数或概率函 数 f(x,θ) 只包含一个参数, X1,,Xn 为从该总体中抽出的样 本, 要估计 g(θ). 记

I(θ)=[(f(x,θ)θ)2/f(x,θ)]dx

这里积分的范围为 x 可取的范围. 例如, 对指数分布总体, 0<x< , 对正态总体则 <x<. 如果总体分布是离散的, 则 (3.8) 改为

I(θ)=i(f(ai,θ)θ)2/f(ai,θ)

这里求和 i 遍及总体的全部可能值 a1,a2,. 确定计, 我们下 面就连续型的情况去讨论. 对离散型的情况, 只须作相应的修改, 有如把 (3.8)修改为 (3.9).

克拉美一劳不等式: 在一定的条件下, 对 g(θ) 的任一无偏估计 g^=g^(X1,,Xn), 有

Varθ(g^)(g(θ))2/(nI(θ))

n 是样本大小.

这个不等式给出了 g(θ) 的无偏估计的方差的一个下界, 即 - 182 • (3.10) 式右边. 如果 g(θ) 的某个无偏估计其方差正好达到了 (3.10) 右端, 则它就是 g(θ) 的 MVU 估计, 这不等式的成立有一 定的条件. 实际上, 在其表述中, 就包含了要求 f(x,θ)/θg(θ) 存在的条件,其他的条件将在下文推导中看出.

S=S(X1,,Xn,θ)=i=1nlogf(Xi,θ)/θ=i=1nf(Xi,θ)θ/f(Xi,θ)

因为 f(x,θ) 为密度, 有 f(x,θ)dx=1. 两边对 θ 求导, 并假定 (这就是条件之一) 左边求导可搬到积分号内, 有

f(x,θ)θdx=0

因此

Eθ[f(Xi,θ)θ/f(Xi,θ)]=(f(x,θ)θ/f(x,θ))f(x,θ)dx=(f(xi,θ)θ)dx=0

于是, 由 X1,,Xn 的独立性, 有

Varθ(S)=i=1nVarθ(f(Xi,θ)θ/f(Xi,θ))=i=1nEθ[f(Xi,θ)θ/f(Xi,θ)]2=n[f(x,θ)θ/f(xi,θ)]2f(x,θ)dx=nI(θ)

按第三章定理 3.1 的 2, 有

[Covθ(g^,S)]2Varθ(g^)Varθ(S)=nI(θ)Varθ(g^)

由(3.11) 有 Eθ(S)=0. 按第三章 (3.2)式, 有

Covθ(g^,S)=Eθ(g^S)=g^(x1,,xn)i=1n[f(xi,θ)θ/f(xi,θ)]i=1nf(xi,θ)dx1dxn

由乘积的导数公式可知

i=1n[f(xi,θ)θ/f(xi,θ)]i=1nf(xi,θ)=f(x1,θ)f(xn,θ)θ

以此代人上式, 并假定对 θ 求偏导数可移至积分号外面 (这又是 一个条件!), 则得

Covθ(g^,S)=θg^(x1,,xn)f(x1,θ)f(xn,θ)dx1dxn

但上式右边的积分就是 Eθ(g^), 因 g^g(θ) 的无偏估计, 这积分就 是 g(θ). 故上式右边为 g(θ), 因而得到 Covθ(g^,S)=g(θ), 以 此代人(3.12), 即得 (3.10).

不等式 (3.10) 是瑞典统计学家 H. 克拉美和印度统计学家 C. R. 劳在 1945-1946 年各自独立得出的,故文献中一般称为克拉 美一劳不等式:这个不等式在数理统计学中有多方面的应用,此处 求 MVU 估计是其中之一.

顺便提一下: (3.10) 中 I(θ) 这个量的表达式(3.8),最初是英 国统计学家 R.A. 费歇尔在 20 年代提出的, 后人称之为 “费歇尔 信息量”. 此量出现在 (3.10) 中,并非偶然的巧合. 从 (3.10)我们可 以对为什么把 I(θ) 称为 “信息量” 获得一点直观的理解: I(θ) 愈 大, (3.10) 式中的下界愈低, 表示 g(θ) 的无偏估计更有可能达到 较小的方差一一即更有可能被估计得更准确一些. g(θ) 是通过样 本去估计的, g(θ) 能估得更准, 表示样本所含的信息量愈大. 一共 有 n 个样本,如把总信息量说成是 (3.10) 右边的分母 nI(θ), 则 一个样本正好占有信息量 I(θ),I(θ) 这个量在数理统计学中很重 要,有多方面的应用,但大多超出本课程的范围.

不等式 (3.10) 并不直接给出找 MVU 估计的方法. 它的使用 方式是: 先要由直观或其他途径找出一个可能是最好的无偏估计, 然后计算其方差, 看是否达到了 (3.10) 式右端的界限, 若达到了, 就是 MVU 估计. 同时, 还得仔细验证不等式推导过程中所有的条 件是否全满足, 这有时是不大容易的, 在以下诸例中, 我们都略去 了这步验证.

例 3.6 设 X1,,Xn 为抽自正态总体 N(θ,σ2) 的样本, σ2 已知(因而只有一个参数 θ ), 要估计 θ. 本例

f(x,θ)=(2πσ)1exp[12σ2(xθ)2]

因而

I(θ)=(2πσ)11σ4(xθ)2exp[12σ(xθ)]2 dx=1σ4σ2=1σ2

故按不等式 (3.10), θ 的无偏估计的方差, 不能小于 σ2/n. 而 X¯θ 的一个无偏估计, 方差正好是 σ2/n, 故 X¯ 就是 θ 的 MVU 估计.

虽然我们是在 σ2 已知的条件下证得 X¯θ 的 MVU 估计,但 不难推知, 这个结论当 σ2 末知时也对. 证明留给读者 (习题 23).

例 3.7 指数分布的费歇尔信息量 I(λ)

I(λ)=0(1λx)2λeλx dx=λ2

故若要由大小为 n 的样本去估计总体均值 g(λ)=1/λ, 则按 (3.10),1/ λ 的无偏估计的方差不能小于

[g(λ)]2/(nI(λ))=1/(nλ2)

而样本均值 X¯1/λ 的一无偏估计, 方差正好为 1/(nλ2). 故 X¯1/λ 的 MVU 估计.

例 3.8 回到例 3.6. 若均值 θ 已知而要估计方差, 则不难证 明: i=1n(Xiθ)2/nσ2 的 MVU 估计, 计算留给读者 (在计算费 歇尔信息量时, 注意要把. σ2 作为一个整体看. 可以引进新参数 λ=σ2 再计算).

如果 θ,σ2 都末知而要估计 σ2, 则可以证明: 样本方差 S2σ2 的 MVU 估计,但这个证明已超出本方法的范围之外.

例 3.9 为估计均匀分布 R(0,θ) 中的参数 θ, 在例 3.5 中引 进过两个无偏估计 θ^1=2X¯θ^2=n+1nmax(X1,,Xn), 并证明 了 θ^2 优于 θ^1. 事实上可以证明: θ^2 就是 θ 的 MVU. 但这个结论不 能利用不等式 (3.10) 去证明. 这是因为总体的密度函数并非 θ 的 连续函数. 它有一个间断点: θ=x (注意: 是把 f(x,θ) 中的 x 固 定, 作为 θ 的函数时的间断点), 故导数 f(x,θ)/θ 非处处存在. 证明 θ^2θ 的 MVU 估计要用另外的方法, 此处不能讲了.

下面举一个离散型总体的例子.

例 3.10 总体分布为二项分布 B(N,p), 概率函数为

f(x,p)=(Nx)px(1p)Nx,x=0,1,,N

由此算出费歇尔信息量 (按(3.9)式)

I(p)=1p2(1p)2x=0N(xNp)2(Nx)px(1p)Nx

右边这个和不是别的, 正是总体方差, 故这个和等于 Np(1p) (第三章例 2.2). 因此

I(p)=Np1(1p)1

按 (3.10), p 的无偏估计 (基于大小为 n 的样本) 的方差, 不能小 于 p(1p)/(nN). 现 X¯/Np 之一无偏估计,其方差为

(X¯ 的方差 )/N2= 总体方差 /(nN2)=Np(1p)/(nN)2

=p(1p)/(nN)

因此, X¯/N 就是 p 的 MVU 估计.

特别当 N=1 时, 得出: “用频率估计概率”, 是 MVU 估计. 在 例 2.13 中, 我们曾求出 p 的贝叶斯估计 (2.14), 并指出过它与频 率这个估计比,可能有某些优点. 这就看出: “最小方差无偏”这个 准则也不是绝对的.

例 3.11 仿例 3.10 可以证明: 在波哇松分布 P(λ) 的总体中 估计 λ,X¯ 是 MVU 估计.证明留给读者.

0.3. 3 估计量的相合性与渐近正态性⚓︎

  1. 相合性. 在第三章中我们曾证明大数定理. 这个定理说: 若 X1,X2,,Xn, 独立同分布, 其公共均值为 θ. 记 X¯n= i=1nXi/n, 则对任给 ε>0, 有
limnP(|X¯nθ|ε)=0

(在证明这个定理时假定了 Xi 的方差存在有限. 但我们曾指出: 方差存在的条件并非必要).

现在我们可以从估计的观点对 (3.13) 作一个解释. 我们把 X1,X2,,Xn 看作是从某一总体中抽出的样本. 抽样的目的是估 计该总体的均值 θ. 概率 P(|X¯nθ|ε) 是: “当样本大小为 n 时, 样本均值 X¯n 这个估计与真值 θ 的偏离达到 ε 这么大或更大” 的可能性. (3.13) 表明: 随着 n 的增加, 这种可能性愈来愈小以至 趋于 0 . 这就是说, 只要样本大小 n 足够大, 用样本均值去估计总 体均值, 其误差可以任意小. 在数理统计学上, 就把 X¯n 称为是 θ 的 “相合估计”. 字面的意思是:随着样本大小的增加, 被估计的量与 估计量逐渐“合”在一起了.

相合性的一般定义就是这个例子的引伸:

定义 3.2 设总体分布依赖于参数 θ1,,θk,g(θ1,,θk)θ1,,θk 之一给定函数. 设 X1,X2,,Xn 为自该总体中抽出的 样本, T(X1,,Xn)g(θ1,,θk) 的一个估计量. 如果对任给 ε>0

limnPθ1,,θk(|T(X1,,Xn)g(θ1,,θk)|ε)=0

而且这对 (θ1,,θk) 一切可能取的值都成立, 则称 T(X1,,Xn)g(θ1,,θk) 的一个相合估计.

记号 Pθ1,,θk 的意义, 表示概率是在参数值为 (θ1,,θk) 时去 计算的 (参看前面关于记号 Eθ1,,θk 的说明). 在讲述大数定理时 我们曾引进过“依概率收敛”的术语. 使用这个术语, 相合性可简单 地描述为: 如果当样本大小无限增加时, 估计量依概率收敛于被估 计的值,则称该估计量是相合估计.

相合性是对一个估计量的最基本的要求.如果一个估计量没 有相合性, 那么, 无论样本大小多大, 我们也不可能把末知参数估 计到任意预定的精度. 这种估计量显然是不可取的.

如同样本均值的相合性那样, 常见的矩估计量的相合性, 都可 以基于大数定理得到证明. 我们再以用二阶中心矩 m2(n) =i=1n(XiX¯n)2/n 为例. 以 aσ2 分别记总体的均值和方差. 注意到

i=1n(Xia)2=i=1n[(XiX¯n)+(X¯na)]2=i=1n(XiX¯n)2+n(X¯na)2

m2(n)=1ni=1n(Xia)2(X¯na)2

依大数定理, i=1n(Xia)2/n 依概率收敛于 E(Xia)2=σ2, 而 X¯na 依概率收玫于 0 . 故 m2(n) 依概率收敛于 σ2, 即它是总体 方差 σ2 的相合估计. 因为样本方差与样本二阶中心矩只相差一个 因子 n/(n1), 而当 n 时这个因子趋于 1 , 知样本方差也是 总体方差的相合估计. 这样可以证明: 前面例子中的许多估计都有 相合性.

极大似然估计在很一般的条件下也有相合性. 其证明比较复 杂, 不能在此讨论了.

  1. 渐近正态性. 估计量是样本 X1,,Xn 的函数, 其确切分 布要用第二章 2.4 节的方法去求. 除了若干简单的情况以外, 这常 是难于实现的. 例如, 样本均值可算是最简单的统计量, 它的分布 也不易求得.

可是,正如在中心极限定理中所显示的,当 n 很大时,和的分 布渐近于正态分布. 理论上可以证明, 这不只是和所独有的, 许多 形状复杂的统计量, 当样本大小 n 时, 其分布都渐近于正态分 布. 这称为统计量的“渐近正态性”. 至于哪些统计量具有渐近正态 性, 其确切形式如何, 这都是很深的理论问题,在我们这个课程的 范围内无法细加介绍了.

估计量的相合性和渐近正态性称为估计量的大样本性质,指 的是: 这种性质都是对样本大小 n 来谈的. 对一个固定的 n, 相合性和渐近正态性都无意义. 与此相对,估计量的无偏性概念是 对固定的样本大小来谈的, 不需要样本大小趋于无穷. 这种性质称 为“小样本性质”. 因此, 大小样本性质之分不在于样本的具体大小 如何, 而在于样本大小趋于无穷与否.

对当前页面有任何疑问吗?

评论

登录github的账号后,可以直接在下方评论框中输入。

如果想进行更详细的讨论(如排版、上传图片等),选择一个反应后并点击上方的文字,进入论坛页面。