【概率论与数理统计】【第七章】参数估计:点估计(矩估计、极大似然法)、区间估计
【概率论三】参数估计
文章目录
统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题。本文讨论总体参数的点估计和区间估计。
参数估计讲什么
- 由样本来确定未知参数
- 参数估计分为点估计与区间估计
一. 点估计
根据样本求分布函数的未知参数
设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。
点估计的一般提法
- 根据样本构造一个统计量(样本的函数),统计量的观察值作为位置参数的估计值
- 不同的样本值,估计值一般不同。
构造估计量 ( X 1 , X 2 . . . , ) (X_1, X_2..., ) (X1,X2...,)的方法很多,下面介绍常用的矩估计法和极大似然估计法。
1. 矩估计法
用样本矩作为总体矩的估计量的原因
样本矩在一定程度上反映了总体矩的特征,且在样本容量n增大的条件下,样本的k阶
原点矩
A k = 1 / n ∑ i = 1 n X i k A_k=1/n\sum_{i=1}^{n}X_i^k Ak=1/n∑i=1nXik 依概率收敛
到总体X的k阶原点矩 μ k = E ( X k ) μ_k=E(X^k) μk=E(Xk),即 A k − P > μ k A_k-^P> μ_k Ak−P>μk(n →∞), k=1,2,…。
所以自然想到用样本矩作为相应总体矩的估计量
,而以样本矩的连续函数作为相应总体矩的连续函数的估计量
,这种估计方法就称为矩估计法。
矩估计法的一般做法
已知总体 X ∼ F ( X ; θ 1 , θ 2 , . . . ) X \sim F ( X; θ_1, θ_2,...) X∼F(X;θ1,θ2,...)其中 θ 1 , θ 2 . . . θ k θ_1, θ_2 ... θ_k θ1,θ2...θk均未知,设
几个未知参数,就利用几阶原点矩的方程( A i A_i Ai是i阶样本原点矩,代替i阶总体矩)来求
- A 1 A_1 A1 代表一阶样本原点矩,就是平均值, μ 1 \mu_1 μ1是总体的一阶矩。当趋于无穷时, A 1 A_1 A1 收敛于 μ 1 \mu_1 μ1
xf(x;θ)
是求一阶原点矩的通用公式- 得到θ与μ的关系之后,并将就 A 1 A_1 A1带入,可得θ的矩估计值 θ ^ \hat{θ} θ^。
- 我直接使用 μ 1 μ_1 μ1不行吗?
2. 极大似然法
先看下由费希尔引进的最大似然估计法,来了解此方法的一些限定条件以及结论。
样本固定,θ有一定取值范围,找到使得似然函数最大的那个θ,(就是求极值,或最值)。
2.1. 似然函数
(1)离散型总体
p为 X n X_n Xn 变量θ的概率
如下例题:
假定一个盒子里装有许多大小相同的 黑球和白球,并且假定它们的数目之比为3∶1,但不知是白球多还是黑球多,现在有放回地从盒中抽了3个球,试根据所抽3个球中黑球的数目确定是白球多还是黑球多。
假设一种场景,找到能使这种场景下发生概率最高的概率,这种方法是符合常理的,即极大似然法的思路。
所以本题的答案是,当三次实验只取出1次或0次时,黑球少,当取出2,3次时,黑球多。
(2)连续型总体
只要知道概率分布或密度函数就可以得到关于θ的似然函数。
2.2. 极大似然估计法
主要思想
转换为求似然函数的最大值。简化为:dlnL(θ)/dθ=0
推广到k个未知参数也适用
3. 评价估计量的标准
设总体 X X X服从 [ 0 , θ ] [0,θ ] [0,θ]上的均匀分布, 如下分别使用点估计和极大似然法来估计θ的结果
- 点估计: θ ^ 矩 = 2 X ˉ \hat{θ}_矩 = 2 \bar{X} θ^矩=2Xˉ,
- 极大似然估计: θ ^ L = m a x 1 < = i < = n { X i } \hat{θ}_L = \underset{1<=i<=n}{max}{\{X_i\}} θ^L=1<=i<=nmax{Xi}
这两个估计哪一个好呢?下面我们首先讨论衡量估计量好坏的标准问题。
3.1. 无偏性
若估计量 ( X 1 , X 2 , . . . , X n ) ( X_1, X_2,...,X_n ) (X1,X2,...,Xn)的数学期望等于未知参数 ,即 E ( θ ^ ) = θ E(\hat{θ})=θ E(θ^)=θ 则称 θ ^ \hat{θ} θ^为θ的无偏估计量(Non-deviationEstimator)。
估计量
θ
^
\hat{θ}
θ^ 的值不一定就是θ的真值
,因为它是一个随机变量,若
θ
^
\hat{θ}
θ^ 是θ的无偏估计,则尽管
θ
^
\hat{θ}
θ^的值随样本值的不同而变化,但平均来说它会等于θ的真值。
3.2. 有效性
对于未知参数θ ,如果有两个无偏估计量 θ ^ 1 \hat{θ}_1 θ^1 与 θ ^ 2 \hat{θ}_2 θ^2 ,即 E ( θ ^ 1 ) E(\hat{θ}_1) E(θ^1) = E ( θ ^ 2 ) E(\hat{θ}_2) E(θ^2) =θ,那么在 θ ^ 1 \hat{θ}_1 θ^1 与 θ ^ 2 \hat{θ}_2 θ^2中谁更好呢?
此时我们自然希望θ的平均偏差 E ( θ ^ − θ ) 2 E(\hat{θ}-θ)^2 E(θ^−θ)2越小越好,即一个好的估计量应该有尽可能小的方差,这就是有效性。如下分析:
举例说明
3.3. 一致性
随着样本的增大,n随概率收敛于θ真值
二. 区间估计
1. 区间估计的概念
对于未知参数θ除了求出它的点估计 θ ^ \hatθ θ^外,我们还希望估计出一个范围,并希望知道这个范围包含参数θ真值的可信程度。这样的范围通常以区间的形式给出,同时还给出此区间包含参数θ真值的可信程度。这种形式的估计称为区间估计,这样的区间即所谓置信区间。
置信区间
- 描述的是:θ在置信区间内的置信水平(可信度)为1-a,可能包含θ ,也可能不包含。
- 置信区间指的是未知参数的取值范围。
例如,若取 a=0.05
,那么置信概率为1-a =0.95
,这时置信区间
(
θ
1
,
θ
2
)
(θ_1,θ_2)
(θ1,θ2)的意义是指:在100次重复抽样中,每个样本确定一个置信区间,所得到的100个置信区间中,大约有95个区间包含参数真值θ,有5个区间不包含真值。
2. 正态总体参数的区间估计
如果方差已知,均值μ的置信区间
如果方差未知,则用方差代替
练习题ing
当容量很大时,由中心极限定理,下式服从标准正态分布。
更多推荐
所有评论(0)