在Statlect上搜索概率和统计术语
统计列克特
指数 > 渐近的 theory

中心极限定理

通过 博士

中心极限定理(CLT)状态条件足以保证 the convergence 样本平均值 随样本数量的增加而分布。

目录

样本平均值

由于中心极限定理涉及样本均值,我们首先对其进行定义 precisely.

Let [eq1] be a 随机变量序列.

We will denote by Xbar_n 样品 n terms of the sequence:[eq2]

When the sample size n 增加,我们添加更多观察值 X_i to the sample mean.

请注意,样本均值是随机变量的总和,本身就是随机变量 variable.

收敛到正态分布

中心极限定理告诉我们分布的变化 当我们增加样本量时的样本均值。

请记住,如果条件 Law of Large Numbers 适用,样本均值 converges in probability 到观察值的期望值, is,[eq3]

在中心极限定理中,我们首先将样本均值标准化,即 从中减去期望值,然后除以标准 偏差。然后,我们分析其分布的行为作为样本 尺寸变大。发生的是标准化样本的平均值 分布趋同 to a normal distribution:[eq4] where Z is a 标准正态随机变量.

在重要的情况下,变量 X_i 是独立且均匀分布的(IID),上面的公式 becomes[eq5]因为[eq6][eq7]

直觉

样本均值收敛到 在大数定律中保持不变,而收敛于法线 中心极限定理中的分布。这似乎是一个矛盾: 正态分布不是常数!

IID案件的公式可能有助于消除这种疑问: 大数定律,样本均值的方差收敛到零,而 在中心极限定理中,样本均值乘以 $ sqrt {n} $ 因此其方差保持恒定。

实际中如何使用中心极限定理

实际上,CLT的用法如下:

  1. 我们观察到的样本包括 n observations X_1, X_2, $ ldots $, X_n;

  2. if n 足够大,则标准正态分布是一个很好的近似值 标准化样本均值的分布;

  3. 因此,我们假装 that[eq8]哪里 [eq9] 表示均值的正态分布 0 and variance 1;

  4. 结果,样本均值的分布 $ overline {X} _ {n} $ is[eq10]

例子

有几个中心极限定理。我们在下面报告一些示例。

林德伯格évy Central Limit Theorem

最著名的中央极限定理可能是Lindeberg-Lévy CLT:

命题(林德伯格évy CLT) Let [eq1] be an IID sequence 的 random variables such that:[eq12]哪里 $ sigma ^ {2}>0$. 然后,将中心极限定理应用于样本均值 Xbar_n:[eq13]哪里 Z 是标准的正常随机变量,并且 [eq14] 表示分布趋同。

证明

我们将草绘一个证明。有关详细 严格的证明,例如: Resnick (1999) and Williams (1991)。首先,用 [eq15] 其通用术语的序列 is[eq16] 特征函数 of $ Z_ {n} $ is[eq17]现在 接受泰勒级数的二阶展开式 [eq18] around the point $s=0$:[eq19]哪里 [eq20] 是一个比...高的无穷小数 $ s ^ {2} $, 也就是收敛到 0 faster than $ s ^ {2} $ does. Therefore,[eq21]所以, we have that[eq22]哪里 [eq23]是 标准正态随机变量的特征函数 Z (请参阅标题为“ Normal distribution)。一个 theorem, called Lévy连续性定理,我们在这些中不涉及 讲座指出,如果一系列随机变量 [eq24] 就是他们的特色功能 [eq25] 收敛到特征函数 [eq26] of a random variable Z, then the sequence [eq27] 收敛到 Z. 因此,在我们的情况下 [eq15] 分布收敛到标准正态分布。

因此,大致而言,在陈述的假设下, sample mean Xbar_n 可以用均值的正态分布来近似 亩 and variance [eq29] (provided n is large enough).

另请注意,Lindeberg-L的有效性条件évy Central 极限定理类似于条件的有效性 柯尔莫哥洛夫的强大定律 Numbers。唯一的区别是附加要求 that[eq30]

中心极限定理 用于相关序列

In the 林德伯格évy CLT (see above), the sequence [eq31] 必须是IID序列。独立性的假设可以是 weakened as follows.

命题(相关的CLT sequences) Let [eq1] be a stationary and mixing 随机变量序列 满足CLT技术条件(在下面的证明中定义)等 that[eq33]哪里 $V>0$. 然后,将中心极限定理应用于样本均值 Xbar_n:[eq34]哪里 Z 是标准的正常随机变量,并且 [eq14] 表示分布趋同。

证明

几种不同的技术条件 (除了上述建议中明确指出的内容外) 为了导出相关序列的中心极限定理,文献。 这些条件通常非常温和,并且因作者而异。我们的确是 在此不提及这些技术条件,仅将其称为 CLT技术条件.

有关证明,请参见例如 Durrett (2010) and White (2001).

因此,大致而言,在陈述的假设下, sample mean Xbar_n 可以用均值的正态分布来近似 亩 and variance $ frac {V} {n} $ (provided n is large enough).

还要注意中心极限定理的有效性条件 相关序列的条件类似于 ergodic theorem。主要区别 (除了以上未明确说明的某些技术条件 命题)是附加要求 that:[eq36]和 the fact that ergodicity 是 replaced by 混合条件更强。

最后,让我们提一下 V 在上述命题中定义 as[eq37]是 called the 长期差异 of Xbar_n.

多元概括

上面说明的随机变量序列的结果在 随机向量序列的直接方式。例如, Lindeberg-L的多元版本évy CLT如下。

命题(多元 林德伯格évy CLT) Let [eq1] 是的IID序列 Kx1 random vectors such that[eq39]哪里 [eq40] 对于可逆矩阵 西格玛. Let [eq41] 是样本均值的向量。 Then,[eq42]哪里 Z is a 标准多元正态随机向量 and [eq43] 表示分布趋同。

证明

以类似的方式,相关序列的CLT概括为随机 vectors (V 变成一个矩阵,称为长期协方差矩阵)。

解决的练习

您可以在下面找到一些练习,其中包含已说明的解决方案。

练习1

Let [eq1] 成为独立的序列 Bernoulli random variables 与 parameter $ frac {1} {2} $, i.e. a generic term X_n of the sequence has support[eq45] 可能性 mass function[eq46]

使用中心极限定理得出均值的近似分布 of the first $100$ 顺序条款。

序列 [eq1] 是和IID序列。序列通用术语的平均值 is[eq48]的 由于通常,序列的通用项的方差可以导出 计算方差的公式 ([eq49]):[eq50]因此, the sequence [eq1] 满足Lindeberg-L的条件évy中心极限定理(IID, 有限均值,有限方差)。的 $100$ 序列项 is[eq52]使用 中心极限定理来近似其分布,我们 obtain[eq53]要么[eq54]

练习2

Let [eq1] 是具有参数的独立伯努利随机变量的序列 $ frac {1} {2} $, 和上一个练习一样。让 [eq56] 是另一个随机变量序列,例如 that[eq57]

Suppose [eq58] 满足相关序列中心极限定理的条件。 推导第一个平均值的近似分布 n 序列项 [eq58].

序列 [eq1] 是和IID序列。序列通用术语的平均值 is[eq61]的 序列通用术语的方差 is[eq62]的 序列的两个连续项之间的协方差 is[eq63]的 不相邻的两个项之间的协方差 ($ Y_ {n} $ and $ Y_ {n + j} $, with $j>1$) is[eq64]的 long-run variance is[eq65]的 mean of the first n 序列项 [eq58] is[eq67]使用 相关序列的中心极限定理近似 distribution, we obtain:[eq68]要么[eq69]

练习3

Let Y 是具有参数的二项式随机变量 $ n = 100 $ and $ frac {1} {2} $ (您需要阅读标题为“ Binomial distribution 为了能够解决此练习)。通过使用 中心极限定理,表明一个正常的随机变量 X with mean $亩= 50 $ and variance $ sigma ^ {2} = 25 $ 可以用作 Y.

二项式随机变量 Y with parameters $ n = 100 $ and $ frac {1} {2} $ can be written as[eq70]哪里 X_1, ..., $ X_ {100} $ 是具有参数的相互独立的伯努利随机变量 $ frac {1} {2} $. Thus,[eq71]在 在第一个练习中,我们已经表明 $ overline {X} _ {100} $ 可以用法线近似 distribution:[eq54]因此, the distribution of Y can be approximated by[eq73]从而, Y 可以用均值的正态分布来近似 $亩= 50 $ and variance $ sigma ^ {2} = 25 $.

参考文献

Basu,A.K.(2004年) Measure theory and probability,PHI学习PVT。

达斯古普塔,A.(2008年) 渐近的 theory 统计和概率,施普林格。

杜勒特(R.Durrett)(2010) Probability: theory and examples,剑桥大学出版社。

McCabe,B.和A.Tremayne(1993) Elements of modern 渐近理论及其统计应用曼彻斯特大学 Press.

雷斯尼克(美国) (1999) A probability path,Birkhauser。

白H (2001) Asymptotic 计量经济学理论,学术出版社。

威廉姆斯D. (1991) Probability with martingales,剑桥大学出版社。

如何引用

请引用为:

Taboga, Marco (2017). "中心极限定理", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/asymptotic-theory/central-limit-theorem.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。