在Statlect上搜索概率和统计术语
统计 列克特
指数 > Fundamentals of statistics

选型标准

通过 博士

模型选择标准是用于选择模型的规则 statistical model among a set of 候选模型,基于观察到的数据。通常,条件会尝试 最小化预期的差异,由 Kullback-Leibler divergence,介于所选模型和真实模型之间(即 生成数据的概率分布)。

在本讲座中,我们重点介绍已估算的模型的选择。 by the maximum likelihood method.

目录

竞争机型

首先,我们需要精确定义统计模型的含义。

统计模型是一组可能具有的概率分布 生成了我们正在分析的数据。

Suppose we observe n data points [eq1] 这些都是从相同的概率分布中独立得出的 (从技术上讲,它们是 IID draws)。如果我们假设抽奖来自正态分布,那么 我们正在制定统计模型:我们将注意力集中在 the set of all normal distributions 而且我们排除了所有的概率分布 不正常。请注意,正态分布有两个 parameters, 均值  亩 and the variance  sigma ^ 2 , 这样我们正在考虑的一组分布(统计模型) 包括许多正态分布:每对可能的一对 [eq2]. 相反,如果我们假设数据是从 exponential distribution,那么我们正在制定替代模型。的 指数分布只有一个参数  $ lambda $ , 称为速率参数。我们的统计模型是一个包含许多可能的集合 分布:每个可能的参数值之一  $ lambda $ .

前面的示例虽然被认为是不现实的,但以简单 解决我们将要处理的问题:如何选择一种模型 (示例中的正态分布与指数分布),如果我们认为两个或 更多替代模型是否合理?

表示法和主要假设

让我们通过以下方式表示观测数据的向量  $ xi $ . 我们假设数据是连续的,并且  $ xi $ is a family of joint probability density functions[eq3]参数化 通过参数向量 $ heta _ {m} $ for each model $ m = 1,ldots,M $.

为了简化讨论,我们专注于连续分布,但是 我们所说的一切对于离散分布也是有效的, 简单的修改(用概率代替概率密度 mass functions).

在上面的例子中,向量  $ xi $ contains the n data points:[eq4] 的 number of models is $M=2$. 两个参数向量 are[eq5] 对于 正态分布 and[eq6] 对于 指数分布。联合概率密度函数 first model is [eq7] 因为 the joint 独立随机变量向量的密度等于 他们的边际密度。联合概率密度函数 second model is[eq8] 哪里 [eq9] 是指标函数(如果为1,则等于1  $ x_ {j} >0$ and to 0 otherwise).

我们假设模型参数是通过最大似然(ML)估算的。我们 denote by [eq10] 的ML估计  $ M $ models.

如果您想查看有关ML估计如何得出的一些示例,则可以 看一下这两个讲座:

最后,我们将用 [eq11] 生成数据的未知概率分布,并且  $ S $ 由模型选择标准选择的模型的索引。显然,  $ S $ can range between 1 and  $ M $ .

一般准则

Akaike (1973) 是第一个提出将军的人 选择由最大似然估计的模型的标准。他提议 最小化所选模型之间的预期差异 [eq12] 在最大似然估计和真实分布 [eq13].

估计模型与真实分布之间的差异是 measured by the Kullback-Leibler divergence [eq14] 哪里 期望值是相对于真实密度 [eq15]

预期的差异计算为 [eq16] 哪里 期望超过了 [eq17], 取决于样本  $ xi $ , 被认为是随机的。

理想情况下,我们希望选择能够最大程度地减少期望值的模型 dissimilarity:[eq18]

但是,无法精确计算预期的相异性,因为 true distribution [eq19] 和采样分布 [eq20] are unknown.

Akaike (1973) 提出了对预期的近似 可以很容易地计算出差异,从而产生了所谓的赤池 信息标准(AIC)。

事实证明,例如 Burnham and Anderson (2004),其他热门选择标准(例如AIC)已针对 小样本偏差(AICc; Sugiura 1978, 赫尔维奇与蔡1989)和贝叶斯信息 Criterion (BIC; Schwarz 1978)基于不同 预期差异的相同度量的近似值。

流行标准

我们在这里简要介绍最受欢迎的选择标准。

赤池信息标准(AIC)

根据赤池信息准则,选定模型  $ S $ 解决最小化 problem[eq21] 哪里 the value of the  $ m $ -th model is [eq22] 哪里 [eq23] 是要在中估算的数量  $ m $ -th model.

请注意,应用于所有模型值的任何线性变换都不会 更改所选模型。事实上,有许多参考文献定义了 value of the  $ m $ -th model as[eq24]

更正了赤池信息标准(AIC)

在小样本中更精确的近似是所谓的 更正了赤池信息准则(AICc),根据该准则 be minimized is[eq25] 哪里  $ N $ 是用于估计的样本大小。

贝叶斯信息准则(BIC)

据称,另一个流行的标准是贝叶斯信息准则 所选模型是达到最小值的模型 of[eq26]

复杂性的惩罚

您可能已经注意到,所有这些条件都会对 型号:数量越高  $ K_ {m} $ is, the more model  $ m $ is penalized.

这种对复杂性的惩罚是典型的模型选择标准: 参数很多的情况更可能过度拟合,即 high value of the log-likelihood [eq27]. 有关过度拟合的讨论,请参见关于 R 线性回归的平方.

复杂度损失也与所谓的 bias-variance trade-off: by 随着模型复杂度的增加,我们通常会降低偏差并增加 方差;除了一定程度的复杂性,方差的增加是 大于减少偏见,因此,我们的质量 推论变得更糟。

参考文献

Akaike,H.,1973年。信息论作为 最大似然原理。在:BN的Petrov和F.的Csaki 国际信息理论研讨会。 Akademiai Kiado,布达佩斯,pp。 276-281.

伯纳姆(K.P.)和Anderson,D.R.,2004年。多模型 推论:了解AIC和BIC的模型选择。社会学方法 &研究,33(2),第261-304页。

Hurvich,C.M.和蔡(C.L。),1989年。回归与时间 小样本中选择系列模型。 Biometrika,76(2),第297-307页。

Schwarz,G.,1978年。估算模型的尺寸。的 统计年鉴,第6卷第2期,第461-464页。

Sugiura,N.,1978年。 统计中的赤池的信息准则和有限更正 理论与方法,第7卷第1期,第13-26页。

如何引用

请引用为:

Taboga, Marco (2017). "选型标准", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-statistics/model-selection-criteria.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。