搜索Statlect上的概率和统计信息
统计章程
指数 > Fundamentals of statistics > 最大限度 likelihood

最大可能性 - 算法

经过 ,博士学位

在讲座中题为 Maximum likelihood 我们已经解释说最大的似然估计 $ widehat {heta} $ of a parameter $ heta _ {0} $ 获得为最大化的解决方案 problem[eq1]在哪里:

  1. $ theta $ 是参数空间;

  2. $ xi $ 是观察到的数据(样本);

  3. [eq2] 是样本的可能性,这取决于参数 $ heta $;

  4. the $ rg max $ 操作员给出了日志可能性的参数 [eq3] 达到最大值。

在几种有趣的情况下,上述最大化问题具有分析 解决方案。换句话说,可以写入 $ widehat {heta} $ 明确作为数据的函数(参见,例如, maximum likelihood 估计指数分布的参数)。然而, 还有许多情况下,上述问题没有明确的解决方案。 在这些情况下,有必要采用数字算法 最大化的日志可能性。

这些算法如何工作?

它们基于两个不同的计算机程序。第一个程序是一个 函数(调用它有趣),它作为参数的参数是参数的值 vector $ heta $ and the data $ xi $, 并返回输出日志似然拍摄的值 [eq4]. 这是通过以下方式说明的 diagram.[eq5]

第二个程序是一个例程,它调用多次功能乐趣。 每次,不同的猜测 $ widehat {heta} $ 作为输入提供,函数有趣返回为输出值 对应于该猜测的日志似然,并存储此输出值 计算机内存。根据一个例程找到“好猜测” 预先指定的标准,停止执行,猜测用作 最大化问题的近似解。这是由此说明的 following diagram.

[eq6]

有全部分支的数学是独特的关切 设计能够以有效和且有效地执行上述任务的设计算法 有效的方式。基本上,这些算法包括在几个规则中: 一个用于生成解决方案的新猜测(步骤3),一个用于决定 当猜测足够好时(步骤6)。

通常,在一起最大化的日志似然函数的属性 借助算法的属性,保证提出的解决方案 融合到真正的解决方案,从某种意义上是 真正的解决方案和所提出的解决方案可以根据需要制作小的 让例程执行足够多的迭代。然而, 这种融合,称为 数值趋同, 例如,不能始终保证理论基础,因为 日志似然函数的属性难以研究,或者不是 给定算法足以证明数值趋同。

当没有理论上的保证,数值趋同可以是 实现了启发式方法,通常遵循:数值优化 算法运行几次,具有不同,可能随机,启动 参数的值(即,步骤1中的不同初始猜测);我摔倒 运行算法(或大多数)导致相同的提议 解决方案(最大限度的数值差异),那么这被视为 证据表明,所提出的解决方案是真实的良好近似 解决方案。这种方法被称为 多个开始, 或者 多开始,方法(参见,例如, Schoen 1991)。

进入数值优化的数学细节将导致我们 误入歧途太远了。为了具体性,下一节在定性中地址 时尚一些处理最大可能性的实际问题 问题应该意识到。在讨论这些问题后,我们将提出 some examples.

目录

更多细节

最小机构和最大化器

用于数值优化的常用算法通常是执行的 默认情况下最小化函数。最大可能性问题可以是 容易被这些算法解决。它足以注意到这一点 找到函数的最大值与查找最小值相同 函数已签署已更改。换一种说法, solving[eq7]是 the same as solving[eq8]

约束对无约束优化

Let the parameter $ heta $ be a p - 一维 向量。如果参数空间 $ theta $ is the whole set of p - 一维 real vectors, i.e.,[eq9]然后 an algorithm for 不受约束的优化 can be used. This 意味着在参数空间和算法上没有约束 将搜索整个空间 $ u {211d} ^ {p} $ 解决方案。否则,如果参数空间小于该组 p - 一维 real vectors, i.e.,[eq10]在哪里 $子集$ 表示严格包容,然后是一种算法 约束 optimization 可以使用。这只是意味着算法不能 更长的搜索整个空间 $ u {211d} ^ {p} $ 对于解决方案,但必须将自己限制为子集 $ theta $.

约束优化的算法通常要求参数 space $ theta $ 根据相等或不等式限制的条目指定 $ heta $.

例子 If the parameter is $2$ - 一维 其第二个条目不能为负,指定参数空间 as[eq11]在哪里 $ heta _ {2} $ 是参数的第二个条目 $ heta $. 另一个例子是这组 $2$ - 一维 矢量,使其在小于或等于的条目的总和 1:[eq12]

注意,最大似然估计器的渐近常态是基于 对数似然函数的衍生物的存在 $ heta _ {0} $ (真正的参数值)。此外,估计渐近性 协方差矩阵需要计算衍生品的计算 日志似然功能 $ widehat {heta} $ (参见题为有权的讲座 Maximum 可能性 - 协方差矩阵估计)。因为一个衍生品 在给定集上定义的函数仅在属于的点处定义 该设置的内部,它遵循基于的标准结果 渐近常态不能使用 $ widehat {heta} $ or $ heta _ {0} $ 是界限 $ theta $, 也就是说,当约束绑定时。有技术可以推导出来 最大可能性估计器的渐近分布 约束是绑定的,但这些技术非常复杂及其 适用性通常是有限的(参见,例如, Newey and McFadden - 1994)。

此外,大多数软件包通常包括强大且经过良好的测试 针对无约束优化的算法,但可靠的例程 约束优化可能更难找到或难以使用 efficiently.

由于上述原因,通常努力避免受限制 优化问题尽可能多。例如,几个约束 优化问题可以重新参数化作为不受约束的问题。我们 提供一些可以实现的例子。

例子 Suppose a parameter $ heta _ {1} $ 需要严格积极,即, [eq13]. 我们可以重新参加参数化 as[eq14]所以 新参数没有约束,因为原始参数 约束总是尊重 [eq15].

例子 Suppose a parameter $ heta _ {1} $ 需要在单位间隔内,即, [eq16]. 我们可以重新参加参数化 as[eq17]所以 新参数没有约束,因为原始参数 约束总是尊重 [eq18].

例子 假设两个参数需要满足约束 [eq19]. We can substitute [eq20] 在日志似然函数中,减少问题的维度 丢弃参数 $ heta _ {2} $.

此外,有限的优化问题有时被转换为一个 通过惩罚不受约束。这如下所示:而不是 解决受限制 problem[eq21]a 寻求不受约束的修改的解决方案 problem[eq22]在哪里 [eq23] is a 惩罚功能 定义为 follows:[eq24]

换句话说,允许优化算法搜索整体 space $ u {211d} ^ {p} $ 对于解决方案,但当算法提出猜测以外的猜测 参数空间,函数返回值 $ -infty $, 因此,猜测将永远不会被选为解决方案。因为无限的 penalty [eq25] 是不连续和不可分辨的微分,它通常被惩罚所取代 这是连续和可微分的,在数字上非常接近 it (see, e.g., Griva,Nash和Sofer 2009)。这个可以 在效率和速度方面导致显着提升 优化。但是,请记住,现代优化软件是 通常能够处理无限惩罚。

选择特定算法

文献中已经提出了数以千计的优化算法 (参见,例如,维基百科的文章 Optimization techniques)。这些算法之间的主要差异是:是否或 它们不需要计算函数的衍生品 优化,无论他们是否能够保证数值趋同, 它们是否可以处理非平滑(即,非连续或 不可差异化的功能。

除非你是该领域的专家,否则这一切都不是一个好主意 决定自己使用哪些算法和写入计算机 从头开始进行惯例来实现它。在大多数情况下,您的最佳选择是 使用已构建的统计中已构建的优化例程 您正在使用的软件来执行最大的似然估计。通常, 选择将非常有限,所以你可以尝试似乎最适合的东西 你。例如,在Matlab中,您基本上有两个内置算法,一个 called fminsearch, that does not require the computation of derivatives, and one called fminunc, 这需要它。第一个往往会很慢,但是很健壮 也可以处理不合适或不连续的功能,而第二个 一个更快,但不能正确处理非平滑功能。 无论您选择什么,都记得多开始的方法(见上文) 提供巨大的价值,因此始终重新运行优化多次, 用不同的(和可能随机)起点,以检查 所提出的解决方案是稳定的。

基于衍生物的算法

几种算法需要输入第一和二阶衍生物 日志似然函数,并使用这些衍生品来形成新的猜测 参数值。根据算法,这些衍生品可以是 用户提供,以计算值的函数的形式提供 每个参数值的衍生物,或直接计算 优化算法,通过使用 numerical 差异化技术。请记住,数值差异化 技术往往是不稳定的,所以,如果衍生物的日志可能性 可以在分析上计算功能,优选向其提供 优化算法。

停止标准

正如我们所看到的,数字优化算法保持提出新的 据某些人来说,猜测解决方案直到它发现一个好猜测 预先指定的标准(参见上图中的步骤6)。什么标准是 通常采用来决定猜测是否足够好?有几种 常见标准,它们通常与结合使用。其中一些 下面简要描述标准。

例子

如何使用MATLAB执行最大似然估计的示例 在题为题为题为题为题为的讲座 最大可能性 - MATLAB example.

参考

Griva,I.,Nash,S.和Sofer,A.(2009) Linear 和非线性优化,第2版,暹罗。

Newey,W. K.和D. McFadden(1994)“第35章:大 样本估计和假设检测“,在 Handbook of Econometrics,elewsvier。

Schoen,F.(1991) " 随机技术 全球优化:近期进步调查“, 全球优化杂志,1,207-228。

如何引用

请引用:

Taboga, Marco (2017). "最大可能性 - 算法", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-statistics/maximum-likelihood-algorithm.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。