搜索Statlect上的概率和统计信息
统计 章程
指数 > 概率基础知识

Kullback-Leibler分歧

经过 ,博士学位

kullback-leibler分歧是两者之间的不相似性的衡量标准 概率分布。

目录

定义

我们将为kullback-leibler(kl)提供两个单独的定义 分歧,一个用于离散随机变量,一个连续一个 variables.

定义 Let X and Y be two discrete random variables with supports  r_x. and  $ r_ {y} $ and 可能性 mass functions [eq1] and [eq2]. Let [eq3], so that[eq4] 然后 the KL divergence of [eq2] from [eq6] is[eq7]

请注意,求和是对的支持 X, 所以我们总是拥有 [eq8] and [eq9], 而且,因此,自然 logarithm[eq10] 是 always well-defined.

The KL divergence [eq11] 衡量所定义的分布量 [eq2] 与由此定义的参考分布不同 [eq13].

连续随机变量的定义是类似的。

定义 Let X and Y be two continuous random variables 和 supports  r_x. and  $ r_ {y} $ and 可能性 density functions [eq14] and [eq15] such that[eq16] 为了 any set $ asubseteq r_ {x} $. 然后是kl分歧 [eq17] from [eq18] is[eq19]

为了完全严谨,上述定义也应该指明 the sets $ asubseteq r_ {x} $ 必须是可衡量的(见讲座 probability 为了 a 可测量集的定义)。

属性(1),被称为绝对连续性,要求如果是 与密度相关的分布 [eq18] 将非零概率分配给集合 A, 然后也是分布 [eq21] 必须为该集分配非零概率。这个要求类似于 为离散变量并确保这一点 [eq22] 是 在所有的集合上定义 non-zero probability.

KL发散是非负面的

下一个命题陈述了Kullback-Leibler的基本属性 divergence.

主张 Let [eq13] and [eq2] 是两个概率质量功能和 [eq25]. 如果两个概率质量函数一致,那就是 [eq26] 为了 all  $ xin r_ {x} $ , then [eq27] 否则, 如果他们不重合, then[eq28]

证明

让我们首先证明平等部分。如果是 然后,两个概率质量功能重合,然后 [eq29] 为了  $ xin r_ {x} $ and[eq30] 什么时候 他们不一致,然后我们 have[eq31] 在哪里: in step  $ rame {a} $ 我们已经写了总结为 expected value with 尊重概率分布 X; in step  $ rame {b} $ , we have used Jensen's inequality (the function [eq32] 严格凸起 x 和随机变量 [eq33] 不是恒定的,因为两个概率质量功能不一致);在 step  $ rame {c} $ 我们使用的是,概率和不能大于1的事实。

类似的结果保持连续变量。

主张 Let [eq18] and [eq15] 是两个概率密度函数,使其KL发散是 定义。如果两个概率密度函数一致 almost surely ,那是,如果 [eq36] 为了 all measurable sets $ asubseteq r_ {x} $, then [eq37] 否则, 如果他们几乎肯定地不一致,那么 [eq28]

证明

证据类似于离散的类似 variables.

不对称

通常引用的KL发散的属性是它不对称,即 一般来说,没有保证 that[eq39]

事实上,甚至可能 [eq11] exists when [eq41] 没有明确定义:可以通过查看KL的定义来检查 发散,这是在支持时发生的 X 严格包含在支持 Y: [eq42]

为什么KL发散是一种不相似的衡量标准

由于Kullback-Leibler发散是一种信息理论概念和 大多数概率和统计学生都不熟悉 信息理论,他们努力了解对此的直观理解 KL发散衡量概率的不相似性的原因 从参考分布分发。我们提供了一个解释 完全基于概率概念。

Suppose that [eq13] and [eq2] 是两个概率质量功能,使得KL发散 [eq45] is well-defined.

采取两者的凸起组合 distributions[eq46] 在哪里 [eq47].

By increasing  $ lambda $ we can make [eq48] 越来越相似 [eq13] until, when  $ lambda = 1 $ , [eq50] and [eq13] coincide.

可以证明KL发散是凸的(见 封面和托马斯2006 )和,作为一个 consequence,[eq52]

Thus, the higher  $ lambda $ is, the smaller [eq53] 变成。换句话说,越多 [eq54] is similar to [eq55], kullback-leibler分歧越小。

参考

封面,T. M.和J. A. Thomas(2006) " Elements of information theory“,Wiley-interscience。

如何引用

请引用:

Taboga, Marco (2017). "Kullback-Leibler分歧", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-probability/Kullback-Leibler-divergence.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。