搜索Statlect上的概率和统计信息
统计章程
指数 > Fundamentals of statistics

概率分类模型 - 最大可能性

经过 ,博士学位

本讲座解释了如何执行最大似然估计 概率模型的系数(也称为概率回归)。

在阅读此讲座之前,阅读介绍可能会有所帮助 lectures about maximum likelihood estimation 和 about the probit model.

目录

主要假设和符号

在概率模型中,输出变量 $ y_ {i} $ is a Bernoulli random variable (即,一个可以只需要两个值的离散变量, either 1 or 0)。

Conditional on a $ 1 k $ vector of inputs $ x_ {i} $, we have that[eq1]在哪里 $Fleft( t
ight) $ is the 累积分布 function 的 the standard normal distribution and $ eta $ is a Kx1 系数矢量。

我们假设一个样本 independently and 相同分布 input-output couples [eq2], for $ i = 1,ldots,n $, 观察并用于估计载体 $ eta $.

可能性

单一观察的可能性 [eq3] is[eq4]

In fact, note that

由于观察是IID,因此整个样本的可能性是 等于单身可能性的产物 observations:[eq7]在哪里 $ y $ is the $尼姆1 $ 所有输出的矢量和 X is the $尼姆k $ 所有输入的矩阵。

Now, define [eq8] so that

通过使用新定义的变量 $ q_ {i} $, 我们还可以在以下更紧凑的情况下编写可能性 form:[eq9]

证明

首先注意何时 $ y_ {i} = 1 $, then $ q_ {i} = 1 $ and [eq10]此外, when $ y_ {i} = 0 $, then $ q_ {i} =  -  1 $ and [eq11]自从 $ y_ {i} $ 只能占用两个值 (0 and 1), (a) and (b) imply that[eq12]为了 all $ y_ {i} $. 此外,标准正态分布的对称性周围的对称性 0 implies that [eq13]所以, when $ y_ {i} = 0 $, then $ q_ {i} =  -  1 $ and [eq14]什么时候 $ y_ {i} = 1 $, then $ q_ {i} = 1 $ and [eq15]因此, 它从(c)和(d)下降 that[eq16]为了 all $ y_ {i} $. 由于这些事实,我们可以写出可能性 as[eq17]

日志可能性

The log-likelihood is[eq18]

证明

它计算如下:

[eq19]

By using the $ q_ {i} $ 变量,也可以写入日志似然 as[eq20]

证明

这是源自紧凑的形式 likelihood:[eq21]

分数

The score vector,这是矢量 关于参数的逻辑可能性的第一个衍生物 $ eta $, is[eq22]在哪里 $fleft( t
ight) $ is the probability density function 标准正态分布。

证明

这是如此 follows:[eq23]在哪里 in step $ rame {a} $ 我们使用了概率密度函数是衍生物的事实 累积分配功能,即 is,[eq24]

By using the $ q_ {i} $ 变量,分数也可以写成 as[eq25]在哪里[eq26]

证明

这被证明为 follows:[eq27]

黑森州

黑森州,即第二衍生物的矩阵, is[eq28]

证明

可以证明它 follows:[eq29]

可以证明它(参见,例如, Amemiya 1985)那个 quantity[eq30]是 always positive.

一阶条件

最大可能性估计器 $ widehat {heta} $ of the parameter $ heta $ 获得为以下最大化的解决方案 problem:[eq31]

至于Logit模型,也用于概率模型最大化问题是 不保证有解决方案,但是当它有一个时,最大值 分数矢量满足第一个订单 condition[eq32]那 is,[eq33]

The quantity [eq34] 是残余的,即,使用的预测错误 [eq35] to predict $ y_ {i} $. 注意Logit模型的差异:

By using the $ q_ {i} $ 变量和上面得分的第二个表达式,第一个 订单条件也可以写成 [eq37]在哪里[eq26]

牛顿 - 拉赛方法

没有第一订单条件的分析解决方案。其中最...之一 用数字地解决它的常见方法是使用 Newton-Raphson method。这是一种迭代方法。从最初的猜测开始 solution [eq39] (e.g., [eq40]), 我们生成一系列 guesses[eq41]和 当实现数值汇聚时,我们停止(见 Maximum likelihood algorithm 有关数值优化方法的介绍 和数值趋同)。

Define[eq42]

and the $尼姆1 $ vector[eq43]

Denote by $ w_ {t} $ the $ n $ 对角线矩阵(即,具有等于的所有非对角线元素 0) 使得其对角线上的元素是 [eq44], ..., [eq45]:[eq46]这 matrix $ w_ {t} $ 是积极的,因为它的所有对角线条目都是积极的(见 关于上面的黑森州的评论)。

Finally, the $尼姆k $ 定义的输入矩阵(设计矩阵) by[eq47]是 假设有全级别。

通过刚刚介绍的符号,我们可以写得分 as[eq48]和 the Hessian as[eq49]

因此,牛顿raphson递归公式 becomes[eq50]

The assumption that X 拥有全级别保证逆的存在 [eq51]. 此外,它确保了黑森州是负的明确,所以 日志可能是凹形的。

迭代地重复最小二乘

至于Logit Classification Model,也用于它是概率模型 证明牛顿拉赛迭代相当于 迭代地重新重复不断的方块(IRLS)迭代: [eq52]在哪里 我们使用权重执行加权最小二乘(WLS)估计 $ w_ {t-1} $ 依赖变量的线性回归 [eq53] on the regressors X.

证明

[eq54] as [eq55]然后, 可以写入牛顿-Raphson公式 as[eq56]

估算器的协方差矩阵

上面得出的Hessian矩阵通常用于估计 asymptotic covariance matrix 最大可能性估计 $ widehat {eta} $:[eq57]在哪里 [eq58] and $ w = w_ {t} $ ($ t $ 是用于最大化可能性的迭代过程的最后一步)。

证明负面黑森州的反向依据 样本大小,可以在渐近协方差矩阵中收敛于 lecture on estimating MLE估计的协方差矩阵.

鉴于上述估计渐近协方差矩阵,分布 of $ widehat {eta} $ 可以近似正常分布,其平均值等于真实 参数和协方差矩阵 [eq59]

参考

Amemiya,T.(1985) Advanced econometrics哈佛大学出版社。

如何引用

请引用:

Taboga, Marco (2017). "概率分类模型 - 最大可能性", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-statistics/probit-model-maximum-likelihood.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。