搜索Statlect上的概率和统计信息
统计 章程
指数 > Fundamentals of statistics

概率分类模型(或概率回归)

经过 ,博士学位

这个讲座处理概率模型,a binary classification model in which the conditional probability 两种可能之一 realizations 的 the 输出变量等于输入的输入线性组合,转换为 the 累积分布 function 的 the standard normal distribution.

目录

模型规格

假设数据样本 [eq1], for $ i = 1,ldots,n $, is observed, where:

输出的条件概率  $ y_ {i} $ is equal to 1, given the inputs  $ x_ {i} $ , is assumed to be[eq2] 在哪里 $ fleft(t
Ight)$ 是标准正态分布的累积分布函数 and  $ eta $ is a Kx1 系数矢量。

Moreover, if  $ y_ {i} $ is not equal to 1, then it is equal to 0 (没有其他值是可能的),并且需要两个值的概率 to sum up to 1, so that[eq3]

解释

概率模型的解释与Logit的解释非常相似 模型。建议您阅读关于解释的评论 后者在讲座中题为 Logistic classification model.

概率模型作为潜在变量模型

如在Logit的情况下,概率模型也可以写成潜伏 variable model.

定义潜在变量 [eq4] 在哪里 $ arepsilon _ {i} $ 是具有标准正态分布的随机错误术语。输出  $ y_ {i} $ 通过以下方式链接到潜在变量 relationship:[eq5] 我们 have that[eq6] 所以 (1)和(2)指定的潜在变量模型分配给输入 由探测模型分配的相同条件分布。

最大可能性估计

系数矢量  $ eta $ can be estimated by maximum likelihood (ML).

我们假设观察 [eq1] 在样品中独立地和相同分布 ( IID)并且他  $尼姆k $ 定义的输入矩阵 by[eq8] 已 full rank.

在一个单独的讲座中 ( ML 估算模型的估计),我们证明了ML估计 $ widehat {eta} $ 可以找到(如果存在)以下迭代程序。

从初始猜测开始 [eq9] (e.g., [eq10] ), 我们生成一系列 guesses[eq11]

 $ w_ {t-1} $ is an  $ n $ diagonal matrix and $ lambda _ {t-1} $ is an  $尼姆1 $ 向量。他们计算如下:

迭代程序在实现数值汇聚时停止,即, 当两个连续猜测之间的差异 [eq16] and [eq17] 我们很小,我们可以忽略它。

If  $ t $ 是迭代程序的最后一步,那么最大可能性 estimator is[eq18] 和 its asymptotic covariance matrix is[eq19] 在哪里  $ w = w_ {t} $ .

结果,分布 $ widehat {eta} $ 可以用正常分布近似,平均等于真实 参数和协方差矩阵 [eq20].

假设检验

当我们通过最大限度地估计概率分类模型的系数 可能性(见上一节),我们可以执行 hypothesis 基于最大可能性程序的测试 (e.g., Wald, Likelihood Ratio, Lagrange Multiplier )测试一个 null hypothesis 关于系数。

此外,我们可以设置z测试以测试单个限制 coefficient:[eq21] 在哪里  $ eta _ {k} $ is the k - 系数矢量的进入  $ eta $ and $ qin u {211d} $.

The test statistic is[eq22] 在哪里 [eq23] is the k - entry of $ widehat {eta} $ and [eq24] is the k - 进入矩阵的对角线 [eq25].

Since $ widehat {eta} $ 是渐近的正常和 [eq26] is a consistent estimator 的 the 渐近协方差矩阵 $ widehat {eta} $,  $ z $ 收敛于分发到a standard normal distribution (证明与我们提供的证据相同 讲座中Z统计数据的渐近常态 logit model )。

通过近似分布  $ z $ 凭借其渐近(标准正常),我们可以 推导临界值 (depending on the desired size)进行 test.

如何引用

请引用:

Taboga, Marco (2017). "概率分类模型(或概率回归)", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-statistics/probit-classification-model.

这本书

本网站上发现的大多数学习材料现在都以传统的教科书格式提供。