在Statlect上搜索概率和统计术语
统计列克特
指数 > Fundamentals of statistics

正常线性回归模型

经过 博士

本讲座讨论正态线性回归的主要属性 Model (NLRM), a 线性的 regression model 其中回归的误差向量被假定为具有 以回归矩阵为条件的多元正态分布。这 多元正态性假设以及其他假设(主要是 关于误差的协方差矩阵),允许分析得出 的最小二乘(OLS)估计量的分布 回归系数和其他一些统计数据。

目录

设置

我们使用的演讲标题为 Properties of the OLS estimator (您可以参考以获取更多详细信息): $尼姆1 $ 因变量的观测向量由表示 $ y $, the $尼姆K $ 回归矩阵(称为设计矩阵)表示为 X, the $尼姆1 $ 误差向量由 ε and the Kx1 回归系数的向量表示为 $ eta $, 这样回归方程可以矩阵形式写 as[eq1]这 OLS estimator $ widehat {eta} $ 是使平方和最小的向量 residuals[eq2]和, if the design matrix X 有完整的排名,可以计算 as[eq3]

假设条件

正常线性回归模型中所做的假设是:

  1. the design matrix X 具有全等级(因此, $ X ^ {op} X $ 是可逆的,OLS估计器是 [eq4]);

  2. conditional on X, the vector of errors ε has a 多元正态分布 with mean equal to 0 和协方差矩阵相等 to[eq5]哪里 sigma ^ 2 是一个正常数, I is the $尼姆N $ identity matrix;

请注意,假设协方差矩阵为 ε 对角线表示 ε 彼此独立,也就是说, $ arepsilon _ {i} $ is independent of $ arepsilon _ {j} $ for $i
eq j$. 此外,假设协方差矩阵的所有对角项 相等意味着的所有条目 ε 具有相同的方差,即 [eq6] for any i. 后者的假设通常称为“同构假设”, 如果满足这个假设,我们就说这些误差是同等的。 相反,如果同调不成立,我们说的错误是 heteroscedastic.

OLS估计量的分布

根据上一节的假设,OLS估算器具有 多元正态分布,以设计矩阵为条件。

主张 在标准线性回归模型中,OLS估计量 $ widehat {eta} $ 具有多元正态分布,条件是 X, with mean [eq7]和 covariance matrix[eq8]

证明

首先,注意 that[eq9]这 我们所基于的事实 X 意味着我们可以治疗 X 作为一个常数矩阵。因此,有条件的 X, the OLS estimator $ widehat {eta} $ is a linear 多元正态随机向量的变换 (the vector ε)。 这意味着 $ widehat {eta} $ 是多元正态的 mean[eq10]和 variance[eq11]

Note that [eq12] 意味着OLS估算器不仅有条件,而且无偏 无条件地,因为根据迭代期望法则 that[eq13]

误差项方差的估计

误差项的方差 sigma ^ 2 通常是未知的。的常用估计量 sigma ^ 2 是调整后的样本方差 residuals:[eq14]哪里 回归残差为 [eq15]

享受的属性 [eq16] 通过以下命题总结。

主张 在正态线性回归模型中,调整后的样本方差 residuals [eq16] 是的有条件无偏估计 sigma ^ 2:[eq18]此外, conditional on X, [eq16] has a Gamma distribution with parameters $ N-K $ and sigma ^ 2 and it is independent of $ widehat {eta} $.

证明

表示为 $ e $ the $尼姆1 $ 残差向量。请记住,从先前的证明来看,OLS估计量 can be written as[eq20]如 a consequence, we have[eq21]这 matrix[eq22]是 明显对称(通过对其转置进行验证)。它也是幂等的 because[eq23]所以,[eq24]哪里 [eq25] 具有标准的多元正态分布,即多元 具有零均值和单位协方差矩阵的正态分布。自从 matrix $ M $ 是对称和幂等的,二次形式 [eq26]拥有 a 卡方分布 with a number of 自由度等于矩阵的迹线 $ M $ (see the lecture Normal 分布-二次形式)。但是痕迹 $ M $ is[eq27]以来 卡方随机变量的期望值等于其数量 自由度,我们 have[eq28]此外, 二次形式的事实 $ Q $ 具有卡方分布 $ N-K $ 自由度意味着样本 variance[eq29]拥有 具有参数的Gamma分布 $ N-K $ and sigma ^ 2 (请参阅有关 Gamma distribution 以证明这一事实)。最后,我们需要证明 [eq30] is independent of $ widehat {eta} $. Since[eq31][eq32]我们 have that [eq16] and $ widehat {eta} $ 是同一多元正态随机向量的函数 ε. Therefore, by standard 二次形式的独立性的结果 涉及法向向量 [eq16] and $ widehat {eta} $ are independent if $ M arepsilon $ and [eq35] 是正交的。为了检查它们的正交性,我们只需要验证 介于 [eq36] and $ M $ is zero:[eq37]

请注意,在这种情况下,建议的估算器不仅是无偏的 有条件的,但也无条件的,因为,根据迭代法则 期望,我们有 that[eq38]

OLS估计器的协方差矩阵的估计

我们已经证明在正态线性回归模型中 OLS估计量的条件协方差矩阵(条件为 X) is[eq8]

但是,实际上,由于方差的原因,无法确切知道此数量 错误项,即 sigma ^ 2, 未知。但是,我们可以将其未知值替换为估算器 以上建议的(残差的调整样本方差),以便 获得的协方差矩阵的估计量 $ widehat {eta} $:[eq40]

该估计量通常用于构造 test statistics 那 allow to conduct tests of hypotheses about the 回归系数。

最大似然估计

可以证明法线系数的OLS估计 线性回归模型等于 maximum likelihood 估计量。相反,最大似然估计 误差项的方差与推导的估计量不同 以上。有关这两个事实的证明,请参阅标题为“ Linear 回归-最大似然估计.

假设检验

In the lecture on Linear 回归和假设检验 我们解释如何执行 hypothesis tests 正常线性回归模型的系数。

如何引用

请引用为:

Taboga, Marco (2017). "正常线性回归模型", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-statistics/normal-linear-regression-model.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。