在Statlect上搜索概率和统计术语
统计列克特
指数 > Fundamentals of statistics

具有标准变量的线性回归

经过 博士

本讲座涉及标准化 linear regressions,即其中变量为 standardized.

通过减去变量来标准化变量 sample mean 并除以 standard deviation。被之后 标准化后,变量的均值和单位标准差为零。

目录

标准化

我们将处理线性 regressions[eq1]哪里 $ i = 1,ldots,N $ 是样本中的观察结果, K regressors [eq2] and K 回归系数 [eq3], $ y_ {i} $ 是因变量, $ arepsilon _ {i} $ is the error term.

在标准化回归中,所有变量的均值和单位均为零 标准偏差或等效单位 variance。更多的 precisely,[eq4]为了 $ k = 1,ldots,K $.

此外,我们假设因变量也是 standardized:[eq5]

如何获得标准化变量

通常,要包含在回归模型中的变量的均值不为零 和单位方差表示为 $ x_ {ik} ^ {u} $ 这样的变量(其中上标 $ u $ 表示该变量未标准化)。然后,我们将其标准化 将其包括在回归中。

我们计算样本均值和方差 $ x_ {ik} ^ {u} $: [eq6]

然后,我们计算标准化变量 $ x_ {ik} $ to be used in the regression:[eq7]为了 $ i = 1,ldots,N $ and $ k = 1,ldots,K $.

对因变量执行相同的过程 $ y_ {i} ^ {u} $ 如果它没有零均值和单位方差。

没有拦截

如果回归中包含截距,则需要特别注意, 也就是说,如果其中一个回归变量是常数且等于1。

显然,常数不能标准化,因为其方差为零且 不允许除以零。

我们有两种可能性:

  1. 我们保留常数不变,也就是说,我们不对其进行标准化;

  2. 我们从回归中删除常数。

如果所有变量,包括因变量 $ y_ {i} $, 如我们上面假设的那样标准化,那么就不需要包含 回归中的常数,因为 OLS estimate 它的系数的绝对值将等于零(下面有证明)。 因此,接下来我们总是要删除常数。

证明

用矩阵写回归 form[eq8]哪里 $ y $ is the $尼姆1 $ 自变量向量 X the $尼姆K $ 回归向量 $ eta $ is the Kx1 回归系数矩阵和 ε the $尼姆1 $ 错误项向量。

The OLS estimator of $ eta $ is[eq9]

假设第一个回归变量是常数且等于1,其他所有回归变量 回归器是标准化的。表示为 $ X _ {-1} $ 通过删除的第一列获得的矩阵 X (即包含常量的列)。然后, $ X ^ {op} X $ is block diagonal:[eq10]哪里 因为变量是标准化的,所以非对角线块为零。

As a consequence, [eq11] is block diagonal:[eq12]

Furthermore,[eq13]哪里 $ Noverline {y} = 0 $ because $ y_ {i} $ is standardized.

因此,通过执行两个块矩阵的乘法 [eq14] and $ X ^ {op} y $, we get [eq15]

换句话说,当我们添加一个截距时,另一个的OLS估算器 回归变量不变,估计截距始终等于 zero.

样本协方差

在回归中对变量进行标准化可大大简化 计算其样本协方差和相关性。

两个回归变量之间的样本协方差 $ x_ {ik} $ and $ x_ {il} $ is[eq16]哪里 the sample means $ overline {x_ {k}} $ and $ overline {x_ {l}} $ 之所以为零,是因为两个回归指标是标准化的。

由于同样的原因,样本之间的协方差 $ y_ {i} $ and $ x_ {ik} $ is[eq17]

样本相关

样本之间的相关性 $ x_ {ik} $ and $ x_ {il} $ is[eq18]哪里 the sample variances $ s_ {k} ^ {2} $ and $ s_ {l} ^ {2} $ 等于1,因为两个回归变量是标准化的。

同样,样本之间的相关性 $ y_ {i} $ and $ x_ {ik} $ is[eq19]

因此,在标准化回归中,样本相关性和样本方差 coincide.

最小二乘估算器

Denote by $ y $ the $尼姆1 $ 独立变量的向量和 X the $尼姆K $ 回归矩阵,这样回归方程可以写成 matrix form as[eq20]哪里 $ eta $ is the Kx1 回归系数向量和 ε is the $尼姆1 $ 错误项向量。

The OLS estimator of $ eta $ is[eq21]

当所有变量都标准化后,OLS估计量可以写为 样本相关性的函数。

Denote by $ x_ {i ullet} $ the i-th row of X. Note that the $ left(k,l
权)$-th element of $ X ^ {op} X $ is [eq22]

Furthermore, the k-th element of $ X ^ {op} y $ is [eq23]

Denote by $ r_ {xx} $ 的样本相关矩阵 X, that is, the $ Kimes K $ matrix whose $ left(k,l
权)$-th entry is equal to $ r_ {kl} $. Then,[eq24]

Similarly, denote by $ r_ {xy} $ the Kx1 vector whose k-th entry is equal to $ r_ {ky} $, so that[eq25]

Thus, 我们可以将OLS估计量写为样本的函数 correlation matrices:[eq26]

标准化系数

具有标准化的线性回归模型的估计系数 variables are called 标准化系数。他们是 有时被认为比一个系数更容易解释 非标准化回归。

解释

一般而言,回归系数 $ eta _ {k} $ 被解释为对因变量产生的影响 the k-th 回归器增加一个单位。

有时,例如,当我们读取由 其他人,我们无法判断回归器的单位是否增加 或多或少,或者我们不确定效果的相关性 $ eta _ {k} $ 在因变量上。在这些情况下,标准系数为 easier to interpret.

在标准回归中,变量的单位增加等于变量的单位增加 标准偏差。大致来说,标准差是平均值 随机变量与其均值的偏差。因此,当变量不同于 它的平均值是一个标准偏差,即某种意义上的“典型”偏差。 然后,标准化系数 $ eta _ {k} $ 告诉您典型偏差的多少倍或分数 $ y_ {i} $ 是由于 k-th regressor.

标准化系数之间的比较

标准化的另一个好处是比较起来比较容易 在回归者中。特别是如果我们问哪个回归变量最大 对因变量的影响,那么我们有一个简单的答案: 系数绝对值最高的回归器。实际上, 该回归值与平均值之间的典型偏差将产生最大的 与其他典型偏差产生的效果相比 回归他们的意思。

如何引用

请引用为:

Taboga, Marco (2017). "具有标准变量的线性回归 ", Lectures on probability theory and mathematical statistics, Third edition. Kindle Direct Publishing. Online appendix. //www.enerxy-china.com/fundamentals-of-statistics/linear-regression-with-standardized-variables.

这本书

该网站上提供的大多数学习材料现在都以传统教科书格式提供。