【普通最小二乘法的计算公式?】在统计学和回归分析中,普通最小二乘法(Ordinary Least Squares, OLS) 是最常用的一种线性回归方法。它的核心思想是通过最小化预测值与实际观测值之间的平方误差之和,来找到最佳拟合直线或超平面。
一、基本概念
普通最小二乘法用于建立一个线性模型,形式如下:
$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \varepsilon
$$
其中:
- $ y $:因变量(被解释变量)
- $ x_1, x_2, \dots, x_n $:自变量(解释变量)
- $ \beta_0, \beta_1, \dots, \beta_n $:回归系数
- $ \varepsilon $:随机误差项
目标是根据样本数据估计出这些回归系数 $ \beta $ 的值。
二、OLS的数学推导
设我们有 $ n $ 个观测样本,每个样本包括 $ k+1 $ 个变量(含常数项),则可以写成矩阵形式:
$$
\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}
$$
其中:
- $ \mathbf{y} $ 是一个 $ n \times 1 $ 的列向量,表示因变量
- $ \mathbf{X} $ 是一个 $ n \times (k+1) $ 的设计矩阵,包含自变量和常数项
- $ \boldsymbol{\beta} $ 是一个 $ (k+1) \times 1 $ 的列向量,表示回归系数
- $ \boldsymbol{\varepsilon} $ 是一个 $ n \times 1 $ 的误差向量
根据OLS原理,我们希望最小化残差平方和:
$$
SSE = (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta})
$$
对 $ \boldsymbol{\beta} $ 求偏导并令其为零,得到正规方程:
$$
\mathbf{X}^T\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y}
$$
解得:
$$
\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}
$$
三、计算步骤总结
步骤 | 内容 |
1 | 收集数据,构建因变量向量 $ \mathbf{y} $ 和设计矩阵 $ \mathbf{X} $ |
2 | 计算 $ \mathbf{X}^T\mathbf{X} $ 和 $ \mathbf{X}^T\mathbf{y} $ |
3 | 求解正规方程 $ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $ |
4 | 得到回归系数估计值 $ \hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_n $ |
四、示例说明(一元线性回归)
假设我们有以下数据:
x | y |
1 | 2 |
2 | 4 |
3 | 5 |
4 | 7 |
则:
$$
\mathbf{X} =
\begin{bmatrix}
1 & 1 \\
1 & 2 \\
1 & 3 \\
1 & 4 \\
\end{bmatrix},\quad
\mathbf{y} =
\begin{bmatrix}
2 \\
4 \\
5 \\
7 \\
\end{bmatrix}
$$
计算:
$$
\mathbf{X}^T\mathbf{X} =
\begin{bmatrix}
4 & 10 \\
10 & 30 \\
\end{bmatrix},\quad
\mathbf{X}^T\mathbf{y} =
\begin{bmatrix}
18 \\
54 \\
\end{bmatrix}
$$
求逆后:
$$
(\mathbf{X}^T\mathbf{X})^{-1} =
\frac{1}{(4)(30) - (10)^2}
\begin{bmatrix}
30 & -10 \\
-10 & 4 \\
\end{bmatrix}
=
\begin{bmatrix}
1.5 & -0.5 \\
-0.5 & 0.2 \\
\end{bmatrix}
$$
最终:
$$
\hat{\boldsymbol{\beta}} =
\begin{bmatrix}
1.5 & -0.5 \\
-0.5 & 0.2 \\
\end{bmatrix}
\cdot
\begin{bmatrix}
18 \\
54 \\
\end{bmatrix}
=
\begin{bmatrix}
1.5 \times 18 - 0.5 \times 54 \\
-0.5 \times 18 + 0.2 \times 54 \\
\end{bmatrix}
=
\begin{bmatrix}
0 \\
1.8 \\
\end{bmatrix}
$$
因此,回归方程为:
$$
\hat{y} = 0 + 1.8x
$$
五、总结
普通最小二乘法是一种基础但强大的回归分析工具,其核心在于通过最小化残差平方和来估计模型参数。虽然计算过程涉及矩阵运算,但在实际应用中可以通过统计软件(如R、Python、Excel等)自动完成。理解其基本原理有助于更好地掌握回归分析的本质。