参考文章:https://blog.csdn.net/MoreAction_/article/details/106443383

# 一、要解决的问题

  在工程引用中,我们经常会用一组观测数据去估计模型的参数,模型是我们根据先验知识定下的。比如我们有一组观测数据 (xi,yi),i=1...n(x_i, y_i), i=1...n,通过一些数据分析我们猜测yyxx 之间存在线性关系,那么我们的模型就可以定为:

f(x)=kx+bf(x)=kx+b

  这个模型只有两个参数,所以理论上,我们只需要观测两组数据建立两个方程,即可解出两个未知数。类似的,假如模型有nn 个参数,我们只需要观测nn 组数据就可求出参数,换句话说,在这种情况下,模型的参数是唯一确定解。

  但是在实际应用中,由于我们的观测会存在误差(偶然误差、系统误差等),所以我们总会做多余观测。比如在上述例子中,尽管只有两个参数,但是我们可能会观测nn 组数据(x1,y1),...,(xn,yn)(x_1, y_1), ..., (x_n, y_n),这会导致我们无法找到一条直线经过所有的点,也就是说,方程无确定解。如下图所示:

  于是这就是我们要解决的问题:虽然没有确定解,但是我们能不能求出近似解,使得模型能在各个观测点上达到 “最佳 “拟合。早在 19 世纪,勒让德就认为让 “误差的平方和最小” 估计出来的模型是最接近真实情形的。按照勒让德的最佳原则,于是就是求:

L=i=1n(yif(x))2L=\sum_{i=1}^{n}\left ( y_i-f\left ( x \right ) \right ) ^2

  这个目标函数取得最小值时的函数参数,这就是最小二乘法的思想,所谓 “二乘” 就是平方的意思。从这里我们可以看到,最小二乘法其实就是用来做函数拟合的一种思想。

# 二、最小二乘法

  线性回归定义为:hθ(x1,x2,...,xn1)=θ0+θ1x1+...+θn1xn1h_{\theta }(x_1,x_2,...,x_{n-1})=\theta_0+\theta_1x_1+...+\theta_{n-1}x_{n-1},其中θ\theta 是要求解的参数。假设现在有mm 个样本,每一个样本都有n1n-1 维度的特征,将所有样本点带入模型中可得:

h1=θ0+θ1x1,1+θ2x1,2++θn1x1,n1 h2=θ0+θ1x2,1+θ2x2,2++θn1x2,n1hm=θ0+θ1xm,1+θ2xm,2++θn1xm,n1\begin{aligned} & \mathrm{h}_1=\theta_0+\theta_1 \mathrm{x}_{1,1}+\theta_2 \mathrm{x}_{1,2}+\ldots+\theta_{\mathrm{n}-1} \mathrm{x}_{1, \mathrm{n}-1} \\ & \mathrm{~h}_2=\theta_0+\theta_1 \mathrm{x}_{2,1}+\theta_2 \mathrm{x}_{2,2}+\ldots+\theta_{\mathrm{n}-1} \mathrm{x}_{2, \mathrm{n}-1} \\ & \vdots \\ & \mathrm{h}_{\mathrm{m}}=\theta_0+\theta_1 \mathrm{x}_{\mathrm{m}, 1}+\theta_2 \mathrm{x}_{\mathrm{m}, 2}+\ldots+\theta_{\mathrm{n}-1} \mathrm{x}_{\mathrm{m}, \mathrm{n}-1} \end{aligned}

  为方便用矩阵表示,我们令x0=Ix_0 = I,于是上述方程可以用矩阵表示为:

h=Xθ\mathbf{h}=\mathbf{X}\mathbf{\theta}

  其中,h\mathbf{h}m×1m\times 1 的向量,代表模型的估计值,θθ\thetaθn×1n\times 1 的向量,X\mathbf{X}m×nm\times n 维的矩阵,mm 代表样本的个数,nn 代表样本的特征数,于是目标损失函数用矩阵表示为:

J(θ)=hY2=XθY2=(XθY)T(XθY)J(\theta)=\left \| \mathbf{h}-\mathbf{Y} \right \| ^2=\left \| \mathbf{X}\theta-\mathbf{Y} \right \| ^2=(\mathbf{X}\theta-\mathbf{Y})^{\mathrm{T}}(\mathbf{X}\theta-\mathbf{Y})

  其中Y\mathbf{Y} 是样本的标准输出向量,维度为m×1m\times 1。对目标函数进行求导,并令其导数等于 0,可以得到:

θJ(θ)=2XTXθ2XTY=0\frac{\partial }{\partial \theta} J(\theta)=2\mathbf{X}^{\mathrm{T}}\mathbf{X}\theta-2\mathbf{X}^{\mathrm{T}}\mathbf{Y}=0

  解得:

θ=(XTX)1XTY\theta=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}

# 三、几何意义

# 四、岭回归

  核心求解公式:

θ=(XTX+λI)1XTY\theta=(\mathbf{X}^{\mathrm{T}}\mathbf{X}+\lambda\mathrm{I})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y}

更新于 阅读次数