1、线性回归线性回归 y=\omega_0+\omega_1x_1+\omega_2x_2+\omega_3x_3+···+\omega_nx_n+\varepsilon \boldsymbol \omega 为列向量 \boldsymbol \omega = \left[ \omega_0,\omega_1, \omega_2,···, \omega_n \right]^T \boldsymbol x 为列向量 \boldsymbol x = \left[ 1,x_1,x_2,···,x_n \right]^T 此时,方程可以写为 \boldsymbol y=\boldsymbol \omega^T\boldsymbol x+ \varepsilon=\sum \limits_{j=1}^n\omega_jx_j+\varepsilon 2、最大似然估计与最小二乘法一般 \varepsilon 服从正态分布,即 \varepsilon\sim N(\mu,\sigma^2) 假设 \mu 是 x 的线性函数,因而 \mu=\boldsymbol \omega^T\boldsymbol x ,而噪声是固定的, \sigma(x)=\sigma^2 。 从而参数 \boldsymbol\theta=(\boldsymbol \omega,\sigma^2) 。 p(y|\boldsymbol x,\boldsymbol\theta)=N(y|\mu(\boldsymbol x),\sigma(\boldsymbol x)) 最大似然估计,即 Maximum likelihood estimation (least squares) \hat {\boldsymbol \theta}\triangleq \mathop{\arg\max}\limits_{\theta}ln p(y|\boldsymbol x,\boldsymbol\theta)=\sum \limits_{i=1}^nlnp(y_i|\boldsymbol x_i,\boldsymbol\theta) 最大化对数似然等价于最小化负对数似然 \hat {\boldsymbol \theta}\triangleq \mathop{\arg\min}\limits_{\theta}-ln p(y|\boldsymbol x,\boldsymbol\theta)=-\sum \limits_{i=1}^nlnp(y_i|\boldsymbol x_i,\boldsymbol\theta) 对数似然函数 L(\boldsymbol\theta)=-\frac{n}{2}ln(2\pi)-nln\sigma-\frac{1}{2\sigma^2}\sum \limits_{i=1}^n{(y_i-\boldsymbol\omega^T\boldsymbol x_i)^2} 因而,最大化似然函数等价于最小化平方误差。 定义残差平方和 RSS(\boldsymbol\omega)\triangleq\sum \limits_{i=1}^n{(y_i-\boldsymbol\omega^T\boldsymbol x_i)^2} 也就是, RSS(\boldsymbol\omega)=||\boldsymbol\varepsilon ||_{2}^{2}=\sum \limits_{i=1}^n\varepsilon_i 其中, \varepsilon_i = (y_i-\boldsymbol\omega^T\boldsymbol x_i) 因而线性回归的最大似然估计等价于最小化平方误差方法,也就是最小二乘法。 这也是线性回归使用最小二乘法的原因。 3、正规方程m 个样本, n 个特征的数据 线性回归方程写成矩阵形式 \boldsymbol y=\boldsymbol X\boldsymbol \omega 负对数似然函数最小化 -L(\boldsymbol\theta)\\=(\boldsymbol y-\boldsymbol X\boldsymbol \omega)^{T}(\boldsymbol y-\boldsymbol X\boldsymbol \omega)\\=(\boldsymbol y^T-\boldsymbol \omega^T\boldsymbol X^T)(\boldsymbol y-\boldsymbol X\boldsymbol \omega)\\=\boldsymbol y^T\boldsymbol y-\boldsymbol \omega^T\boldsymbol X^T\boldsymbol y-\boldsymbol y^T\boldsymbol X\boldsymbol \omega+\boldsymbol \omega^T\boldsymbol X^T\boldsymbol X\boldsymbol \omega\ 对 \boldsymbol\omega 求偏导 由矩阵求导公式, \Large \frac{\partial(\boldsymbol x^T \boldsymbol a)}{\partial\boldsymbol x}=\frac{\partial(\boldsymbol a^T \boldsymbol x)}{\partial\boldsymbol x}=\boldsymbol a , \Large \frac{\partial(\boldsymbol x^T \boldsymbol A\boldsymbol x)}{\partial\boldsymbol x}=\boldsymbol A\boldsymbol x+\boldsymbol A^T\boldsymbol x , 可得 \Large \frac{\partial(-L(\boldsymbol\theta))}{\partial\boldsymbol \omega}\\=0-\boldsymbol X^T\boldsymbol y-\boldsymbol X^T\boldsymbol y+(\boldsymbol X^T\boldsymbol X+\boldsymbol X^T\boldsymbol X)\boldsymbol \omega\\=2(\boldsymbol X^T\boldsymbol X\boldsymbol \omega-\boldsymbol X^T\boldsymbol y) 令上式为 0 , \boldsymbol X^T\boldsymbol X\boldsymbol \omega=\boldsymbol X^T\boldsymbol y 如果矩阵 \boldsymbol X^T\boldsymbol X 可逆, \hat{\boldsymbol \omega}_{OLS}=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y 因而我们得到 \hat {\boldsymbol y}=\boldsymbol X \hat {\boldsymbol \omega}=\boldsymbol X(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y 4、岭回归MLE(最大似然估计)出现过拟合的原因在于它选择最佳参数值来对训练数据进行建模;但如果数据存在噪声,这些参数通常会导致复杂的函数。 岭回归相当于在线性回归后加一个 L2 正则化罚项 \lambda||\boldsymbol\omega ||_{2}^{2} 损失函数或者目标函数为 J(\boldsymbol \omega)=\frac{1}{n}\sum \limits_{i=1}^n{(y_i-\boldsymbol\omega^T\boldsymbol x_i)^2}+\lambda||\boldsymbol\omega ||_{2}^{2} 此时正规方程 \hat{\boldsymbol \omega}_{ridge}=(\lambda \boldsymbol I_D +\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y 岭回归在统计上表现更好,同时在数值拟合方面也更加容易,因为 (\lambda \boldsymbol I_D +\boldsymbol X^T\boldsymbol X)^{-1} 更有可能可逆,至少对于适当大的 \lambda 而言,要比 (\boldsymbol X^T\boldsymbol X)^{-1} 好得多。 |