
上QQ阅读APP看书,第一时间看更新
3.2 多元高斯分布模型
除了前面从几何的角度(或者说从L2损失函数)看线性回归算法的逻辑,还可以从概率统计的角度看线性回归算法的逻辑。给出一组数据D={x1,x2,···,xn}和对应的标签y1,y2,···,yn,寻找一个线性函数f,使得余项
ϵi=yi−f(xi)
看上去类似白噪声,从而相互独立,而且满足同样一个正态分布N(0,σ2)。这里的f(xi)=wTxi+b。正态分布N(0,σ2)的密度函数为

所以,这些独立同分布的噪声的密度函数为

根据概率统计中的极大似然估计,希望估计参数w使得上述密度函数值为最大,从而计算

显然

所以,极大化密度函数就相当于做极小化,即

可以看到极大似然方法和最小二乘法的统一性。
使用极大似然方法还可以进一步推广最小二乘法的表示公式。如果要求
ϵi=yi−f(xi)
不一定是独立同分布,而是满足联合正态分布,其协方差矩阵为Ω,那么所有ϵi的密度函数为

再根据极大似然估计,得到

其解为
