深入理解线性模型(二)---基于似然函数的估计
目录
1. 引言
2. 关于ε假设
3. 基于似然函数的估计
3.1 基于假设1
3.2 基于假设2
3.3. 基于假设3
4. 估计的优良性
5. 假设的场景
更新时间:2019.10.31
1. 引言
在上一篇中,我们从损失函数的角度出发讨论了β和σ的估计。在本篇将换一种极具统计味道的角度,从似然函数出发来讨论了β和σ的估计。从中我们也将看见,在不同的假设中,损失函数将会发生不同的变化。
2. 关于ε假设
在上一篇(基于损失函数的估计)中,我们提到,对于线性模型,我们常常使用Guass-Markov假设,即:
E(ε)=0
cov(ε)=σ2In
但是,实际上我们同方差的假设是总是不满足的,完整来说,对ε的假设应该有三种:
同方差,且各个随机误差变量不相关:cov(ε)=σ2In
异常差,但各个随机误差变量不相关,cov(ε)=diag(σ21,σ22,⋯,σ2n)
异方差,且各个随机误差变量是相关的,
cov(ε)=⎛⎝⎜⎜⎜⎜⎜σ211cov(ε2,ε1)⋮cov(εn,ε1)cov(ε1,ε2)σ222⋮cov(εn,ε2)⋯⋯⋯cov(ε1,εn)cov(ε2,εn)⋮σ2nn⎞⎠⎟⎟⎟⎟⎟
此时,记cov(ε)=Σ
3. 基于似然函数的估计
之前是从损失函数的角度进行参数的估计,但是实际上每个损失函数都应该对应着一个分布,并使得分布的似然函数达到最大
我们知道在X给定的情况下,似然函数L(θ;Y,X)=Pθ(Y1=y1,Y2=y2,⋯,Yn=yn)。假设Y1,Y2,⋯,Yn是独立的,有L(θ;Y,X)=∏ni=1P(Y=yi)。当是离散情况的时候,可以进一步化为:L(θ;Y,X)=∏ni=1Pi(θ)。当是连续情况的时候,则可以化为:L(θ;Y,X)=∏ni=1f(yi;θ)
3.1 基于假设1
如果满足假设1,cov(ε)=σ2In, 并加上一个正态性的假设,即有εi∼N(0,σ2),那么,yi=xiβ+εi∼N(xiβ,σ2),那么有似然函数:
L(β,σ2,Y,X)=∏i=1nf(yi)=∏i=1n12π−−√σe−(yi−xiβ)22σ2=(12π−−√σ)ne−12σ2∑i=1n(yi−xiβ)2(1)
可以看到,似然函数中含有的∑ni=1(yi−xiβ)2部分正是我们之前讨论的二次损失形式。那么我们便了解到,基于假设1时,确实是应该采用我们之前所使用的二次损失形式
通常为了简便计算,我们都会将似然函数对数化
lnL(β,σ2,Y,X)=−nln(2π−−√σ)−12σ2∑i=1n(yi−xiβ)2(2)
记G(β,σ2)=nln(2π−−√σ)+12σ2∑ni=1(yi−xiβ)2,令似然函数最大化,即是求minG(β,σ2)
对G(β,σ2)求关于β的偏导有
∂G(β,σ2)∂β=0+12σ22∑i=1n(yi−xiβ)xi=12σ2∑i=1n2(xiyi−x2iβ)=0=>∑i=1n(xiyi−x2iβ)=0=>∑i=1nxiyi=∑i=1nx2iβ=>XTY=XTXβ=>β^=(XTX)−1XTY(3)
对对G(β,σ2)求关于σ的偏导有
∂G(β,σ2)∂σ=n12π−−√σ2π−−√−22σ3∑i=1n(yi−xiβ)2=nσ+1σ3∑i=1n(yi−xiβ)2=0=>1σ3∑i=1n(yi−xiβ)2=nσ=>σ^2=∑i=1n(yi−xiβ)2n(4)
从这里便可以看出,通过似然函数,一次就搞定了参数β和σ的估计,而基于损失函数的估计只是估计出了β,而σ是另外造一套理论估计的
tips:这里的xiβ中的β并不是估计量,这整个代表的是真实的拟合值,所以自由度有所不同(和σ^2=SSEn−p略显不同)
3.2 基于假设2
如果满足假设2,cov(ε)=cov(ε)=diag(σ21,σ22,⋯,σ2n), 并加上一个正态性的假设,即有εi∼N(0,σ2ii),那么,yi=xiβ+εi∼N(xiβ,σ2ii),那么有似然函数:
L(β,σ2,Y,X)=∏i=1nf(yi)=∏i=1n12π−−√σiie−(yi−xiβ)22σ2ii=(12π−−√)n∏i=1n(1σii)e−12∑i=1n(yi−xiβσii)2(5)
我们可以发现基于假设2下,似然函数的核心部分发生了变化,不再是∑ni=1(yi−xiβ)2。因此,根据之前的经验,基于假设2,所采用的损失函数也应该发生变化。此时采用的损失函数应该是标准化的二次损失∑i=1n(yi−xiβσii)2,我们也把这称为加权最小二乘估计。
将似然函数对数化:
lnL(β,σ2,Y,X)=−nln(2π−−√)−∑i=1nlnσii−12∑i=1n(yi−xiβσii)2(6)
记G(β,σ2ii)=nln(2π−−√)+∑ni=1lnσii+12∑i=1n(yi−xiβσii)2,令似然函数最大化,即是求minG(β,σ2ii)
对G(β,σ2ii)求关于β的偏导有
∂G(β,σ2ii)∂σii=0+0−122∑i=1n(yi−xiβσii)xiσii=−∑i=1n(xiyi−x2iβσ2ii)=0=>∑i=1n(xiyiσ2ii)=∑i=1n(x2iβσ2ii)=>XTcYc=XTcXcβ=>β^=(XTcXc)−1XTcYc(7)
记Xc=(x1σ11,x2σ22,⋯,xnσnn)T,Yc=(y1σ11,y2σ22,⋯,ynσnn)T
对G(β,σ2ii)求关于σii的偏导有,以σ11为例
∂G(β,σ2ii)∂σ11=0+1σ11−122(y1−x1β)2σ311=1σ11−(y1−x1β)2σ311=0=>1σ11=(y1−x1β)2σ311=>σ^211=(y1−x1β)2(8)
类似地,也就有σ^2ii=(yi−xiβ)2
3.3. 基于假设3
如果满足假设3,cov(ε)=Σ, 并加上一个正态性的假设,即有ε满足多维正态分布,ε∼Nn(0,σ2ii),那么,Y=Xβ+ε∼Nn(Xβ,Σ),那么有似然函数
L(β,ΣY,X)=P(Y1=y1,Y2=y2,⋯,Yn=yn)=P(Y=y) =1(2π−−√)n|Σ|12e−12(Y−Xβ)T∑−1(Y−Xβ)(9)
其中,|Σ|是Σ的行列式
我们可以发现基于假设3下,似然函数的核同样也发生了变化。那么,基于这种假设,此时采用的损失函数应该是(y−xβ)TΣ−1(y−xβ)。将似然函数对数化:
lnL(β,Σ,Y,X)=−nln(2π−−√)−12ln|Σ|−12(Y−Xβ)T(Σ)−1(Y−Xβ)
记G(β,Σ)=nln(2π−−√)+12ln|Σ|+12(Y−Xβ)TΣ−1(Y−Xβ),令似然函数最大化,即是求minG(β,Σ)
对G(β,Σ)求关于β的偏导有
∂G(β,Σ)∂β=0+0−122XTΣ−1(Y−Xβ)=XTΣ−1(Xβ−Y)=0=>XTΣ−1Xβ=XTΣ−1Y=>β^=(XTΣ−1X)−1XTΣ−1Y(10)
对G(β,Σ)求关于Σ的偏导有
dG=12|Σ|−1d|Σ|−12(Y−Xβ)TΣ−1dΣΣ−1(Y−Xβ)=12tr(Σ−1dΣ)−tr(12(Y−Xβ)TΣ−1dΣΣ−1(Y−Xβ))=12tr(Σ−1dΣ)−tr(12Σ−1(Y−Xβ)(Y−Xβ)TΣ−1dΣ)=tr(12((Σ−1−Σ−1(Y−Xβ)(Y−Xβ)TΣ−1))dΣ)=>∂G∂Σ=12(Σ−1−Σ−1(Y−Xβ)(Y−Xβ)TΣ−1)T=0=>Σ−1(Y−Xβ)T(Y−Xβ)Σ−1=Σ−1=>Σ^=(Y−Xβ)T(Y−Xβ)(11)
4. 估计的优良性
在基于损失函数的估计中,我们讨论了估计的优良性,那么当换了假设和损失函数后,我们的估计是否还是具有优良的性质呢
对于假设3中,有
L3(β)=(Y−Xβ)TΣ−1(Y−Xβ)=(Y−Xβ)TΣ−12Σ−12(Y−Xβ)=(Σ−12Y−Σ−12Xβ)T(Σ−12Y−Σ−12Xβ)=(Y∗−X∗β)T(Y∗−X∗β)(12)
其中,记Σ−12Y−Σ−12Xβ为Y∗−X∗β,由于L1(β)=(Y−Xβ)T(Y−Xβ)具有优良的性质,那么L3(β)=(Y∗−X∗β)T(Y∗−X∗β)的估计也应该具有优良的性质。
5. 假设的场景
为什么总假设线性模型符合假设1呢?实际上当我们基于假设2时,要估计的参数有n+p个(n个不同的σii,和p个βi),而我们只有n个样本,这样就出现自由度不足的情况;而当我们基于假设3时,要估计的参数就更多了(有n2+n2+p个)。这样基本很难做估计,即使是做出出来了,估计也不一定唯一。
面对这种情况,通常我们都要加大样本量,像可以一个个体测m次,得到mn个数据,当然这时模型也变成了混合模型。因此,对于假设2和假设3,更加适合一些纵向数据(经济上的面板数据、心理学上的重复测量数据、社会学上的多水平数据)https://www.cnblogs.com/liangjianli/p/11771462.html