做网站 做app,福永响应式网站建设,网站制作案例如何,论坛制作前言
最优估计理论中研究的最小二乘估计#xff08;LS#xff09;为线性最小二乘估计#xff08;LLS#xff09;#xff0c;包括古典最小二乘估计#xff08;CLS#xff09;[1]、加权最小二乘估计#xff08;WLS#xff09;和递推最小二乘估计#xff08;RLS#x…前言
最优估计理论中研究的最小二乘估计LS为线性最小二乘估计LLS包括古典最小二乘估计CLS[1]、加权最小二乘估计WLS和递推最小二乘估计RLS。本文将详细介绍加权最小二乘估计WLS。
线性参数估计问题描述
这里重复文章[1]的相关描述。设XXX为nnn维未知参数向量ZZZ为kkk维观测向量表示经过kkk组实验观测得到的观测值向量其中元素ziz_{i}zi表示第i次观测实验得到的观测值显然其是1维观测标量VVV为kkk维观测噪声向量其中元素viv_{i}vi表示第i次观测实验的观测噪声显然其是1维噪声标量。一般情况下knk nkn且希望kkk比nnn大得多。单次观测值为多维的情况将在其他篇幅讨论。观测实验依据的自变量为θ\thetaθ则将观测量ziz_{i}zi表示为关于θ\thetaθ的未知函数f(θ,X)f(\theta,X)f(θ,X) zif(θ,X)∑j1n[xjhi,j(θ)]vix1hi,1(θ)x2hi,2(θ)⋯xnhi,n(θ)vi\begin{align*} z_{i} f(\theta,X) \sum_{j1}^{n} \left [ x_{j}h_{i,j}(\theta) \right ] v_{i} x_{1}h_{i,1}(\theta) x_{2}h_{i,2}(\theta) \cdots x_{n}h_{i,n}(\theta) v_{i} \tag{1} \\ \end{align*} zif(θ,X)j1∑n[xjhi,j(θ)]vix1hi,1(θ)x2hi,2(θ)⋯xnhi,n(θ)vi(1) 其中 X[x1x2⋮xn]Z[z1z2⋮zk]V[v1v2⋮vk]\begin{align*} X \begin{bmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{bmatrix} Z \begin{bmatrix} z_{1} \\ z_{2} \\ \vdots \\ z_{k} \end{bmatrix} V \begin{bmatrix} v_{1} \\ v_{2} \\ \vdots \\ v_{k} \end{bmatrix} \end{align*} Xx1x2⋮xnZz1z2⋮zkVv1v2⋮vk 式(1)中hi,j(θ)h_{i,j}(\theta)hi,j(θ)表示第iii次观测第jjj个基函数常用为多项式、三角函数或自然指数函数形式 hi,j(θ)θj−1hi,j(θ)sin(jθ)hi,j(θ)exp(λjθ)\begin{align*} h_{i,j}(\theta) \theta ^{j-1} \\ h_{i,j}(\theta) sin(j\theta) \\ h_{i,j}(\theta) exp(\lambda_{j} \theta) \\ \end{align*} hi,j(θ)hi,j(θ)hi,j(θ)θj−1sin(jθ)exp(λjθ) 其中λj\lambda_{j}λj为自然数指数参数。 当观测实验进行上述基函数均可根据θ\thetaθ求得。令hi[hi,1(θ)hi,2(θ)⋯hi,n(θ)]h_{i} \begin{bmatrix} h_{i,1}(\theta) h_{i,2}(\theta) \cdots h_{i,n}(\theta) \\ \end{bmatrix}hi[hi,1(θ)hi,2(θ)⋯hi,n(θ)]且为已知其为nnn维常向量将式(1)改写为 ZHXV\begin{align*} Z HX V \tag{2} \\ \end{align*} ZHXV(2) 其中HHH为参数向量XXX到观测向量ZZZ的k×nk \times nk×n维转移矩阵 H[h1h2⋮hk][h1,1(θ)h1,2(θ)⋯h1,n(θ)h2,1(θ)h2,2(θ)⋯h2,n(θ)⋮⋮⋱⋮hk,1(θ)hk,2(θ)⋯hk,n(θ)]\begin{align*} H \begin{bmatrix} h_{1} \\ h_{2} \\ \vdots \\ h_{k} \end{bmatrix} \begin{bmatrix} h_{1,1}(\theta) h_{1,2}(\theta) \cdots h_{1,n}(\theta) \\ h_{2,1}(\theta) h_{2,2}(\theta) \cdots h_{2,n}(\theta) \\ \vdots \vdots \ddots \vdots\\ h_{k,1}(\theta) h_{k,2}(\theta) \cdots h_{k,n}(\theta) \end{bmatrix} \\ \end{align*} Hh1h2⋮hkh1,1(θ)h2,1(θ)⋮hk,1(θ)h1,2(θ)h2,2(θ)⋮hk,2(θ)⋯⋯⋱⋯h1,n(θ)h2,n(θ)⋮hk,n(θ) 显然观测向量ZZZ与被估参数向量XXX存在线性关系依据最优准则求对XXX的估计值X^\hat{X}X^是一个线性参数估计问题自然对应线性最小二乘估计LLS。
这里讨论下超定方程组的矛盾当knk nkn时线性方程组有唯一精确解但当knk nkn线性方程数大于未知被估参数向量的维度线性方程组变成线性超定方程组其解不唯一。最小二乘法的思想是需求统计意义上的近似解使线性超定方程组中各方程能得到近似相等。
加权最小二乘估计Weighted Least Squares Estimation, WLSE
最小二乘估计LS 假设每次观测量对于估计结果的影响程度相同但实际上观测数据的权重与该次观测的残差平方呈反比更为合理因此引出加权最小二乘估计WLS。 加权最小二乘估计WLS 估计准则为加权残差平方和最小。 根据式(3)代价函数改写如下 JE^TWE^(Z−HX^)TW(Z−HX^)∑i1kwie^i2∑i1kwi(zi−hiX^)2min\begin{align*} J \hat{E}^{T}W\hat{E} (Z-H\hat{X})^{T}W(Z-H\hat{X}) \sum_{i1}^{k} w_{i}\hat{e}_{i}^{2} \sum_{i1}^{k}w_{i}(z_{i}-h_{i}\hat{X})^{2}min \tag{3} \\ \end{align*} JE^TWE^(Z−HX^)TW(Z−HX^)i1∑kwie^i2i1∑kwi(zi−hiX^)2min(3) 其中e^i\hat{e}_{i}e^i为第iii次观测的残差Residual ErrorE^\hat{E}E^为kkk维残差向量有 e^izi−hiX^E^Z−HX^[e^1e^2⋮e^k]\begin{align*} \hat{e}_{i} z_{i}-h_{i}\hat{X} \\ \hat{E} Z-H\hat{X} \begin{bmatrix} \hat{e}_{1} \\ \hat{e}_{2} \\ \vdots \\ \hat{e}_{k} \end{bmatrix} \\ \end{align*} e^iE^zi−hiX^Z−HX^e^1e^2⋮e^k WWW为可根据实际情况适当选取的k×kk\times kk×k阶对称正定加权矩阵但当WIWIWI时加权最小二乘估计退化为最小二乘估计。 W[w10⋯00w2⋯0⋮⋮⋱⋮00⋯wk]\begin{align*} W \begin{bmatrix} w_{1} 0 \cdots 0\\ 0 w_{2} \cdots 0 \\ \vdots \vdots \ddots \vdots\\ 0 0 \cdots w_{k} \end{bmatrix} \\ \end{align*} Ww10⋮00w2⋮0⋯⋯⋱⋯00⋮wk 加权最小二乘估计WLS方法 根据式(3)进行对如下代价函数进行最小化 J(Z−HX^)TW(Z−HX^)\begin{align*} J (Z-H\hat{X})^{T}W(Z-H\hat{X}) \tag{4} \\ \end{align*} J(Z−HX^)TW(Z−HX^)(4) 令JJJ对X^\hat{X}X^求偏导并令其为0有 ∂J∂X^0∂J∂(Z−HX^)∂(Z−HX^)∂X^0−2HTW(Z−HX^)0X^(HTWH)−1HTWZ\begin{align*} \frac{\partial J}{\partial \hat{X}} 0 \\ \frac{\partial J}{\partial (Z-H\hat{X})}\frac{\partial (Z-H\hat{X})}{\partial \hat{X}} 0 \\ -2H^{T}W(Z-H\hat{X}) 0 \\ \hat{X} (H^{T}WH)^{-1}H^{T}WZ \tag{5} \end{align*} ∂X^∂J∂(Z−HX^)∂J∂X^∂(Z−HX^)−2HTW(Z−HX^)X^000(HTWH)−1HTWZ(5) 再由∂2J∂X^22HTWH0\frac{\partial^{2} J}{\partial \hat{X}^{2}}2H^{T}WH 0∂X^2∂2J2HTWH0为X^\hat{X}X^为被估参数向量XXX的加权最小二乘估计显然其是观测向量ZZZ的线性估计。 Jmin(Z−HX^)TW(Z−HX^)ZT(I−H(HTWH)−1HTW)T(I−H(HTWH)−1HTW)Z\begin{align*} J_{min} (Z-H\hat{X})^{T}W(Z-H\hat{X}) \\ Z^{T}(I-H(H^{T}WH)^{-1}H^{T}W)^{T}(I-H(H^{T}WH)^{-1}H^{T}W)Z \tag{6} \\ \end{align*} Jmin(Z−HX^)TW(Z−HX^)ZT(I−H(HTWH)−1HTW)T(I−H(HTWH)−1HTW)Z(6) 加权最小二乘估计WLS无偏性 令估计误差为X~\tilde{X}X~,定义被估参数向量XXX与估计值向量X^\hat{X}X^的偏差有 X~X−X^(HTWH)−1HTWHX−(HTWH)−1HTWZ(HTWH)−1HTW(HX−Z)−(HTWH)−1HTWV\begin{align*} \tilde{X} X - \hat{X} \tag{7} \\ (H^{T}WH)^{-1}H^{T}WHX - (H^{T}WH)^{-1}H^{T}WZ \\ (H^{T}WH)^{-1}H^{T}W(HX - Z) \\ -(H^{T}WH)^{-1}H^{T}WV \tag{8} \\ \end{align*} X~X−X^(HTWH)−1HTWHX−(HTWH)−1HTWZ(HTWH)−1HTW(HX−Z)−(HTWH)−1HTWV(7)(8) 估计误差X~\tilde{X}X~的数学期望为 E[X~]E[X−X^]E[−(HTWH)−1HTWV]−(HTWH)−1HTWE[V]\begin{align*} E[\tilde{X}] E[X - \hat{X}] \tag{9} \\ E[-(H^{T}WH)^{-1}H^{T}WV] \\ -(H^{T}WH)^{-1}H^{T}WE[V] \tag{10} \\ \end{align*} E[X~]E[X−X^]E[−(HTWH)−1HTWV]−(HTWH)−1HTWE[V](9)(10) 由式(10)可知如果观测噪声VVV为白噪声即E[V]0E[V]0E[V]0则加权最小二乘估计X^\hat{X}X^为无偏线性估计。在该无偏估计情况下估计误差X^\hat{X}X^的方差矩阵与估计量X^\hat{X}X^的均方误差矩阵相等推导见[1]即 Var(X~)MSE(X^)E[X~X~T]E[(−(HTWH)−1HTWV)(−(HTWH)−1HTWV)T](HTWH)−1HTWE[VVT]WH(HTWH)−1(HTWH)−1HTWRWH(HTWH)−1\begin{align*} Var(\tilde{X}) MSE(\hat{X}) \tag{11} \\ E[\tilde{X}\tilde{X}^{T}] \\ E[(-(H^{T}WH)^{-1}H^{T}WV)(-(H^{T}WH)^{-1}H^{T}WV)^{T}] \\ (H^{T}WH)^{-1}H^{T}WE[VV^{T}]WH(H^{T}WH)^{-1} \\ (H^{T}WH)^{-1}H^{T}WRWH(H^{T}WH)^{-1} \tag{12} \\ \end{align*} Var(X~)MSE(X^)E[X~X~T]E[(−(HTWH)−1HTWV)(−(HTWH)−1HTWV)T](HTWH)−1HTWE[VVT]WH(HTWH)−1(HTWH)−1HTWRWH(HTWH)−1(11)(12) 其中RRR为观测噪声向量VVV的方差矩阵 R[σ120⋯00σ22⋯0⋮⋮⋱⋮00⋯σk2]\begin{align*} R \begin{bmatrix} \sigma_{1}^{2} 0 \cdots 0\\ 0 \sigma_{2}^{2} \cdots 0 \\ \vdots \vdots \ddots \vdots\\ 0 0 \cdots \sigma_{k}^{2} \end{bmatrix} \\ \end{align*} Rσ120⋮00σ22⋮0⋯⋯⋱⋯00⋮σk2 由式(8)和(14)可知即使在无偏估计前提下二者并不一定相等。因此加权最小二乘无偏估计只能保证加权残差平方和最小但不能保证估计误差方差最小。
最优加权最小二乘估计 由于WWW为可设定的对称正定加权矩阵在无偏估计前提下WWW取某个值可使估计误差方差矩阵式(12)最小令RCTCRC^{T}CRCTC则 Var(X~)(HTWH)−1HTWRWH(HTWH)−1(CWH(HTWH)−1)TCWH(HTWH)−1\begin{align*} Var(\tilde{X}) (H^{T}WH)^{-1}H^{T}WRWH(H^{T}WH)^{-1} \\ (CWH(H^{T}WH)^{-1})^{T} CWH(H^{T}WH)^{-1} \tag{13} \\ \end{align*} Var(X~)(HTWH)−1HTWRWH(HTWH)−1(CWH(HTWH)−1)TCWH(HTWH)−1(13) 令ACWH(HTWH)−1ACWH(H^{T}WH)^{-1}ACWH(HTWH)−1BC−1HBC^{-1}HBC−1H根据施瓦次Schwarz不等式 Var(X~)ATA≥(ATB)T(BTB)−1(BTA)(HTR−1H)−1\begin{align*} Var(\tilde{X}) A^{T} A \geq (A^{T}B)^{T}(B^{T}B)^{-1} (B^{T}A) (H^{T}R^{-1}H)^{-1} \tag{14} \\ \end{align*} Var(X~)ATA≥(ATB)T(BTB)−1(BTA)(HTR−1H)−1(14) 若式(14)取最小值WR−1WR^{-1}WR−1此时有 X^(HTR−1H)−1HTR−1ZVar(X~)(HTR−1H)−1\begin{align*} \hat{X} (H^{T}R^{-1}H)^{-1}H^{T}R^{-1}Z \tag{15} \\ Var(\tilde{X}) (H^{T}R^{-1}H)^{-1} \tag{16} \\ \end{align*} X^Var(X~)(HTR−1H)−1HTR−1Z(HTR−1H)−1(15)(16) 当噪声向量VVV的统计均值为E[V]0E[V]0E[V]0且加权残差平方和中的最优加权矩阵WR−1WR^{-1}WR−1时最优加权最小二乘估计是缺少初值条件下的线性无偏最小方差估计又称为马尔可夫Markov估计。
综上根据加权最小二乘估计原理做如下总结
求加权最小二乘估计量X^\hat{X}X^不需要任何观测噪声向量VVV的任何统计信息加权最小二乘估计的无偏性取决于噪声向量VVV的数学期望如VVV为白噪声即为无偏估计无论是否具备无偏性最小二乘估计只能保证加权残差平方和最小而不是估计误差方差最小;当噪声向量VVV的均值为0且已知其方差矩阵RRR最优加权矩阵WR−1WR^{-1}WR−1此时为最优加权最小二乘估计即马尔可夫估计。
参考文献
[1] 最优估计准则与方法4最小二乘估计(LS)_学习笔记 https://blog.csdn.net/jimmychao1982/article/details/149656745 [2] 《最优估计理论》周凤歧2009高等教育出版社。 [3] 《最优估计理论》刘胜张红梅著2011科学出版社。