范文一:【word】 一般线性回归模型的参数估计
一般线性回归模型的参数估计
第14卷第4期
2005年1O月
云南民族大学(自然科学版)
JournalofYunnanNationalitiesUniversity(NaturalSciencesEdition)
Vo1.14,No.4
Oct.20o5
一
般线性回归模型的参数估计?
蒋学军王秀荷
(云南大学统计系,云南昆明650091)
摘要传统的最小二乘估计在处理一般线性回归模型的参数和的估计问题时,若遇到异常数据模型拟和得往往
不好,现提出另一种估计方法:修正的最小二乘估计.结果表明此方法在处理异常数据时具有明显的优越性.
关键词线性回归模型;参数估计;最小二乘估计;修正的最小二乘估计
【中图分类号】O212.1【文献标识码】A【文章编号】1672—8513(2005)04—0340—03
ParameterEstimationofGeneralLinearReyressionModels
JIANGXue..JunWANGXiu..he
(DepartmentofStatistics,YunnanUniversity,Kunming650091,China)
Abstract:ItisoftendissatisfactorytodealwiththeestimationoftheparametersB&orofthegenerallinearre.
gressionmodelwithtraditionalleastsquareestimatewhensomeabnormaldataneedtobeanalyzed.Onthebasisof
theabovereason,thispapersuggestsanothernewestimatemethodthatisrectifiedleastsquareestimate.Itcanbe
usedtodealwithsituationaboveeffectively.
Keywords:linearregressionmodels;parameterestimate;leastsquareestimate;rectifiedleastsquareestimate
0引言fE(y)=??m(2)
tD(Y.)=Or,=1,…,.
最小二乘估计是拟和一般线性回归模型的常用
方法.由于其估计值的优良性质,很多文献都对该方
法进行了详细介绍(参见文[1][2]).
fr=X8+s
J(s)=0(1)
【coV(占)=Or?,?0,
本文利用该方法拟和上述线性模型,并回顾最
小二乘估计的一些性质,然后用具体数据集来评估
所拟和的模型.通过拟和后的残差,发现最小二乘法
的不足,从而提出新的拟和方法——”修正的最小
二乘法”,并用于拟和上数据集.新的结果表明,本
文拟和方法是切实可行的,并在分析上数据时,具有
优越性.
1一般线性回归模型与最小二乘估计
考虑不相关的观察(y一,Y)满足
记Y=(Y.,…,Y),卢=(.,…,卢),则(2)亦即
fY=x8+s
{E(占)=0(3)
Lcoy(占)=,.
其中L是阶单位阵,和是未知参数,为已知
的自变量矩阵..问题是对于观察Y=如何估计参数
和?
最/bZ.乘法是十分普通的估计参数向量和
的一种方法具体的说,就是极小化”观察l,和其期
望之间差的平方”:
(Y一)(Y一)=?(y—一…一:1
?收稿13期:2005—04—16
基金项目:云南省自然科学基金(2004A002M).
作者简介:蒋学军(1976,),男(汉族),湖南永州人,硕士研究生,主要从
事数理统计及应用的学习和研究
340
第4期蒋学军,等:一般线性回归模型的参数估计
)(4)
上式极小化问题的解称为参数卢的”最小二
乘估计”.由于上式是关于卢可微的,所以应满足
下列”正规方程”(见文[1]):
=
XY.(5)
如果是可逆的,则=(XrX)XY是唯
一
确定的.一般地,由于矩阵是设计阵(假设为非
随机的),我们可以假定是可逆的,由于是
(Y一,Y)的线性形式,所以在线性估计类中研究
的性质是十分有意义的.文[3]给了所谓Gauss—
Markov定理(见文[3]第l5页).
定理1设(3)成立,则的全部线性无偏估计
类中,卢的最小二乘估计是唯一的一个方差一致最
小的估计.
这个定理表明:一方面是无偏估计,即E()
=
卢;另一方面,.舀是在线性无偏估计限制条件下,方
差一致最小者.从而,的均方误差也是一致最小的
(因为”均方误差”=偏差的平方+方差)然而,定
理1只有在模型(3)中假设eOV(s)=成立时才
成立.
如果观察(Y,Y2,…,Y)是相关的,不妨假定
cov(s)=?,?>0,已知这时我们有与(3)相
对应的一般线性回归模型:
fY=X86
jE(s)=0(6)
【coV(s)=?,?>0.
由于?>0,所以我们可以作变换Z=
?”y,于是模型(6)可以改写成
fz=?”+s
{(s):0(7)
tCOV(s?)=.
其中s?=?”s.从而问题转化成模型(3)
中的参数估计问题.这样与(3)的最小二乘估计相
对应,我们可得到(7)中的卢的最d”--乘估计=
(?,)?,(这里,由于xrx可逆.从
而是列满秩的,因而?,可逆).在(7)下,
上述有类似定理1的结果成立(参见文[3]).
注1如果(6)中假设COV(s)=?中I
?l=0,则?不存在.这时,我们可使用?的
“广义逆”?一来代替?而求得卢的最小二乘估
计=(?一)一?一~O0(X?一)一表
示?一的广义逆.但这时不是唯一的,因为
?不唯一(称为A广义逆e:,AA—A:A).
注2如果Xl,不可逆或X?X不可逆,则
所对应的最/1”~-乘估计并不是好的估计,这时存
在一些修正的估计.如岭估计(参见文[3]):
(后)=(?X+)?,
注3当s,N(o,盯)时,=(x)y
即为”最大似然估计”.但是实质问题中,我们不知
道是否正态,这不一定是一个好的估计.
下面我们考察的估计,它反映了观察误差的
大小,因而在实用上很重要.考虑残差e=Yi—i,
其中=(…,),e.作为第i次观察误差的估
计.因而一般地说,当大(或小)时,le.l倾向于
大(或小).因此,ei的平方和,即
Rss=?e,i=1
(8)
是衡量or大小的一个合理指标,称为”残差平
方和”,记为e=(e一,e),则
Rss=eTe=(Y一)(Y一)=yry一
上式用于计算Rss,因为在计算Rss时通常已计
算出了,而y作为正规方程(4)的右边,已早算
出,再以:(xrx)XY代入,也可以把Rss表示成
y的二次型:
Rss:YY—yrXfXX)一XY
=
yr(,一X(XX)X)y
—l,(一)y.(9)
利用二次型期望公式,可得E(Rss)=(n—
m),于是令
=
Rss/(,l—m),(10)
则是的无偏估计.文[3]证明了和.r
在s,?(0,)时是”一致最小方差无偏估计”.
注4上述估计和都是基于最小二乘原
理(即标准(4)式).它们具有一些优良性质,如”一
致最小方差无偏性”,但是这些性质都是在模型(3)
的假设成立时得到的.如果COV(s)=不成立,
则需要其他的估计方法.
2模拟分析
为了评估最d?,---乘估计,我们考虑下列回归模
型(一元情形)
Y=++ei,i=1,…,20(,l=20)(11)
34l
云南民族大学(自然科学版)第l4卷
其中=0.5,=2.5,=i/n(i=1,…,20),
利用统计软件SAS生成一容量n:20的伪随机样本
占?独立同分布,且为标准正态分布.然后利用
(11)得到相应的Y一Y?,结果见表1.
表1用SAS软件得到的模型(11)的随机样本
O.O5O.1OO.15O.2O0.25O.3OO.350.40
Y0.71720.61140.59761.16270.97302.42210.22582.3754
O.45O.5OO.55O.6O0.650.7OO.750.80
?1.05981.345l2.28422.702l2.267l2.2l673.o4642.2642
0.850.900.951.o0
?,2.45071.o0163.389624_428
利用上节介绍的最小二乘法(模型(3)和正规
方程(5)),可求得相应的最小二乘估计:
&=0.5807=2.24216-=1.1693(12)
(1)人造异常值:对于上述观察(,Y),i=1,
…
,2O,把第3个观察值,,,增加1,这样(,Y3)是一
个异常点.对如此得到的新数据集,采用最小二乘方
法拟合,得到a=0.7491,=2.0166,显然,最小二
乘估计与真实参数=0.5,=2.5相差太远,显得
很不好.因而,我们需要对最小二乘方法加以修正,
着就导致了下节的修正的最小二乘法.
3修正的最小二乘估计
上一节介绍了最小二乘估计,当有异常值出现
时,有较大的偏离.这里提出一种新的估计方法,它
是以最小二乘法为基础修正的,称之为”修正的最
小二乘法”.
回到(4),可以看到最/J~--乘估计极小化”向量
】,与之间的距离”.由于),3是一个人造异常值,它
使得上例中新的向量y与之间的距离发生了变
化(因为被人工增加了1),从而导致了的估计发
生了变化.经过分析,发现e,=Y,一(&+)是所
有e=Y.一(a一)中最大的.为此,这里考虑修
正(4)的右边得
?(Y一Xil~l一?一X,m3),(1Y一xid3一?I=l
一
.Isc)
其中
,(I,Is):f,.s,是一给定常数.
tO,ItI>c,
修正的最小二乘估计将是极小化上式的解.
这个似乎依赖于c,但经验表明:如果c靠近1.345
倍误差标准差,则对c不太敏感.在下述分析中,
我们取c:1.345S.其中S为模型误差的标准差的
稳健估计.求解是一个非线性优化问题,简单的
单纯形算法可以用于求解此问题,MATLAB软件中
的函数fminsearch可执行相应的任务.下面讨论
的具体计算问题:
1)计算最小二乘估计声并求出残差ei;
2)估计残差e的标准误差.将e.排序并去掉开
头和末尾各2.5%的数据点,然后计算剩余数据的
样本标准差,即得到S.
3)以为初值,利用MATLAB中的函数
fminsearch,计算.由于初值是相合估计,所以上
述迭代过程很快收敛.
现在应用前面的修正的最小二乘估计来分析第3
节中表1中数据集,发现&和(取c=1.345,S=1)与
(12)中估计很接近,但当用于第3节中的新数据时,得
到拟合系数a=0.5548=2.3421.这表明修正的最小
二乘估计在两个数据集的拟合中都很好
致谢:本文写作过程中承蒙云南大学统计系教
授唐年胜的悉心指导和审阅,在此表示诚挚感谢!
参考文献:
[1]王松桂.线性模型的理论及其应用[M].合肥:安徽教育出版社,1987.
[2]RAO.C.R.LinearStatisticalInferenceanditsApplications[M].JohnWileg
&Sons,1971.
[3]陈希孺,王松桂.近代回归分析——原理方法及应用[M].合肥:安徽教育出版社,1987.
[4]唐年胜,王亚,罗贤奎.多元加权约束线性回归的影响分析[J].云南大学,2000,22(2):126—129
342
(责任编辑杨多立)
范文二:【doc】一般线性回归模型岭估计的影响分析
一般线性回归模型岭估计的影响分析
第29卷第3期北京交通大学Vo1.29No.3
oFBEUING儿A0T0NER!工.I:2
文章编号:1673—0291(2005)03—0022—03
一
般线性回归模型岭估计的影响分析
张尚立,刘晓,周国梅2
(1.北京交通大学理学院,北京100044;2.环保总局环境与经济政策研究中心,北京
100029)
摘要:讨论一般线性回归模型岭估计的影响分析问题,研究了协方差阵扰动和数据
删除对岭估计
的影响,给出了岭估计基于有偏估计的Cook距离.
关键词:线性回归模型;岭估计;影响分析;Cook距离
中图分类号:O212.4文献标识码:A
InfluenceAnalysisofRidgeEstimatorintheGeneral
LinearRegressionModel
Z/-/ANGShang-li,L,己,?Gao.ZHOUGuo-mei
(1.SchoolofSciences,BeijingJiaotongUniversity,Beijing100044,CNna;2.PolicyResearchCenter
forEnviroment&Economy,StateEnvironmentProtectionodministration,Beijing100029,China)
Abstract:InthispaperwediscusstheinfluenceproblemofRidgeEstimatoringenerallinearregression
model,studytheinfluenceanalysisonRidgeEstimatorwithcovariancematrixdisturbanceanddata
deletion,defineCookdistanceofRidegEstimatorbasedonbiasedestimator. Keywords:linearregressionmodel;ridgeestimator;influenceanalysis;Cookdistance
1问题的提出
对于线性回归模型
{Ee0Coe:~72I?l()=,v()=…
式中,E(?)表示数学期望,Coy(?)表示协方差,l,是 n×l观测向量,是P×l未知参数向量,x是已知 的n×P列满秧矩阵,e为n×1随机误差向量,盯 是未知参数,I是n阶单位阵.文献[1]对模型(1) 删除一组数据或一数据集的影响问题作了较详细的 讨论,得到了许多有意义的结果.
模型(1)中卢的最小二乘估计=(xTx) Xl,也是它的最佳线性无偏估计.然而,当设计阵 x呈病态时,的性质会变差.为了改进最/b-乘估 计(,E),的有偏估计得到了专家学者们的重视, 本文讨论一般线性回归模型
jY=郦l
E(e):0,Coy(e)=a2V 式中,V?0,的岭估计的影响分析问题. 本文讨论的数据删除模型为
fv(j)=x(j)卢+e(J)
lE(e(J))=0,Cov(e(J))=盯J一
式中,J={i1,i2,…,i},l?i1<i2<…<?n, V(J),x(j),e(J)分别为模型(1)中l,,x,e删除 J中各行后得到的向量或矩阵.
2概念与引理
对于矩阵A,A一表示A的广义逆,A为A的 Moore—Penrose广义逆.
定义1当设计阵x呈病态时,模型(1)的岭估 计定义为
IJ(k)=(xTx+kI)一xTY(4)
引理111J对模型(2),记A=V+XXXT,其中 收稿日期:2004—02—12
基金项目:"973"前期研究专项子课题资助项目(2003CCA02400)
作者简介:张尚立(1966一),男,湖南郴州人,副教授,硕士.叫
IaiI:Shlzhang@center.njtu.eelu.cn
第3期张尚立等:一般线性回归模型岭估计的影响分析23
:
{0,I?0.11,lVl=0
则有
(1)/1(V:X)=/1(A); (2)(Y一)TA一(Y一),XTA—X和
xTA—l,都与A一的选择无关.
其中(?)表示矩阵?的列向量张成的线性子空间. 引理2对于模型(2),记为p的最佳线性 无偏估计(BLUE),则有
v=(XTAX)XTAY(5)
证明因为A=V+;xT,所以/1(A)=/1 (V:X)(X),又/1(A)=/1(A),因此
(XTAX)一存在,于是
v=(XTA—x)一xTA—Y=
(XTAX)一XTAY.
定义2当设计阵x呈病态时,模型(2)的岭估 计定义为
v(=(XTAx+ki)XTAY(6) 3主要结论
定理1若矩阵(I一)可逆,则
v(是)=(是)一
(XTX+志I)一XT(I一)一;(7)
式中,=I—A,H=X(XTX+志I)一1xr, ;=(I—H)Y.
证明因为A=I一,由I+(I一)一1 HA=(I—HA)及矩阵求逆公式,有 v(=(XTAX+kI)-1XTAY= [(XTX+志I)一XTx]一XT(I一)Y= [(xTx+kI)一(xTx+是I)一xT×
(,一)X(XTX+志I)一]x
[xTl,一XTl,]=
(志)+(XTX+kI)xT(I一)一1HY一 (XTX+志I)一1XTl,一
(XTX+ki)XT(I一)一瓜l,=
(志)+(XTX+志I)一xT(I一)一Hl,一 (XTX+志I)一1XTY一
(xTX+是I)一xTy[(I—H)-1一I]Y= (志)一(XTX+kI)一1XT×
(I一日rA)-1(I—H)Y=
(志)一(XTX+kI)一xT×(I一)一lb 定理2记(J)(为数据删除模型(3)的岭估 计,若
A=I一?(1一砌)d?d,
{?3
0<?1,J?J,
贝0有lirav(志)=(J)(志)(8) '
?J?J
式中,d,为第个元素为1,其余元素都是0的列向 量.
证明由岭估计的几何意义知,岭估计(是
LSE的一种压缩估计.若已知LSE务,将它压缩到 原来的f倍(0<C<1),并使残差平方和上升尽可 能小,这样得到的估计就是岭估计. 因此,模型(2)的岭估计就是使
f(v一6)TxTAx(Dv一6)最/J,1ll6ll:Il(9)
的解.式中,v=(xTAX)XTAY. 同理模型(3)的岭估计为使
f((J)一6)TXT(t,)x(t,)((J)一6)最/J,,, 6llz:',)llz'0
的解,式中,(J)=(XT(t,)x(t,))一XT(t,)Y(j).
当A=I一?(1一)?d时,式(9)变成
f(一)TXTx(一6)一?(一b)T×
I./EJ1(1_)?(v一6)最小(11)
bll=cllll
式中,参v=(xTx一?(1一?,),.)一I(XTy一 ?(1一)?).若令一.+,J?t,,式(11)就
与式(1O)等价.因而,砌一0,J?J时式(9)与式 (10)同解.即
lirav(=(J)(.'
,
J?J
定理2说明,若
A=I一?(1一砌,)d,.d,
J?J
且一0,J?t,(即Var(y,一?,J?3),对岭估计 来说,方差扰动就等价于删除集t,中的数据. 以下推论描述了组数据方差扰动或删除 组数据后岭估计的变化情况.
推论1模型(2)中,若
A=I一?(1_)d,.d,
有v(正)=
(志)一(xTx+kI)x】=AJ(JJ—HsAJ)一(12) limv(=
.J?J
(志)一(xTx+ki)-1x(JJ—HJ)一(13)
北京交通大学第29卷
式中,xJ,分别由x,e在J中各行所构成,IJ为 m阶单位阵,H_J=xj(xTx+志J)x,AJ=diag(1
一Wil,
1一Wi2,…,1一Wi).
证明不失一般性,设J={1,2,…,m}, 则=c一~j)dj=[A.j,:lvv一
记x=(),H=【HJ:).
有(J—I-I~)_l_『一J,1,:L*JJ,J f(IJ—I-I~tJ)01
【*J(t,)j
故y(k)=IJ(k)一(xTx+志J)xT
fAs01【(IJ—H)01【
00Jl*J(J)j
IJ(k)一(xTx+志J),XTAj(b—HjAj)一. 显然limy(k)=
,jEJ
IJ(k)一(xTx+志J)x(IJ—nj).
由推论1可得推论2,推论2描述了一组数据 方差扰动或删除一组数据后岭估计的变化情况. 推论2模型(2)中,若
A=J一(1一W)d,
则有
y
(志)=(志)一(1一W)(xTx+志J)一 1一(1一W)h
(14)
lim
+
?一(15)
—
'0,l
式中,=Y—xT(xTx+kI)一xTy,是H的第 i个对角元素.
为了度量方差扰动对岭估计的影响程度,类似 于Cook距离,可以定义基于岭估计的Cook距离
Dv=
(y(志)一IJ(k))T(xTx+k1)(IJy(志)一(志)) (P+1)
(16)
式中=?d/(一户=1
定理3模型(2)中岭估计的Cook距离为 .
证明由定理1可得
y(志)一(志)=
(xTx+志J)一xT(J一)一占(17) 利用,H的对称性,将式(17)代人式(16)得 Dv:
U(1r—An)一7tx(x+H)一1(J一)一占 (P+1)
T(J一H)一(J一)一1
(P+1)'
参考文献:
[1]陈希孺,王松桂.近代回归分析一原理方法及应用[M].
合肥:安徽教育出版社,1987.91—150.
CHENXi—ru,WANGSong-gui.ModemRegressionAnal—
ysis[M].Hefei:AnhuiEducationPress,1987.91—150.
(inChinese)
[2]王松桂.线性模型的理论及其应用[M].合肥:安徽教育
出版社,1987.173—181.
WANGSong-gui.Th~ryofLinearModelsandItsAppli—
cation[M].Hefei:AnhuiEducationPress,1987.173—
181.(inChinese)
[3]CookRD.DetectionofInflucntialObserrationsinLinear
Regression[J].Technometrice,1977(19):15—18.
[4]张尚立,刘国忠.一般线性回归模型BLU估计的影响分
析[J].北京交通大学,2004(6):12—14.
ZHANGShang-li.LIUGuo-zhong.InfluenceAnalysison
BestLinearUnbiasedEstimatorintheGeneralLinearRe—
gressionModel[J].JournalofBeijingJiaotongUniversity,
2004(16):12—14.(inChinese)
[5]林路.协方差阵扰动模型岭估计的影响分析[J].工程数
学,1995(3):83—88.
LINLu.InfluenceAnalysisonRidgeEstimatorinRegres—
sionModelwithCovarianceMatrixDisturbance[J].Jour—
nalofEnNn~fingMathematios,1995(3):83—85.(in
Chinese)
[6]王松桂.回归诊断发展综述[J].应用概率统计,1987
(4):310—321.
WANGSong—gui.SummatizationofRegressionDiagnosis
Progress[J].ChineseJournalofAppliedProbabilityand
Statistics,1987(4):310—321.(inChinese)
范文三:一般线性回归模型岭估计的影响分析
一般线性回归模型岭估计的影响分析
11 张尚立,刘晓,周国梅 2 (北京交通大学 理学院,北京;环保总局环境与经济政策研究中心,北京) 11000442100029..
摘 要:讨论一般线性回归模型岭估计的影响分析问题,研究了协方差阵扰动和数据删除对岭估计的影响,给出了岭估计基于有偏估计的距离 Cook.
关键词:线性回归模型;岭估计;影响分析;距离 Cook
中图分类号:文献标识码:2124 A .O
smnuenceanasordeesaornhegeneraIfllifitititl yg
M Lnearreressonodeiilg
122,,ZHANGSOnLU xOOZHOU GuOme I-liIi-ig
(,,,;1.SchoolofSciencesBeiinJiaotonUniversitBeiin100044China2.policResearchCenter ygggyjj,,,)forenviroment& economStateenvironmentprotectionodministrationBeiin100029Chinay gj
:ae absacnhswedscusshenuenceobemoRdeesmaoneneaneaeessontrtItrtfrfttrrrrriiilliiilliipppggg
,smodesudhenuenceanasonRdeesmaowhcovaancemaxdsubanceanddaa ttfttrtrtrtrtlilliiiiiiiyyg
,eondeneCookdsanceoRdeesmaobasedonbasedesmaoltifiitfititrititr. g
de:;;;KewordslinearregressionmodelridgeestimatorinfluenceanalysisCookdistance y
Y = X+e ! 问题的提出 ( )< 2="" 1="" 2="" (),()="" ee0cove!v="=对于线性回归模型" 式中,,的岭估计的影响分析问题v="" 0="" .="" !="" 本文讨论的数据删除模型为y="" x="+e" !="">< 1="" ()()()2="" yj="XJ+eJ!" (),()ee="0Cove=!I">< 3="" 2(()),(())式中,(?)表示数学期望,(?)表示协方差,是eej="0CoveJ=!I" n~m="" ecovy="">
观测向量,是未知参数向量,是已n>1P>1X 式中,,! ,,,,,,J=i i i 1 i i i n 12 m m 1 2 列满秧矩阵,为随机误差向n>e n>1 知 的1 (),(),()分别为模型()中 、、删除YXYX JJeJ1e2 !量,中各行后得到的向量或矩阵是未知参数,是阶单位阵文献,,对模型() J. nn11I.
删除一组数据或一数据集的影响问题作了较详细的 概念与引理讨论,得到了许多有意义的结果 2. T-1 -+^模型()中 的最小二乘估计()对于矩阵 ,表示 的广义逆,为 的 XX AAA AA 1=! !T也是它的最佳线性无偏估计然而,当设计阵 XY .广义逆 Moore-penrose.
^呈病态时,的性质会变差为了改进最小二乘估 计X . !定义当设计阵呈病态时,模型()的岭估 1 X 1),的有偏估计得到了专家学者们的重视, LSe( ! 计定义为 本文讨论一般线性回归模型1TT~^()()()k=XX +kIXY 4 !,,1 T引理对模型(),记 ,其中1 2A=V+XX "
收稿日期:2004-02-12
第张尚立等:一般线性回归模型岭估计的影响分析3 23期
T,+ () ,V ?00II 1dIIA =--d jj,j ! =, Jj ,V 10=II,, 0 1JI j j 则有^^ () 则有( )( )lim a= ()a8 ()(:)(); !!J 1VX=AV ""+,I 0 j J jTT --()()(),2Y XAY XXAX --!! 和式中,为第个元素为,其余元素都是的列d 10 j jT --都与的选择无关 XAY A.量 向.
其中(?)表示矩阵?的列向量张成的线性子空间^证明 由岭估计的几何意义知,岭估计()是. "a !
^引理对于模型(),记为 的最佳线性^ ^ 的一种压缩估计 若已知,将它压缩到 2 !V !!LSE LSE . !!无偏估计(),则有BLUE 原来的倍(),并使残差平方和上升尽可c 0 c 1
T1T^+ -+ ()() 5 能小,这样得到的估计就是岭估计!XAXXAY V =.
T 证明因此,模型()的岭估计就是使因为 ,所以 ()2 A =V +XXA=! ""TT+ + ^ ()(^)最小(:)(),又()(),因此 bXAX b -V !-!VX XA=AV """() 9 T+-12 2 ()存在,于是^XAX b =c !VTT^ ---()T+1 T +- ^V XAXXAY 的解式中,( !==)= XAX X A Y ..V !T+ 1T+ -()XAXXAY .同理模型()的岭估计为使3
TT^^()()(())最小定义当设计阵呈病态时,模型()的岭估2 X 2 ()-bXJXJ()-b !J!J()10 计定义为2 2^() b =c J! 1T -+T ^+() () ( ) X A Y a6T T-1!V XAX aI ( = +^的解,式中,()())()( )()X J X J X J Y J =!.J
+T ) 时,式( 当()变成?A1dII=- - d jj主要结论j 9 "J j TTT ^^^ 定理若矩阵()可逆,则 ()()()# HAI- bXX b b --->!!!-V V V J j ^^() ()aa !=-()V ! T 11 )最小()(^?b!- 1I x xj V -j j T1T1--() ( )^()XX aXAHAe 7 II+2 2-^ b =c V ! + T1T-式中,,(), A=AH=XXX+aXI-ITT1T^-式中,(())(? !V XX1I xxXY =- -j j j -^() e=I-HY.j J
+ + -1 () 证明 ?)若令, ,式( )就因为 ,由()1-Ixy. I Oj J 11 A=I-AI+I-HA j j j j Jj -1 ()及矩阵求逆公式,有HAHA =-I +与式()等价因而,,时式()与式100J 9.I jjT+ 1 T -+^() () aX AX aIY !V = + X A = ( )同解 即10 . TT1T-,() ,( )XX aIXAXXIAY ^^ +--=()( )m () a=ali. J!!V +, Jj TTT -1-10I ,()() j XX XX X+a+a>II定理说明,2-1T-1 ()(), AI-HAXXX +aI> +若T () ,?AI1IdTT=- - j jd j ,, XY -XAY= Jj TT11 --+()()()^ 且 ,(即 (,),对岭估计XX XAHAHY aaIIV ++--0JaryJ!I j j jjT-1T ()来说,方差扰动就等价于删除集中的数据XX aIXAY +-J . T-1T-1 ()()以下推论描述了 组数据方差扰动或删除 m mXX +aIXAI-HAHAY =
T1T1组数据后岭估计的变化情况 --.()()()^ XX XAHAHY aaII++--!
T-1T推论模型()中,若 # 2()XX aIXAY +-+T T-1T-1(), AI1I?(),(),=- - d d j j XX +aIXAYI-HA-IY =j J jT1T-^()() aXX aXA ^I+>有 ()!-a= V !-1 ()()T-1T -1IHAIHY --= ^^()()()( )a-XX+aIXI -H " e !"12 JJ J J JJ T1T1--^()() ( )^^aXX aIXA IHAe ()!-+>-lim a !V = +,J j0 I ^ j记 定理( )为数据删除模型( )的岭估2 ()a J3 !T1T1--^^()()()() 计,若a-XX +aIXI-H e13 !J J J J
北 京 交 通 大 学 学 报第29 24卷
^式中,、分别由,在中各行所构成,为定理模型()中岭估计的距离e Xe J I # 2CookX JJJ -1-1TT ^^ ,( ()()( 为 XX +aIAH AHA HA eeII X=da1--!i gJ JD =V . 2*(),, ,)P+1! -I1-I1-I. i i i 1 2 m 证明 由定理可1证明 不失一般性,设,,, ,,,J=12m ^^ ( ) ( ) 得a a = -V ""m !! J T T1T1) 则(?, --, ^ A 1dd()()( )I= = - jjjXX aXA HAe 17 II+- =1j! ! 的对称性,将式( )代入式( 利用、)得 AH1716 ^H XJ eJ J^ ,记, X =()H = e =()D .V = ^()()XJ eJ T1T1T1--- ^()()()^ eAHAXXX aXAHAe III1 +--- ! I-H!= 2J JJ*()-1 有 P+1! () IHA-= = () IJ -1-1 T ^ ^ )() (HA ee AH AHA II--1- .) ( 2 !H I-!J JJ()*P+1 ! . () IJ
T1 T-^^ () () () 故 aaX X aI X参考文献:"=- + V " ,,陈希孺,王松桂近代回归分析—原理方法及应用,, 1..M1-() !! H I-!!JJ JJ ^合肥:安徽教育出版社,, e 19879115.- .=() ! IJ !,uCHENXi-ruWANGSon-i.ModernreressionAnal- gggT1T-1-^^()() ) (a-XX +aIX!I -H ! e . "J J J J J J ,,:,sis.HefeiAnhuiEducationpress1987.91-15 .My ^ ()显然 a=m V "li ()C nhneseii + , I Jj j,,王松桂线性模型的理论及其应用,,合肥:安徽教育 2..MT-1T-1^^()()() aXX+aXHe-II-."J JJJ出版社, 1987.173-181.由推论可得推论,推论描述了一组122uWANGSonTheooneaModesandsA-i.rflirlItli- gyppg 数据,,:,caonHeeAnhuEducaon pess1987173 ti.fiitir.-M方差扰动或删除一组数据后岭估计的变化情况 .() 181.inChinese+T推论模型()中,若 ( ) ," 2A=I-1-Idd i i i , ,3 Cookr D.DetectionofInflucntialObserrationsinlinear ,,,():eessonJTechnomece1977191518ri.tri-. g则有
1 -T^,,张尚立,刘国忠一般线性回归模型 估计的影响分) 4.BlU (() 1-IXX +aI xeri ii^^() ()=- V a" a "()析,,北京交通大学学报,(): 11I h J.2 4612-14.--i ii
,sZHANGSU GA han-uo-zhonnuencenasonlilI.Iflliygg() 14 BUEmGesnearnbasedsaornheeneranearre- tliitititlliT-1 ^( )XX+aIxe () ii15^^()(),,,lima=a- ""ressionModelJ.JournalofBeiinJiaotonUniversitgy ggV j+ 1-h iiI j ():()2 41612-14.inChinese TTT-1^(),是的第,,林路协方差阵扰动模型岭估计的影响分析,,工程数 式中, XXXY H -x+ah5JI.. e=ii yi ii():学学报, 1995383-88.个对角元素 i. slINlu.InfluenceAnalisonrideEstimatorinreres- ygg 为了度量方差扰动对岭估计的影响程度,类似,,sionModelWithCovarianceMatrixDisturbanceJ.Jour- 于距离,可以定义基于岭估计的距离 CookCook,():(EMmnaonneernaheaos1995383-85n lfiitti.i ggD)=V C hnesei
,,王松桂回归诊 断 发 展 综 述,,应 用 概 率 统 计, TT6.J.1987^^^^(() ())(()() ()) aaXX +aIaa "V -"V -" " (): 431 -321.2*()P+1 ! uWANGSonSummazaonoeesson Danoss -i.titifrriiigggg() 16,,CAproressJhneseJournaoedprobaband .ilfliilitppyg7 ,():()Statistics1987431 -321.inChinese 2 2 **式中,()!= ei 7 -P-1. i=1
范文四:一般线性模型回归系数的可估计性
2009年第 11 卷第 3 巢湖学院学报 No.3.,Vol.11.2009
期 总第 96 期 General Serial No.96 Joumal of Chaohu College
一般线性模型回归系数的可估计性
罗冬梅
(安徽工业大学数理学院,安徽 马鞍山 243002)
摘 要:利用矩阵广义逆的有关性质,研究了一般线性回归模型设计矩阵 非列满秩时回 归参Xnxp T数 的可估计性,并给出了回归参数 的某些线性函数 可估计的充要条件(β β cβ 关键词:回归模
型;最小二乘估计;可估计性
中图分类号:文献标识码:文章编号:O212.1 A 1672-2868(2009)03-0012-03
1 引言 对于一般线
性回归模型
2=+,()=0,()=. (1)YXβεEεCovεσI 2 2 ×1 观测向量,为 × ×1 未知参数向量,为误差方差,且 ,0(通 其中 是设计矩阵,为nX nppσσY β
2 常所考虑的统计推断问题是:未知参数 和 的估计以及关于 某种假设进行检验等(若仅对 进 β σβ β 行估计,迄今为止应用最广,计算最简便且又作为其它若干方法的出发点的,仍推最小二乘法(它要 求 的估计满足下面的条件:β
记 ,为使 的达到极小值,利用矩阵微商得
令 得到
ΤΤ,ΧΧβΧY [1]矩阵方程(3)即为模型(1)的正则方程(
于是未知参数 是否存在最小二乘估计,就取决于正则方程(3)有没有解或有没有惟一解(本文 β
首先给出了正则方程(3)必有解的结论,然后分别对设计矩阵 是否列满秩的两种情况,讨论了矩阵 Xn×p
的逆矩阵的存在性和惟一性,从而可以进一步确定回归参数 的可估计性,最后还给出了回归参数 β β T[2]的某些线性函数 可估计的充要条件。cβ
2 最小二乘解的存在性 由下面引理可知正则方程(3)总是有解的,且
引理 1) 方程(3)必有解;其解即为的最小二乘解。 1
2) 方程(3)的任一解为 的最小二乘解;β
收稿日期:2009- 02- 15 基金项目:安徽省高校青年教师科研资助项目(2007jp1025)(
作者简介:罗冬梅(1979,),女,安徽涡阳人,安徽工业大学数理学院,硕士,研究方向:数理统计及其应用。
3) 的任何最小二乘解必为方(3程)的解。β
T证明 1) 因 ?) (()为 的 个列向量生成的一个线性空间),要证方程(3)有解,只须 (XμXμXX p Y
TTTTTTTTTTT证 )=()。显然 ))(现设 ?),则 =0,,故 ,因而 =0,即 ?((((=0μXμXXμXX奂μXaμXXaXXaXXaaXaμ TTTTT(),故 ))(因而 )=()((((XμX奂μXXμXμXX
2) 现设 为方程(3)的任一解,则对任何 ,有b
(
因为为方程(3)的解,因而 ,故 ,这对一切 都成立, b
故 为 的最小值点。
3) 为 的最小值点,取方程(3)的一解 ,其存在性 1)已证明(则b
因为 为方程(3)的解,因而 ,所以得b
由于 为最小值点,由上式得 ,即 ,故
定理得证。
3 参数估计
我们知道若未知参 数可估,即存在最小二乘估计,则方(3)必有惟一解程,也就 是有惟一的最 β β
小二乘解,否则,未知参数 将不可估计。β
TT- 1当)=,即设计矩阵为列满秩时,是正定阵,存在逆矩(阵),所以方程(3)有惟一解(rankXpXXXXX n×p
,
此时 是可估计的,且 即为 的最小二乘估计。 β β
T当 ),时, 为降秩,此时方程(3)的解为(rankXp XX
,
TTT- )表示 的广义逆,因为广义逆)的不惟一导致了最小二乘 解的不唯一,此时,参 数是 (XXXX XX(β
T不可估计的.但我们可以证明参数 的某些线性函数 是可估计的。β cβ
T引理 对任意矩阵 ,恒有 )=()((2 XμXμXX
TTT TT证明 显然 )),故只需证 ))(事实上,对任 给?),有 =0,右乘 (((((μXX奂μXμX奂μXXxμXXxXX
TT ??T ,得 ,故 =0 ,所以 ?,故 (),从而 ()(得证(xXxxμ(X)μXX奂μ(X)μ(X)奂μXX
T- T T- 引理 ()与广义逆()的选择无关.3 XXX XXX
T TT T TTTTT证 明 由引理 2 知 )=(),故存在矩阵 ,使得 =.于是 ()- =(μXμXXYXXXYXXXXYXX(XX)- TTTT- ,与()的选择无关.XXY=YXXYXX
T要使 的某些线性函 数可估计,只要选择合适的向 量,使得 被唯一确定即.可下面的 β cβ cp×1
定理给出了答案.
TT定理 若存在向量 ,使得 =,则可估计.acXacβ n×1TTT- TTT- TT- T T- 证明 若 =,则 =()(),由引理 2 知 ()与广义逆()的选择 cXacXXXY=aXXXXYXXXXXX
T无关,所以 被唯一确定,即 是可估计的,得证.cβ T由上面定理还可得到下列几个 可估计的充要条件.cβ T推论 可估计与最小二乘解 的选择无关.1 cβ 圳
TTTT- TT- 证明 若 可估计,则 =,故 =(),与广义逆()的选择无关,即与最小二乘 cβ cXaaXXXXYXX
T- 解 的选择无关(反过来 ,若 与最小二乘解 的选择无关,则 必与广义逆()的选择无 XX
TT- TTT关,由 =(),故 ,即 可估计,得证.=cXXXXY cXacβ
TTT推论 可估计存在线性无偏估计 (2 cβ 圳cβ aY
13
TTTTTTTT证明 若 可估计,则 =,这时 =,即 为 的线性无偏估cβ cXaE(aY)aXE(Y)=aXβ=cβaY cβ
TTTTTpT计, 反过来,为 的线性无偏估计,则 ==,对一切 ,故 =,得证.aY β βE(aY)Xββ缀Ra ccacX
由推论 2 可以直接得到
TT推论 可估计存在无偏估计。3 cβ 圳cβ
TT推论 可估计由 唯一确定。4 cβ 圳cβ E(Y) T证明 由推论 3 知若 可估计,此时, 显然cβ 圳 T 只 通过 依赖 即由 唯一确定,得证。,cβ Xβ βE(Y)
参考文献:
[1] 王松桂.线性模型的理论极其应用[M].合肥:安徽教育出版社,1987,
[2] 陈希孺.高等数理统计[M].合肥:中国科学技术大学出版社,1999,
[3] 司存瑞.独立约束条件下线性模型的参数估计[J].纯粹数学与应用数学,2000,16(3):86- 89,
[4] 林正华,冯仁忠.自回归模型参数的最小二乘估计[J].吉林大学自然科学学报,2001,(4):1- 4,
[5] 张卫国,王利岩,陈炜.带有约束条件的一般线性模型参数估计[J].河北师范大学学报,2004, 28(3):241- 244,
THE ESTIMABLE OF REGRESSION COEFFICIENT IN THE GEMERAL LINEAR MODEL
LUO Dong-mei
(School of Mathematics and Physics , Anhui University of Technology, Ma’anshan Anhui 243002 ) Abstract:By using some properties of matrix’s generalized inverse, we study the estimable of regression coefficient if the design matrix is not column full rank matrix in the general linear model, at the same time , we also get some necessary and sufficient conditions for some linear functions of regression coefficient which can be estimated.
Key words: regression model; least squares estimation; estimable
责任编辑:宏 彬
14
范文五:线性回归模型预测
经济预测与决策
线性回归模型预测
1问题背景
从1978年改革开始到80年代中期,由于农村实行包产到户的改革、提高农产品收购价格以及乡镇企业的发展,农村居民收入以15%的年增长幅度迅速提高,城乡居民收入差距明显缩小。但在80年代后半期和90年代期间,随着农村改革的剩余潜力逐渐释放和城市改革加快,同时也由于缺乏农村后续改革措施以及某些政策方面的缺陷,城乡居民收入差距出现了持续扩大的趋势。
随着金融危机的不断蔓延, 我国正在将经济增长的动力源头指向国内市场, 扩大内需成为GDP 不断增长的前提条件。国内市场的扩大不能单纯依靠提高城镇居民的购买力水平, 也要激发农村居民的购买热情。在农村人口占55%以上的中国, 农村消费水平的巨大提升空间正在引起人们越来越多的关注。自2001年以来, 我国农村人均年总收入以9%左右的速度平稳增长。2007年, 农村人均年总收入为人民币5791.1元, 比2006年同期增长15%。与此同时, 考虑通货膨胀的影响,2001年至2007年, 农村人均年生活费用支出平均增速约为8.2%,2007年达人民币3223.9元, 比2006年同期增长8.6%。2001年至2007年, 农村居民收入增速远高于支出增速, 同时城镇人均消费性支出保持3倍多于农村人均生活消费, 说明农村居民消费还存在较大潜力。现阶段, 不断加深对农村居民消费的研究, 摸清农村居民消费规律, 有利于政府政策的合理制定与贯彻落实, 符合当前国际国内形势的要求。
目前国内对农村居民消费的研究存在以下问题。第一, 基于凯恩斯主义研究的消费函数较多, 主要分析了消费者收入对消费者消费行为的影响, 对更多的、重要的影响因素考虑得不够充分。第二, 国内学者多将目光定位于城镇居民的消费行为上, 对人口众多的农村居民没有足够的研究。随着时代的发展和变化, 除了收入因素以外, 影响消费者消费行为的因素越来越多, 尤其是在我国广大农村地区, 具体的影响因素又会有新的内容。因此, 研究我国农村居民消费特点并提出预测其发展趋势的合理模型, 对于拉动农村需求、促进经济增长均有不可小觑的作用。
2方法简介
回归预测模型是一种重要的预测方法,如果某预测对象与其他因素有关,那么从因果分析多角度来说,常常可以用回归预测模型。回归模型可以分为线性回归模型和非线性回归模型。线性回归模型是最简单,最忌本地回顾模型,有相当丰富的内容。
在经济生活中,经济现象之间往往存在着各种各样的关系。他们互相影响,互相牵制,一般来说是十分复杂的。这样,在研究,预测某种经济现象时,就必须做适当的简化与假设。如果能分析出预测对象主要是由另外一些经济现象引起的,造成的,那么在对这样的预测对象进行研究时所采用的方法就是因果分析。其中,回归分析属于较为有效,使用比较普遍的方法。
回归一词最早是由英国统计学家高尔登提出。一般认为,高个子夫妇所生的子女比较偏高,矮个子夫妇所生的子女偏哎,这样,随着社会的发展,世界上的人应该两极分化,即高个子的人和矮个子的人占大多数。但高尔登发现实际上并不是这么回事。他收集了205对夫妇及其子女的数据,建立了一个先行试验方程。发分析这个经验方程,他发现英国人的身高虽然下带比上代高,但有想平均回国的趋势,这样。高尔登成功的解释了没有出现高矮两极分化的事实,通过这个历史事件的简单回顾可见,所谓回归分析就是针对某些具有一定脸的变量建立一个经验函数关系,进而利用这个函数关系进行相关的计算并解释。
在经济预测中,常常把数学上的变量和应变量成为解释变量和被解释变量。用Xi 表示第i 个解释变量,y 表示被解释变量,由于经济现象的复杂性,解释变量和被解释变量之间除了可能存在的一些确定的函数之外,还有一些无法确定的因素,这些因素一般是随机的。
毫无疑问,大多数模型都会有一个或多个承诺书,我们的任务就是西安则河南队测试对象进行分析并初步选定是现行的还是非线性的模型,然后通过解释变量和被解释变量的历史数据估计这些参数,由于他们是经验的,因此,参数估计完了以后,需要对模型的尅年度,可靠性等进行模型的检验。最后才是利用检验通过后的模型进行预测以及其他方面的讨论。
在这里我们选择多元线性回归模型对对象进行分析。
3数学计算
经过数据的收集我们可以得到以下表格
经过计算我们的到参数b0,b1,b2,b3分别为:4025.5 300 295 314
通过我们得到的参数并对其进行检验得到有理数据
1. 标准离差(s )检验
主要用来检验回归预测模型的精度。经过检验,我们可以得到的数据 <><>
2. 相关系数(r )检验
3. 显著性(F) 检验
用于判断全部自变量的整体作用与因变量的现行关系是否显著,经过计算我们得到的F 之符合要求,可以用于一下的分析。
4.t 检验
用于检验每一个自变量的现行关系是否显著,通过我们的计算得到的数据,bi 符合其要求,因此不必剔除bi 变量
(数据均来源于中华人民共和国国家统计局网站公布的《2008年中国统计年鉴》。)
4结果预测
通过对人均消费多元线性回归模型的初始推导和后续验证, 证明了该模型在实际应用中可以较为准确的预测出当年的农村人均消费。更重要的是, 该模型对今后政府制定的针对农村、农业、农民的政策具有指导意义。
但是, 在实际生活中, 影响农村居民消费的因素有很多, 这里我们做一下简要的分析:
由我来看造成农村人均收入不高的主要一项原因是农村种植结构的不合理。 一是种植结构不合理,大多数农民仍然把粮食生产作为主要的收入来源,在买方市场的条件下农民增收产困难加大;二是品种不合格,突出表现在经济作物中“大路”品种多,特色品种少;三是产业化经营程度低,不能形成主导产业品牌做大做强。
近年来,党中央 国务院 高度重视“三农”问题,连续两年的中央一号文件都是关于“三农”问题的,解决农民增收问题,是当前各级党委、政府的一个中心工作,事关全局,意义非凡。 “农业兴,农村富;农业稳,农村稳。”可见“三农”问题是当前摆在各级党委、政府面前的一个重大的紧迫而繁重的政治问题经济问题。对于燕郊这样一个农业大乡来说,要实现富民强乡,全面建设小康社会的目标,就必须认真贯彻落实中央一号文件精神,把发展作为第一要务,突出抓好农民增收、农业增效。因此促进农民增收必须有新思路和新举措,采取综合性措施,在发展战略、政策措施和工作机制上有一个大转变。针对上述原因,我认为,要使农民收入保持较快增长,应该如是做。
解放思想,增强市场意识,大力调整产业结构。促进农民增收,就必须加大农业产业增收结构调整力度,自觉按照市场来调整农业产业结构,在市场经济条件
下,想要发展就必须拥有市场,这是农民增收的重要环节。一是增强市场主导意识,坚持以市场为导向,依靠市场引导生产,大力发展“市场农业”和“订单农业”。按照市场的要求来进行生产,不仅仅要以当前市场为导向,还要以未来的市场变化趋势为导向,形成“人无我有”的局面,抢占先机;二是增强 质量 效益意识,调整农业产业结构是在农产品相对过剩的背景下进行的,因此调整产业结构必须要适应市场化的需求,把提高农产品质量放在首位,形成“人有我优”的格局,提高农业产业经济效益;三是增强特色创新意识,调整农业结构不能盲目跟随,别人怎样调整就跟着怎样调整,这不仅仅会严重挫伤农民调整农业结构的积极性,还会使农民减收,因此调整农业产业结构必须树立创新意识,注重特色,形成“人优我特”,促进农业增收
扩大劳动力转移输出,大力发展劳务经济。认真落实省市县关于加快农村剩余劳力转移输出的政策意见,把发展劳务经济作为增加农民收入的关键措施来抓。一是要强化 宣传 ,大力营造农村剩余劳动力转移输出的良好氛围,切实转变农民“死守家门、固守土地”的封闭观念,提高劳动力资源的综合利用率;二是坚持就地转移的和外出转移两手抓,推动农民 就业 多元化,鼓励农民自主创业,促进农民持久稳定增收。
农民经营生产方式粗放。主要表现在三个方面:一是生产规模过于狭小,规模经营还只是少数;二是 科技 含量低,农户缺少农作物新品种的应用、种植、病虫害有效预防等技术,新种一种家作物要花上三年五年的时间去培育;三是管理粗放,缺少精细耕种的田间管理以及精确的经济核算,造成了生产资料的极大浪费和生产成本的增加。
农民的信息来源渠道单一。在市场经济体制下,农户从真正意义上相对独立的生产经营单位成为相对独立的经营者和决策者,改革把农民推向市场经济的前台,农产品以从卖方市场转向买方市场。在这种情况下,农民正确地掌握信息,指导生产经营成为在市场中取胜的必要条件,但从目前来看农民的信息来源渠道单一,农民信息不灵是农村的一大普遍现象,这就造成了农村农业产业结构调整的困难加大。
只是选取了影响较大的几个重要的因素。因此, 模型所得预测值不可能与实际情况完全一致, 但其科学性是客观的。
转载请注明出处范文大全网 » 【word】一般线性回归模型