范文一:多元线性回归预测
多元线性回归预测
在预测中, 当预测对象 y 受到多个因素 m x x x , , , 21 影响时, 如果各个影响因 素 j x (m j , , 2, 1 =)与 y 的相关关系可以同时近似地线性表示,这时则可以建 立多元线性回归模型来进行分析和预测。
假定因变量 y 与自变量 ) , , 2, 1(m j x j =之间的关系可表示为
i mi m i i i x b x b x b b y ε+++++= 22110
(2-22)
n i , , 2, 1 =(样本序号)
其中 0b 、 j b ) , , 2, 1(m j =——模型回归系数; i ε为除自变量 j x ) , , 2, 1(m j =的 影响之外对 i y 产生影响的随机变量,即随机误差。该结论基于以下的假设:
随机误差 i ε的期望值为零, ) , , 2, 1(0) (n i E i ==ε; 方差的期望值为一常数 2σ, ) , , 2, 1() (22n i E i ==σε;
各随机误差项是互不相关的,即协方差的数学期望值为零, 0) , (=j i E εε
) , , , 2, 1, (j i n j i ≠=
当以上假设得到满足时,式(2-22)便称为多元线性回归预测模型,这时可 写成
) , , 2, 1(?22110n i x b x b x b b y
mi m i i i =?++++=
(2-23)
和一元线性回归预测模型一样, 多元线性回归预测模型建立时也采用最小二
二乘法估计模型参数,但具体估计时有二种算法,分述如下。
一、多元线性回归预测模型的一般算法 1.建立模型 改写式(2-22) 得
) , , 2, 1(?n i y
y i i i =-=ε
方差和 Q 为
2
1
221102212) () ?(mi m n
i i i i
n i i i
n
i i
x b x b x b b y
y
y Q -----=
-==∑∑∑=== ε
根据最小二乘法原理,欲估计参数 ) , , 2, 1(m i b i =,要满足条件:
??????
?????=------=??=------=??=------=??0) (Σ20) (Σ20) (Σ2221102211011
221100mi m i i i mi m
mi m i i i i mi m i i i x b x b x b b y x b Q
x b x b x b b y x b Q
x b x b x b b y b Q
整理上式可得到:
??
????
?=++++=++++=++++i mi mi m i mi i mi mi i
i mi i m i i t i i mi m i i y
x x b x x b x x b x b y x x x b x x b x b x b y x b x b x b nb ΣΣΣΣΣΣΣΣΣΣΣΣΣΣ222110
112122
111022, 110 而对于各变量的样本平均值,其误差平方和为:
???
?
?
?
???
-=--==--==∑∑∑===n i i yy n
i i j ji yj jy n
i k ki j ji kj jk y s y x s s x x s s 12
11
)
() )(()
)((
(2-25)
) , , 2, 1, (k k j =
式中
∑==
n
i ji
j x n
1
1
∑==
n
i i
y
n
1
1
利用(2-24)式,将方程组(2-25)可改写为
?????
?
?=+++=+++=+++my mm m m m y
m m y m m s
s b s b s b s s b s b s b s s b s b s b
221
12222221211122111 (2-26)
以及 m m b b b b ----= 22110 (2-17)
方程组 (2-26) 叫正规方程组或规范方程式, 解该方程组, 则得到回归系数 0b ,
1b , 2b ,…, m b 。即为用最小二乘法原理估计的多元线性预测模型(2-23)的
回归系数。 从原理上讲, 按上述解法, 对任意多个自变量的线性回归模型都可估
计参数, 但由于变量较多时计算工作量大, 当自变量大于 3个时, 手工计算已很 困难,宜用矩阵解法在计算机上计算。
如二元线性回归预测模型。 有正规方程为
????
?=+=+y y
s b b b s s b s b s 22221
211212111 解该方程组,
有
12
21221112222122
21
12112221211s s s s s s s s s s s s s s s s b y y y y
--=
=
(2-28)
同理
12
2122112111122s s s s s s s s b y y --=
(2-29) 22110b b b --=
(2-30)
式中
????
???
??
???
?
???
??
?-=--=-=--=-=-=-=--==-=-=)
)(Σ(Σ1Σ) )((Σ)
)(Σ(Σ1Σ) )((Σ) (Σ1Σ) (Σ) )(Σ(Σ1
Σ) () (Σ) (Σ1Σ) (Σ2222211111222222222212122112112212
121111
i i i i i i y i i i i i i y i i
i i i i i i i i i i y x n y x y x s y x n y x y x s x n x x s x x n x x x x s s x n
x x s (2-31)
2.统计检验
(1)剩余标准差计算 1
) ?(Σ2---=
m n y y s i i (2-3
2)
m ——自变量个数
为了方便统计检验,先计算离差计算表。
(2)相关系数检验
2
22
) (Σ) ?(Σ1y y y R i i i ---= (2-33)
(3) F 检验 2
2
) ?(s m y F i ?-∑=
(2-34)
(4) t 检验
t 检验是通过对回归系数 ) , , 2, 1(m i b i =的逐一检验, 以判断 ) , , 2, 1(m i x i =是否因系数 i b 为零而必须予以删除。
i
i bi s b t =
(2-35)
然后设定显著性水平 a ,查 t 分布表,取自由度 1--=m n v ,得到 t 检验值 2/a t 。
当 2/a bi t t ≥时,检验通过。
当 2/a bi t t <时,说明所选自变量 i="" x="" 对="" y="" 影响不显著,或者自变量间存在多重="">时,说明所选自变量>
设 bi s 为回归系数的标准差
bi s 按下列公式计算: s c s ii bi ?=
(2-36)
式中:ii c ——正规方程系数矩阵 ε的逆矩阵 c 中的 i 行 i 列元素。 按照伴随矩阵求逆矩阵的方法,其逆矩阵
??
?
???--==-112112221
||1s s s s s s
c 因为 22212211||s s s s s -=
所以有
?????
?
???
???------=1221221111122112112112
212211121221221122s s s s s s s s s s s s s s s s s s s s c (2-37)
在多元线性回归预测中, F 检验是判断全部自变量的整体作用与因变量的线 性关系是否显著, 而 t 检验则是检验每一个自变量与因变量的线性关系是否显著。 所以,在多元线性回归预测中, t 检验比 F 检验更有必要。因为根据 t 检验的结 果, 可以判断那些对因变量线性关系不显著的自变量, 从而予以剔除, 重新建立 回归模型。
(5) DW 检验
多元线性回归 DW 检验和一元线性回归预测一样按(2-18)式计算
(6)预测区间的确定
按照正态分布理论,当置信度为 95%时,预测区间为
上限 s y y
H 2??0+= 下限
s y y
L 2??0-= (2-38) 对于某组自变量的取值为 10x , 20x ,…, 0m x ,代入上式,则可求得该预测区间
为(H L y y ?, ?) 。
二、多元线性回归方程的矩阵解法 1.建立预测模型
当已知 n 组自变量 ) , , 2, 1(m j x j =和因变量 y 的观测值时, (2-22) 式可用矩 阵形式写成
U XB Y +=
(2-39)
式中
?
?
??
?
?
?
???
??=
??????
??????=
mn n n m m n x x x x x x x x x y y y 212
221212111
21111X Y
?????
???????=
????
???
?????????=n m b b b b εεε 21210U B Y 为因变量列向量,即 y 的 n 个数, X 为自变量矩阵,即 m 个自变量与 y 对
应的 n 组数据, B 为回归系数向量, 而 U 为随机误差向量。 取随机误差向量 0=U , 有 XB Y =
因为在 X 矩阵中, 一般 m n ≠, 因而 X 无法求逆, 为了求解 B , 两边同时左乘 X 的转置矩阵 T X 得
XB X Y X T T =
而 X X T 为方阵,可求逆,这时可得
Y X X X B T T 1) (-=
即有多元线性回归预测模型系数估计公式
Y X X X B T T 1210) (-=?????
??
?????????=m b b b b (2-40)
2.多元线性回归模型的统计检验
(1)标准误差检验
多元线性回归预测模型标准差检验有因变量标准差 s 检验和各回归系数标 准差 bi s 检验。
(a )因变量标准差 s 检验 计算公式为
1
)
(1
221102--∑+∑+∑-∑=
---=m n y x b y x b y b y m n B s i i i i i i
T T Y
X Y Y T (2-41)
式中, m 为自变量个数, n 为样本数。
(b )各个回归系数标准差 ) , , 2, 1(m i s bi =检验计算公式为
) , , 2, 1, 0(m y s c s ii bi =?=
(2-42)
式中:ii c 为 1) (-X X T 矩阵中主对角线上的第 i 项。
(2)相关系数检验
多元线性回归预测模型的相关系数计算公式为
2
2n n R --=
Y Y Y X B T
T T (2-43)
(3) F 检验
多元线性回归预测模型的总体效果检验采用 F 检验,计算公式为
2
T T Y X B ms
F =
(2-44)
式中 m 为自变量个数。
在利用(2-44)式计算出 F 值后,确定显著性水平 a ,查 F 检验表,得 a 显 著水平下,当自由度 1--=m n v 时的 F 检验值 a F 。当 a F F ≥时,检验通过,模 型有效,反之则模型无效。
(4) t 检验
(5) DW 检验:按式(2-18) (6)预测区间
经过对回归预测模型进行检验, 判断为有显著的线性关系后, 在预测模型中 代入预先确定的自变量值,即可求得因变量在对应点上的预测值。
三、多重共线性
多重共线性是指自变量之间又存在线性关系, 或接近线性关系。 应用最小二 乘法估计参数的一个重要条件就是自变量之间为这完全的线性相关。 如果完全相 关,则 1) (-X X T 不存在,最小二乘法就失效了。在一般情况下,自变量之间都有 某种程度的相关。如经济系统中的工业产值、农业产值、运输、建筑业产值、固 定资产、职工人数等。如果相关程度比较低,则其影响可以忽略。但当存在高度 的相关性,即有严重的多重共线性时,会产生如下后果:
(1)参数估计的精度降低,某些回归系数的标准偏差 bi s 很大,不能正确反 映自变量与因变量之间的关联程度,使参数估计值很不可靠。
(2)回归系数的估计值可能对某几组观察值特别敏感,这些观察值一旦变 动,对参数估计值影响很大。
(3)回归系数可能出现与事理意义不符的符号。 (4)可能将有用的变量排除掉。 由于多重共线性的影响, 可能会导致预测失败, 因而要想办法消除。 消除时, 首先要进行判断, 是否在自变量之间存在较严重的相关性。 如果存在, 然后采用 一定的方法进行处理。
判断的方法有二种。一种是通过计算自变量之间的相关系数来判断。
根据自变量 i x 、 j x 的观察值,计算二者之间的相关系数 ij r
∑∑∑===?
?=
n
t jt
n
t it
n
i it
it
ij x
x
x x
r 1
21
21
(2-45)
显然, 当 1=ij r 时, i x 与 j x 完全相关, 即会出现完全的多重共线性; 当 0=ij r 时, i x 与 j x 完全不相关;一般 第二种判断方法是利用不包含某个变量的复相关系数 2j r 来判断。复相关系 数按式(2-33)计算。 设共有 m 个自变量,有回归方程 ) , , , (21m x x x f y = 为了判断多重共线性,分别构造不含某个变量 j x 的 m 个回归方程, ) , , , , , , (1121m j j j j x x x x x f y +-= ) , , 2, 1(m j = 并对每个方程估计出复相关系数 2 2221, , , m r r r 。 2j r 越大,则所对应的自变量 j x 与 其它解释变量发生多重共线性越严重。 以上二种方法前者是用相关系数来判断, 可判断在一定置信水平下的多重共 线性,但当变量较多时,判断不可靠。后者意义明确,但计算工作量大。 多重共线性可以采用以下方法消除。 (1) 剔除不必要的解释变量。 即从一组高度相关的自变量中剔除某个变量, 该变量可以是回归系数最小的,或 t 检验值最小的,或系数符号与经济意义不符 的,然后重新估计参数,建立预测模型,这是最常用的方法; (2)改变自变量的定义形式。如将观察值累加生成,或将二个自变量合并 形成一个新的变量,或用新的变量代替具有多重共线性的变量。 (3)增加观察值,避免或减少多重共线性; (4)寻找新的解释变量; (5)采用逐步回归法估计参数,减少多重共线性的影响。 第三章 多元线性回归模型 基本概念 (1)多元线性回归模型; (2)偏回归系数; (3)正规方程组; (4)调整的多元可决系数; 假设检验; (5)多重共线性; (6) 练习题 1. 多元线性回归模型的基本假设是什么?试说明在证明最小二乘估计量的无偏性和有效性 的过程中,哪些基本假设起了作用? tF2(在多元线性回归分析中,检验与检验有何不同?在一元线性回归分析中二者是否有等价的作用? 3(为什么说对模型参数施加约束条件后,其回归的残差平方和一定不比未施加约束的残差平方和小?在什么样的条件下,受约束回归与无约束回归的结果相同? XXX123Y4(在一项调查大学生一学期平均成绩()与每周在学习()、睡觉()、 娱乐() X4与其他各种活动()所用时间的关系的研究中,建立如下回归模型: YXXXXu,,,,,,,,,,,011223344 如果这些活动所用时间的总和为一周的总小时数168。问:保持其他变量不变,而改变其中一个变量的说法是否有意义?该模型是否有违背基本假设的情况? 如何修改此模型以使其更加合理? 5.表3-1给出三变量模型的回归结果。 -1 表 3 方差来源 平方和(SS) 自由度(d.f.) 平方和的均 值(MSS) 来自回归(ESS) 65965 - - 来自残差(RSS) - - - 来自总离差(TSS) 66042 14 n(1)求样本容量,残差平方和RSS,回归平方和ESS及残差平方和RSS的自由度。 2,2RR(2)求拟合优度及调整的拟合优度。 XX23Y(3)检验假设:和对无影响。应采用什么假设检验?为什么? XX33Y(4)根据以上信息,你能否确定和各自对的影响? 6.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为 YXXX,,,,10.360.0940.1310.210123 2R,0.214 XXX123Y其中,为劳动力受教育年数,为该劳动力家庭中兄弟姐妹的人数,与分别为母亲与父亲受教育的年数。问: XXX123(1) 是否具有预期的影响?为什么?若与保持不变,为了使预测的受教育水平减少 X1一年,需要增加多少? X2(2)请对的系数给予适当的解释。 (3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少? X1Y7.以企业研发支出(R&D)占销售额的比重为被解释变量,以企业销售额与利润占销售 X2额的比重为解释变量,一个容量为32的样本企业的估计结果如下: YXX,,,0.4720.32log0.0512 (1.37) (0.22) (0.046) 2R,0.099 其中括号中为系数估计值的标准差。 logXX11Y(1) 解释的系数。如果增加10,,估计会变化多少个百分点?这在经济上是一个很大的影响吗? X1(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不随而变化的假设。分别在5,和10,的显著性水平上进行这个检验。 X2Y(3)利润占销售额的比重对R&D强度是否在统计上有显著的影响? 8.表3—2为有关经批准的私人住房单位及其决定因素的4个模型的估计量和相关统计值(括 p,t号内为-值,即以对应的统计量为临界值的置信度)(如果某项为空,则意味着模型中没有此变量)。数据为美国40个城市的数据。模型如下: YXXXXXX,,,,,,,,,,,,,,,,,Xu011223344556677 X1Y其中,为实际颁发的建筑许可证数量,为每平方英里(1平方英里=2.59平方千米)的 XX23为自有房屋的均值(单位:百美元),为平均家庭的收入(单位:千美元),人口密度, XXXX4567为1980----1992年的人口增长百分比,为失业率,为人均交纳的地方税,为人均缴纳的州税。 表 3-2 变量 模型A 模型B 模型C 模型D 813(0.74) —392(0.81) —1279(0.34) —973(0.44) Y 0.075(0.43) 0.062(0.32) 0.042(0.47) X1 —0.855(0.13) —0.873(0.11) —0.994(0.O6) —0.778(0.07) X2 110.4l(0.14) 133.03(0.04) 125.71(0.05) 116.60(0.06) X3 26.77(0.11) 29.19(0.06) 29.41(0.001) 24.86(0.08) X4 —76.55(0.48) X5 —0.061(0.95) X6 —1.006(0.40) —1.004(0.37) X7 7777 4.843x10 4.962x10 5.038x10 4.763X10RSS 20.349 0.338 0.322 0.312、 R 66661.488x10 1.424x10 1.418x10 1.399x10 ,2, 66661.776x10 1.634x10 1.593x10 1.538x10 AIC p(1)检验模型A中的每一个回归系数在10%水平下是否为零(括号中的值为-值)。根据检验结果,你认为应该把变量保留在模型中还是去掉? Hi:01,,6,7,,,,,0i(2)在模型A中,在10,水平下检验联合假设片。说明被择假设,计算检验统计值,说明其在零假设条件下的分布,拒绝或接受零假设的标准。说明你的结论。 (3)哪个模型是“最优的”?解释你的选择标准。 (4)说明最优模型中有哪些系数的符号是“错误的”。说明你的预期符号并解释原因。确认其是否为正确符号。 9. 在经典线性模型基本假定下,对含有三个自变量的多元回归模型 YXXXu,,,,,,,,,0112233 H:21,,,,012你想检验的虚拟假设是。 ,,,,,,Var2,,,,,12,,,,12 (1)用,的方差及其协方差求出。 H:21,,,,t012 (2)写出检验的统计量。 ,,,,,2,,,,12023 (3)如果定义,写出一个涉及,,和的回归方程,以便能直接 , ,,得到估计值及其标准误。 XX12Y10. 对于涉及到三个变量,,,的数据做以下回归: YXu,,,,,0111ii (1) YXu,,,,,0122ii (2) YXXu,,,,,,,011223iii (3) ,,,, ,,,,,,1112问在什么条件下才能有及,即多元回归与各自的一元回归所得的参数估计值相同。 YX,,,,,11. 对多元线性回归模型,试证明随机干扰项的方差的无偏估计量为 ',ee2,,enk1,,。其中为相应样本回归模型的残差向量。 , YX,,,,,12. 对多元线性回归模型,试证明普通最小二乘估计量具有最小方差性。 13.某公司想决定在何处建造一个新的百货店,对已有的30个百货店的销售额作为其所处地理位置特征的函数进行回归分析,并且用该回归方程作为新百货店的不同位置的可能销售额,估计得出(括号内为估计的标准差) ?Y,30,0.1,X,0.01,X,10.0,X,3.0,Xt1t2t3t4t (0.02) (0.01) (1.0) (1.0) Yti其中,第个百货店的日均销售额(百美元); X1ti ,第个百货店前每小时通过的汽车数量; X2ti ,第个百货店所处区域内的平均收入; X3ti,第个百货店内所有的桌子数量 X4ti ,第个百货店所处地区竞争店面的数量 请回答以下问题: (1) 各个变量前参数估计的符号是否与期望的符号一致, (2) 计算每个变量参数估计值的T值; ,(3)在,0.05的显著性水平下检验各变量的显著性。 答案 基本概念解释 (1)在现实经济活动中往往存在一个变量受到其他多个变量的影响的现象,表现为在线性回归模型中有多个解释变量,这样的模型被称为多元线性回归模型,多元指多个解释变量。 (2)在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1个单位对被解释变量带来的平均影响程度。 (3)正规方程组指采用OLS法估计线性回归模型时,对残差平方和关于各参数求偏导,并令 ,''XXXY,,偏导数为零后得到的一组方程,其矩阵形式为。 _2R(4)调整的多元可决系数,又称多元判定系数,是一个用于描述伴随模型中解释变量的 2R增加和多个解释变量对被解释变量的联合影响程度的量。它与有如下关系: _n,122RR,,,1(1)nk, (5)多重共线性是多元回归中特有的一个概念,指多个解释变量间存在线性相关的情形。如果存在完全的线性相关性,则模型的参数就无法求出,OLS回归无法进行。 (6)联合假设检验是相对于单个假设检验来说的,指假设检验中的假设有多个,不止一个。 t如多元回归中的方程的显著性检验就是一个联合假设检验,而每个参数的,检验就是单个假设检验。 (7)在实际经济活动中,常常需要根据经济理论对模型中变量的参数施加一定的约束条件,对模型参数施加约束条件后进行回归,称为受约束回归。 (8)无约束回归是与受约束回归相对的一个概念,无需对模型中变量的参数施加约束条件进行的回归称为无约束回归。 习题答案 1. 多元线性回归模型的基本假定仍然是针对随机干扰项与针对解释变量两大类的假设。针对随机干扰项的假设有:零均值,同方差,无序列相关且服从正态分布。针对解释变量的假设有:解释变量应具有非随机性,如果是随机的,则不能与随机干扰项相关:各解释变量之间不存在(完全)线性相关关系。 在证明最小二乘估计量的无偏性中,利用了解释变量非随机或与随机干扰项不相关的假定;在有效性的证明中,利用了随机干扰项同方差且无序列相关的假定。 tF2. 在多元线性回归分析中,检验常被用作检验回归方程中各个参数的显著性,而检验则被用作检验整个回归关系的显著性。各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系。在一元线性回归分析中,二者具有等价作用,因为二者都是对共同的假设——解释变量的参数等于零——进行检验。 3. 对模型参数施加约束条件后,就限制了参数的取值范围,寻找到的参数估计值也是在此条件下使残差平方和达到最小,它不可能比未施加约束条件时找到的参数估计值使得残差平方达到的最小值还要小。但当约束条件为真时,受约束回归与无约束回归的结果就相同了。 XXXX,,,,16812344. 由于,当其中一个变量变化时,至少有一个其他变量也得变化,因此,保持其他变量不变,而改变其中一个变量的说法是无意义的。 X 显然,由于四类活动的总和为一周的总小时数168,表明四个间存在完全的线性关系,因此违背了解释变量间不存在(完全)多重共线性的假设。 X4 可以去掉其中的一个变量,如去掉代表“其他”活动的变量,则新构成的三变量模 ,1型更加合理。如这时就测度了当其他两变量不变时,每周增加1小时的学习时间所带的学习成绩的平均变化。这时,即使睡觉和娱乐的时间保持不变,也可以通过减少其他活动的时间来增加学习的时间。而这时三个变量间也不存在明显的共线性问题。 ndf,,,..1155. (1)样本容量为 RSS=TSS-ESS=66042-65965=77 df..14212,,,ESS的自由度为 dfn..312,,,RSS的自由度为 ESS659652R,,,0.9988TSS66042(2) 2,n,1142RR,,,1(1),,,,10.00120.9986nk,,112 XX23F(3)应该采用联合假设检验,即检验,理由是只有这样做才能判断,,一起是否对Y有影响。 XX23Y(4)不能。因为仅通过上述信息,可初步判断,联合起来对有线性影响,两者的变 XX23Y化解释了变化的99.8%。但由于无法知道回归,前参数的具体估计值,因此还无 Y法判断它们各自对的影响有多大。 X1 6. (1)预期对劳动者受教育的年数有影响。因为在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。 X1 根据多元回归模型偏回归系数的含义,前的参数估计值-0.094表明,在 其他条件不变的情况下,每增加1个兄弟姐妹,受教育年数会减少0.094年, 因此,要减少1年受 1,,10.6110.094教育的时间,兄弟姐妹需增加个。 X2 (2) 的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1年受教育的机会,其子女作为劳动者就会预期增加0.131年的受教育机会。 (3)首先计算两人受教育的年数分别为 10.36+0.131x12+0.210x12=14.452 10.36+0.131x16+0.210x16=15.816 因此,两人的受教育年限的差别为 15.816—14.452=1.364 logXlogX11Y7. (1) 的系数表明在其他条件不变时,变化1个单位,变化的单位数, ,,,X1,,,,,,YX0.32log0.320.32100%,,1XX,,11即,换言之,当企业销售增长100%时, X1YY企业研发支出占销售额的比重会增加32个百分点。由此,如果增加10%,会增加3.2个百分点。这在经济上不是一个较大的影响。 H:0,,H:0,,t1101 (2)针对备择假设,检验原假设开。易知计算的统计量的值为 0.32t,,1.468t0.22。在5%的显著性水平下, 自由度为32—3=29的分布的临界值为 t1.699(单侧),计算的值小于该临界值,所以不拒绝原假设。意味着R&D强度不随销售额 tt的增加而变化。在10%的显著性水平下,分布的临界值为1.311,计算的值小于该值,拒绝原假设,意味着R&D强度随销售额的增加而增加。 0.05,1.087Xt20.46 (3)对,参数估计值的统计值为,它比在10%的显著性水平下的临界 Y值还小,因此可以认为它对在统计上没有显著的影响。 pptt8. (1)直接给出了-值,所以没有必要计算统计值以及查分布表。根据题意,如果-值<0.10,则我们拒绝参数为零的原假设。>0.10,则我们拒绝参数为零的原假设。> p 由于表中所有参数的-值都超过了10%,所以没有系数是显著不为零的。但由此去掉所有解释变量,则会得到非常奇怪的结果。其实正如我们所知道的,多元回归中去掉变量时 XXXXp2345一定要谨慎,要有所选择。本例中,,,的 -值仅比0.1稍大一点,在略掉,XX67,的模型C中,这些变量的系数都是显著的。 Hi:01,,6,7,,,Hi:1,,6,7,,,,,,0iii(2)针对联合假设,其对应的备择假设中至 H0少有一个不为零。检验假设,实际上就是参数的约束性检验,非约束模型为模型A,约束模型为模型D,检验统计值为 RSSRSSkk,,/,,,,RUURF,RSSnk/1,,,,UU=0.462 H0F显然,在假设下,上述统计量满足分布,在10%的显著性水平下,自由度为(4,32)FF的分布的临界值位于2.09和2.14之间。显然,计算的值小于临界值,我们不能拒绝 ,i,1,,6,7,,Hi0,所以是联合不显著的。 2R(3)模型D中的3个解释变量全部通过显著性检验。尽管值相对较小,残差平方和相对较大,但相对来说其AIC值最低,所以我们选择该模型为最优的模型。 ,,03(4)随着收入的增加,我们预期住房需要会随之增加。所以可以预期,事实上其估计 ,,04值确是大于零的。同样地,随着人口的增加,住房需求也会随之增加,所以我们预期,事实上其估计值也是如此。随着房屋价格的上升,我们预期对住房的需求人数减少,即我们 ,3预期估计值的符号为负,回归结果与直觉相符。出乎预料的是,地方税与州税为不显著的。由于税收的增加将使可支配收入降低,所以我们预期住房的需求将下降。虽然模型A是这种情况,但它们的影响却非常微弱。 9. (1)由数理统计学知识易知 ,,,,,,,,,,,,,,VVCovVar2ar4,4ar,,,,,,,,,,,,,,,,,,121122,,,,,,,, (2)由数理统计学知识易知 ,,,,2112t,se,2,,,,12 se,,,2,,,,,21212其中为的标准差。 ,,,,,2,,,,,21212(3)由知,代入原模型得 YXXXu,,,,,,,,,,,(2)0212233 ,,,,,,,,,,XXXXu(2)0121233 , ,,这就是所需的模型,其中估计值及其标准误都能通过对该模型进行估计得到。 10. 由回归模型(1)与(2)分别知 ,,xyxy,,1ii2ii,,,,1122xx,,1i2i YXXe,,,,,11223iii对模型(3),令其样本回归模型的离差形式为 22eYXX,,,,,,,,iii1122求 的最小值,可得如下正规方程组: , 2yxxxx,,,,,,,iiiii111212 2yxxxx,,,,,,,iiiii222112 解此方程组得 2,yxxyxxx,,,,,,,,,,,,,iiiiiii12212,,1222xxxx,,,,,,1212iiii 2,yxxyxxx,,,,,,,,,,,,,iiiiiii21112,,2222xxxx,,,,,,1212iiii ,,,,xx,0XX,,,,,,,12ii121112可见,当时,即与完全线性无关(正交)时,有及。由此得多元回归的一个重要的结论:当各解释变量没有线性相关性时,多元回归中各解释变量的 参数等于分别进行一元回归时解释变量的参数。 11. 由于被解释变量的估计值与观测值之间的残差 , eYX,,, ,1'',,,,XXXXXX,,,,,,,, ,1'',,,,XXXX,, ,1'',,IXXXX,,,,,,,,, ,M, 残差的平方和为 '''eeMM,,, ,1''MIXXXX,,,,因为,为对称等幂矩阵,即 'MM, 2'MMMM,, 所以有 ''eeM,,, ,1'''',,EeeEIXXXX,,,,,,,,,,,,,, ,12'',,,trIXXXX,,,,,,,, ,12'',,,trItrXXXX,,,,,,,,,, 2,,,,nk1,,,,,, tr其中符号“”表示矩阵的迹,其定义为矩阵主对角线元素的和。于是 'Eee,,2,,nk1,, 以上过程既导出了随机干扰项方差的估计量为 ',ee2,,nk1,, 也证明了该估计量是无偏估计量。 *,,12. 证 设是其他方法得到的关于的线性无偏估计量: **,,CY ,1*''CCDXXXD,,,,,,D其中,,为一固定矩阵,于是 ****,,,,,,CYCXC **ECX,,,,, **,CXI,的无偏性要求。由于 ,1*''CXXXXXDX,,,, *DX,0CXI,于是,当且仅当。 *,的方差—协方差矩阵为 '***,,CovE,,,,,,,,,,,,,,,,,, '**,,ECYCY,,,,,,,,,,,,, '**,,ECC,,,,,,,,,,, ,,11''''',,,,EXXXDXXXD,,,,,,,,,,,,,,,,,,, ,,,,11112'''''''',,,XXXXXXXXXDDXXXDD,,,,,,,,,,,,,,,, ,12'2',,,,XXDD,, ,*',,DD为主对角线元素非负的对称矩阵,由此得的方差大于或等于最小二乘估计量的方差。 XXXX1t2t3t4t13((1)、、的参数符号与期望符号一致,的参数符号与期望符号不一致。 (2) 参数估计值 0.1 0.01 10.0 3.0 估计的标准差 0.02 0.01 1.0 1.0 t-值 5.0 1.0 10.0 3.0 (3)这里,单个参数显著性检验的t-统计量服从自由度为25的t-分布,查t-分布表,可 X2t知在0.05的显著水平下,临界值为2.06,可见,除了的系数以外,所有变量的系数估计值在0.05的水平下都是统计显著的。 自测题 1. 对多元线性回归方程的显著性检验,所用的F统计量可表示为( ) ESS(n,k)ESS(k,1) RSS(k,1)RSS(n,k)A、 B、 2ESSR(n,k) 2RSS(n,k)(1,R)(k,1)C、 D、 2e,800,tn,242. 已知三元线性回归模型估计的残差平方和为,估计用样本容量为, 2uSt则随机误差项的方差估计量为( ) A、33.33 B、 40 C、 38.09 D 、36.36 22RR3. 在多元回归中,调整后的判定系数与判定系数的关系为( ) 22222222RRRRRRRRA(< b(=""> C(= D( 与的关系不能确定 4.多元线性回归分析中的 RSS反映了( ) A(应变量观测值总变差的大小 B(应变量回归估计值总变差的大小 C(应变量观测值与估计值之间的总变差 D(Y关于X的边际变化 R,0.9985XX235. 二元回归模型中,经计算有相关系数,则表明( )。 XXXX2323A、和间存在完全共线性 B、和间存在不完全共线性 XXXX2323C、对的拟合优度等于0.9985 D、不能说明和间存在多重共线性 2R6. 简答:在多元线性回归模型估计中,判定系数可用于衡量拟合优度,为什么还要计算修 2R正判定系数, 7.计算 X2家庭消费支出(Y)、可支配收入()、个人个财富()设定模型如X1 Y,,,,X,,X,,i011i22ii下: 回归分析结果为: LS // Dependent Variable is Y Date: 18/4/02 Time: 15:18 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error T-Statistic Prob. C 24.4070 6.9973 ________ 0.0101 0.3401 0.4785 ________ 0.5002 X1 X2 0.0823 0.0458 0.1152 R-squared ________ Mean dependent var 111.1256 Adjusted R-squared 0.9504 S.D. dependent var 31.4289 S.E. of regression ________ Akaike info criterion 4.1338 Sum squared resid 342.5486 Schwartz criterion 4.2246 Log likelihood - 31.8585 F-statistic 87.3339 Durbin-Watson stat 2.4382 Prob(F-statistic) 0.0001 补齐表中划线部分的数据(保留四位小数);并写出回归分析报告。 多元线性回归模型 主要内容 n n n n 多元线性回归模型的一般形式 参数估计(?OLS估计) 假设检验 预测 一.? 多元线性回归模型 n n n 问题的提出 解析形式 矩阵形式 问题的提出 n 现实生活中引起被解释变量变化的因素并非仅 只一个解释变量,可能有很多个解释变量。 例如,产出往往受各种投入要素——资本、劳 动、技术等的影响;销售额往往受价格和公司 对广告费的投入的影响等。 所以在一元线性模型的基础上,提出多元线性 模型——解释变量个数≥? 2 n n 社会经济现象的复杂性 ! ● 对人均国民生产总值(Y)的 影响因素(X)有: 人口变动因素、固定资产数、货币供给量、 物价指数、国内国际市场供求关系等 ● 对汽车需求量(Y)的 影响因素(X)有: 收入水平、汽车价格、 汽油价格等 多元线性回归模型表示方法 n n n 多元回归模型:含两个以上解释变量的回归模 型 多元线性回归模型:一个应变量与多个解释变 量之间设定的是线性关系 多元线性回归模型一般形式为: Y? = b? + b?X?1? + b? X?2? + L? + b? X?k? + u? 0 1? 2? k 多元线性回归模型的假设 Y? = b? + b?X? + b?X?2? + L? + b?X?k? + u? 0 1? 1? 2? k n 解释变量?X? 是确定性变量,不是随机变量;解释变量 i? 之间互不相关,即无多重共线性。 随机误差项具有0均值和同方差 随机误差项不存在序列相关关系 随机误差项与解释变量之间不相关 随机误差项服从0均值、同方差的正态分布 n n n n 多元模型的解析表达式 Y = b? + b?X?1? + b? X?2? + L? + b? X?k? + u? 0? 1? 2? k? n? 个样本观测值 (? i?,?X?1?i?,?X?2?i?,? ,?X?ki? )? Y? L i?= 1?2? L ,?n? ,? ,? 得: Y? = b? + b?X?1?i? + b? X?2?i? + L + b? X?ki? + u? i? 0? 1? 2? k? i? ìY1 =?b? + b? X?11? + b? X?21? + L? + b? X?k?1? + u? 0? 1? 2? k? 1? ?Y? = b? + b? X? + b? X? + L + b? X? + u? ? 2? 0? 1? 12? 2? 22? k? k?2? 2? í ?L L L L L L ?Y? = b? + b? X?1?n? + b? X?2?n? + L + b? X?kn? + u? 2? k? n? ? n? 0? 1 多元模型的矩阵表达式 ??Y?1?? ? 1? ? ÷ ? ? Y?2?÷ ? 1? ? M?÷ = ? M ? ÷ ? ? ÷ ? 1? è Y?n ? è X? X? X 11 12 X? X? X 21? 22 L L L M 1?n M 2?n ? 0?? ? ? b? ÷ ? u? ? X?k?1?÷ ? ÷ ? 1?÷ 1? X?k?2?÷ ? b? ÷ + ? u?2?÷ 2? M ÷ ? b? ÷ ? M÷ ÷ ÷ ? M÷ ? ÷ ? ÷ ? ÷ è u? ? X? kn? ? è b?k?? n Y = XB?+ U 矩阵形式 Y =? XB? + U? ? Y?1?? ? ÷ ? ÷ Y? = ? Y?2?÷ M? ? ÷ ? ÷ è Y?n?? ? b? ? ? 0?÷ ? b? ÷ 1? ? ÷ B? = b? ? 2?÷ ? M÷ ? ÷ k? è b? ? ? 1? ? ? 1? X? = ? M ? ? 1? è ? u? ? ? 1?÷ ? 2?÷ U? = ? u? ÷ M ? ÷ ? ÷ n? è u? ? X? X? X 11 12 X? X? X 21 L L L 22 X? X M 1? n M 2?n ? ÷ k?2?÷ M ÷ ÷ X?kn? ÷ ? k?1 二.?参数估计(OLS) n n n n n 参数值估计 参数估计量的性质 偏回归系数的含义 正规方程 样本容量问题 2.1参数值估计(OLS) n Q? =? ? i?= 1? n e i 2 i = ?? ? (y? - y? ) i? i n 2 i?= 1 = ?? ?? ? (Y? - (b? + b? X 0 1 1?i ?? + L + b?k? X? ki i?= 1 )) 2 ì ??Q ? ? b? ?? 0? ? ? ? Q? ? ?? ? ? b?1? ? ? Q? ? í ?? ? ? b?2? ?L L ? ? ? Q? ? ? b? ?? k? ? ? ? = 0? = 0? = 0? L L = 0 得到下列方程组 ì ? ?? ?? ?? Y?i - ?? b?0? + b? X?1?i? + L + b?k? X?ki? = 0? 1? ? ? ? Y?i? X?1?i? - ? b? + b? X?1?i? + L + b? X?ki? X?1?i? = 0? ?? ?? ?? 0? 1? k? ? ? ? Y?i? X?2?i? - ? ?? + ?? X?1?i? + L + ?? X?ki? X?2?i? = 0? b?0? b? b?k? 1? í M ? ? M ? ?? ?? ?? ? ? Y?i? x? - ? b? + b? X?1?i? + L + b? X?ki? X?ki? = 0? ki? 0? 1? k? ? ( ( ( ) ) ) ( ) 求参数估计值的实质是求一个k+1元方程组 正规方程 变成矩阵形式 ?? ìn??0? + b??? 1?i? + b??X?i? +L + b??X? = ?Y? b? ?? X? ?? 1? 2? 2? k? ki? i? ? ?? ?? ?? ?b??X?i? + b??X?2? + b??X?i?X?i? +L + b??X? X?i? = ?X?i?Y? ? ?? 0? 1? 1? 2? 2? 1? k? ki? 1? 1? i? 1? i? í ?L L L L L L L L L ? ?? 2? ?? ?? ?? ?b??X? + b??X?i?X? + b??X?i?X? +L + b??X? = ?X?Y? ki? 1? 1? ki? 2? 2? ki? k? ki? i? ki? ? 0 é n ê ê? X?1?i? ê L ê ê? X?ki? ? ??X? ? X L 1? i 1? i? 2 1? i ? X? ? X? X 2?i? 2?i 1? i L ki? 2?i? ki ? X? X? ? X? X ? éb? ù L? X?ki? ù ê 0? ú é ? Y? ù ? ú ?? ê i? ú 1? L ? X?ki? X?1?i? ú êb? ú ê? X?1?i?Y?ú i? êb? ú = ?? ú ê 2? ú ê M ú L L úê M ê ú ú 2? L X?ki? ú ê ú ê? X?ki?Y?ú ? ? b? ? i? ? ?? ? k? ? 正规方程 矩阵形式 é n? ê 1? ê?X?i? X¢X?= ê L ê ê?X? ki? ? X? ?? ?X? ?X? ?X? X 1? i? 2? i? 2? 1? i? 2? i L L L L 1? i ?X? ù ú X? X? ú ? ki? ki? 1? i L 1? i? ki L 2? i? ki ?X? X? ?X? X ú ú 2? ?X?ki? ú ? L ?? éb? ù 0 ê ú ?? êb? ú 1? ?? ?? B?=?êb? ú ê 2? ú êM ú ê ?? ú k? ?b? ? é ?? i? ù Y? ê ú X?1i?Y?ú ? i? X ¢Y? = ê ê M? ú ê ú ê? X?ki?Y?ú i? ? ? X ¢X?? = X?¢Y? B? ?? B?= (?X?¢X?)?-1? X?¢Y 最小二乘法的矩阵表示 ?? Y? = X? ?? B n 2? i?=1 Y? = XB? + U n i?=1 U? ~? N?(? ,? )? 0? s ?? E? = Y? - Y? = Y? - X? ?? B 2 Q? = ??ei? = ? y? - y? ??i? i ( ) 2 ?? ¢ Y? ?? ¢ = e?e? = (? - X?B?)?(? - X?B?)? Y? Q? = (? ¢ - B?¢X?¢)(? - X? ??)? Y? ?? Y? B? ?? ?? ?? ?? = (?Y?¢Y? - Y?¢X?B?- B?¢X?¢Y? + B?¢X?¢X?B?)? ?? ?? = Y?¢Y? - 2?B?¢X?¢Y? + B?¢X?¢X? ?? B? ? Q? = 0? ?? ? B? - X?¢Y? + X?¢X? ?? = 0? B? 为什么 Y?¢X? ?? = B?¢X?¢Y?? B? ? -1? ?? B? = ( X?¢X?)? X?¢Y ?? s 2 = ¢ e?e? n?- k? - 1 2.2最小二乘估计量的性质 n (1)线性(估计量都是被解释变量观测值的线性组 合) (2)无偏性(估计量的数学期望=被估计的真值) (3)有效性(估计量的方差是所有线性无偏估计中最 小的) n n 结论:在古典假定下,? OLS 估计式 b?是最佳线性 无偏估计( BLUE ) ù OLS估计量的性质(续) (? )? 4? 在古典假定下,? ? j? ~? N (?b j?,? (?b j?)),? j? = 1?2? k? b Var? ,? ,...,? 其中, Var?(?b j?)?= s 2 c?jj?,?c?jj?是( X?'?X? -1? ) 中对角线上第 j? 个元素。 ( u?正态 ,?Y? u?的线性函数 T Y?正态,又 b 是 i? i? 是 Y? 的线性函数 T b j? 正态) ù ù j? ù ù ù 线性 -? ??= (?X?¢X?)?1 X?¢Y? B 无偏性 -? ??)?= E? X?¢X?)?1 X?¢Y?]? E(? B? [( = E? X?¢X?)? X?¢(?XB?+ N?)]? [(? = E? X?¢X?)? X?¢XB?+ (?X?¢X?)? X?¢N?]? [(? = B?+ (?X?¢X?)? E? X?¢N?)? (? = B -1? -1? -1 -1 有效性 回忆:Cov? x? =?E?(?x?- E?(?x? )? (? )? )? ??)(??? ??)? ¢ Cov? B? = E? B?- E?(?B? B?- E?(?B? )?]? (???)? [(?? 2 (?k + 1? ′ (?k? + 1? )? ) = E? B?- B? B?- B? ¢]? [(??? )(??? ) -1? -1? = E? X?¢X?)? X?¢Y? - B? X?¢X? )? X?¢Y? - B? ¢]? [((? )((? )? -1? -1? = E? X?¢X?)? X?¢(?XB?+ N?)?- B? X?¢X?)? X?¢(?XB?+ N?)?- B? ¢]? [((? )((? )? -1? -1? = E? X?¢X?)? X?¢N? ¢X?(?X?¢X?)? ]? [(? N? -1? -1? = (?X?¢X?)? X?¢E?(?N? ¢)?X?(?X?¢X?)? N? -1? -1? = E?(?N? ¢)(?X?¢X?)? X?¢X?(?X?¢X?)? N? -1? = s (?X?¢X?)? 2 2.2??OLS回归线的性质 n 完全同一元情形: ù ù ù ù (?)回归线过样本均值 1? Y? = b 1 + b 2? X?2?i? + b 3? X?3?i?...?+ b k? X?ki? (? )? 2? 估计值 Y?i?的均值等于实际观测值Y?的均值 i? (? )? 3? 剩余项(残差)e?的均值为0? i? (4? )应变量估计值 Y?i? 与残差e?不相关; i? (5? )解释变量X?i?与残差e?不相关 i ù ù 注解:k与k+1 n n 凡是按解释变量的个数为k的,那么共有k+1? 个参数要估计。而按参数个数为k的,则实 际有k-1个解释变量。总之两者相差1而已! 要小心所用的k是什么意思! 所以如果本来是用解释变量个数的k表示的 要转换成参数个数的k则用k-1代换原来的k就 可以了! 2.3偏回归系数 的意义 n n 多元回归模型中的回归系数称为偏回归系数 某解释变量前回归系数的含义是,在其他解释 变量保持不变的条件下,该变量变化一个单 位,被解释变量将平均发生偏回归系数大小的 变动 2.4多元回归模型参数估计中的样本容量问 题 n 样本是一个重要的实际问题,模型依赖于实际 样本。 获取样本需要成本,企图通过样本容量的确定 减轻收集数据的困难。 最小样本容量:满足基本要求的样本容量 n n 最小样本容量?n?≥? k+1 -1? ? B = (?X?¢X?)? X?¢Y n -1? (X`X)? 存在?|?X`X?|? 0 ? 1 X`X?为k+1阶的满秩阵 n? n? n R(AB)?≤?min(R(A),R(B))? R(X)?≥?k+1? 因此,必须有n≥k+1 满足基本要求的样本容量 n ? 一般经验认为: n ≥ 30或者n ≥ 3(k+1)才能满足模型估计的基 本要求。 n ≥ 3(k+1)时,t分布才稳定,检验才较为有效 ? 三 多元线性回归模型的检验 n 本节主要介绍: 3.1?拟合优度检验(判定系数及其校正) n? 3.2?回归参数的显著性检验(t-检验) n? 3.3?回归方程的显著性检验(F-检验) n? 3.4?拟合优度、t-检验、F-检验的关系 n 3.1.1? 拟合优度检验 -总平方和、自由度的分解 n n 目的:构造一个不含单位,可以相互比较, 而且能直观判断拟合优劣的指标。 类似于一元情形,先将多元线性回归作如下 平方和分解: 2? (Yi - Y ) ???? = ???????? ?(Yi - Yi ) + ?(Yi? - Y?)? ? 2 ù 2 ù TSS = RSS + ESS 总离差平方和 = 回归平方和 +残差平方和 自由度:n-1????? = ?????????k-1????????? + ?????n-k 对以上自由度的分解的说明 TSS? = ? (Y?-?Y?) 2? i? 2? i? ù 2? i 1? 受Y? = ? Y?一个方程的约束,?所以 df? = n?- 1? i? T? n 2 ù? ù ù ù ? ? ? RSS? = ? ? Y? -Y?÷ = ? ? Y? -( b + b X? +...? b X? )? + k? ki? ÷ i? 1? 2? 2? è ? è ? ? ? e? ? ? e? 而 b ,...,?b 由 = 0? ,.....,? = 0? 方程求出,共有k? 个方程 i? ù 2? i? 1? k? ù ù ? b 1 R ? b k 对n? Y? 约束,?所以, 个 i? df? = n?- k? 再由:ESS? = TSS?- RSS? 知 df? = (? - 1? - (? - k?)?= k?- 1? n? )? n E 3.1.2? 判定系数R 2 n 判定系数的定义: RSS ESS? TSS = RSS + ESS? T 1?= + TSS TSS? RSS ESS? 2? R = TSS = 1?-?TSS n n 意义:判定系数越大,自变量对因变量的解释 程度越高,自变量引起的变动占总变动的百分 比高。观察点在回归直线附近越密集。 取值范围:0-1 3.1.3? 校正判定系数 R n 2 为什么要校正? n n n 判定系数随解释变量个数的增加而增大。易 造成错觉:要模型拟合得越好,就应增加解 释变量。然而增加解释变量会降低自由度, 减少可用的样本数。 并且有时增加解释变量 是不必要的。 导致解释变量个数不同模型之间对比困难。 判定系数只涉及平方和,没有考虑自由度。 n 校正思路: 引进自由度校正所计算的平方和。 校正判定系数 R (续) ESS /(n - k?)? R? = 1?TSS /(n?- 1) 2 2 校正判定系数和未校正的判定系数的关系: n?- 1? (1)????? R = 1 - 1?- R?) ( n - k 2? 2? 2? (2)????k > 1时, 两者的差距将越来越大.? 也就是说校正的比 未校正的判定系数增加得慢些! 2? (3)???判定系数R? 非负(取值在[0,1])但是, ?? 2 2 R 取值可能为负,这时规定R =? 0 3.2?回归方程的显著性检验 3.2?回归方程的显著性检验 检验的目的 检验的目的:检验Y与解释变量x1,x2,……xk之 间的线性关系是否显著。 3.2?回归方程的显著性检验 检验的步骤 第一步,提出假设: 原假设:H0:b1=b2=……bk=0 备择假设:H1:bi不全为0 (i=1,2,…,k) 3.2?回归方程的显著性检验 检验的步骤 第二步,计算统计量: RSS? k? )? F? =? ~? F?(k?,?n?- k? - 1? ESS? (n?- k? - 1) (10-8) R?2 或: F? = (1?- R? ) 2 k (n?- k?- 1? ) 3.2?回归方程的显著性检验 检验的步骤 第三步,查表,得: Fa = Fa ( k , n - k - 1? ) 3.2?回归方程的显著性检验 检验的步骤 第四步,做检验: 检验 法则 F > F? ? a F 拒绝H0, 回归方程显著 接受H0, 回归方程不显著 3.3?回归系数的显著性检验 回归系数检验的必要性 回归方程显著,并不意味着每个解释变量对因 变量Y的影响都重要,因此需要进行检验: 回归方程显著 1 每个回归系数 都显著 3.3?回归系数的显著性检验 回归系数检验的步骤 第一步,提出假设: 原假设:H0: bi=0 (i=1,2,……k) 备择假设:H1:bi≠0 (i=1,2,……k) 3.3?回归系数的显著性检验 回归系数检验的步骤 第二步,构造并计算统计量 : ?? b? Ti? = i? ?(i = 1, 2,......, k?) ?? s b ( ) i (10-9) 3.3?回归系数的显著性检验 回归系数检验的步骤 第三步,查表得 : ta = ta ( n - k - 1? ) 2 2 3.3?回归系数的显著性检验 回归系数检验的步骤 第四步,做检验: T? 检验 法则 2 接受H0 Ti? > ta 2 拒绝H0 3.3?回归系数的显著性检验 关于模型的异方差、自相关、多重共线性问题 的检验,请参考计量经济学有关教材。 3.4?多元线性回归模型的预测 ?? ?? ?? ?? 点预测: YF? = b?1?X?F?1? + L + b k? X?Fk? = X?F?b 区间预测: ?? 中心:? Y? F ¢ s 半径:? ?? X?F (?X?¢X?)?-1? X?F? t? /?2?(?n?- k?)? a 四 逐步回归分析 多元线性回归建立的回归方程 包含了所有的自变 量,但在实际问题中,可能有这样的情况:参加回 归方程的P个自变量中,有些自变量单独看对因变 量Y有作用(相关程度密切),但P个自变量又可能 是相互影响的,在作回归时,它们对因变量所起的 作用有可能被其他自变量代替,而使得这些自变量 在回归方程中变得无足轻重。这时把这些自变量留 在回归方程中,不但增加计算上的麻烦,而且不能 保证有好的回归效果。为了克服这些缺点,提出了 多元逐步回。 多元逐步回归要求回归方程 中包含所有对因变量作用显著的自 变量,而不包含作用不显著的自变 量,从而建立最优回归方程。 逐步筛选变量的方法: 1、强行进入法(Enter):? 预先选定的自变量全部进入回归模 型,这是系统默认方式。? 2、消去法(Remove):? 根据设定的条件剔除部分自变量。 3、向前引入法(Forward):? 自变量由少到多一个一个引入回归方 程,将与因变量的相关系数最大的第一 个自变量选入方程并进行检验,如果F值? >F? ,拒绝H? ;将其余的变量中与因变 a? 0? 量的相关系数最大的第二个自变量选入 方程,当F值>F? ,拒绝H? ;如此下 a? 0? 去,不断引入新的自变量,直到不能拒 绝H? ,再没有变量被引入为止。 0 4、向后剔除法(Backward):? 自变量由多到少一个一个从回归 方程中剔除,首先,对预先选定自变 量全部进行回归,然后把对因变量影 响不显著的自变量从方程中剔除并进 行检验,如果F值 5、逐步引入—剔除法 (Stepwise):? 向前引入法与向后剔除法的结合。 操作(一) 2 1 SPSS软件包逐步回归操作(二) 点击逐步回归 操作(三) 结果变量Y 多个自变量 点击逐步回归 操作(四) 模型拟合 回归系数估计 回归系数可信区间 操作(五) 直方图 正态概率图 操作(六) (一)?SPSS软件包逐步回归筛选自变量 Variables Entered/Removed Model 1 Variables Entered Variables Removed a 铁(Fe) . Method? Stepwise? (Criteria:? Probabilit? y-of-F-to? -enter?=?.100). a. Dependent?Variable:?血红蛋白(Hemoglobin,g) (二)?SPSS软件包逐步回归相关系数及检验 Model Summaryb Model 1 Change Statistics? Std. Error Adjusted R of the R Square Sig. F R R Square Square Estimate Change F Change df1 df2 Change a? .863? .746? .736? 1.11991? .746? 79.096? 1? 27? .000 a.?Predictors:?(Constant),?铁(Fe)? b. Dependent?Variable:?血红蛋白(Hemoglobin,g) (三)?SPSS软件包逐步回归残差分 析 ANOVA b? Sum of Model Squares 1 Regress ion 99.201? Residual Total 33.863? 133.064? df Mean Square 1? 99.201? 27? 28? 1.254? F 79.096? Sig.? a? .000 a.?Predictors:?(Constant),?铁(Fe)? b. Dependent?Variable: 血红蛋白(Hemoglobin,g) (四)?SPSS软件包逐步回归回归系数及检验 a? Coefficients Standar dized Unstandardized Coeffic Coefficients ients Model B Std. Error Beta 1 (Constant) -.657? 1.276? 铁(Fe) 2.938E-02? .003? .863 a.? Dependent?Variable:?血红蛋白( Hemoglobin,g) t -.515? 8.894 Correlations? Sig. Zero-orderPartial Part .611? .000? .863? .863? .863 ?? y = - 0?.?657? + 0?.?038? x?(?铁? ) (五)?SPSS软件包逐步回归残差直方图 Histogram 5 4 3 2 Dependent Variable: 血红蛋白(Hemoglobi Frequency 1 0 -1.75 -1.25 -.75 -.25 .25 .50 .75 1.25 1.75 -1.50 -1.00 -.50 0.00 1.00 1.50 Std. Dev = .98 Mean = 0.00 N = 29.00 Regression Standardized Residual (六)?SPSS软件包逐步回归未进入方程的变量及检验 Excluded Variables b? Collineari ty Statistics? Partial Sig. Correlation Tolerance .081? -.335? .910? .785? .351? .844? .054? -.183? .039? .597? .927? .930 Model 1 Beta In a? 钙(Ca) -.177? 镁(Mg) 锰(Mn) 铜(Cu) a? .035? a? -.096? a? .020 t -1.815? .276? -.950? .199 a.?Predictors?in?the?Model:?(Constant),?铁(Fe)? b. Dependent?Variable: 血红蛋白( Hemoglobin,g) 图 Normal P-P Plot of Regression S Dependent Variable: 血红蛋白( 1.00 .75 Expected Cum Prob .50 .25 0.00 0.00 .25 .50 .75 1.00 Observed Cum Prob 逐步回归的主要用途: 1、建立一个自变量个数较少的 多元线性回归方程,可用于描述 某些自变量与某一医学现象间的 数量关系,以及进行疾病的预测 预报,辅助诊断等。 2、进行因素筛选,有助于从大量 因素中筛选出对某一医学现象作 用显著的因素和因素组,因此在 病因分析和疗效分析中有着广泛 的应用。 多元线性回归模型 一、单选题 1.可决定系数R2是指( ) A、剩余平方和占总离差平方和的比重 B、总离差平方和占回归平方和的比重 C、回归平方和占总离差平方和的比重 D、回归平方和占剩余平方和的比重 2.调整的多重可决定系数2和R2多重可决定系数之间的关系是( ) n?1n?1 B、2?1?R2 n?k?1n?k?1 n?1n?1C、2?1?(1?R2) D、2?1?(1?R2) n?k?1n?k?1A、2?R2 3.在由n?30的一组样本估计的、包含3个解释变量的线性回归模型中,计算的多重可决定系数为0.8500,则调整后的可决定系数为( ) A、0.8603 B、0.8389 C、0.8655 D、0.8327 4.设k为模型中参数的个数,则回归平方和为( ) ?)2 A、?(Yi?) B、?(Yi?Yi2 i?1 ni?1nnn?)2 D、?(Y?)2 C、?(?Yii i?1i?1 5.最常用的统计检验准则包括拟合优度检验、变量的显著性检验和( ) A、方程的显著性检验 B、多重共线性检验 C、异方差检验 D、预测检验 6.设k为回归模型中参数的个数(不含截距项),n为样本容量,RSS为残差平方和,ESS为回归平方和,则对总体回归模型进行显著性检验时构造的F统计量为( ) A、F?ESSESS/k B、F? TSSRSS/(n?k?1) RSSESS/k D、F? TSSTSS/(n?k?1)C、F?1? 7.根据可决定系数R2和F统计量的关系可知,当R2?1时有( ) A、F?1 B、F??1 C、F??? D、F?0 ????X???X?8.对于Yi??011i22i 从( )。 2?(?Y)/ki?统计量服??kXki?ei,2?(Y?Y)/(n?k?1)ii A. t(n?k?1) B.F(k,n?k?1) C.F(k?1,n?k) D.F(k?1,n?k?1) 9.用一组35个观测值的样本估计模型Yi??1X1i??2X2i?ei后,在0.05的显 著性水平下对?1的显著性作t检验,则?1显著地不等于零的条件是其统计量大于等于( )。 A. t0.05(35) B. t0.025(33) C.t0.025(32) D.t0.05(33) 10.对于模型Yi??0??1X1i??2X2i?ei的最小二乘回归结果显示,样本可决定系数R2?0.98,样本容量为28,总离差平方和为455,则回归的标准差为( )。 A. 0.325 B. 0.603 C.0.364 D.0.570 11.样本可决定系数R2、调整的样本可决定系数2与用于回归方程显著性检验的F统计量的关系是( )。 R2/k2/kA、F? B、F? (1?R2)/(n?k?1)(1?2)/(n?k?1) R2/(n?k?1)2/(n?k?1)C、F? D、F? 22(1?R)/k(1?)/k 三、判断题 1.用于检验回归方程总体是否呈显著性的统计量是F统计量,其与用于单个回归参数显著性检验的t检验无关。 (F) 2.回归方程总体线性显著性的原假设是模型中所有的回归参数同时为零。 (F) 3.对于多元回归模型来说,若要估计出结果,对于样本容量的最低要求是样本容量不少于模型中解释变量个数的3倍。 ( F ) 4.只要解释变量个数大于1,调整的样本可确定系数得知一定比为调整的样本可决定系数小,且可能为负值。 (T) 四、简答题 1. 给定二元线性模型:Y??0??1X1i??2X2i??i(i?1,2, (1)叙述模型的基本假定; (2)写出总体回归方程、样本回归方程; (3)写出回归模型的矩阵表示; (4)写出回归系数及随机误差项方差的最小二乘估计量,并叙述参数估计量的性质; (5)试述总离差平方和、回归平方和、残差平方和之间的关系及其自由度之间的关系。 解:(1) 4个基本假设(或填6个)P.56-57 (课代表填上去) (2) E(Y|X1i,X2i)??0??1X1i??2X2i, ,n) ????X???X ??? Y011i22i ?Y1???1??1??0????????Y???2??2??1?1? (3) 令 Y??? ???? ???? X???????????????Y?????1?2??n??n??X11X12?X1nX21??X22?? ?X2n?? 回归模型的矩阵表示:Y?X??? ??(X'X)?1X'Y, (4)??2??e'e? ,其中e?Y?X?n?2?1 线性、无偏、最小方差(BLUE)。 (5) TSS?ESS?RSS n?12n?3 2.在多元线性回归分析中,为什么用调整的可决定系数衡量估计模型对样本观测值的拟和优度? 解:因为增加解释变量为导致回归误差(残差)减少,从而导致决定系数R2的增加,然而增加解释变量并不代表拟合优度提高,因此在多元回归中决定系数R2并不是一个合适的指标,需对其进行调整。具体调整的思路:将残差平方和 与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。 3. 在多元线性回归分析中,可决定系数R2与总体线性关系显著性检验统计量F之间有何关系?t检验与F检验有何不同?是否可以替代?在一元回归分析中二者是否有等价的作用? 解:在多元线性回归模型:Yi??0??1X1i???kXki??i,i?1,2,?n (1)R?1?RSSRSS1?R2?1??1?? TSSESS?RSS1?ESS/RSS ESSR2ESS/kR2n?k?1??F?? 22RSS1?RRSS/n?k?11?Rk R2?1,F?? (2)t检验是检验自变量各自对因变量y是否有显著影响,F检验是检验自变量整体对因变量y是否有显著影响,在多元情况不能替代,在一元情况两者作用等价,都是检验唯一的自变量对因变量是否有显著影响。 4.下表给出三变量的回归结果: (1) 求样本容量n,残差平方和RSS,回归平方和ESS及残差平方和RSS的自由度; (2)求拟合优度R2及调整的拟合优度2; (3) 检验假设:X1和X3对Y无影响。应采用什么假设检验?为什么?(4)根据以上信息,你能否确定X1和X3各自对Y的影响? 解:(1) n?15,RSS?TSS?ESS?66042?65965?77 回归平方和的自由度为 3,残差平方和的自由度为 11 (2)R? 22ESSRSS65965?1???0.9988 TSSTSS66042 ?1?RSS/(n?k?1)77/11?1??0.9985 TSS/(n?1)66042/14 (3)F?ESS/k65965/3??3141.2?F0.05(3,11), RSS/(n?k?1)77/11 因此通过F检验能够判断X1和X3对Y有显著影响,然而不能判断X1和X3各自对Y是否有影响。 多元线性回归分析 储蓄率是影响经济发展的重要因素,它的高低会对经济增长水平有着直接的影响。本例以1979-1994年城镇居民的数据为样本(数据来源于论文),引入城镇居民储蓄率率、通货膨胀率、一年期储蓄利率、居民收入增长率这4个系数建立回归方程。 回归模型:y=a+b1*x1+b2*x2+b3*x3 模型中a为常数项,x1为通货膨胀率,b1为通货膨胀率影响系数;x2为一年期储 蓄利率,b2为一年期储蓄利率影响系数;x3为居民收入增长率,b3为居民收入增 长率影响系数。 操作步骤: 第一步:在分析中打开线性回归工具并输入相关参数,如下图 第二部:设置相关参数,如图 由以上步骤得出以下结果: 。 分析结果如下: ANOVAb可以看出显著性分析:sig=0.000 coefficientsa 可以看出常数项为-0.252,通货膨胀率的非标准化系数为0.474,一年期储蓄率的非标准化系数为0.055,居民收入增长率的非标准化系数为-0.647 因此,最终的方程为y=-0.252+0.474X 1 +0.055X 2-0.647X3范文二:多元线性回归模型
范文三:多元线性回归模型
范文四:多元线性回归模型
范文五:多元线性回归