范文一:第13章离散被解释变量
教学用PPT,《高级计量经济学及Stata应用》,陈强编著,高等教育出版社,? 2010年
第13章 离散被解释变量
13.1离散被解释变量的例子
二值选择(binary choices):考研或不考研;就业或待业;买房或不买房;买保险或不买保险;出国或不出国;回国或不回国;生或死。
多值选择(multiple choices):对不同交通方式的选择(走路、骑车、坐车上班)。
有时被解释变量只能取非负整数(比如,企业在某段时间内获得的专利数),称为“计数数据”(count data)。
13.2 二值选择模型
最简单的模型为“线性概率模型”(Linear Probability Model,LPM),
yi=xi′β+εi
i=1,",n)( (13.1)
x图13.1、OLS与二值选择模型
y的两点分布概率,
在给定的情况下,考虑
?P(y=1|x)=F(x,β)??? ? (13.2) P(y=0|x)=1?F(x,β)??
?≤1,并通过选择合适的函数形式F(x,β),可以保证0≤y
?理解为“y=1”发生的概率,因为 将y
E(y|x)=1?P(y=1|x)+0?P(y=0|x)=P(y=1|x) (13.3)
如果F(x,β)为标准正态的累积分布函数,则
P(y=1|x)=F(x,β)=Φ(x′β)≡∫
x′β
?∞
φ(t)dt (13.4)
(logistic 该模型称为“Probit”。如果F(x,β)为“逻辑分布”distribution)的累积分布函数,则
exp(x′β)
P(y=1|x)=F(x,β)=Λ(x′β)≡
(13.5) 1+exp(xβ)
该模型称为“Logit”。
以Logit为例,第i个观测数据的概率密度为,
?′Λ(xifyi=1?iβ)?f(yi|xi,β)=??′ (13.6) 1?Λ(xβ)ify=0ii??
f(yi|xi,β)=??Λ(xi′β)????1?Λ(xi′β)??
yi
1?yi
(13.7)
lnf(yi|xi,β)=yiln??Λ(xi′β)??+(1?yi)ln??1?Λ(xi′β)?? (13.8)
假设样本中个体相互独立,整个样本的对数似然函数为,
lnL(β|y,x)=∑i=1yiln??Λ(xi′β)??+∑i=1(1?yi)ln??1?Λ(xi′β)?? (13.9)
n
n
β?MLE并非边际效应。以Probit为例,
?P(y=1|x)?P(y=1|x)?(x′?x=(xβ)?β)
?x=φ(x′β)?βk
k?k
(13.10)
Logit模型为例,记p≡P(y=1|x),则
?p=P(y=0|x)。由于p=exp(x′β)
1+exp(xβ),故p
1?p
=exp(x′β)
(13.11) 以1
?p??=x′β?ln????? (13.12) ?1?p?
(odds ratio)。 其中,“p(1?p)”称为“几率比”
对于二值模型,不存在平方和分解公式,无法计算R。
2
RStata仍然汇报一个“准”(PseudoR),其定义为,
2
2
lnL0?lnL1
PseudoR≡
(13.13) lnL0
2
2
图13.2、准R的计算
判断拟合优度的另一方法是计算预测准确的百分比。
13.3 二值选择模型的微观基础
假设净收益为,
y=x′β+ε (13.14)
*
其中,净收益y为潜变量,不可观测。个体的选择规则为,
*??1ify>0?y=?*
? (13.15) 0ify≤0??因此,
P(y=1|x)=P(y*>0|x)=P(x′β+ε>0|x)=P(ε>?x′β|x) (13.16)
*
假设ε~N(0,σ)或服从逻辑分布,则
P(y=1|x)=P(ε>?x′β|x)=P(ε
2
另一微观基础为“随机效用法”(random utility approach)。假设选择a,可带来效用Ua;选择b,可带来效用Ub。如
则选a,记y=1;如果Ua≤Ub,则选b,记y=0。果Ua>Ub,
′U=xβa+εa,Ub=x′βb+εb,则 假定 a
P(y=1|x)=P(Ua>Ub|x)
=P(x′βa+εa>x′βb+εb|x)=P??x′(βa?βb)+(εa?εb)>0|x??
(13.18)
13.4 二值选择模型中的异方差问题
对于Probit模型,同方差的原假设H0为,
P(yi=1|xi)=Φ(xi′βσ) (13.19)
其中,扰动项的标准差σ=1。异方差的替代假设H1为,
P(yi=1|xi)=Φ(xi′βi) (13.20)
假设σ依赖于外生变量z≡(z1,",zm), 其中,σ≡Var(εi)。
2
i
2i
′σ=exp(ziδ) (13.21)
2
i
在异方差的替代假设下,同样可以写出其似然函数,然后进行最大似然估计,并进行似然比检验。
13.5 多值选择模型
假设个体可选择y=1,2,",J,其中J为正整数。假设第i个个体选择第j个行为的随机效用为,
Uij=xi′βj+εij
(i=1,",n;j=1,",J) (13.22)
?′βj)exp(x?i?(j=2,",J)?J?′βk)+1exp(x?i?k=2
P(yi=j|x)=?
?1? (13.23) =(1)j?J?′?1exp(+xβk)i?k=2?
此模型为“multinomial logit”。第i个个体的似然函数为,
Li(β1,",βJ)=∏[P(yi=j|x)]
j=1
J
J
1(yi=j)
(13.24)
lnLi(β1,",βJ)=∑j=11(yi=j)?lnP(yi=j|x) (13.25)
假设“选择1”或“选择j”(j≠1)必然发生(二者必居其一),则在此条件下,“选择j”发生的条件概率为,
exp(xi′βj)P(y=j)
P(y=j|y=1 or j)==
P(y=1)+P(y=j)1+exp(xiβj) (13.26)
几率比(odds ratio)为,
P(y=j)
=exp(xi′βj)
P(y=1) (13.27)
对数几率比(log-odds ratio)为,
?P(y=j)?
?=xi′βjln?
??P(y=1)?? (13.28)
从条件概率P(y=j|y=1 or j)的表达式可以看出,该条件概率不依赖于任何其他选择。此假定被称为“无关选择的
独立性”(independence of irrelevant choices)。
例:红车蓝车问题(red bus-blue bus problem)。
13.6 排序数据
有时,离散数据有着天然的排序。比如,公司债券的评级(AAA, AA, A, B, C级)。这种数据被称为“排序数据”
(ordered data)。
假设其中,y*
=x′β+ε(y*
不可观测),而选择规则???*?0ify≤r?0?1ifr*0
???#???Jifr* J?1≤y
r0
为
012
y图13.3、Ordered logit示意图
P(y=0|x)=P(y*
≤r0|x)=P(x′β+ε≤r0|x)
=P(ε≤r0?x′β|x)=Φ(r0?x′β)
(13.29)
P(y=1|x)=P(r0
=P(y≤r1|x)?P(y
P(y=2|x)=Φ(r2?x′β)?Φ(r1?x′β)
P(y=J|x)=1?Φ(r?x′β)J?1# (13.31)
得到MLE估计量,即“ordered probit”模型。如果假设扰动项服从逻辑分布,则可得到“ordered logit”模型。
13.7 计数模型
1.泊松回归
有些被解释变量只能取非负整数,即0,1,2,",比如,专利个数、奥运金牌个数、子女人数、看病次数。对于这一类“计数数据”,常使用“泊松回归”。
eλP(Yi=yi|xi)=yi!?λiyii(yi=0,1,2,") (13.32)
E(Yi|xi)=λi=exp(xi′β) (13.33)
L(β)=exp(?∑i=1λi)?∏λn
i=1nyii
∏y!i
i=1n (13.34)
lnL(β)=∑i=1[?λi+yilnλi?ln(yi!)]n
n=∑i=1???exp(xi′β)+yixi′β?ln(yi!)?? (13.35)
??′?=yexp(xβ)x0∑i=1?iii (13.36) ?n
2.负二项回归
泊松分布的期望与方差一定相等,可能与实际数据不符。如果被解释变量的方差明显大于期望,即存在“过度分散”(overdispersion),则可以考虑使用“负二项回归”(negative
,假设样本来自负二项分布,然后使用binomial regression)
MLE估计。
P(Y=y|θ,J)=CJ?1J
y+J?1θ(1?θ)y(y=0,1,2,") (13.37)
3.零膨胀回归
如果计数数据中含有大量的“0”值,则可考虑使用“零膨胀泊松回归”或“零膨胀负二项回归”。
?P(yi=0|xi)=θ????λij?(1?θ)eλi?P(yi=j|xi)=?λi??j!(1?e)??(j=1,2,") (13.38)
让θ依赖于解释变量zi,并用Logit模型来估计此二值选择问题,即yi=0或yi>0。使用MLE估计以上模型,即“零膨胀泊松回归”。可类似定义“零膨胀负二项回归”。
范文二:第14章-受限被解释变量
? 陈强,《高级计量经济学及Stata应用》课件,第二版,2014年,高等教育出版社。
第14章 受限被解释变量
被解释变量的取值范围有时受限制,称为“受限被解释变量”(Limited Dependent Variable)。
14.1 断 尾 回 归
对线性模型yi?xi????i,假设只有满足yi?c的数据才能观测到。
例:yi为所有企业的销售收入,而统计局只收集规模以上企业
数据,比如yi?100,000。被解释变量在100,000处存在“左边断尾”。 断尾随机变量的概率分布
随机变量y断尾后,其概率密度随之变化。
记y的概率密度为f(y),在c处左边断尾后的条件密度函数为
?f(y)
若y?c?
f(y|y?c)??P(y?c),
?0,若y?c?
由于概率密度曲线下面积为1,故断尾变量的密度函数乘以因子1
。
P(y?c)
2
图14.1 断尾的效果
3
断尾分布的期望也发生变化。以左边断尾为例。
对于最简单情形,y~N(0,1),可证明(参见附录)
?(c)
E(y|y?c)?
1??(c)
对于任意实数c,定义“反米尔斯比率”(Inverse Mill’s Ratio,简记IMR)为
?(c)
?(c)?
1??(c)
则E(y|y?c)??(c)。
4
图14.2 反米尔斯比率
5
对于正态分布y~N(?,?),定义z?
2
y??
?
~N(0,,1)则
y????z。故
E(y|y?c)?E(???z|???z?c)?E?????zz?(c??)??
????E??zz?(c??)?????????(c??)?
22
??对于模型yi?xi???i,?i|xi~N(0,?),则yi|xi~N(xi?,?),故
E(yi|yi?c)?xi???????(c?xi??)?
如果用OLS估计yi?x??则遗漏了非线性项i??,i
????(c?xi??)?,与xi相关,导致OLS不一致。
6
?x。 ???参见图14.3。总体回归线为???xi,而样本回归线为?i
图14.3 断尾回归示意图
7
使用MLE可得到一致估计。断尾前的概率密度:
2
?1?1?y?x?????1?y?x??
f(yi)?exp????????
????2??????
样本被观测到的概率:
?? ?
8
P(yi?c|xi)?1?P(yi?c|xi)
?y?x??c?x????1?P??xi?
????1?P??????c?x???x?
i?
?
?1????c?xi??????
?
1
?
f(y?(yi?xi??)?
i|yi?c,xi)?1??(c?xi??)9
?
断尾后的条件密度:
14.2 零断尾泊松回归与负二项回归
计数数据有时仅包括正整数,不包括取值为0的观测值,称为“零断尾”(zero-truncated)。
例:在商场发放问卷调查,研究消费者每周去商场的次数。 例:在公交车上发放问卷调查,研究乘车者每周坐公交的次数。
如果不对似然函数进行调整,将得不到一致估计。
记f(y)为y的概率函数,而F(y)?P(Y?y)为cdf。如果存在零
10
断尾,则断尾后的概率函数为
f(y)f(y|y?1)?,1?F(0)y?1,2,?
如果y服从泊松分布,则
e?f(y|y?1)?,??y!(1?e)??yy?1,2,?
进行MLE估计,得到“零断尾泊松回归”(zero-truncated Poisson regression)。如果y服从负二项分布(NB1或NB2),可进行“零断尾负二项回归”(zero-truncated negative binomial regression)。
11
14.3 随机前沿模型(选读)
14.4 偶然断尾与样本选择
被解释变量yi的断尾有时与另一变量zi有关,称为“偶然断尾”(incidental truncation)或“样本选择”(sample selection)。
称zi为选择变量。
例 在美国的亚裔移民给人的整体印象是聪明能干。但在美国的亚裔并非亚洲人口的代表性样本。通常只有受过高等教育或具有吃苦冒险精神的亚裔才会“自我选择”(self selection)移民。
12
决定移民与否的变量便对被解释变量产生了断尾作用,故“样本选择”将导致“选择性偏差”(selection bias)。
例 妇女劳动力供给模型:
劳动时间方程 hour? rriages?0??1wa?g?e2chil?d?r3enmu?a
orw?w??0??1age??2education??3children??0location?v 工资方程
wo表示offered wage,wr表示reservation wage。
or 如果w?w?0,则选择不工作,无法观测到劳动时间(hours),
造成劳动时间方程的偶然断尾与样本选择问题。
13
考虑二维正态随机向量(y,z),记期望为(?y,?z),标准差为(?y,?z),相关系数为?,联合密度函数为f(y,z)。
假设个体进入样本的“选择机制”(selection mechanism)为“选
z大于某常数c”。
比如,在妇女劳动力供给例子中,z?wo?wr,而c?0。
断尾后的联合分布: f(y,z|z?c)?f(y,z)
P(z?c)
偶然断尾y的条件期望:
E(y|z?c)??y???y??(c??z)z?
14 择变量
?(?)为反米尔斯比率(IMR)函数。
如果??0(y与z相互独立),则z的选择过程并不对y产生影响。
如果??0(即y与z正相关),则“z?c”偶然断尾的结果是把y的整个分布推向右边(因为?(?)?0),从而使得条件期望E(y|z?c)大于无条件期望E(y)。
在“z?c”条件下,偶然断尾y的条件期望为
E(y|z?c)??y???y??(?z?c)z?
假设回归模型为yi?xi????i。
15
yi是否可观测取决于选择变量zi(取值为0或1)
y???可观测
i?不可观测
决定二值变量zi的方程为
??1,若z*
zi?0
i?
?0,若z*
i?0
z*
i?wi???ui
z*
i为不可观测的潜变量。
16 zi=1zi=0
假设ui服从正态分布,则zi为Probit模型,故P(zi?1|wi)??(wi??)。
可观测样本的条件期望:
E(yi|yi可观测)?E(yi|zi*?0)?E(xi????i|wi???ui?0)
?E(xi????i|ui??wi??)?xi???E(?i|ui??wi??) ?xi???????(?wi??)
其中,E(?i)?E(ui)?0,并将Probit扰动项的标准差?u标准化为1。
OLS估计,将遗漏非线性项????(?wi??)。
如wi与xi相关,则OLS不一致,除非“??0”(即y与z不相关)。
17
解释变量xik的边际效应:
*?E(yi|zi?0)??(?wi??)??k???? ?xik?xik
右边第一项为直接影响,第二项是通过改变个体进入样本可能性而产生的间接影响(即选择性偏差)。
如知道?,就知道?(?wi??),可把它作为解释变量引入回归方程。
Heckman (1979)提出“两步估计法”,也称“Heckit”。
第一步:用Probit估计方程P(zi?1|w)??(wi??),得到估计值??,
?(?w???)。 计算?i
18
OLS?,得到估计值??,??,???。 y????xi,?第二步:用OLS回归ii
更有效率的方法是MLE。
在两步法中,第一步误差被带入第二步,效率不如MLE的整体估计。
两步法的优点在于,操作简便;对于分布的假设也更弱(即使不假设二维正态分布,也可能成立)。
为检验是否存在样本选择偏差(sample selection bias),可使用似然比检验来检验原假设“H0:??0”。
如使用Heckit,无法进行此LR检验。
19
14.5 归 并 回 归
对于线性模型yi?xi????i,当yi?c(或yi?c)时,所有yi都被归并为c,称为“归并数据”(censored data)。
例 (上不封顶的数据,top coding)在问卷调查中,常有诸如“收入在¥50,000及以上”这样的选项。
例 (边角解)考虑买车的决定,并考察“买车开支”这个变量。如果不买车,则“买车开支”的最优解为边角解,即买车开支为0;反之,如果买车,则买车开支一定为正数。
例 (边角解)考察“劳动时间”这个变量。对于失业或待业者而
20
言,“劳动时间”的最优解为边角解,即劳动时间为0;而就业者的劳动时间一定为正数。
归并回归(censored regression)与断尾回归不同的是,虽有全部观测数据,但某些数据的yi被压缩在一个点上。
yi的概率分布就变成由一个离散点与一个连续分布所组成的混合分布(mixed distribution)。
*2*??i|xi~N(0,?),假设yi?xi???i(yi不可观测),归并点为c?0。
假设可观测到:
?yi*,若yi*?0yi?? *?0,若yi?0
21
22
如使用满足条件“yi?0”的子样本,将导致断尾,出现偏差,因为
** E(yi|xi;yi?0)?E(yi|xi;yi?0) (给定yi?0,必然yi?yi)
*??E(xi???i|xi;yi?0)
?xi???E(?i|xi;xi????i?0) ?xi???E(?i|xi;?i??xi??)
?xi????????xi???
由于忽略非线性项?????xi???,导致扰动项与xi相关,故OLS不一致。
23
对于整个样本,
E(yi|xi)?0?P(yi?0|xi)?E(yi|xi;yi?0)?P(yi?0|xi) ?E(yi|xi;yi?0)?P(yi?0|xi)
其中,P(yi?0|xi)?P(y?0|xi)?P(xi????i?0|xi)
???x??? ?P(?i??xi??|xi)?P??xi? ????
?1????xi??????xi???
E(yi|xi)?E(yi|xi,yi?0)?P(yi?0|xi)???xi?????xi????????xi?????
是解释变量xi的非线性函数。如果使用OLS对整个样本进行回归,非线性项将被纳入扰动项中,导致不一致估计。
24
*i
Tobin (1958)提出用MLE估计这个模型,称为“Tobit”。
在归并数据情况下,yi?0时的概率密度依然不变,仍为
1??(yi?xi??)? ?
yi?0时的分布被挤到“yi?0”上,即
P(yi?0|x)?1?P(yi?0|x)?1???xi???
该混合分布的概率密度为
?f(yi|x)??1??x????i??1?yi?0??1???(y?x?)???ii????1?yi?0?
25
Tobit模型的缺陷是对分布的依赖性强,不够稳健。
如果似然函数不正确(扰动项不服从正态分布或存在异方差),则QMLE估计不一致。
使用Tobit模型时,需要检验正态性与同方差性。
为了检验正态性,可将Tobit模型的MLE一阶条件视为某种矩条件,并基于此进行“条件矩检验”(conditional moment test)。
但条件矩统计量的真实分布与渐近分布有相当差距,存在较严重的显著性水平扭曲,故使用“参数自助法”来获得校正的临界值。
26
为了检验同方差的原假设“H0:?i2??2”,考虑替代假设“H1:?i2?exp(zi?α)”,其中zi通常等于解释变量xi(也可不同)。
然后通过辅助回归,构建LM统计量来检验α?0,参见Cameron and Trivedi (2010, p.550)。
如果发现扰动项不服从正态分布或存在异方差,解决方法之一为使用更稳健的“归并最小绝对离差法”(Censored Least Absolute Deviations,简记CLAD)。
CLAD法仅要求扰动项为iid,即使在非正态与异方差情况下也一致,且在一定正则条件下,服从渐近正态分布。
将归并数据模型简洁地写为
27
yi?max(0,xi????i)
如果xi????i?0,则yi?xi????i;反之,yi?0。
CLAD法的目标函数为离差绝对值之和:
n min?i?1yi?max(0,xi??) ?
选择?使得离差绝对值之和最小化,即可得到CLAD估计量。
28
14.6 归并数据的两部分模型(选读) 14.7
含内生解释变量的Tobit模型 (选读)29
范文三:被解释变量非平稳的问题
ARIMA模型的形式
我们已经介绍了对于单整序列能够通过d次差分将非平稳序列转化为平稳序列。设 yt 是 d 阶单整序列,即 yt~ I(d),则 w t??dyt?(1?L)dyt
wt 为平稳序列,即 wt~ I(0) ,于是可以对 wt 建立ARMA(p,q) 模型
wt?c??1wt?1????pwt?p??t??1?t?1????q?t?q
用滞后算子表示,则 ?(L)wt?c??(L)?t
其中
?(L)?1??1L??2L2????pLp
?(L)?1??1L??2L2????qLq
经过d阶差分变换后的ARMA(p,q) 模型称为ARIMA(p,d,q) 模型(autoregressive integrated moving average models),式(5.3.42)等价于下式 ?(L)(1?L)dyt?c??(L)?t
注:ARIMA模型就是解决解释变量是平稳的,而被解释变量是非平稳的(可以通过d阶差分变平稳)的问题。
应用ARIMA(p, d, q) 模型建模的过程
博克斯—詹金斯提出了具有广泛影响的建模思想,能够对实际建模起到指导作用。博克斯—詹金斯的建模思想可分为如下4个步骤:
(1)对原序列进行平稳性检验,如果序列不满足平稳性条件,可以通过差分变换(单整阶数为d,则进行d阶差分)或者其他变换,如对数差分变换使序列满足平稳性条件;
(2)通过计算能够描述序列特征的一些统计量(如自相关系数和偏自相关系数),来确定ARMA模型的阶数 p 和 q,并在初始估计中选择尽可能少的参数;
(3)估计模型的未知参数,并检验参数的显著性,以及模型本身的合理性;
(4)进行诊断分析,以证实所得模型确实与所观察到的数据特征相符。
对于博克斯—詹金斯建模思想的第3、4步,需要一些统计量和检验来分析在第2步中的模型形式选择得是否合适,所需要的统计量和检验如下:
(1)检验模型参数显著性水平的 t 统计量;
(2)为保证ARIMA(p,d,q) 模型的平稳性,模型的特征根的倒数皆小于1;
(3)模型的残差序列应当是一个白噪声序列,可用5.2节中的检验序列相关的方法检验。
范文四:第14 章 受限被解释变量
教学用PPT ,《高级计量经济学及Stata 应用》,陈强编著,高等教育出版社,? 2010年
第14章 受限被解释变量
14.1断尾回归(Truncated Regression)
′y =x 对于线性模型i i β+εi (i =1, 2, " , n ) ,假设只有满足
y i ≥c (c 常数)的数据才能观测到。
断尾随机变量的概率分布
记y 原来的概率密度为f (y ) ,则断尾后的条件密度函数为,
?f (y ) ??if y >c ?f (y |y >c ) =?P(y >c )
??0if y ≤c ???
(14.1)
图14.1、断尾的效果
y ~N (0,1),可以证明
首先,对于最简单的情形,
φ(c )
E(y |y >c ) = 1?Φ(c ) (14.2)
对于一个任意实数c ,定义“反米尔斯比率”(Inverse Mill’s
φ(c )
λ(c ) ≡E(y |y >c ) =λ(c ) Ratio ,IMR )为,则。 1?Φ(c )
次对于图14.2、反米尔斯比率
y ~N (μ, σ2) ,定义z ≡y ?μσ
~N (0,1)
则其,,
y =μ+σz ,
E(y |y >c ) =E(μ+σz |μ+σz >c ) =E ??μ+σz z >(c ?μ) σ??
=μ+σE ??z z >(c ?μ) σ??=μ+σ?λ[(c ?μ) σ]y i =x ′β+ε~N (0,σ2
i i ,假设εi |x i ) 。因此,
y |x σ2
i i ~N (x ′i β, ) 。套用方程(14.3)可得,
E(y i |y i >c ) =x i ′β+σ?λ??(c ?x i ′β) ?? (14.4)
(14.3)
对于回归模型
由于“y i >c ”是样本可观测的条件,上式表明,如果用
′y =x β+εi ,则遗漏了一个非线性项i i OLS 估计
σ?λ??(c ?x i ′β) σ??,导致不一致的估计。
使用MLE 可得到一致估计。断尾前y i 的概率密度函数为,
2????????′′??y x βy x β111??i i ?i i ??f (y i ) ==φexp ????????σ? (14.5) ???σσ2???????
样本被观测到的概率为,
P(y i >c |x i ) =1?P(y i ≤c |x i )
=1?P ????y i ?x i ′βc ?x i ′?σ≤β??σx i ????
= (14.6)
1?Φ???c ?x ?i ′β??σ ?
εi σ) 服从标准正态分布。断尾后的条件密度为,1φ?
σ?f (y y ?(y i ?x i ?
i |i >c , x i ) =
′β) 1?Φ?(c ?x i β)
? (14.7)
14.2 截取回归
其中,(
′y =x β+εi ,可能当y i ≥c (或y i ≤c )时,i i 对于线性模型
y 所有i 都被记录为c 。
例 上不封顶的数据(Top coding)。
例 边角解(Corner solution)。如果不买车,则“买车开支”的最优解为边角解,即买车开支为0;反之,如果买车,
则买车开支一定为正数。
例 对于失业或待业者而言,“劳动时间”的最优解为边角解,即劳动时间为0;而就业者的劳动时间一定为正数。
假设y =x i ′β+εi (y 不可观测),扰动项εi |x i ~N (0,σ) 。 不失一般性,假定截取点为c =0。假设可以观测到
*i
2
**??y i if y i >0?y i =?*?。 ≤0if y 0i ??
*
i
对于满足条件“y i >0”的子样本,
E(y i |x i ; y i >0) =E(y |x i ; y i >0)
*
′=E(x i β+εi |x i ; y i >0)
*i
=x i ′β+σ?λ(?x i ′β) (正态分布的断尾公式)
在使用子样本进行回归时,由于忽略了非线性项
σ?λ(?x i ′β) ,被纳入扰动项中,故OLS 估计不一致。
对于整个样本,
E(y i |x i ) =0?P(y i =0|x i ) +E(y i |x i ; y i >0) ?P(y i >0|x i )
=E(y i |x i ; y i >0) ?P(y i >0|x i )
(14.8)
其中,P(y i >0|x i ) =P(y
*i
>0|x i ) =P(x i ′β+εi >0|x i )
=1?Φ(?x i ′β) =Φ(x i ′βσ)
??′′′=>?>=Φ+??E(y |) E(y |, y 0) P(y 0|) σσλx x x x βx βx β() () i i i i i i i 故i i ??i ??。
如果使用OLS 对整个样本进行线性回归,其非线性项将被纳入扰动项中,导致不一致估计。
Tobin (1958)提出用MLE 估计这个模型,被称为“Tobit ”。 在截取数据的情况下,y i >0时的概率密度不变,仍为
1?
φ?(y i ?x i ′β) ??,?y i >0。而y i ≤0时的分布却被挤到一个点σ
“y i =0”上,即P(y i =0|x ) =1?P(y i >0|x ) =1?Φ(x i ′βσ) 。 该混合分布的概率密度函数可写为,
f (y i |x ) =???1?Φ(x i ′β) ???
1(y i =0)
?1??φ((y i ?x i ′β) ) ???σ??
1(y i >0)
(14.9)
14.3 偶然断尾与样本选择
z y i 被称为“偶有时,被解释变量的断尾与另一变量i 有关,
然断尾”(incidental truncation)或“样本选择”(sample selection )。称z i 为“选择变量”。
例:在美国的亚裔移民给人的整体印象是聪明能干。但在美国的亚裔并非亚洲人口的代表性样本。
例:考察妇女的劳动力供给模型。
考虑二维正态随机向量(y , z ) ,记期望为(μy , μz ) ,标准差为(σy , σz ) ,相关系数为ρ,联合密度函数为f (y , z ) 。假设决定个体是否有可能进入样本的选择机制(selection mechanism )为“选择变量z 大于某常数c ”。
偶然断尾y 的条件期望为,
E(y |z >c ) =μy +ρσy λ[(c ?μz ) σz ] (14.10)
假设回归模型为y i =x i ′β+εi (i =1, 2, " , n ) 。其中,以观测取决于二值选择变量z i (取值为0或1), y =????
observable if z i
=1i ???unobservable if z i =0 (14.11)
而决定二值变量z i 的方程为,
y i 是否可
*??1if z 0>i
z i =??*
? 0if z 0≤i ??
(14.12)
′=z w i γ+u i (14.13)
*
其中,z i 为不可观测。假设u i 服从正态分布,则z i 为Probit
*
i
模型,故P(z i =1|w i ) =Φ(w i ′γ) 。可观测样本的条件期望为,
E(y i |y i observable ) =E(y i |z >0) =E(x i ′β+εi |w i ′γ+u i >0)
*i
=E(x i ′β+εi |u i >?w i ′γ) =x i ′β+E(εi |u i >?w i ′γ)
=x i ′β+ρσελ(?w i ′γ) (偶然断尾的期望公式)
如果用OLS 估计样本数据,将遗漏非线性项ρσελ(?w i ′γ) 。
解释变量x ik 变动的边际效应为,
?λ(?w i ′γ) ?E(y i |z >0)
=βk +ρσε
(14.14) ?x ik ?x ik
*
i
Heckman (1979)提出“两步估计法”(two-step estimation),称为“Heckit ”。
′P(z 1|w ) (w ==Φi γ) ,得到估第一步:用Probit 估计方程i
?(?w ′γ??λγ) 。 i 计值,计算
??, ρ?, σ?ε。y ??→x λ, βi i ,得到估计值第二步:用OLS 回归i
OLS
更有效率的方法为MLE 。为了检验是否存在样本选择偏差(sample selection bias),可使用似然比检验来检验原假设“H 0:ρ=0”。如果使用Heckit ,则无法进行此似然比检验。
范文五:随机解释变量问题
?4.4 随机解释变量问题
单方程线性计量经济学模型假设解释变量是确定性变量,并且与随机误差项不相关。违背这一基本假设的问题被称为随机解释变量问题。
一、随机解释变量问题
对于模型
Y,,,,Y,,X,?,,X,, i=1,2,?,n (4.4.1) i011i22ikkii
X,X,?,X其基本假设之一是解释变量是确定性变量。如果存在一个或多个随机变量作12k
为解释变量,则称原模型出现随机解释变量问题。为讨论方便,我们假设(4.4.1)中X为随2机解释变量。对于随机解释变量问题,又分三种不同情况:
? 随机解释变量与随机误差项独立(independence)。即
Cov(X,),E(x,),E(x)E(,),0 (4.4.2) 2,22
? 随机解释变量与随机误差项同期无关(contemporaneously uncorrelated)~但异期相
关。即
Cov(X,),E(x,),0 i=1,2,?,n (4.4.3) 2i,i2ii
Cov(X,),E(x,),0 (4.4.4) s,02i,i,s2ii,s
? 随机解释变量与随机误差项同期相关(contemporaneously correlated)。即
Cov(X,),E(x,),0 (4.4.5) 2i,i2ii
二、实际经济问题中的随机解释变量问题
在实际经济问题中,经济变量往往都具有随机性。但是在单方程计量经济学模型中,凡是外生变量都被认为是确定性的。于是随机解释变量问题主要表现于用滞后被解释变量作为模型的解释变量的情况。而由于经济活动具有连续性,使得这类模型在以时间序列数据作样本的模型中占据较大份额。例如,消费不仅受收入的影响,还受前期消费水平的影响;投资不仅受收入的影响,还受前期投资水平的影响,等等。但是,并不是所有包含滞后被解释变量的模型都带来“随机解释变量问题”,下面通过二个例子简单予以说明,详细建模型的过程将在第五章中讨论。
著名的“耐用品存量调整模型”可表示为:
Q,,,,Y,,Q,, t=1,2,?,T (4.4.6) t01t2t,1t
该模型表示,耐用品的存量由前一个时期的存量和当期收入共同决定。这是一个滞后被解释变量作为解释变量的模型。但是,如果模型不存在随机误差项的序列相关性,那么随机解释
Q,,变量只与相关,与不相关,属于上述的第2种情况。 t,1t,1t
eYC著名的“合理预期消费函数模型”首先认为消费是由对收入的预期所决定的: tt
108
eC,,,,Y,, t01tt
eY在预期收入与实际收入Y之间存如下关系的假设下: t
eeY,(1,,)Y,,Y ,1ttt
容易推出合理预期消费函数模型:
eC,,,,(1,,)Y,,,Y,, t01t1t,1t
,,,(1,,)Y,,(C,,,,),, = 01tt,10t,1t
,,(1,,),,(1,,)Y,,C,,,,, (4.4.7) 01tt,1tt,1
在该模型中,作为解释变量的不仅是一个随机解释变量,而且与模型的随机误差项Ct,1
高度相关(因为与高度相关)。属于上述第3种情况。 (),,,,C,tt,1t,1t,1
三、随机解释变量的后果
计量经济学模型一旦出现随机解释变量,且与随机扰动项相关的话,如果仍采用普通最小二乘法估计模型参数,不同性质的随机解释变量会产生不同的后果。下面以一元线性回归模型为例进行说明
首先,从图形上看(图4.4.1),如果随机解释变量与随机误差项正相关,则在抽取样本时,容易出现X值较小的点在总体回归线下方,而X值较大的点在总体回归线上方,因此,拟合的样本回归线则可能低估(underestimate)截距项,而高估(Overestimate)斜率项。反之,如果随机解释变量与随机误差项负相关,则往往导致拟合的样本回归线高估截距项,而低估斜率项。
(a)正相关 (b)负相关
图4.4.1 随机解释变量与随机误差项相关图
对一元线性回归模型:
Y,,,,X,, t01tt
在第二章曾得到如下最小二乘估计量:
109
xyx,,,tttt? (4.4.8) ,,,,,1122xx,,tt
,随机解释变量X与随机项的关系不同,参数OLS估计量的统计性质也会不同。
, 1、如果X与相互独立~得到的参数估计量仍然是无偏、一致估计量。
这在第二章中已经得到证明。
, 2、如果X与同期不相关~异期相关~得到的参数估计量有偏、但却是一致的。
由(4.4.8)易知
xt? E,(),,,E(,),,,E(k,),,11t1tt2x,t
X,,kk尽管与同期无关,但对任一,的分母中一定包含不同期的X;由异期相关性知ttttt
?E(,),,,与相关,导致,即参数估计量是有偏的。但是 11t
1,,,,xPlim(x),,ttttn,,,,P,,,11lim221,, xPlim(x)n,,,,ttn,,
,,,Cov(X,,)Var(X),01ttt
?,,即是的一致估计。 11
, 3、如果X与同期相关~得到的参数估计量有偏、且非一致。
这在上面第2条的证明中已看得比较清楚。
需要说明的是,如果模型中带有滞后被解释变量作为解释变量,则当该滞后被解释变量与随机误差项同期相关时,普通最小二乘估计量是有偏的、且是非一致的。即使同期无关,其普通最小二乘估计量也是有偏的,因为此时肯定出现异期相关。
四、工具变量法
模型中出现随机解释变量并且与随机误差项相关时,普通最小二乘估计量是有偏的。如果随机解释变量与随机误差项异期相关,则可以通过增大样本容量的办法来得到一致的估计量;但如果是同期相关,即使增大样本容量也无济于事。这时,最常用的估计方法是工具变量法(Instrument variables)。
1、工具变量的选取
工具变量,顾名思义是在模型估计过程中被作为工具使用,以替代模型中与随机误差项相关的随机解释变量。那么,选择为工具变量的变量必须满足以下条件:
? 与所替代的随机解释变量高度相关;
? 与随机误差项不相关;
? 与模型中其它解释变量不相关,以避免出现多重共线性。
2、工具变量的应用
,工具变量法是克服X与相关影响的一种参数估计方法。下面仍以一元回归模型为例i
110
说明。
记一元回归模型的离差形式如下:
y,,x,, (4.4.9) i1ii
x用普通最小二乘法估计模型(4.4.9),相当于用去乘模型两边、对求和、再略去项x,ii,ii
后得到一个关于参数估计量的正规方程:
2 (4.4.10) xy,,x,,ii1i
求解该正规方程,得到
xy,ii? ,,12x,i
1cov(X,,),E(x,),0由于,意味着在大样本下,因此,(4.4.10)x,,0iiii,iin
X,式在大样本下是成立的。然而,如果与相关,即使在大样本下,也不存在ii1 ,即(4.4.10)式在大样本下也不成立,OLS估计量不具有一致性。 x,,0,iin
如果按照工具变量的选择条件选择为的工具变量(instrumental variable),那么ZX
xz在上述估计过程中不用而改用乘以模型的两边,对求和得到: i
zy,,zx,z, (4.4.11) ,,,ii1iiii
利用工具变量与随机误差项不相关的性质,即Ez(),,0,在大样本下可得到: ii
zy~,ii (4.4.12) ,,1zx,ii
~~,关于的估计,仍用完成。这种求模型参数估计量的方法称为工具变量法,,Y,,X001
~~(instrumental variable method),称为工具变量法估计量(instrumental variable (IV) ,,,01
estimator)。
对于多元线性回归模型,其矩阵形式为:
Y,Xβ,μ
X采用工具变量法(假设与随机项相关,用工具变量替代)得到的正规方程组为: Z2
,, ZY,ZXβ
参数估计量为:
~,1,,β,(ZX)ZY (4.4.13)
其中
111
?111,,
,,XX?X11121n,,
,,, ,ZZ?ZZ12n,,?,,
,,XX?Xk1k2kn,,
通常,对于没有选择另外的变量作为工具变量的解释变量,可以认为用自身作为工具变量。于是Z称为工具变量矩阵。
3、工具变量法估计量是一致估计量
~, 用工具变量法所求的参数估计量与总体参数真值,之间的关系为 11
zxz,(,,),~,,iiiii1 ,,,,,11zxzx,,iiii
两边取概率极限得:
1Plimz,~,iin Plim(),,,,111Pli**,iin
z如果工具变量选取恰当,即有
11 , Plimz,,cov(Z,,),0Pli**,cov(Z,X),0,,iiiiiiiinn
~Plim(,),,因此: 11
尽管工具变量法估计量在大样本下具有一致性,但容易验证在小样本下,由于
11E(z,),E()E(z,),0 ,,iiiizxzx,,iiii
工具变量法估计量仍是有偏的。
对工具变量法,有三点需要特别指出:
第一,经常产生一种误解,以为采用工具变量法是将原模型中的随机解释变量换成工具变量,即改变了原来的模型。实际上,从上面一元回归模型的例子中已看出,工具变量法并没有改变原模型,只是在原模型的参数估计过程中用工具变量“替代”随机解释变量。或者说,上述工具变量法估计过程可等价地分解成下面的两步OLS回归:
第一步,用OLS法进行X关于工具变量Z的回归:
??? (4.4.14) X,,,,Zi01i
?第二步,以第一步得到的为解释变量,进行如下OLS回归: Xi
~~?? (4.4.15) Y,,,,Xi01i
~,容易验证,(4.4.15)式中的参数与(4.4.12)式相同。(4.4.15)式表明,工具变量法仍是1
Y对X的回归,而不是对Z的回归。
第二,如果1个随机解释变量可以找到多个互相独立的工具变量,人们希望充分利用这
112
些工具变量的信息,就形成了广义矩方法(Generalized Method of Moments, GMM)。在GMM中,矩条件大于待估参数的数量,于是如何求解成为它的核心问题。GMM是近20年计量经济学理论方法发展的重要方向之一。工具变量法是GMM的一个特例,同样,OLS法也可看成是工具变量法的特例。
第三,要找到与随机扰动项不相关而又与随机解释变量相关的工具变量并不是一件很容易的事,但如果考虑到随机解释变量与随机扰动项相关的主要来源是由于同期测量误差引起的,就可以用滞后一期的随机解释变量作为原解释变量的工具变量。
五、案例——中国居民人均消费函数
例4.4.1 在例2.5.1的中国居民人均消费函数的估计中,采用普通最小二乘法估计了下面的模型:
CONSP,,,,GDPP,, 01
然而,如果考虑到在居民人均消费支出(CONSP)由人均国内生产总值(GDPP)决定的同时,人均GDP又反过来受同期居民人均消费支出的影响,因此,容易判断人均GDP与随机扰动项同期相关,从而普通最小二乘估计量有偏并且是非一致的。由于测量误差等原因,易知人均GDP与随机扰动项往往呈现正相关,即随着人均GDP的增加,倾向于增大。,,这样,普通最小二乘估计量可能会低估截距项而高估计斜率项。为了比较,先写出OLS估计结果:
CONSP,201.11,0.3862GDPP
(13.51) (53.47)
2 R=0.9927 F=2859.23 DW=0.5503 SSR=23240.7
如果用滞后一期人均GDP为工具变量,可得如下工具变量法估计结果:
CONSP,212.45,0.3817GDPP
(14.84) (56.04)
2 R=0.9937 F=3140.58 DW=0.6691 SSR=18366.5
尽管不知道中国居民人均消费函数的真实参数,但正如所预期的那样,工具变量法估计量,对普通最小二乘估计量对截距项的低估与斜率项的高估作出了修正。而且各项检验指标也都有进一步的改进。
113
114
转载请注明出处范文大全网 » 第13章离散被解释变量