范文一:什么是数据模型
数据模型分?为两种类型?:
一种?是独立于任?何计算机系?统实现的,?如实体联系?模型,这类?模型完全不?涉及信息在?计算机系统?中的表示,?只是用来描?述某个特定?组织所关心?的信息结构?,因而又被?称作“概念?数据模型”?。
另一?类数据模型?则是直接面?向数据库中?数据逻辑结?构的,例如?有关系、网?状、层次、?面向对象等?模型。这类?模型涉及到?计算机系统?,一般又称?为“基本数?据模型”或?“结构数据?模型”。 ?
建立数?据库系统的?目的,是为?了实现对现?实世界中各?种信息的计?算机处理。?换言之,要?实现计算机?对现实世界?中各种信息?的自动化、?高效化的处?理,首先必?须建立能够?存储和管理?现实世界中?的信息的数?据库系统。?数据模型是?数据库系统?的核心和基?础。任何一?种数据库系?统,都必须?建立在一定?的数据模型?之上。由于?现实世界的?复杂性,不?可能直接从?现实世界中?建立数据模?型。
现?实世界 ??(抽象)?? 信息世界? ?(转化?)? 数据?世界
? ? ? ? ? (建立概?念模型) ? ? (建立?数据模型)?
(而首?先要把现实?世界抽象为?信息世界,?并建立信息?世界中的数?据模型,然?后再进一步?把信息世界?中的数据模?型转化为可?以在计算机?中实现的、?最终支持数?据库系统的?数据模型)?。信息世界?中的数据模?型又称为概?念模型,概?念模型必须?具有:
?(1)抽象?的真实性:?是对现实世?界本质的、?确实存在的?内容的抽象?。而忽略了?现实世界中?非本质的和?与研究主题?无关的内容?。
(2?)完整、精?确的语义表?达力,能够?模拟现实世?界中本质的?、与研究主?题有关的各?种情况
?(3)易于?理解和修改?
(4)?易于向DB?MS所持的?数据模型转?换,现实世?界抽象成信?息世界的目?的,是为了?用计算机处?理现实世界?中的信息。?
概念模?型,作为从?现实世界到?其数据世界?转换的中间?模型,它不?考虑数据的?操作,而只?是用比较有?效的、自然?的方式来描?述现实世界?的数据及其?联系。
?最著名、最?实用的概念?模型设计方?法是P.P?.S.Ch?en于19?76年提出?的“实体,?联系模型”?(Enti?ty,Re?latio?nship? Appr?oach)?,简称E,?R模型。
?
E,R?模型的基本?构构成:
?
三个主要?概念:实体?集、联系集?和属性,分?别用矩形框?、菱形框和?椭圆表示。?
联系集?的类型:一?对一(1:?1)、 一?对多(1:?n)、多对?多(m:n?)及表示 ?
主码的表?示:用带下?划线的属性?表示
?多元联系
?
在E,R?中,可以表?示两个以上?实体集之间?的联系,称?为多元联系?。
联系?的属性
?联系集和实?体集一样,?也可以有自?己的属性,?来表现联系?的特点。 ?
自身联系?
在一个?联系中,一?个实体可以?出现两次或?多次,扮演?多个不同角?色,此种情?况称为实体?集的自身联?系。
例?如,同一部?门中,职工?与职工之间?可以有领导?和被领导的?关系。
?子类和 i?s-a 层?次联系
?信息世界中?常常有这样?的实体集B?,它属于另?一个实体集?A,B中实?体的都有特?殊的属性需?要描述,并?且这些特殊?属性对实体?集A的其它?实体无意义?。在E,R?模型中,称?B是A的子?类,或A是?B的父类。?两类实体集?之间存在着?一种层次联?系——is?-a 联系?。
例如?,一个企业?中的职工实?体集和经理?实体集,经?理集中的每?一位经理,?又是职工集?中的一位职?工,他具有?职工的所有?属性,但他?自己的属性?“任职时间?”对职工集?的其他职工?却没意义。?此时,我们?可以说,经?理集与职工?集存在着 ?is-a ?联系。(P?85图5-?8所示)
?
在设计E?,R模型时?,首先应根?据需求分析?,确认实体?集、联系集?和属性这三?种E,R模?型的基本要?素。
需?要强调的三?条设计原则?是:
(?1)相对原?则:
建?模的过程实?际上是对对?象抽象的过?程。实体、?联系、属性?,是对同一?个对象抽象?过程的不同?解释和理解?。在同一情?况下不同的?人,或同一?人在不同的?情况下,对?事物抽象的?结果可能是?不同的。
?
在E,R?模型的整个?设计过程中?,实体、联?系和属性不?是一成不变?的,而可能?会被不断的?调整和优化?。
(2?)一致原则?:
同一对象在不同??的业务系统?中抽象的结?果要求保持?一致。因为?业务系统是?建立系统的?各子系统。?
(3)?简单原则:?
为简化?E,R模型?,现实世界?中的事物,?能作属性对?待时,应尽?量作为属性?处理。
?属性与实体?和联系之间?,并无一定?界限。当属?性满足如下?两个条件时?,就不能作?实体或联系?对待:
?? 不再具?有需要进一?步描述的性?质,因为属?性在含义上?是不可再分?的数据项 ?
? 性不?能再与其它?实体集具有?联系,即E?,R模型中?的联系只能?是实体集之?间的联系。?
设计一?个大型的企?业或单位的?E,R模型?,一般按照?先局部、后?整体,最后?优化的方法?进行。
?下面以一个?企业的职工?信息管理系?统为例,说?明E,R模?型的设计过?程:
该?管理系统涉?及到三个部?门的业务:?
? ? 人事处管?理职工的基?本信息、职?务信息和所?在部门信息?
? ? 财务处管?理职工的工?资情况
?? 科?研处管理科?研项目和职?工参加项目?的情况
? 第一步:?确定局部应?用范围,设?计局部E,?R模型
?(1)确定?局部应用范?围
本例中初步决定??按照不同的?职能部门划?分不同的应?用范围,即?分为三个子?模块:人事?管理、工资?管理和项目?管理。
?下面以人事?管理为例,?说明设计局?部E,R模?型的一般过?程。
(?2)确认实?体集
在?人事管理中?,需要对职?工、部门、?职称职务进?行管理,所?以需要确定?相应的三个?实体集
)确认?实体集间的?联系集 ?(3
?需要判断所?有二二实体?集之间是否?存在或存在?着怎样联系?:
? ? 职工与?部门:n:?1;
?? 职工?与职称职务?:m:n
?
? ?部门与职称?职务之间没?有联系
?(4)确认?实体集及联?系集的属性?
? ? 职工:职?工号、姓名?、性别、年?龄
? ? 部门:?部门号、名?称、电话
?
? ?职称职务:?代号、名称?、津贴,住?房面积
?? 职?工和职称职?务的联系:?任职时间;?
? ? 职工和部?门的联系,?没有单独的?属性;
?(5)画出?局部E,R?模型
第?二步:集成?局部E,R?模型,形成?全局初步的?E,R模型?
由于各?局部E,R?模型设计时?所考虑问题?的角度不同?和各自业务?需要的不同?,合并各局?部E,R模?型时可能会?存在许多不?一致的地方?,称为冲突?。而这些冲?突,必须在?合并局部E?,R模型时?进行合理的?消除。
?冲突主要有?如下三类:?
(1)?命名冲突:?
包括实?体集名、联?系集名和属?性名之间的?同名异义和?异名同义等?冲突。
?同名异义:?同样的名称?,在不同的?局部E,R?模型中表示?不同含义的?对象
异?名同义:相?同意义的对?象在不同局?部E,R模?型中具有不?同的名称 ?
命名冲突?通过不同部?门间协商解?决
(2?)属性冲突?:
包括属性值类型??、取值范围?、数量单位?的冲突
?(3)结构?冲突:
?包括两种情?况:
?? 一是?同一对象在?不同应用中?具有的抽象?不同。如职?工工资,在?人事部门的?业务中可能?作为属性对?待,而在财?务部门的业?务中会作为?一个实体集?处理。另外?,实体集间?的联系在不?同的业务应?用中也可能?有不同的联?系集。
?? 二?是同一实体?在各局部应?用中包含的?属性个数和?属性排列次?序不完全相?同。
处?理冲突,要?根据具体需?求分析,在?各方兼顾的?情况下,对?发生冲突的?属性、实体?集、联系集?进行合理的?调整和综合?。形成一个?全系统用户?共同理解和?认可的统一?的E,R模?型,是合并?各局部E,?R模型的主?要工作和关?键所在。
?
在集成全?局E,R模?型时,一般?采用两两集?成的方法进?行。将两个?具有相同实?体集的E,?R模型,以?该相同实体?集为基准进?行集成。
?
第三步:?消除冗余,?优化全局E?,R模型
?
一个“好?”的全局E?,R模型,?除了能够满?足用户的功?能需求外,?还必须符合?下列三个条?件:
?? 实体?集个数应尽?可能少;
?
? ?实体集所含?属性尽可能?少;
?? 实体?集间的联系?无冗余。
?
对于具有?1:1的联?系的,且有?相同码的两?个实体集可?以合并,以?减少实体集?的个数;
?
另外,有?些实体集中?的属性,可?能是冗余数?据,需要进?行适当的取?舍。
所?谓冗余数据?,是指在不?同实体集中?重复存在的?,或在同一?实体集中可?以由其它属?性值计算得?到的数据。?
冗余数?据一方面加?大了工作量?,浪费了存?储空间,另?一方面,又?有可能造成?数据的不一?致性,破坏?数据的完整?性。
但?并不是所有?的数据冗余?都必须被消?除,所有能?合并的实体?集都要被合?并,有时,?为了工作的?方便或工效?的提高,要?保持适当的?数据冗余,?和合理的实?体集分解。?
E,R?模型是概念?模型的表示?。它是对现?实世界客观?事务及其联?系的抽象,?是用户对系?统的应用需?求的概念化?表示,计算?机不能直接?处理它。
?
要使计算?机能够处理?E,R模型?中的信息。?首先必须将?它转化为具?体的DBM?S能处理的?数据模型。?
E,R?模型可以向?现有的各种?数据模型转?换。而目前?市场上DB?MS大部分?是基于关系?数据模型的?,所以我们?只学习E,?R模型向关?系数据模型?的转换方法?。
从E?,R图中可?以看出,E?,R模型实?际上是实体?型及实体间?联系所组成?的有机整体?,而前面我?们也学过,?关系模型的?逻辑结构是?一系列关系?模式的集合?。所以将E?,R模型转?化为关系模?型,实质上?就是将实体?型和联系转?化为关系模?式。也就是?如何用关系?模式来表达?实体型以及?实体集之间?的联系的问?题。下面学?习这种转化?的步骤:
?
第一步:?将每一个实?体型转换为?一个关系模?式
将实?体集的属性?转换成关系?的属性,实?体集的码对?应关系的码?。实体集的?名对应关系?的名。例如?职工管理系?统全局E,?R模型中的?五个实体集?可以表示如?下:
?? 职工?(职工号,?姓名,性别?,年龄),?
? ? 部门(部?门号,名称?,电话,负?责人)
?? 职?称职务(代?号,名称,?津贴,住房?面积)
?? 工?资(工资号?,补贴,保?险,基本工?资,实发工?资)
?? 项目?(项目号,?名称,起始?日期,鉴定?日期)
? 第二步:?将每个联系?转换为关系?模式
用?关系表示联?系,实质上?是用关系的?属性描述联?系,那么该?关系的属性?从何而来呢?,我们说,?对于给定的?联系R,由?它所转换的?关系具有以?下属性: ?
? ? 联系R单?独的属性都?转换为该关?系的属性;?
? ? 联系R?涉及到的每?个实体集的?码属性(集?)转换为该?关系的属性?。
如职?工管理系统?中的联系可?以表示如下?:
? ? 分工(?职工号,部?门号), ? ? ?n:1联系?
? ? 任职(职?工号,代号?,任职日期?) ? n:m ?联系
?? 拥有?(职工号,?工资号),? ? ? 1:1联?系,职工号?和工资号都?可以作为主?码
? ? 参加(?职工号,项?目号,角色?) ? n:?m联系
?根据联系的?类型不同,?联系转换为?关系后,关?系的码的确?定也相应有?不同的规则?:
? ? 若联系R?为1:1联?系,则每个?相关实体的?码均可作为?关系的候选?码;
?? 若联系?R为1:n?联系,则关?系的码为n?端实体的码?;
? ? 若联系R?为n:m联?系,则关系?的码为相关?实体的码的?集合;
? 第三步:?根据具体情?况,把具有?相同码的多?个关系模式?合并成一个?关系模式 ?
具有相同?码的不同关?系模式,从?本质上说,?它们描述的?是同一实体?的不同侧面?(即属性)?,因此,它?们可以合并?。合并的过?程也就是将?对事物不同?侧面的描述?转化为对事?物的全方位?的描述。
?
合并后关?系包括两关?系的所有属?性,这样做?可以简化系?统,节省存?储空间。上?列关系中的?职工关系、?分工关系和?拥有关系就?可以合并为?一:
职?工(职工号?,姓名,性?别,年龄,?部门,工资?号)
现?在我们不难?看,当将联?系R转换为?关系模式时?,只有当R?为m:n联?系时,才有?必要建立新?的关系模式?;当R为1?:1、1:?n及is-?a联系时,?只需对与该?联系有关的?关系作相应?的修改即可?。
?在关系数据?模型产生之?前,数据库?管理系统普?遍使用的数?据模型是层?次和网状数?据模型,它?们又被称为?非关系数据?模型.它们?的数据结构?和图的结构?是相互对应?的.
在?非关系模型?中,概念模?型中的实体?型反映为记?录型, 实?体型的属性?反映为记录?的字段。因?此,图的结?点表示为记?录型,结点?之间的连线?表示为记录?型之间的联?系。
在?非关系数据?模型中,将?两个记录型?之间的一对?一、一对多?和多对多的?联系,归结?为一个只有?1:n联系?的基本层次?联系,(因?为1:1可?以看作是1?:n的特例?,m:n可?以分解为两?个1:n的?联系)。
?
?
范文二:什么是数据模型[试题]
什么是数据模型
数据模型分为两种类型:
一种是独立于任何计算机系统实现的,如实体联系模型,这类模型完全不涉及信息在计算机系统中的表示,只是用来描述某个特定组织所关心的信息结构,因而又被称作“概念数据模型”。
另一类数据模型则是直接面向数据库中数据逻辑结构的,例如有关系、网状、层次、面向对象等模型。这类模型涉及到计算机系统,一般又称为“基本数据模型”或“结构数据模型”。
建立数据库系统的目的,是为了实现对现实世界中各种信息的计算机处理。换言之,要实现计算机对现实世界中各种信息的自动化、高效化的处理,首先必须建立能够存储和管理现实世界中的信息的数据库系统。数据模型是数据库系统的核心和基础。任何一种数据库系统,都必须建立在一定的数据模型之上。由于现实世界的复杂性,不可能直接从现实世界中建立数据模型。
现实世界 ?(抽象)? 信息世界 ?(转化)? 数据世界
(建立概念模型) (建立数据模型)
(而首先要把现实世界抽象为信息世界,并建立信息世界中的数据模型,然后再进一步把信息世界中的数据模型转化为可以在计算机中实现的、最终支持数据库系统的数据模型)。信息世界中的数据模型又称为概念模型,概念模型必须具有:
(1)抽象的真实性:是对现实世界本质的、确实存在的内容的抽象。
而忽略了现实世界中非本质的和与研究主题无关的内容。
(2)完整、精确的语义表达力,能够模拟现实世界中本质的、与研究主题有关的各种情况
(3)易于理解和修改
(4)易于向DBMS所持的数据模型转换,现实世界抽象成信息世界的目的,是为了用计算机处理现实世界中的信息。
概念模型,作为从现实世界到其数据世界转换的中间模型,它不考虑数据的操作,而只是用比较有效的、自然的方式来描述现实世界的数据及其联系。
最著名、最实用的概念模型设计方法是P.P.S.Chen于1976年提出的“实体,联系模型”(Entity,Relationship Approach),简称E,R模型。
E,R模型的基本构构成:
三个主要概念:实体集、联系集和属性,分别用矩形框、菱形框和椭圆表示。
联系集的类型:一对一(1:1)、 一对多(1:n)、多对多(m:n)及表示
主码的表示:用带下划线的属性表示
多元联系
在E,R中,可以表示两个以上实体集之间的联系,称为多元联系。
联系的属性
联系集和实体集一样,也可以有自己的属性,来表现联系的特点。
自身联系
在一个联系中,一个实体可以出现两次或多次,扮演多个不同角色,此种情况称为实体集的自身联系。
例如,同一部门中,职工与职工之间可以有领导和被领导的关系。
子类和 is-a 层次联系
信息世界中常常有这样的实体集B,它属于另一个实体集A,B中实体的都有特殊的属性需要描述,并且这些特殊属性对实体集A的其它实体无意义。在E,R模型中,称B是A的子类,或A是B的父类。两类实体集之间存在着一种层次联系——is-a 联系。
例如,一个企业中的职工实体集和经理实体集,经理集中的每一位经理,又是职工集中的一位职工,他具有职工的所有属性,但他自己的属性“任职时间”对职工集的其他职工却没意义。此时,我们可以说,经理集与职工集存在着 is-a 联系。(P85图5-8所示)
在设计E,R模型时,首先应根据需求分析,确认实体集、联系集和
属性这三种E,R模型的基本要素。
需要强调的三条设计原则是:
(1)相对原则:
建模的过程实际上是对对象抽象的过程。实体、联系、属性,是对同一个对象抽象过程的不同解释和理解。在同一情况下不同的人,或同一人在不同的情况下,对事物抽象的结果可能是不同的。
在E,R模型的整个设计过程中,实体、联系和属性不是一成不变的,而可能会被不断的调整和优化。
(2)一致原则:
同一对象在不同的业务系统中抽象的结果要求保持一致。因为业务系统是建立系统的各子系统。
(3)简单原则:
为简化E,R模型,现实世界中的事物,能作属性对待时,应尽量作为属性处理。
属性与实体和联系之间,并无一定界限。当属性满足如下两个条件时,就不能作实体或联系对待:
? 不再具有需要进一步描述的性质,因为属性在含义上是不可再分的数据项
? 性不能再与其它实体集具有联系,即E,R模型中的联系只能是实
体集之间的联系。
设计一个大型的企业或单位的E,R模型,一般按照先局部、后整体,最后优化的方法进行。
下面以一个企业的职工信息管理系统为例,说明E,R模型的设计过程:
该管理系统涉及到三个部门的业务:
? 人事处管理职工的基本信息、职务信息和所在部门信息
? 财务处管理职工的工资情况
? 科研处管理科研项目和职工参加项目的情况
第一步:确定局部应用范围,设计局部E,R模型
(1)确定局部应用范围
本例中初步决定按照不同的职能部门划分不同的应用范围,即分为三个子模块:人事管理、工资管理和项目管理。
下面以人事管理为例,说明设计局部E,R模型的一般过程。
(2)确认实体集
在人事管理中,需要对职工、部门、职称职务进行管理,所以需要确定相应的三个实体集
(3)确认实体集间的联系集
需要判断所有二二实体集之间是否存在或存在着怎样联系:
? 职工与部门:n:1;
? 职工与职称职务:m:n
? 部门与职称职务之间没有联系
(4)确认实体集及联系集的属性
? 职工:职工号、姓名、性别、年龄
? 部门:部门号、名称、电话
? 职称职务:代号、名称、津贴,住房面积
? 职工和职称职务的联系:任职时间;
? 职工和部门的联系,没有单独的属性;
(5)画出局部E,R模型
第二步:集成局部E,R模型,形成全局初步的E,R模型
由于各局部E,R模型设计时所考虑问题的角度不同和各自业务需要的不同,合并各局部E,R模型时可能会存在许多不一致的地方,称
为冲突。而这些冲突,必须在合并局部E,R模型时进行合理的消除。
冲突主要有如下三类:
(1)命名冲突:
包括实体集名、联系集名和属性名之间的同名异义和异名同义等冲突。
同名异义:同样的名称,在不同的局部E,R模型中表示不同含义的对象
异名同义:相同意义的对象在不同局部E,R模型中具有不同的名称
命名冲突通过不同部门间协商解决
(2)属性冲突:
包括属性值类型、取值范围、数量单位的冲突
(3)结构冲突:
包括两种情况:
? 一是同一对象在不同应用中具有的抽象不同。如职工工资,在人事部门的业务中可能作为属性对待,而在财务部门的业务中会作为一个实体集处理。另外,实体集间的联系在不同的业务应用中也可能有不同的联系集。
? 二是同一实体在各局部应用中包含的属性个数和属性排列次序不完全相同。
处理冲突,要根据具体需求分析,在各方兼顾的情况下,对发生冲突的属性、实体集、联系集进行合理的调整和综合。形成一个全系统用户共同理解和认可的统一的E,R模型,是合并各局部E,R模型的主要工作和关键所在。
在集成全局E,R模型时,一般采用两两集成的方法进行。将两个具有相同实体集的E,R模型,以该相同实体集为基准进行集成。
第三步:消除冗余,优化全局E,R模型
一个“好”的全局E,R模型,除了能够满足用户的功能需求外,还必须符合下列三个条件:
? 实体集个数应尽可能少;
? 实体集所含属性尽可能少;
? 实体集间的联系无冗余。
对于具有1:1的联系的,且有相同码的两个实体集可以合并,以减少实体集的个数;
另外,有些实体集中的属性,可能是冗余数据,需要进行适当的取舍。
所谓冗余数据,是指在不同实体集中重复存在的,或在同一实体集中可以由其它属性值计算得到的数据。
冗余数据一方面加大了工作量,浪费了存储空间,另一方面,又有可能造成数据的不一致性,破坏数据的完整性。
但并不是所有的数据冗余都必须被消除,所有能合并的实体集都要被合并,有时,为了工作的方便或工效的提高,要保持适当的数据冗余,和合理的实体集分解。
E,R模型是概念模型的表示。它是对现实世界客观事务及其联系的抽象,是用户对系统的应用需求的概念化表示,计算机不能直接处理它。
要使计算机能够处理E,R模型中的信息。首先必须将它转化为具体的DBMS能处理的数据模型。
E,R模型可以向现有的各种数据模型转换。而目前市场上DBMS大部分是基于关系数据模型的,所以我们只学习E,R模型向关系数据模型的转换方法。
从E,R图中可以看出,E,R模型实际上是实体型及实体间联系所组成的有机整体,而前面我们也学过,关系模型的逻辑结构是一系列关系模式的集合。所以将E,R模型转化为关系模型,实质上就是将实体型和联系转化为关系模式。也就是如何用关系模式来表达实体型以及实体集之间的联系的问题。下面学习这种转化的步骤:
第一步:将每一个实体型转换为一个关系模式
将实体集的属性转换成关系的属性,实体集的码对应关系的码。实体集的名对应关系的名。例如职工管理系统全局E,R模型中的五个实体集可以表示如下:
? 职工(职工号,姓名,性别,年龄),
? 部门(部门号,名称,电话,负责人)
? 职称职务(代号,名称,津贴,住房面积)
? 工资(工资号,补贴,保险,基本工资,实发工资)
? 项目(项目号,名称,起始日期,鉴定日期)
第二步:将每个联系转换为关系模式
用关系表示联系,实质上是用关系的属性描述联系,那么该关系的属性从何而来呢,我们说,对于给定的联系R,由它所转换的关系具有以下属性:
? 联系R单独的属性都转换为该关系的属性;
? 联系R涉及到的每个实体集的码属性(集)转换为该关系的属性。
如职工管理系统中的联系可以表示如下:
? 分工(职工号,部门号), n:1联系
? 任职(职工号,代号,任职日期) n:m 联系
? 拥有(职工号,工资号), 1:1联系,职工号和工资号都可以作为主码
? 参加(职工号,项目号,角色) n:m联系
根据联系的类型不同,联系转换为关系后,关系的码的确定也相应有不同的规则:
? 若联系R为1:1联系,则每个相关实体的码均可作为关系的候选码;
? 若联系R为1:n联系,则关系的码为n端实体的码;
? 若联系R为n:m联系,则关系的码为相关实体的码的集合;
第三步:根据具体情况,把具有相同码的多个关系模式合并成一个关系模式
具有相同码的不同关系模式,从本质上说,它们描述的是同一实体的不同侧面(即属性),因此,它们可以合并。合并的过程也就是将对事物不同侧面的描述转化为对事物的全方位的描述。
合并后关系包括两关系的所有属性,这样做可以简化系统,节省存储空间。上列关系中的职工关系、分工关系和拥有关系就可以合并为一:
职工(职工号,姓名,性别,年龄,部门,工资号)
现在我们不难看,当将联系R转换为关系模式时,只有当R为m:n联系时,才有必要建立新的关系模式;当R为1:1、1:n及is-a联系时,只需对与该联系有关的关系作相应的修改即可。
在关系数据模型产生之前,数据库管理系统普遍使用的数据模型是层次和网状数据模型,它们又被称为非关系数据模型.它们的数据结构和图的结构是相互对应的.
在非关系模型中,概念模型中的实体型反映为记录型, 实体型的属性反映为记录的字段。因此,图的结点表示为记录型,结点之间的连线表示为记录型之间的联系。
在非关系数据模型中,将两个记录型之间的一对一、一对多和多对多的联系,归结为一个只有1:n联系的基本层次联系,(因为1:1可以看作是1:n的特例,m:n可以分解为两个1:n的联系)。
范文三:面板数据模型
一、我对几种面板数据模型的理解
1 混合效应模型 pooled model
就是所有的省份,都是相同,即同一个方程 ,截距项和斜率项都相同
y it =c+bxit +?it c 与b 都是常数
2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。
2.1 固定效应模型 fixed-effect model
y it =ai +bxit +?it cov(ci ,x it ) ≠0
固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已
的常数项
2.2 随机效应模型 random-effects model
y it =a+ui +bxit +?it cov(a+ui ,x it )=0
A 是一个常数项,是不可观察差异性的均值,u i 为第i 个观察的随机差异
性,不随时间变化。
3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。
y it =ui +bi x it +?it
1. 混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。
2. 随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。
总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一刀切的,是完全没有差异性和个性的,完全牺牲自我),到随心所欲和完全个性化(每个省份都有一个最适合自己的回归方程)。即从完全无个性而言到完全有个性。
二、一个做医学哥们在固定效用模型和随机效用模型选择中的甄别方法 关于随机效应模型及固定效应模型的选择, 一贯做法是两个模型都分析,看结果是否一致。如果一致且异质性较小或无,则选择固定效应模型。 如果结果不一致且异质性较大,则选择随机效应模型,并进行亚组分析寻找异质性的来源,并且下结论应比较保守。
好几篇meta-analysis 在方法学部分都说:“All pooled outcome measures were determined using random-effects models” 、"All pooled outcome measures were determined using random-effects models as described by DerSimonian and Laird"。
为什么都直接用随机效应模型却不用固定效应模型?是因为考虑RCTs 异质性大,所以直接用随机效应模型吗?
1. 就是根据12值来决定模型的使用,大部分认为>50%,存在异质性,使
用随机效应模型,≤50%,用固定,有了异质性,通过敏感性分析,或者亚亚组分析,去探求异质性的来源,但是这两者都是定性的,不一定能找到,即使你做了,研究数目多的话,可以做个meta 回归来找异质性的来源
2. 在任何情况下都使用随机效应模型,因为如果异质性很小,那么随即和固定效应模型最终合并结果不会有很大差别,当异质性很大时,就只能使用随机效应模型,所以可以说,在任何情况下都使用随机效应模型
3. 还有一种,看P 值,一般推荐P 的界值是0.1,但现在大部分使用0.05,就是说P >0.05,用固定,≤0.05用随机
其实个人偏向于第三种,因为P 值可以看出来有没有异质性,I2是定量描述一致性的大小
本来随机效应的假设就是我们的样本从一个很大的母体抽取,所以大家的期望(均值)相同;如果我们的样本几乎是全部母体了,我们就不能说个体的差异是随机的,所以固定效应比较好;这是从模型的设定角度说的。但是随机效应模型有一个致命的硬伤,就是假设cov (x ,ui )=0,而固定效应不要求这个假设,Hausman 检验所做的工作就是检验一下这个假设对随机效应模型来说是不是成立,如果不成立,随即效应模型的估计是有偏的,即使采用B-P 的LM 检验表明存在随机效应,你也没有办法用了。
总结:检验固定效应是否显著,采用F 检验(对比模型是pooled );检验随机效应是否显著,采用LM 检验(对比模型也是pooled );检验固定和随机哪个更适用,采用Hausman 检验(对比fe 和be )。
1 用eviews 可以检验面板数据适用于混合估计法还是固定效应法
2 然后再进行豪斯曼检验,确定是用固定效应模型还是随机效应模型
三、是选择固定效应模型,还是随机效应模型的Hausman test
Hausman test 是为了区分是选择固定效应模型,还是选择随机效应模型的计算。并且Hausman test 是针对随机效应模型进行的检验,原假设是接受随机效应模型。
A Hausman test说明一个有效的估计与它和一个非有效的估计之差的协方差是0。即Cov(b-b,b)=Cov(b,b)-var(b)=0
B 原假设是随机效应模型有效,备选假设是固定效应模型有效
C 根据随机效应模型有效构造的统计量W 服从自由度为k-1的有限卡方分布。即var(b-b)=var(b)-var(b)=W
四、处理异方差问题
实际上,在处理面板数据线性回归时,主要考虑固定效应模型与pooled OLS的异方差问题。因为随机效应模型使用GLS 估计,本身就已经控制了异方差。
GLS(广义最小二乘法) 是一种常见的消除异方差的方法. 它的主要思想是为解释变量加上一个权重, 从而使得加上权重后的回归方程方差是相同的. 因此在GLS 方法下我们可以得到估计量的无偏和一致估计, 并可以对其进行OLS 下的t 检验和F 检验.
范文四:面板数据模型
面板数据回归模型
我们在第一章里简要讨论了实证分析一般可用的几个数据类型,即时间序列数据,截面数据和面板数据。时间序列数据是一个或多个变量在一段时期内排列起来的统计数据(例如连续几个季度或几年的GDP )。截面数据是一个或多个变量在同一时点所选定的不同空间的观测数据(例如给定一年里美国50个州的犯罪率)。面板数据是同一个截面单元(例如一个家庭或一个公司或一个国家)在一段时间内的调查数据。总之,面板数据是时间序列和截面数据相结合的数据。
表1.1给出了1990年及1991年美国50个州鸡蛋产量和价格。每一年的鸡蛋产量和价格是截面数据样本。每个州的鸡蛋产量和价格是时间序列数据。因此,我们一共有50X2=100个鸡蛋产量及价格的观测值。
面板数据又叫合并数据(时间序列和截面观测值的合并),结合时间序列和截面的数据,微观面板数据,纵向数据(时间变量或者对象组的研究),事件史分析(例如连续时间条件下主体随着时间的推移运动),队列分析(例如某商学院1965年毕业生的职业生涯)。尽管有着细微的不同,这些名称基本上都意味着数据在截面单位上的时间运动。因此,我们将使用一般意义上的长期面板数据来代替以上数据。我们把基于这种数据的回归模型叫做面板数据回归模型。
面板数据模型越来越多的被应用在经济研究中。以下是一些著名的面板数据集:
1. 收支动态长期追踪调查(PSID )在美国密歇根大学社会研究所进行。该调查始于1968年,该研究所每年收集5000个家庭的社会经济状况和人口变化情况。
2. 美国商务部人口普查局进行了一项类似PSID 的叫做收入与项目参与(SIPP )的调查,受访者每天接受四次关于经济状况的调查。
除此以外,还有很多其他的政府部门发起的调查。
最初,模型的研究很艰难。面板数据回归模型的课题非常宽泛,所射击队数学和统计问题也非常复杂。我们只希望触及一些基本的引用细节的面板数据回归模型。但是我们被告知,有些引用的技术性很强。幸运的是,一些用户友好的软件例如Limdep, PcGive, SAS, STATA, Shazam和Eviews 等帮助我们建立起面板数据回归模型。
面板数据相对于截面数据和时间序列数据的优点是什么?Baltagi 列出了面板数据的如下优点:
1. 由于面板数据涉及个人,企业,州,国家等,久而久之,势必会在这些单位里产生异质性。短期内我们将证明面板数据的估计方法能明确的将这种异质性考虑到单个特定变量中去。我们用一般意义上的长期个体数据概括例如个人,家庭,州和国家这些微观单位。
2. 通过截面数据和时间序列数据的结合,面板数据是信息量更大,变化更多,变量间的共线性更少,更大的自由度和更高的效率。
3. 通过反复研究截面数据,面板数据更适合研究动态变化。失业,职业流动和劳动力流动等问题从由面板数据研究更为合适。
4. 面板数据能更好的检测和衡量那些在纯截面数据或者纯时间序列数据中很难被观察到的影响因素。例如,如果我们将最低工资的连续增长包括在联邦和/或国家的最低工资中,那么最低工资对就业和收入的影响就能被更好的研究。
5. 面板数据是我们能够学习更复杂的行为模式。举例来说,面板数据比纯截面数据和纯时间序列数据更好地处理如经济规模和技术变革现象。
6. 如果我们将个人和企业算入广泛的总量,通过使上千个单位能获得数据,面板数据能最大限度的减少偏见。
总之,面板数据在方法上能使实证分析更加丰富,这是用截面数据或时间序列数据没法做到的。但这并不说明使用面板数据模型没有问题,在我们介绍一些理论和讨论一个例子后,我们将来说明这些问题。
16.2面板数据:案例分析
我们来讨论一个具体的例子。我们研究表16.1的数据,这些数据取自由Y. Grunfeld 提出的著名投资理论研究。
Grunfeld 感兴趣的是如何找出建立在公司实际价值(X 2)和实际资本存量(X 3)上的总投资(Y )。尽管最初的研究对象包括了好几各企业,为了说明问题我们选取了通用电气(GE ),通用汽车(GM ),美国钢铁(US )和西屋电气四家公司的数据。我们能找到每家公司上述三个变量1935到1954年的数据。因此,共有四个截面单位和20个时间段,我们共有80个观测值。先验地,我们认为Y 与X 2,X 3是正相关的。
原则上,我们可以对每个公司建立一个时间序列回归模型,或者对每年的数据建立20个截面回归模型。但是在后一种情况下,我们不得不考虑自由度的问题。
联合所有这些80各观测值,我们可以得出Grunfeld 投资函数:
Y it= β1 + β2X 2it + β3X 3it + u it (16.2.1)
i=1,2,3,4
t=1,2,…,20
i 表示第i 个横截面数据,t 表示第t 个时间段。
按照定义,i 表示横截面数据的标识符,t 表示时间的标识符。据推测,在N 个横截面数据中会有一个最大值,一个时间段的最大值。如果每一个横截面数据有相同的时间序列观测,那么这样的面板称之为平衡板。在此例中有一个平衡板,因为样本中每一个人公司都有20个观测值。若观测值个数不同于每一个面板数,我们称该面板为非平衡面板。在本章里我们将大量地关注平衡面板。
起初,我们假定X ’s 是非随机的,误差项遵循古典假设,即,E(uit) ~ N(0, σ2).
请仔细注意双重和三重下标符号,这应该是不言自明的。
怎样估计(16.2.1)?答案如下。
16.3 面板数据估计的回归模型:
固定效应方法
(16.2.1)的估计取决于我们对截距作的假设,斜率系数和误差项U it . 有以下几种可能:
1. 假设截距和斜率系数在时间上和空间上都是不变的,误差项随着时间和个体的变化而变化的。
2. 斜率系数是不变的但截距随个体是变化的。
3. 斜率系数是不变的但截距随着时间和个体变化而变化的。
4. 所有系数(包括截距和斜率系数)随着个体变化而变化。
5. 截距和斜率系数随着个体和时间变化而变化。
正如你所看到的,在面板数据估计的回归模型里,每一个个案的介绍将逐渐复杂,就像(16.2.1)式。当然,如果在模型中增加更多的回归量,这种复杂性会增加,因为可能存在的回归变量之间的共线性。
为了深度涵盖上述每个类别,要求一本单独的书,不过市场上已经有一些这样的书了。接下来,我们将涵盖各种可能性的一些主要特点,特别是前四个。我们的讨论是非技术的。
1. 所有系数在时间和个体上是不变的
最简单的,也可能是幼稚的想法就是忽视汇总数据的空间和时间维度,只估计通常的OLS 回归。也就是说,各家公司的20个观测值一个堆栈在另一个上面,从而产生所有80个观测值中的各个模型的变量。OLS 结果如下
Y = ?63.3041 + 0.1101X 2 + 0.3034X3
se = (29.6124) (0.0137) (0.0493)
t = (?2.1376) (8.0188) (6.1545) (16.3.1)
R 2 = 0.7565 Durbin –Watson = 0.2187
n = 80 df = 77
如果要检测混合回归的结果,采用常规标准,将会发现所有系数在统计意义上是显著的,斜率系数是正的,R 2值也是相当高的。正如预期,Y 关于X2和X3是正相关的。“唯一”美中不足的是Durbin –Watson 统计值很低,这表明数据间可能存在自相关。当然,我们知道,低的Durbin –Watson 值也可能由于格式错误。例如,估计模型假设认为GE 、GM 、US 和Westinghouse 的截距是相同的,它还假设所有四家公司的两个变量X 的斜率系数均相同。显然,这些都是非常受限制的假设,因此,尽管它简单,混合回归方程(16.2.1)可能扭曲了Y 和四家公司X 之间的真正关系。我们需要做的就是找到某种考虑到四家公司所特有的性质的方法。到底怎样做将在下节介绍。
2. 斜率系数不变但截距随个体变化:
固定效应或最小二乘虚拟变量(LSDV )回归模型
一种考虑到了各家公司或各横截面单元“个性”的方法就是让各家公司截 距变化但仍假设公司的斜率系数是不变的。看到这,我们可以得出模型(16.2.1):
Y it = β1i + β2X 2it + β3X 3it + u it (16.3.2)
注意到截距项的下标i 表明四家公司的截距都不相同;不同可能由于各家公司的特殊点,像管理风格或管理原理。
在文献中,模型(16.3.2)被称为固定效应(回归)模型(FEM )。之所以称为“固定效应”是因为尽管个体(指四家公司)的截距可能不同,每个个体截距不随时间变化;也就是说,它是时间不变的。注意到如果将截距写成β1it ,表明各公司或个体的截距是随时间变化的,即是时变的。可以指出,在(16.3.2)式中FEM 给出假定的回归量的(斜率)系数不随个体或时间变化。
(固定效应)截距在公司之间到底是怎样允许变化的?我们可以简单地做到这一点,用将在第九章学习的虚拟变量技术,特别是微分虚拟截距。因此,可以将(16.3.2)写成:
Y it = α1 + α2D 2i + α3D 3i + α4D 4i + β2X 2it + β3X 3it + u it (16.3.3)
当D 2i = 1时观测值属于GM, 否则为0;D 3i = 1时观测值属于US ,否则为0;D 4i = 1时观测值属于WEST ,否则为0. 既然有四家公司,但我们只用了三个虚拟变量,以避免掉进虚拟变量陷阱(即,完全共线性的情况)。这里没有GE 的虚拟变量。换句话说,α1代表GE 截距,α2, α3和α4微分截距系数,告诉我们GM,US 和WEST 的截距有多少不同于GE 的截距。总之,GE 称为对照的公司。当然,你可以自由的选择任意的一个公司作为对照公司。
顺便说一句,如果你想得到没加公司明确的截距值,你可以引进提供的四个虚拟变量运行过原点回归,也就是说,降低到(16.3.3)式的截距;如果你不这样做,你就会落入虚拟变量陷阱。
范文五:面板数据模型
第九章 面板数据模型 Chapter 9 Panel Data Model
1. Introduction
面板数据具有二维,一个是横截面单位,另一个是观察值(一般是时期观察值,也可能例外,比如多方程结构)。这个横截面单位通常也称为组(group )。通常研究的是线性面板数据模型。
2. Panel Data Models
基本的面板数据模型框架如下:
'
y it =x it β+z i ' α+εit
(2.1.1)
'
这里x it 指K 个可观察的解释变量,不包含常数项,当然β也是K*1向量了。z i α为个体异质或个体效应(individual effect or heteroge’neity),其中z i 包含常数项和一系列不随时间而变化的组别变量,它可能是可观察的个体效应(如种族、性别、地理位置等),或者是不可观察的个体效应(如家庭特征、个体能力和偏好等),或者两者都有。εit 称为idiosyncratic errors or idiosyncratic disturbances or shocks。一般,面板数据模型有下列几种类型:
1、Pooled Regression (POLS)。
如果z i 都是可观察的,那么整个模型就可以看作普通线性模型,使用OLS 进行估计,这就是一般意义上的混合OLS 回归,简写为POLS (即不含有不可观察的个体效应)。 如果z i 只包含一个常数项α(应该说,常数项为元素1的列向量,α为系数),这是最原始的POLS 回归,模型为
' y it =x it β+α+εit
(2.1.2)
该POLS 方法所估计的共同的α以及斜率向量β是一致和有效的。这里α与x 中任一变量显然都是不相关的,否则POLS 估计量就是有偏和不一致的。
2、Fixed Effects。
如果z i 不可观察,且与x it 相关,这时就类似于忽略了重要变量的情形(不可观察,所以可以进入干扰项;与解释变量相关,说明为重要变量),因此,β的OLS 估计量有偏且不一致。
在这种情况下,模型可以写为
'
y it =x it β+αi +εit
'
(2.1.3)
其中,αi =z i α,体现了所有不可观察的个体效应,而且设计成一个可估计的条件均值。因此,固定效应方法取αi 为回归模型中的一个具体的组别常数项。注意,这里的“固定”只是指αi 不随时间而变化,而不是说αi 是非随机的。
3、Random Effect。
如果z i 不可观察,且与x it 不相关,则模型可以写成
' ' ' '
y it =x it β+E z i α +z i α?E z i α +εit
{}
=x β+α+u i +εit
这是一个具有复合干扰项(或复合误差)的线性回归模型,可以利用OLS 进行估计,且估计量是一致的,虽然不是有效的。这里,随机效应方法把u i 设计成一个具体的组别随机项,与εit 相似,只是不随时间而变化。
'
it
(2.1.4)
3. Pooled Regression - POLS
3.1 POLS for Observed Effects
对于混合OLS 回归模型,可以把可观察的z i 并入x it (因此,x it 中就包含了不随时变的解释变量,比如性别、产业和省别虚拟变量等),模型为
' y it =x it β+εit
(3.2.1)
或以时期t 定义,为:
y t =x t ' β+εt
t =1, , T
(3.2.2)
混合最小二乘回归(POLS )要获得斜率系数的一致估计量的三个假定列示如下。 假定POLS.1:当期的干扰项εt 和解释变量正交,即E x it εit =0;
'
T '
假定POLS.2:解释变量不存在多重共线性,即rank ∑E (x it x it ) =K ;
t =1
假定POLS.3:1)对不同时期而言,干扰项εt 的条件和无条件方差都相同;2)在不同时期
之间,干扰项εt 不存在自相关。即 1)E
(ε
2' it it
' 2
x x it )=σ2E (x it x it ),其中E (εit )=σ2;2)E (εit εis x it ' x is )=0(t ≠s )。
POLS 估计量为
b POLS
n T ' n T ' = ∑∑x it x it ∑∑x it y it i =1t =1 i =1t =1
?1
定理(Pooled OLS的大样本特性):
在假定POLS.1和POLS.2下,POLS 估计量是一致的和渐近正态的;如果假定POLS.3也成立,则
?11'
Asy .var [b POLS ]=σE (X i X i ) n
2
其估计量为
n T '
Est . Asy .var [b POLS ]=s ∑∑x it x it
i =1t =1
2
?1
其中s 就是上述混合POLS 回归的残差方差。
如果E εi εi ≠σI T ,即shocks 的方差不是常数,则混合OLS 回归就不合适了,这时要使用FGLS 估计方法了。
3.2 POLS for Unobserved Effects
'
2
2
对于不可观察的个体效应模型,在一定的假定条件下,利用POLS 也可以获得β的一致性估计量。
模型为y it =x it β+ηit ,其中ηit =u i +εit 。
如果E x it ηit =0意味着E x it ηit =0,则POLS 估计量是一致的。而E x it εit =0和
'
x it =0同时成立。 E u i
'
'
'
'
一般地,在静态的RE 模型中,E x it u i =0成立;但是在FE 模型或含有滞后被解释变量的动态面板模型中,E x it u i =0被违背。
'
'
x it u i 即使E =0成立,可以获得POLS 的一致估计量,但是复合误差ηit 是序列相关的,
因为不随时变的u i 被包含其中,我们知道,常数序列具有最大序列相关。因此,基于POLS 的统计推断需要稳健协方差矩阵估计量和稳健统计检验。
3.3 Formulate PO LS in 3 Ways
我们可以把pooled regression model写成三种形式: 首先,最初的形式为
'
y it =x it β+α+εit -total (original) (3.3.1a)
'
其次,基于组别均值的偏差形式为
y it ?y i i =x it ?x i i ' β+εit ?i i - within (e.g., LSDV model)
最后,用组别均值表示的形式为
()
(3.3.1.b)
y i i =x i ' i β+α+εi i - between (3.3.1.c)
下面仅仅考虑估计β所涉及到的数据平方和和交叉乘积矩阵。
1在(3.3.1a)中,矩的变化将基于整体平均的y 和x (y =
nT
即
1
y it ,x =∑∑nT i =1t =1
n T
∑∑x
i =1t =1
n T
it
),
S
total
xx
=∑∑x it ?x x it ?x '
i =1t =1n
T
n T
((
)()(
)
S
total xy
=∑∑x it ?x y it ?y
i =1t =1
)
在(3.3.1b) 中,由于数据已经采取偏差形式,y it ?y i i 和x it ?x i i 的均值都为0,因此,矩均值代表的是基于组别均值的within-groups 的平方和和交叉乘积,
S
within xx
=∑∑x it ?x i i
i =1t =1n
T
n T
((
)(x
it
?x i i '
)
S
within xy
=∑∑x it ?x i i
i =1t =1
)(y
it
?y i i
)
在(3.3.1c)中,矩均值代表的是组别均值相对于全体均值的between-groups 的sum of squares
和cross products。
S
between xx
=∑T i i ?i i ?'
i =1n
n
()()
S
between xy
=∑T x i i ?x y i i ?y
i =1
()()
显然,存在下面等式: S total =S within +S between xx xx xx S total =S within +S between xy xy xy
因此,存在三种可能的β的POLS 估计量: 最原始的POLS 估计量为
total total within between within between
(3.3.2) b total = S S =S +S S +S xx xy xx xx xy xy
?1?1
Within-groups 估计量为
within within (3.3.3) b within = S S xx xy
?1
这就是下面的LSDV 估计量:b =(X ' M D X )Between-groups 估计量为
?1
(X ' M D y )
between between b between = S S xx xy (3.3.4)
?1
。 有时候也称为group means estimator,该估计量是基于n 组组别均值的(注意,n ≥K )
通过代换,可以得到下面加权形式的关系式:
(3.3.5) b total =b original ?POLS =F within b within +F between b between 其中
within between within between
F within = S +S S =I ?F xx xx xx
?1
在上述加权形式中,显然,具有较小方差的估计量被赋予较大的权重。
4. Fixed Effects - FE
对于个体效应与解释变量相关的情况,我们要使用固定效应模型,即
'
y it =x it β+αi +εit
(2.1.3)
固定效应模型的第一个假定也是条件基于个体效应的解释变量的严格外生性假定,即 Assumption FE.1: E [εit |x i , αi ]=0
4.1 A General Specification
作为一个一般的方法,用dt 2, , dt T 表示时期虚拟变量,用z i 表示不随时变的可观察的解释变量(比如性别虚拟变量),x 表示时变的解释变量,u i 表示不可观察的不随时变的个体效应。模型设定为
' y it =γ1+γ2dt 2+ +γT dt T +z i ' θ1+dt 2z i ' θ2+ +dt T z i ' θT +x it β+u i +εit (4.1.1)
满足条件
E [εit |z i , x i 2, , x iT , u i ]=0
4.2 FE Estimator (= POLS of time demeaning equation = within)
估计固定效应模型的一个方法就是如何去除个体效应u i 。一个通常的方法就是time demeaning of the original equation,这也称为fixed effects transformation或within transformation. 从固定效应模型
'
y it =x it β+u i +εit
(4.2.1a)
或
y i =X i ' β+i T ×1αi +εi
首先获得
(4.2.1b)
y i i =x i ' i β+u i +i i - between (3.3.1.c) (4.2.2)
然后从原始模型中减去上面的均值模型得到
y it ?y i i =x it ?x i i ' β+εit ?εi i - within
或
' it it y it =x β+ε
()
(3.3.1.b)
(4.2.3)
it =x ?x i i , ε it =ε?εi i 。 y it =y it ?y i i , x 其中, it it
由于个体效应u i 从模型中去除了,自然的就可以使用POLS 估计上述模型。那么,POLS 估
()
计量是否一致呢?我们知道,关键的Assumption POLS.1在(4.2.3)式中也成立,即
' it it =0 x E ε
(4.2.4)
所以固定效应模型的POLS 估计量是一致的。
如果放宽解释变量严格外生性的假定至较弱的假定,比如E x it εit =0,则(4.2.4)不成立。
Therefore, the fixed effects (FE) estimator, b FE , is the pooled OLS estimator from the
'
it . The FE estimator is simple to compute. y it on x regression of
在所有的时期上,重写第i 个个体的模型(4.2.3)为
=X i ' β+ε i y i
(4.2.5)
令time-demeaning matrix(对称幂等矩阵,阶数为T ×T ,秩为T ?1)为
M 0=I T ?
1
ii ' T
(4.2.6)
则模型(4.2.1b)左乘M 0可以得到模型(4.2.5),即
, M X =X i , M ε=ε i M 0i T =0, M 0y i =y 0i 0i i
In order to ensure that the FE estimator is well behaved asymptotically, we need a standard rank condition on the matrix of time-demeaned explanatory variables:
' T
it it =rank E X i ' X i =K Assumption FE.2: rank ∑E x x t =1
()()
固定效应估计量公式为
b FE =b WG
n ' n ' n T ' n T '
(4.2.7) = ∑X i X i ∑X i y i = ∑∑x it x it ∑∑x it y it
i =1 i =1 i =1t =1 i =1t =1
?1?1
也称为within estimator,因为它使用了每一个横截面个体内的时期变化。
相反,(4.2.2)模型的OLS 估计量b BG 则称为between estimator,它仅仅使用了横截面个体之间的变化。
如果没有进一步的假定,基于Assumption FE.1的b FE 不一定是最有效的,为了保证b FE 的有效性,还需要如下假定
Assumption FE.3: E εi εi |x i , u i =σεI T
'
2
Assumption FE.1和Assumption FE.3意味着复合误差ηi =i T u i +εi 的无条件方差矩阵也具有和随机效应复合误差一样的random effects form。
Assumption FE.3导致固定效应有效估计量并不是很明显的。对于模型(4.2.3),要得到它的
it 是同方差和无自相关的。 POLS 估计量是有效的,必须要求ε it 的方差计算如下 ε
222 i i ?2E εi i +E εit =E εit ?i i =E εE it it (4.2.8)
=σε2+σε2/T ?2σε2/T =σε2(1?1/T )
()
这证明了其无条件方差是同方差的。 而协方差为
it ε is =E ε?εi i ε?εi i =E [εε]+E εi 2i ?E εεi i ?E εεi i E εis it is it is (4.2.9) it
()()
=0+σε2/T ?σε2/T ?σε2/T =?σε2/T <>
根据上式得到
it ε is =?1/(T ?1) corr ε
(4.2.10)
it 存在负的自相关,但是随着T 的增大,这种自相关将消失。 上两式显示ε
it 中的自相关在Assumption FE.3下稍微有点儿复杂。 所以,由于time demeaning,ε
为了找到b FE 的渐近方差,首先有
b FE
1n
' n '
X i εi ?b )= ∑X i X i n i =1 i =1
'
'
'
?1
i ε i =X M ε=X i ε。 这里用到了X 0i i i
' 2
在Assumption FE.3下,有E εi εi |X i =σεI T 。我们有结论(证明略)
b FE
其中
?1
' 2 ?b ) ?→N 0, σεE X i X i
d
()
(4.2.11)
'
i /n Asy .var [b FE ]=σεE X i X
2
()
?1
i ' X i 用sample analogue代替1X i ' X i ,则上式的估给定σε的一致估计量s ε,再把E X ∑n i =1
2
2
()
n
计式为
n n T
' ' 2 2 i X i it it =Est . Asy .var [b FE ]=s ε ∑X s x x ε ∑∑ i =1 i =1t =1
?1
?1
(4.2.12)
为了估计σε,对(4.2.8)求和,得到
2
it ε =(T ?1)σ2 E ∑ε t =1T
2
因此,
n (T ?1)
?1
2
it ε =σ2 E ∑∑ε i =1t =1
n T
现在,定义the fixed effects residuals为
'
εit =y it ?x it b FE
(4.2.13)
2
则,在Assumption FE.1~3下,σε的一致估计量为
s ε2=RR Re s / (4.2.14) n (T ?1)?K
其中,RR Re s 无偏的。
许多软件还可以计算σu 的估计值,这在比较不可观察的个体效应的方差相对于shocks 的方差的大小时是有用的。在给定b FE 下,s η=(nT ?K )
2
?1
2 =∑∑εit 。其实在在Assumption FE.1~3下,s ε2基于条件和无条件与X 也是i =1t =1n
T
2
∑∑(y
i =1t =1
n T
it
?x b FE )是
'
it
2
22
ση2=σu 2+σε2的一致估计量,所以σu 2的一致估计量就是s u =s η?s ε2。
4.3 LSDV Estimator 最小二乘虚拟变量估计量
以上,我们都是把不可观察的个体效应u i 处理成随机变量。传统的估计固定效应模型的方
法是把u i 看作要估计的参数,这就是本节要讲的LSDV 模型。
4.3.1 One-Way LSDV Model
把固定效应模型(y it =x it β+u i +εit )中的u i 处理成一个需要估计的未知参数。 令y i 和X i 为第i 个单位的T 个观察值,i 为元素为1的T*1阶列向量,εi 也为T*1阶的干扰项向量,则
'
y i =X i β+i u i +εi
则对于所有的个体而言,则有
y 1 X 1 i 0 y X 22 = β+ 0i y X 00 n n 0 u 1 ε1
0 u 2 ε2
+
i u n εn
(4.3.1.1)
或y =[X , d i 1, d i 2, , d i n ] +ε 令
β u
D nT ?n
i 0 0i
=[d i 1, d i 2, , d i n ]=
000 0 i
其中d i i 为第i 个单位的虚拟变量。则模型最终写成
y =X β+Du +ε
(4.3.1.2)
通常称该模型为Least Squares Dummy Variable (LSDV) Model(这里n 个个体被赋予了n 个虚拟变量)。其中,X 含K 个解释变量,D 含n 列,所以这是含K+n个参数的多元回归。且基于Assumption FE.1~3的模型(4.3.1.2)满足高斯马尔可夫假定(条件基于X )。
可以对模型(4.3.1.2)进行POLS 估计,通过分解回归(see Theorem 3.3: Frisch-Waugh Theorem ),可以把β的OLS 估计量表示为
b LSDV =(X ' M D X ) ' X =X
?1
(X ' M D y )
()
?1
' y X
?1
(4.3.1.3)
=M X 和y =M y 的OLS 回归。 其中,M D =I ?D (D ' D )D ' 。这等于基于转换数据X D D
我们知道,D 的结构特别方便,它的列向量是正交的,所以得到
M 0 0
M D =
0M 0
0 0
M 0
(4.3.1.4)
主对角线上的每一个矩阵为
M 0=I T ?
所以有
1
ii ' T
1T 1T
y i i =∑y it 和x i i =∑x it 。
T t =1T t =1
得到
n
n
T
X ' M D X =∑X M 0X i =∑∑x it ?x i i
'
i
i =1n
i =1t =1
T
()(x
it
it
?x i i '
)
X ' M D y =∑X i ' M 0y i =∑∑x it ?x i i
i =1
i =1t =1
n
()(y
?y i i
)
同样根据Theorem 3.3可以得到虚拟变量的系数,
=(D ' D )?1D ' (y ?Xb u LSDV )
利用OLS first-order conditions,对每一个i ,即
i =y ?b u LSDV ' x i i i i
(4.3.1.5)
b LSDV 的渐近协方差矩阵的合适估计量为 Est . Asy .var [b LSDV ]=s 2[X ' M D X ]
?1
(4.3.1.6)
的二阶矩矩这利用了相对于各组的group means的离差(deviation )形式表示的新的数据X
阵。其中,干扰项方差的估计量为
s =
2
∑∑(y
i =1t =1
n T
it
?x b LSDV '
it
i ?u
)
2
nT ?n ?K
(4.3.1.7)
个体效应的渐近协方差矩阵为
' σ Asy .var u i =+x i i {Asy .var [b ]}x i i
T
2
其实上述模型也可以使用n-1个虚拟变量和一个总体常数项来进行估计。这时OLS 斜率b 、
s 2和R 2等结果都没有改变,改变的是虚拟变量的系数,现在它们代表αi ?α1的估计量,
组别1为基准别。所以,注意虚拟变量系数的解释发生了变化。
Testing the Significance of the Group Effects
i 的t 检验的作用不大,我们更关心的是组别之间的差异,因此,零假设上面LSDV 模型中u
设定为组别间的u i 都相同,使用F 检验。如果零假设成立,最有效的估计量则是pooled OLS而非LSDV 。
在Assumption FE.1~3以及εit 服从正态分布假定下,下面的F 统计量
R (F (n ?1, n (T ?1)?K )=
1?R
2LSDV
2
?R Pooled )/(n ?1)
2LSDV
/nT ?n ?K (4.3.1.1.1)
服从F 分布。其中pooled 代表具有一个总体常数项的pooled 或restricted 模型。
4.3.2 Two-Way LSDV Model
上述的LSDV 模型也可以扩展到包含具体的时间效应虚拟变量。
一种方法是在4.3.1节的(4.3.1.2)LSDV模型(n 个个体n 个虚拟变量)基础上直接加上T-1个时期虚拟变量,
'
y it =x it β+u i +γt +εit
(4.3.2.1)
也就是说,这里设定了一个基准时期以避免纯粹的多重共线性。 注意上述模型存在某种不对称性,即组别虚拟变量每组都有,而期别虚拟变量则去除一个基期。
另一种方法是设定一个对称的LSDV 模型,如下
'
y it =x it β+μ+u i +γt +εit
(4.3.2.2)
这里有n 个个体效应虚拟变量和T 个时期效应虚拟变量。
斜率系数b 的OLS 估计量就是基于
?y it =y it ?y i i ?y i t +y
对
x ?it =x it ?x i i ?x i t +x
(4.3.2.3)
的回归。通过4.3.1节的 y it ?y i i 对 x it ?i i 的回归帮助理解和推导。
其中,
1n 1y i t =∑y it ,y =
n i =1nT 1n 1
y ;x =x ,x =i t ∑∑∑it it
n i =1nT i =1t =1
n T
∑∑x
i =1t =1
n T
it
。
整体的常数项以及虚拟变量的系数可以通过normal equations来获得
=m =y ?x ' b μ
()() =r =y ?y ??x ' b γ()()
t
t
i t
i t
i =a =y ?y ?x i i ?x ' b u i i i
(4.3.3.4)
b 的渐近协方差矩阵的估计值利用(4.3.3.3)式x ?it 的平方和和交叉乘积以及下面的
'
b ?m ?a i ?r t )∑∑(y it ?x it
n T
2
s 2=
i =1t =1
nT ?n ?1?T ?1?K ?1
计算而得。
以上考虑了个体效应和时期效应虚拟变量的LSDV 模型也称为two way fixed effects model。
4.3.3 Unbalanced Panels by LSDV
面板数据中的数据缺省非常平常,通常就是指不同的个体的时期观察值不一样长,这样的面板成为unbalanced panels。
由平衡面板扩展到非平衡面板很容易。首先,总体样本容量不再是nT ,而是
∑T ,因此,
i i =1
n
i 和F 统计量也要作相应的调整。其次,组别均值必须基于不同的T ,s 2、var [b ]、var u i
解释变量的总体均值则变成
n
T i
n
x =
∑∑x
i =1t =1
n i =1
it
=
∑T i i =1n
i i
i
∑T
i
∑T
i =1
另外,(4.3.1.3)式中的within groups moment matrix
S within =X ' M D X 和S within =X ' M D y xy xx
分别变成
X ' M D X =∑X M 0, i X i =∑∑x it ?i i
'
i
i =1n
i =1t =1
T i
n n T i
()(x
it
it
?i i '
)
X ' M D y =∑X M 0, i y i =∑∑x it ?x i i
' i
i =1
i =1t =1
n
()(y
?y i i
)
除了上述改变外,不需要再作其它调整来处理不平衡面板的one-way LSDV估计量。
5. First Differencing Method - FD
我们曾讨论过只有两个时期的面板数据的一阶差分形式,下面对一般的面板数据模型
'
y it =x it β+u i +εit (2.1.3) (5.1)
进行the differencing transformation。
第一个假定与FE 的第一个假定相同: Assumption FD.1: E [εit |x i , u i ]=0
把模型滞后一起并从原模型中减去得到
'
?y it =?x it β+?εit
t =2,3, , T
(5.2)
与FE 转换一样,同样这个first-differencing transformation去除了不可观察的效应u i ,但是,我们失去了每个个体的第一个时期观察值,现在对于每个个体只剩下T-1个时期观察值。另外注意:(5.2)显示x it 必须是不随时变的解释变量,否则?x it 中会含有零列向量。
The first-difference (FD) estimator, b FD , is the pooled OLS estimator from the regression of
?y it on ?x it .
由Assumption FD.1可以推得Assumption POLS.1成立,即E 所以,b FD
?x it ?εit =0(5.4),是一致的;事实上,一阶差分转换后的模型中,解释变量的严格外生性也成立,即
'
E [?εit |?x i 2, ?x i 3, , ?x iT ]=0,这意味着b FD 条件基于X 是无偏的。
进一步,我们假定
T '
Assumption FD.2: rank ∑E (?x it ?x it ) =K
t =2
该假定去除了不随时变的解释变量以及时变解释变量之间的完全共线性。
FE 估计量的有效性关键在于假定FE.3,即假定εit 同方差和无自相关。但是,假定εit 无自相关有点儿太强了,一个替代的假定是假定?εit 同方差和无自相关,即
Assumption FD.3: E ?εi ?εi |x i 1, x i 2, , x iT , u i =σ?εI T ?1,其中?εi 是(T-1)*1向量。 根据εit =εi , t ?1+?εit ,?εit 无自相关意味着εit 是一个随机游走过程,所以假定FD.3代表着假定FE.3的另一个极端。在假定FD.1~FD.3下,FD 估计量在使用严格外生性假定FE.1的估计量族中是最有效的。
如果σ?ε的一致估计量为s ?ε的话,有
2
Est . Asy .var [b FD ]=s ?ε(?X ' ?X )
?1
' 2
22
(5.5)
最简洁的计算s ?ε的方法为
2
2s ?ε=
∑∑e
i =1t =2
n T
2
it
n T ?1?K
(5.6)
其中,e it =?y it ??x it b FD 。
如果假定FD.3被违背,则我们可以估计一个稳健的方差矩阵,即
'
Est . Asy .var [b FD ]=(?X ' ?X )
其中,e i =?y i ??X i b FD 。
'
?1
n ?1' '
????X e e X X ' X (5.7) ()()i i i i ∑ i =1
6. Random Effects - RE
6.1 Error Components Model 考虑如下的随机效应模型,
' ' ' '
β+E z α+z α?z y it =x it E i i i α +εit
{}
=x β+α+u i +εit
这里含K 个解释变量,其中包括一个截距项α。u i 是第i 个个体的随机异质,不随时间而变化,ηit =u i +εit 也称为复合误差。
随机效应模型需要的假定如下: Assumption RE.1: (a) E [εit |X , u ]=0
即解释变量严格外生性假定
即个体效应与解释变量不相关(基于α包含在x 中)
' it
(6.1.1)
(b) E [u i |X ]=E [u i ]=0 另外假定:
22
E ε|σX =ε it 22 E u |σ X =i u
条件同方差假定
E εit u j |X =0 E εit εjs |X =0 E u i u j |X =0
for all i, t, and j if t ≠s or i ≠j if i ≠j
包含了E [εit εis |X ]=0(t ≠s )
(6.1.2)
由上述假定构成的模型就称为error components model。
对于第i 个个体的T 个观察值而言,令
ηit =u i +εit
和
ηi =[ηi 1, ηi 2, , ηiT ]'
则有
E [ηit |X ]=0
这也是严格外生性假定
222
E η|σσX =+εu it
可以推导求得(展开)
E [ηit ηis |X ]=σu 2
t ≠s
←E [εit εis |X ]=0
E ηit ηjs |X =0
for all t and s if i ≠j
←E εit εjs |X =0, E u i u j |X =0
σu 2
corr [ηis , ηit ]=2s ≠t ) 2(σε+σu
所以,可以说在随机效应方法中,对第i 个组别而言,复合误差存在序列相关。
还是对第i 个单位的T 个观察值而言,令?=E [ηi ηi ' |X ],则
σε2+σu 2σu 2σu 2 2222
σσσσ+u u u ε =σ2I +σ2ii ' ?= (6.1.3) u ε 222 σ2
σu σε+σu T ×T u
假定?为正定矩阵,具有(6.1.3)结构的?称为random effects structure。其中i 为T 个1元素
的列向量。由于横截面个体的随机抽样假定(或由于横截面单位之间的独立假定),则对每一个组别而言都是矩阵?,则nT 个观察值的干扰项协方差矩阵为,
?0
0?Σ=
00
0 0
=I n ?? ? nT ×nT
(6.1.4)
为了FGLS 估计量的有效性,继续假定矩阵?为常数,即?=E [ηi ηi ' |X ]=E [ηi ηi ' ],该假定连同E εit =σε和E [εit εis ]=0由随机效应模型的第三个假定所隐含。
2
2
Assumption RE.3:
(a) E εi εi |x i , u i =σεI T ; (b) E u i |x i =σu .
6.2 GLS when V is known
由于已知复合误差的结构,可以使用GLS 进行估计,为了获得一致的GLS 估计量,还需要GLS 的秩条件。
Assumption RE.2: rank X i ?X i =K .
2
2
'
2
(
' ?1
)
上述随机效应模型的斜率的GLS 估计量为
b GLS =(X ' ΣX )
?1
?1
n ' ?1 n ' ?1
(6.2.1) X ' Σy = ∑X i ?X i ∑X i ?y i
i =1 i =1
?1
?1/2
?1
如前所述,这实际上就是对转换后数据的OLS 估计量。为了进行转换,需要知道
Σ?1/2=[I n ??]
??1/2=
?1/2
,其实就是要知道?
,其公式为
1 θ
I ?ii '
T σε T
其中θ=1
以上就是生成离差形式的矩阵,类似于上节LSDV 模型中的M 。因此,转换后的数据表现为离差形式,即
y i 1?θy i i x i 1?θx i i y θy ?1 i 21 x i 2?θi i i i ?1/2
, ??1/2y i =?=X i 。 (6.2.2) σ σε ε
y iT ?θy i i θx ?x i i iT
所以,上述GLS 估计量就是前者对后者的OLS 估计量。
在Assumption RE.1 and RE.2下,GLS 估计量甚至FGLS 估计量是一致的。
这里考虑两种极端情况。
如果λ=1,GLS 估计量完全等同于混合回归中的Pooled-OLS 估计量。 如果λ=0,GLS 估计量就是固定效应模型中的LSDV-OLS 估计量。
随机效应模型中的unbalanced panels处理要困难些。由于主对角线分开矩阵的阶数不再相同,因此,Σ不能再表示成I ??。仍然存在组别异质,如
Σi ?1/2=I T i ?
θi
T i
i
T i i T i ' θi =1
其它处理相同。
6.3 FGLS when V is unknown
6.3.1 RE Estimator (=FGLS of RE)
这里所讲的RE 估计量,实际上就是?具有random effect structure的FGLS 估计量。 为了估计复合干扰项的方差或?,实际上只要估计两个参数σε和σu 。 首先估计σε。 已知随机效应模型为
'
y it =x it β+α+u i +εit
2
2
2
变形有
y i i =x i i β+α+u i +εi i
(6.3.1)
则去除了组别异质的离差形式的回归模型为
y it ?y i i =x it ?x i i ' β+εit ?i i (6.3.2)
如果β已知,则第i 组T 个观察值的σε的无偏估计量为
2
()()
1T s ε(i )=εit ?i i ∑T ?1t =1
2
()
2
(6.3.3)
存在E s ε(i ) =σε(i )。
2
2
如果β需要估计,(6.3.2)式实际上就是固定效应模型中的LSDV 模型,该LSDV-OLS 估计量是一致和无偏的,则通过利用LSDV 残差和适当修正自由度,得到
s (i )=
2e
∑(
t =1
T
e it ?e i i
)
2
T ?K ?1
(6.3.4)
由于有n 个这样的估计量,求其平均得到
T
e it ?e i i
1n 21n ∑s e =∑s e (i )=∑ t =1
n i =1n i =1 T ?K ?1
()
2
=
∑∑(e
i =1t =1
n T
it
?e i i
)
2
nT ?nK ?n
(6.3.5)
其实,上式中的自由度多算了,我们要估计的参数实际上是n 个均值y i i 和K 个斜率,因此,无偏的估计量应为
2
s ε2=s LSDV =
∑∑(e
i =1t =1
n T
it
?e i i
)
2
nT ?K ?n
(6.3.6)
这实际上就是LSDV 模型中的(41.7)和(4.1.8)。
接着估计σu 。
回到随机效应模型y it =x it β+α+u i +εit ,尽管观察值之间存在相关(即存在个体效应),但是由于个体效应看作与解释变量不相关,可以把个体效应归入干扰项,因此这还是一个古典回归模型,其斜率的OLS 估计量及其方差估计量都是一致的,大部分情况下还是无偏的。因此,利用这个只有一个总体常数项的模型的OLS 残差,我们求得
2
=plim plim s Pooled
2
'
e ' e
=σε2+σu 2 (6.3.7)
nT ?K ?1
可见这里出现了随机效应模型的混合回归情况。
所以,可得到
222
s u =s Pooled ?s LSDV
这里有一个情况。如果出现不随时间而变化的组别解释变量,那么LSDV 估计量不能够计算,因为这些解释变量将与个体效应完全共线性。这种情况下,仍然是可能估计σu 的。(6.3.7)式仍然能够提供m ee =σε+σ的一致估计量。而y i i =x β+α+u i +εi i 的mean squared residuals 提供了m ??=因此,得到
2
2
u
' i i
2
(σ
2
ε
/T )+σu 2的一致估计量。
s ε2=
T
(m ee ?m ??)T ?1 T 12
s u m ???m ee =ωm ??+(1?ω)m ee =
T ?1T ?1
有了一致估计量s ε和s u 后,就可以得到
2
2
=s 2I +s 2ii ' ? (6.3.8) εu
在面板数据模型中,使用(6.3.8)式方差矩阵的FGLS 估计量也称为random effects estimator:
X b FGLS =b RE =X ' Σ
(
?1
)
?1
n ' ?1 n ' ?1 X ' Σy = ∑X i ?X i ∑X i ?y i (6.3.9)
i =1 i =1
?1
?1
所以再次注意:随机效应估计量实际上就是FGLS 估计量。
6.3.2 General FGLS Estimator
如果εit 在时期间具有异方差和自相关,那么我们就可以使用Pooled OLS估计的残差e 来获得?的估计量,再使用FGLS 方法。即 1n ?=∑e i e i ' (6.3.2.1) n i =1
在Assumption RE.1 and 2的情况下,由此获得的FGLS 估计量是一致的和渐近有效的。
6.4 Breusch-Pagan (LM) Test for the Presence of an Unobserved Effect
Breusch and Pagan设计了一个基于混合OLS 回归的LM 统计量来检验是否存在unobserved effect 。
H 0:σu 2=0corr [ηit ηis ]=0
H 1:σu 2≠0
更准确的地说,零假设为混合回归合适,备择假设为混合回归不合适。
该统计量为
2 n T 2 2 n T e i i 2 ∑ ∑e it ∑2 nT i =1 t =1 nT T e ' e =nT i =1 ??=?1 LM =11 T ?2T ?1 n T 22T ?1 n T 221' e e e it ∑∑e it ∑∑ i =1t =1i =1t =1 2
在零假设下,该统计量服从自由度为1的卡方分布。
6.5 Hausman’s Specification Test for Random Effects Model
Hausman 的specification test用于检验随机效应和解释变量的正交性,其隐含的思路是,在不相关的假设下,LSDV 模型中的OLS 估计量与RE 中的GLS 估计量都是一致的,但是前者不是有效的;而在个体效应与解释变量相关的假定下,LSDV-OLS 估计量是一致的,但是GLS 不是一致的。因此在随机效应模型成立(个体效应与解释变量不相关)的零假设下,这两个估计量应该不能够被显著区分,可以基于他们的差异构造统计量。另一个构成统计量的部分就是该差异向量b LSDV ?b GLS 的协方差矩阵。
(6.5.1) var [b LSDV ?b GLS ]=var [b LSDV ]+var [b GLS ]?2cov [b LSDV , b GLS ]
Hausman’s essential result is that the covariance of an efficient estimator with its difference from an inefficient estimator is zero, that is
cov (b LSDV ?b GLS ), b GLS =cov [b LSDV , b GLS ]?var [b GLS ]=0
或
cov [b LSDV , b GLS ]=var [b GLS ]
因此,得到
(6.5.2) var [b LSDV ?b GLS ]=var [b LSDV ]?var [b GLS ]=ψ
该检验基于Wald 统计量,
?1(b W =χ2[K ?1]=(b LSDV ?b GLS )' ψ (6.5.3) LSDV ?b GLS )
在零假设下,该统计量的极限分布是自由度为K-1的卡方分布。
7. HT/IV Estimation of Random Effects Model
相对于线性面板数据的最初设定
' y it =x it β+z i ' α+εit (2.1)(7.1)
Hausman and Talor的模型采用如下形式
' ' ' ' y it =x it (7.2) 1β1+x it 2β2+z i 1α1+z i 2α2+εit +u i
其中,β=β1, β2' ,α=α1, α2' 。在该模型中,z i (7.1)式z i α中包含的不可观察的个体效应现在放在人为设定的随机项u i 中。 该模型的四种可观察的变量列举如下: ' (' ' )(' ' )
x it 1含K 1个变量、时变、与u i 不相关;
z i 1含L 1个变量、不随时变、与u i 不相关;
x it 2含K 2个变量、时变、与u i 相关;
z i 2含L 2个变量、不随时变、与u i 相关。
上述模型的假定如下:
E [u i ]=E [u i |x it 1, z i 1]=0,虽然,E [u i |x it 2, z i 2]≠0
var [u i |x it 1, z i 1, x it 2, z i 2]=σu 2
cov [εit , u i |x it 1, z i 1, x it 2, z i 2]=0
2 var [εit +u i |x it 1, z i 1, x it 2, z i 2]=σ2=σε2+σu
corr [εit +u i , εis +u i |x it 1, z i 1, x it 2, z i 2]=ρ=σu 2/σ2
豪斯曼和泰勒提出了一种仅仅使用已有样本信息的工具变量估计量,该估计方法基于如下逻辑:
首先,取该模型相对于组别均值的离差形式,
y it ?y i i =x it 1?x i i 1' β1+x it 2?x i i 2' β2+εit ?i i ()() (7.3)
这实际上就是我们已经熟悉的固定效应处理方法,去除了与x 2相关的u i ,所以,该模型中β的OLS 估计量则是一致的了。
根据(7.3)式,豪斯曼和泰勒指出,离差形式的x it 1?x i i 1' 和x it 2?x i i 2' 可以作为x 1和x 2的()()
K 1+K 2个工具变量;由于z 1与u i 不相关,它仍然可以作为自身的工具变量;而x 1的组别均值x i i 1则作为z 2的工具变量,只要K 1≥L 2,该模型就是可以识别的。这样,就可以使用FGLS 估计方法(也称为加权工具变量方法)了,它好于OLS ,也好于简单的IV 方法,后者的估计量虽然一致但是却不有效。
一致且有效的豪斯曼和泰勒的工具变量估计量的操作步骤如下:
第一步:根据(7.3)式,获得基于x 1和x 2的β=β1, β2' 的固定效应估计量。这一步的残差方差估计量就是σε的一致估计量;
第二步:根据第一步固定效应回归获得的e it ,计算e it =e i i (t =1, , T , i =1, , n )(求平均?(' ' )2
这是不随时变的变量,在每一个个体区间内,重复e i i 后实际上得到n 个不同的组别均值e i i ,
变量T 次,填满观察值空间)。然后进行e it (被解释变量)对z 1和z 2的工具变量回归(同样,z 1的工具变量为自身,z 2的工具变量为x 1,要求K 1≥L 2)。这样我们就获得了α的一致估计量。
第三步:第二步回归的残差方差是σ
的σε的估计量,可以求得σu =σ22?2?2?=σu 2+σε2/T 的一致估计量,估计这个结果和第一步这样通过估计下式就可以获得FGLS ?σε2/T 的估计量。
估计量的权重,
θ=第四步:最后一步就是加权工具变量估计。
令模型中的原始变量为
' ' ' ' ' w it =(x it 1, x it 2, z i 1, z i 2)
它们构成具有nT 个观察值的数据矩阵W 的每一行。
如随机效应模型中GLS 方法类似的那样,这里为了使用GLS 方法,转换后的变量为 ' ' w i ' i ,y ?=y ?1?θ y w ?=w ?1?θit it it it i i ()()
是θ的估计值。它们分别构成W 和y 的每一行。 其中,θ??
如果直接使用FGLS 估计,则随机效应模型的FGLS 估计量为
(b ', a ' )FGLS /RE ' ?' ??' ?= W W W y ?1
现在使用IV 方法,工具变量为
' ' ' φit x x x x z x = ??', ', , 12i i i i i i 1 121it it i ()()
以上就构成总行数为nT ×(K 1+K 2+L 1+L 2)的Φ矩阵的每一行。注意,其中z i 1, x i i 1对每' ' 一组都是相同的观察值。
则工具变量估计量为
(b ', a ' )HT /IV /RE ' ?1?1= (W ?' Φ)(Φ' Φ)(Φ' W ?) (W ?' Φ)(Φ' Φ)(Φ' y ?) (7.4) ?1
注意,如果使用没有加权的W 而非W 进行计算,该工具变量估计量是一致的,但是不是有效的;这就与简单随机效应模型中的OLS 估计量一致而非有效相似。
Homeworks
The data set htpanel.dat is a panel data set with N = 595 and T = 7. At the end of the file you find a description of the variables. It allows for estimation of a wage equation. You are invited to estimate this equation, that is, to regress wages on explanatory variables. You can do this in Stata, but feel free to use any other suitable program.
Estimate the wage equation by ordinary least squares, random effects (or generalized least squares) and by fixed effects (also called the within-estimator). Report your findings. That is, report not only the estimates of the coefficients but try to interpret them also. Do the values that you obtain make sense? Compare, where possible, your results with the results from the article by Hausman and Taylor (1981), in particular the table on p.1391.
As we discussed, the Hausman-Taylor paper gives a method to deal with the endogeneity of the years of schooling variable. The idea behind this method is to use the means over time of exogenous variables as instruments for time-constant endogenous variables, like the years of ?
schooling. The Hausman-Taylor paper is rather complicated. The discussion in section 16.4 of the lecture notes is also rather technical. The textbooks by Greene and Wooldridge are quite readable. Estimate the wage equation by the Hausman-Taylor method. Of course, explain what you do and interpret what you find.
(陈诗一)