III张二米重庆大学数理学院傅强重庆大学经济与工商管理学院 国外已经有人研究了许多关于股票价格离散特性的模型.其中次 序probit模型是目前最理想的模型.它既能捕捉到"解释"变量对价 格变动的影响同时又考虑到价格的离散性和交易间隔的无规律性.但 是这个模型是根据美国股票数据估计出来的.还没有研究表明有序 probit模型对于所有国家的股票市场具有通用'陛基于这个出发点.我 们在本文中根据中国的实际情况并参考它的假设.选取了我国市场值 较大的+只股票估计了一个次序probit模型.并做了分析和评价.结 果表明该模型不能够解释中国股票市场价格变动的实际情况.该模型 还有待进一步研究.
一
有序probit模型
模型的基本思想;假设一个价格交易序列为:P(t)P(t)…….P (t).它们分别是t..tll_…...t时刻的观测价格.相应的价格变动记 作.Y.Y,……,Y.其中Y=P(t)一P(t卜.)是某个小单位的整数倍.令 Y'代表不可观测的连续随机变量.有:
r=靠.【J=0.e~/N/DN(0.^)(1)
其中是由解释变量组成的向量.决定着的条件均值.INID表 示s独立但非同分布.下标表示交易次数.t表示交易时刻. 次序probit模型核心是假定观测价格的变化与连续变量Y有如下 关系
=
^,若】,.1?^
',若】,?
,若n?
其Ai是状态空间S的子集.即=U4?对f』,~JlI---:o=I.,神, 是对是构成Y的状态空间S的离散数值.
次序probit模型就是要揭示S和S之间的映射关系.并将这个映 射关系与一组经济变量联系起来.通常把s.(j=1.…m)定义为:0一 1/8+1/8.一2/8.+2/8….状态空问S'分割通常定义为区间: 4:(一?,q】
:(q】(3)
=
(一l,oo)
在上面假设下Yk的方差与Atk-~-[k--t成比例,(】是Atk的线 性函数并随交易时间而变化.假定Dk2是w的线性函数.则有. E[EkIXkWkl】=0.,kINIDN(0.dk)=十+…+YL. 从而价格变动的条件分布是:
,(=I,);,(卢+E4,)
f,(+sq,),着i=l
=
{,(q.1声+sq.),若l
l,...+『五.).着f=?
…
?(Hch
1一(_=).若l;"I
其中a()写成的函数形式.中()是标准正态累计分布函数. 通常根据观测数据来确定区间分界点o【.条件均值的系数p和条 件方差【】k2,这样有序probit模型作为经济变量x和W的函数可以反 映连续状态空问S与离散状态空问S之问的实证关系. 令I(f)为一指示变量.当Y的第k个观测值是状态s时.其值为 1否则为0.则以解释变量x和Wk为条件变量价格变动向量Y的 对数似然函数L是:
呻.熹,
+((f)J吲()】}
为了上式是可识别的.必须限制v一1.而且在进行估计之前还 必须先解决三个问题:(1)状态参数m:(2)回归变量x的设定;(3)条 件方差o的设定
二,对中国股票市场做实证分析
1实证设定
利用极大似然估计方法来估计次序probit模型的参数必须解决 上面提到的三个问题.m的值通常根据股票市场价值的大小和数据的 实际分布.一般市场价值大的取m=9而市场价值小的取m=5.解释变 量x必须反映交易价格变动的时问效应,交易量的大小,买卖价差的 效应以及市场变动对单个股票价格变动的条件分布的影响.因此我们 选择以下解释变量:At(第k次交易到第k一1坎交易的时间间隔,单位 秒),A(在t一1时刻的买卖价差),Y(因变量Yk的三个滞后变量.其 中I=1.2,3.(第k—1次货币交易量的三个滞后变量[1一,2.3】.等 于第k次交易价格乘以股票的交易数量),D:表示A股综合指数lB一. (指示变量的三个滞后变量【l-=-.23】.即若第(k—1)个交易价格大 于t时刻出价和要价的平均值指示变量的值为+1若交易价格小 于平均值.其值为1其余情况,其值为0).那么模型就变成: =
A?+岛..+岛.+屈.+屈q+成佃.+岛佃&.1+届佃.
+届((..)雎峨..)+届o((一)嘲一)+届.(.)丑,)
方差'=1.^.?'彻k.
其中:T(V):(V-1)/.此处取=1.其他符号同前所述.
2数据选取
为了说明模型在中国股票市场是否具有通用性我们只考虑了每天 股票交易次数的高频性.然后随机选取了十只股票的交易数据估计了 一
个有序probit模型下面是我们选了四只股票:华夏银行.浦发银行, 民生银行和中信银行.下面的表1是这四只股票交易数据的概括统计量.
3.四只股票的次序Probit模型的极大似然估计
我们根据观测到的四只股票的交易数据,对模型做了极大似然估 计.下面的两个表分别给出了模型系数的估计值,估计的统计分析. 4结果分析
从表3中的数据可以看出:模型的各个系数部是显着的.从表2 可以看出,At对凹只股票的条件均值的影响很弱.说明时问因素对 Y.的条件均值来说并不很重要,但并非说明Y的条件分布也有这个性 质.另外从三个价格变动的系数日,,13.p的估计的符号来看.对 于这四只股票来说,他们的符号全是正的.这一点不符合股票市场的 股票价格变化走势.还有从指示变量系数B,D,p的估计值来看, 基本都是正数这无法解释交易价格在出价和要价之间波动的事实. 《商场现代化2007年2月(中旬刊)总第494期o
财经论坛
裹l四只控幕交舄数据的概括统计量
变量夏银彳于?ljIl发银行f)l民生银行(m)l中信银行(?) 最高价5155.1l10.叫5.9
最低价5,04J,.o纠10.4粤f,.7
市场价值34824l826342318~60918 价格变动,
均值0.0001251+25E3.75E-0~0.00054167 标准谋5.23E-053.64E-05l2.09E-0~1.40~-04
方差0,0072309f0.0060321{0.0144刊0,011827 交易数百分比O')
变易价?报价中值58159l56.7E9l48652.018 交易价嘲价中值41.84143.211J51.31J47,982 交易的时问间隔()At
均值13.466f16.646f8.4512~12.471 标准误8.394110.973l4.0835I7.658
买宴价麓,A
均值OO11253.0.01260~~0.01003310.01022 标准谩0.0040479l0.007360~0.0005715l0~0018643
A胆练含指数
均值5.09E+0014,19I10615,8329 标准谩0.00069112I8.59E-05l6.23E-03l0,0013934
交易类型指示变量,msk
均值.0.58159Io5678~0.486~o.5201~ 标准谡0493490,495~0.4999~0.49978 指示变量与经过变换的货币交易量的桑积
均值0.48663l216E-0110.2411310.77577 标准谡3.77E+00J1.447.60641.23E+01 货币交易量中位数(人民币)
597.4f1262.6176{1091.8
(股幂)参数华夏银行(hx)浦发银行f)民生(I?E)中信(zx)
属:At/tO0.1.49E-052.95E-05-0.00037660.00016533
届:l0.660720523340.43608075796 届:2n19155o303O.41,71O.1921, 屈:o102920.0704940102030.019088 屈.Dl3S.s6064041844l636,'3
A:IB.15999L34417574-O47986 岛.IB8.1216640.58581239617946 A:IBS_353.493-169-4665.431-In783 届:
38.63949.75617512-104.99
()
风:
-
91328869162823916.048
瓤)珊岛
R20.90808l0.6382~o90473l08952~ F24902.490523745l2416'
P0叫叫I
SE678E-052.82E-05l0,0006300510.0001279~
《商场现代化2007年2月(中旬-TIj)总第494期
美联银行消费信贷政策制定流程
兼述美联银行文件管理
_周宏亮中国农业银行个人业务部
夏洪胜暨南大学管理学院
美联银行经营层次由总行11个部门和31.0个经营网点两级构成. 其服务渠道包括网上银行.电话银行,柜台中介经纪等途径.总行 11个部门包括四个事业部和7个后台支持单元.总行内部网站是政策 文件和各种信息的发布平台.美联银行的文件大体分为政策类 (poIice)和产品(prudct)类政策又按业务分为消费信贷类财富管理
产品类分为家用汽车商用汽车,私人飞机.游艇等产品办法. 类等.
政策制度一般由风险~lh'3制定.产品办法一般由业务部门制定.每个 文件表明类别制定部门.适用部门.发布时间.文件制定都由总行 负责.网上发布代替发文:网点和相关部门可以针对文件发布营销. 培训方案除文件外银行经常披露人事决定,经营情况.通过信息 披露方式发布:各部门和网点内部经验交流属于信息共享:谁开会谁 发布网上通知并负责会议:各个部门网站内容丰富.对分行形成有力 的支持.
风险委员会是董事会五个专业委员会中一个重要委员会.它由七 个独立董事组成.负责全面风险政策决定.与风险委员会对应.由美 联银行首席执行官任主席并指定七人组成一个高级风险委员会.成员 包括首席财务官首席风险官科技总官总法律顾问,总审计官 人力资源部总官.这个委员会下设五个一级委员会资产负债管理委 员会,信用风险委员会市场风险委员会,操作风险委员会纠纷审
查委员会.在信用风险委员会下设一个二级信用政策委员会它又委 任一个属于三级的消费信贷政策审查委员会.去接收审查.批准 签署新的政策流程以及信贷风险和政策变化纲要.
消费信贷政策委员会主席由消费信贷银行部门的首席风险官担 任.包括资产流动性和信贷政策.法人风险政策,公司消费信贷政策. 美联接揭公司,教育金融,零售银行部汽车经销商金融服务,住房 抵押等方面的高级风险官组成.这个委员会还包括一个个人政策审批 次级委员会代表消费信贷的汽车经销商金融服务,按揭业务,教育 金融,住房抵押小企业,个人账户,信用卡等相关业务部门的代表 消费信贷政策委员会每季度例会而个人政策审批次级委员会至少隔 一
周开一次会.从股东利益最高原则确定信贷政策,流程和纲要.从 管理和其他方面收集影响信贷政策的变化和影响.
消费信贷政策的制定包括四个方面:政策适用的部门和产品消 费信贷政策的形成和批准;信贷政策审批过程概述:按揭公司房屋权 益抵押和非房屋权益抵押的信贷政策发展和改进办法. 1消费信贷政策的适用部门和产品
负责消费信贷的主要部门是零售银行部.具体单位包括零售信 贷部,小企业零售部,私人顾问部,员工金融服务部,财富管理部. 经销商金融服务中心,美联按揭公司f包括经纪人异地代理银行. 直接贷款三种方式)七个单位.
总的消费信贷政策要求,信贷准则监管适合银行内部各个单位. 文件另有规定的除外.
按业务单位,贷款类型和受理渠道划分以下贷款产品
住房零售信贷可以通过电话银行网点网上银行,商行直接受
农户消费决定因素_基于有序probit模型
农户消费决定因素 :基于有序 probit 模型
郝爱民
[内容摘要 ]本文以问卷调查数据为基础 , 利用有序 Probit 模型建 立农户消费需求 模型 ,
分析微观因素对农户消费的影响 , 模型的计量经济 分析表明 :(1) 农户家 庭的经济 状 况对农户的消费有重要的影响 。 低收入家庭消费意愿明显高于高收入家庭 ; (2) 户 主个 人因素对农户消费意愿有重要影响 。 户 主受教育 水平的提 高以及户 主主业的 非农化 对 农户消费有积极的影响 ; (3)农村金融发展和农村保险体系完善与农户的消费意愿 呈正 相关 ; (4) 农村居民消费环境对农户消费意愿有重要影响 。 并据此提出了相应对策 。 [关键词 ]农户 ; 消费意愿 ; 有序 Probit 模型
作者简介 :郝爱民 (1970 ) , 男 , 郑州航空工业管理学院 (郑州 , 450015) , 副教授 。 研究方向 :农业经济学 。
一 、 引 言
改革开放 30年来 , 我国农民生活水平有了显著的提高。但同时存在农村居 民消费水平低 , 消费需求不足等问题 , 并且与城镇居民的消费水平仍有很大差 距。消费活动是经济活动的终点 , 一切经济活动都是为了满足人们不断增长的消 费需求 ; 另一方面 , 消费活动又是经济活动的起点 , 是拉动经济增长的动力。因 此 , 提高我国农村居民的消费水平具有很强的现实意义。
国外对于消费市场及消费需求的研究主要集中在消费函数领域 , 其共同之处 是都利用了收入工具来解释消费的变化 , 不同的是在对消费行为的外部环境和内
在动机的假定上。 [1][2]
, 赵航等通过建立一个多元回归模型得出结论 :影响消费
决策的最主要因素就是农户的收入 , 其他的影响因素作用都比较微弱。吴亚平 (2004) 通过分析得出 , 我国农民的消费率长期低于城市居民 , 主要原因包括农 民货币收入低、收入增长预期低、收入不确定性大、收入差距不断拉大、消费环 境 差、必 要 性储 蓄 以及 传 统观 念制 约 等诸 多 方面。万 广华、牛 建高 (2001) 通 过霍尔的消费函数及其扩展模型表明 :流动性约束和不确定因素这两个方面造
本研究得到河南省哲学社 会科学规划项目 提高河南省农 民消费能力 问题研究 (2007BJJ021)
资助。
98 城乡统筹
财经科学 2009/3总 252期
成了我国目前消费不足和内需无法启动的原因。
通过上面的文献综述可以看出一个明显的特点 :大多数学者是在理性消费者 和效用最大化的假定下 , 引入不确定性 , 并把农户消费行为分析作为一个整体进 行分析 , 对农村消费结构中的各个组成部分没有根据他们本身的独特特点进行单 独的分析 , 而实际情况是在农户的消费结构中 , 各个组成部分的特点是不相同 的 , 尤其是农户对各种消费的控制能力是不同的 , 因此 , 不能简单的将农户的消 费作为一个整体进行相关的分析。
笔者通过对 2007年河南省农户的抽样调查 , 在农村居民纯收入五等份分组 中 , 不同家庭全年总收入段的被访者认为目前最严重的消费问题及未来消费趋向 都不相同 (详见表 1和表 2) , 说明不同收入群体农户消费的决定的微观因素并 不相同。
表 1不同家庭 全年总收入段的被访者认为目前最严重的消费问题 (%)
收入段 问题 类别
低收入户
(人均年收入
<3000元>3000元>
中低收户
(人均年收入
3000-4000元 )
中收入户
(人均年收入
4000-6000元 )
中高收入户
(人均年收入
6000-8000元 )
高收入户 (人均年收入 >8000元 )
产品质量问题 51 651 951 253 954 2
服务问题 5 856 36 47
价格问题 1 38 36 65 34 2
缺斤少两问题 53 62 32 31
虚假宣传问题 2 64 25 96 37 7
假冒伪劣问题 2123 823 821 421
不讲信用问题 2 333 74 44 2
其它 0 50 20 30 10 7
合计 100100100100100
表 2不同家庭 人均年收入段的被访者对纯收入主要用于何种领域 (%)
小于 3000元 /年 3000-4000元 /年 4000-6000元 /年 600-8000元 /年 8000元 /年以上
农业生产资料 31 921 715 110 78 5
家电 3 24 34 44 15 6
交通工具 1 93 84 86 814 4
子女上学 37 144 147 944 738
医疗 7 53 52 62 61 4
建房装修 11 415 616 219 619 7
婚嫁 4 34 96 375 3
旅游 0 40 61 11 72 5
其它 2 21 61 72 74 6
合计 100100100100100
资料来源 :作者根据调查数据整理而得 。
鉴于以上分析 , 本文以实地调查数据为基础 , 运用计量经济学实证分析的方 法 , 分析现阶段不同收入群体农户消费的决定的微观因素 , 并据以提出各种建议 ,
财经科学 2009/3总 252期 城乡统筹 99
稳定、快速地向前发展。
二 、 数据来源和研究方法
(一 ) 数据来源
本文所用数据是在河南省社科规划项目的资助下 , 由笔者和学生于 2008年 1月 19日 2月 20日之间 , 选取安阳市、驻马店作为调查地点 , 调查采取了入户 调查的方式 , 调查对象为家庭经济活动的主要决策人 , 共涉及 10个乡镇的 283户农户。农户样本的抽取采取随机抽样的方法 , 符合统计抽样的基本原则 , 调查 采取问卷的方式 , 调查只涵盖了他们基本情况的一些资料。按经济实力分 , 样本 乡镇包括经济发达乡镇 2个 , 经济中等乡镇 5个 , 经济落后乡镇 3个。本次调查 采取了问卷调查与典型农户访谈相结合的方法。为了保证调查质量 , 笔者对问卷 内容进行了预调查并加以修改完善 , 正式调查时采取调查员入户一对一调查方 式 , 在每个乡镇选取一个村 , 在每个村不定量随机选取农户 , 了解了农户的看法 和意愿。调查结束后对问卷进行了集中检验 , 最后形成有效问卷 241户。
(二 ) 研究方法
由于难以获得农户消费的连续性数据 , 本文反映消费意愿的数据是以分类数 据为主的离散数据 , 在分析离散选择问题时采用概率模型 (Logit 、 Probit 和 Tobit) 是理想的估计方法。对于因变量离散数值数大于两类的 , 研究时须采用有序概率 模 型。用 有 序 Probit 模 型处 理 多 类别 离 散数 据 是 近年 来 应 用 较 广的 一 种 方 法。 [1][6]有序 Probit 概率模型的数学表达式参见 William (1997) 。所使用的模型为 ordered probit 模型。 这一模型是将利用与否的 probit 二元模型扩充到把护理服务 的利用次数作为被解释变数的一个多元模型。 [7]ordered probit 模型的具体展开表示 如下 :
y *= X+ , |X~Normal (0, 1)
y=0, if, y * 1
y=1, if, 1
y=J, if, y *> J
y=0, 1, 2 的概率分别为 :
Prob (y=0|X) =Prob (y * 1|X) =Prob ( X+ 1|X) = ( 1- X) Prob (y=1|X) =Prob ( 1
Prob (y=J|X) =Prob (y *> J |X) =1- ( J - X)
:
100 城乡统筹 财经科学 2009/3总 252期
logL= N
i
1[y i =0]log [ ( 1- X i ) ]+1[y i =1]log [ ( 2- X i ) -( 1
- X i ) ]+ +1[y i =J]log [1- ( J -
X i ) ]logL 为对数似然函数、 y 为被解释变量、 X 为解释变量、 为标准正态分布 的累积密度函数、 i 为未知的分割点。
表 3
变量解释及其对被解释变 量的影响预测
变量名 取值 变量解释
Y
因变量
(农户消费意愿 ) 1-5
农户人均年消费 /农户人均年收入
<60%=1, 60%-70%="2," 70%-80%="">60%=1,>
80%-90%=4, >90%=5
X1农户人均 年收入等级 1-5人均收入 (元 /年 ) <3000=1, 3000-4000="2," 4000-6000="3," 6000-8000="4,">8000=5
+X2户主性别 0-1女 =0, 男 =1+X3户主文化程度 1-4小学及以下 =1; 初中 =2; 高中 =3; 大专及以上 =4+X4户主年龄 1-430岁以下 =1, 30-45岁 =2, 46-60岁 =3, >60岁 =4
-X5户主职业 0-1以农业为主 =0, 以非农业为主 =1+X6农户人口 1-33人以下 =1, 4 6人 =2, 7人以上 =3
? X7所在乡村是否 有连锁经营部门 0-10=否 , 1=是 +X8你是否有过发生 消费权益争议时 0-10=否 , 1=是 -X9所在乡村交通 是否方便 0-10=否 , 1=是 +X10所在乡村水电 设施是否齐全 0-10=否 , 1=是 +X11参加农协等 组织情况 0-10=未参加 , 1=参加
+X12是否方便获得贷款 0-10=否 , 1=是 +X13
是否参加养老 或医疗保险
0-1
0=否 , 1=是
+
本文以农户消费意愿 (农户人均年消费 /农户人均年收入 ) 等级作为被解释 变量 , 分析农户消费行为选择 , 该变量是一个 1 5比例等级的分类变量。表 3列出了所有变量的详细解释以及解释变量对农户消费意愿影响的预测。解释变量 分为四组。
第一组为农户人均收入变量 , 参照河南统计年鉴的分类方法 , 将农户分为五 类。低收入户、中低收入户、中等收入户、中高收入户、高收入户。
财经科学 2009/3总 252期
城乡统筹 101
度和户主职业反映户主个人特征变量 , 农户人口反映家庭特征变量。
表 4样本基本情况统 计表
均 值 标准差 分 组 (%)
农户人均年消费 /农户人均年收入 3 26571 00591
<60%=17 12="" 60%-70%="221" 33="" 70%-80%="335" 52="" 80%-90%="424" 62="">90%=510 31
农户人均年 收入 (元 /年 ) 3 14580 90793
<3000=115 12="" 3000-400="222" 33="" 4000-6000="338" 52="" 6000-8000="422" 70="">8000=57 231
户主性别 (-) (-) 男 =191 32女 =08 68
户主文化程度 2 457451 1652 小学及以下 =141 90初中 =238 75高中 =316 15中专及以上 =43 30
户主年龄 4 01651 10436 30岁以下 =18 86 30-45=239 91 46-60=340 25 60岁以上 =411 25
户主职业 (-) (-)
以农业为主 66 37以非农业为主 37 63
农户人口 2 14310 80595 3人以下 =116 25
4 6人 =270 55 7人以上 =313 20
所在乡村交通 是否方便 (-) (-)
否 26 43是 73 57
所在乡村水电 设施是否齐全 (-) (-)
否 13 64是 87 36
参加农协等 组织情况 (-) (-)
未参加 76 71参加 23 29
是否方便 获得贷款 (-) (-)
否 88 13是 11 87
所在乡村是否 有连锁经营部门 (-) (-)
否 33 45是 66 55
你是否有过发生 消费权益争议时 (-) (-)
否 51 66是 48 34
是否参加养老 或医疗保险 (-) (-)
否 46 33是 53 67
第三组为农户消费环境变量。其中 , 所在乡村是否有连锁经营部门、所在 乡村交通是否方便反映农户购买方便程度 , 你是否有过发生消费权益争议时反映 农户消费者权利保护情况 , 所在乡村水电设施是否齐全反映农户消费的基础设施 情况。均用虚拟变量来表示。
102 城乡统筹 财经科学 2009/3总 252期
保险体系发展的变量 , 两者均用虚拟变量来表示。
三 、 变量描述性分析与模型估计结果分析
(一 ) 变量描述性分析
表 4给出了模型中解释变量和被解释变量的基本统计特征。在本文使用的模 型中 , 被解释变量 Y 是一个 1 5的分类变量 , 其均值 3 2657, 说明大部分农户 人均年消费占农户人均年收入 70%左右。从表 4可以看出 , 农户人均年收入均 值 3 1458, 代表 调查 农 户人 均 年收 入平 均 约为 4200元左 右。 户主 年 龄均 值 3 0165, 代表调查户主年龄的平均值为 46岁左右 , 说明农村年轻劳动力大多愿 意选择外出打工或从事非农经营 , 这与农村实际情况相符 ; 户主受教育程度均值 2 45745, 代表调查户主受教 育程度 平均为初 中文化水 平 ; 农户 户均人口 均值 2 1431, 代表调查农户户均人口约为 4 2人左右。
(二 ) 模型估计结果及其分析
根据前文所述估计方法 , 本文从微观角度对影响农户消费意愿的因素进行了 有序 Probit 模型估计。结果如表 5。
下面是对农户消费意愿模型的分项解释 :
(1) 收入水平对农户消费意愿的影响。结果显示 :低收入组农户收入与农户 消费意愿呈正相关关系 , 而高收入组农户收入与农户消费意愿呈负相关关系。 (2) 户主个人因素及农户家庭特征对农户消费意愿的影响。在消费者个体特 征中 , 户主性别对农户消费比例没有明显的影响 , 而教育程度对消费行为具有重 要影响 , 表 5的结果表明 :教育程度越高的户主 , 农户消费可能性越大。另外 , 户主职业为非农时 , 农户消费与其消费比例明显正相关。户主年龄大于 46岁时 都更愿意储蓄 , 以增加各种抗风险 (如老人生病 ) 的能力 , 消费意向趋低 , 导致 居民平均消费倾向降低。农户人口为 3人以下时 , 农户消费与其消费比例负相 关 , 4 6人时 , 对农户消费比例不存在影响 , 7人以上时 , 农户消费意愿明显上 升。
(3) 消费环境对农户消费意愿的影响。表 5中可以看出农户消费比例与其所 在乡村有连锁经营部门及交通方便呈正相关 , 并具有统计学意义 , 而如果农户有 过消费权益争议会对其消费意愿产生不利影响。
(4) 其他因素对农户消费意愿的影响。参加保险、能够方便获得贷款与农户 的消费意愿呈正相关关系 , 并具有统计学意义 , 而参加农协组织对农户消费行为 的影响不显著且为负值 , 与预测相反 , 可能是因为 :一是调查地区农户加入农协 会的比例不高 ; 二是目前的农协组织仅在技术服务和很少的农资采购上有作用 , 对农户消费基本上没有帮助。
财经科学 2009/3总 252期 城乡统筹 103
表 5农户消费意愿的有序 probit 模型估计
自变量 系 数 标准差
c 2 645472**0 785419
农户人均年收入等级 =12 74762***2 454741
农户人均年收入等级 =21 458761**2 046325
农户人均年收入等级 =30 864313***1 154869
农户人均年收入等级 =40 214585**1 684246
农户人均年收入等级 =5-1 256478** 0 245685
性别 0 1658650 525016
户主文化程度 =10 0564780 410235
户主文化程度 =20 1572450 578956
户主文化程度 =30 0724560 456891
户主文化程度 =41 256483*2 368452
户主年龄 =10 1628910 575672
户主年龄 =20 764563**0 346478
户主年龄 =3-0 072456 0 456895
户主年龄 =4-0 588972** 0 568971
户主职业 0 864313***1 154869
农户人口 =1-1 884605* 1 237854
农户人口 =20 0724560 456895
农户人口 =30 854678**0 256478
所在乡村有连锁经营部门 0 256483*0 589891
有过消费权益争议 -0 324573** 1 105782
所在乡村交通方便 0 369253*0 457481
所在乡村水电设施齐全 0 157543*0 256711
参加农协等组织 -0 054678 0 146478
方便获得贷款 0 872456**0 456895
参加养老或医疗保险 1 256483*2 568914
注 : * 、 ** 和 *** 分别表示 10%、 5%和 1%的统计显著水平 。
四 、 结 论
(1) 农户家庭的经济状况对农户的消费有重要的影响。低收入家庭消费意愿 明显高于高收入家庭 , 所以提高农村低收入者收入水平对扩大农民消费意义重 大。
(2) 户主个人因素对农户消费意愿有重要影响。户主的受教育水平提高以及 户主主业的非农化对农户消费有积极的影响。
(3) 参加保险、农村金融发展与农户的消费意愿呈正相关 , 因此加快建立健 104 城乡统筹 财经科学 2009/3总 252期
发生的不确定性事件做到心里有底 , 自然就可以有效的刺激农村居民消费水平的 提高。农村金融发展水平低 , 农民生产经营贷不到款 , 只好把大量的现金留用于 生产和扩大投资 , 造成消费现金紧缺 , 这种流动性约束在很大程度上抑制了消 费。因此 , 现在要加大农村金融体系的构建。
(4) 农村居民消费环境对农户消费意愿有重要影响。服务质量低下是最严重 的问题 , 严重制约农民消费者水平的提高。农民当前最为迫切的消费要求是改善 自己的居住生活条件 ; 改善农民基本生活条件 , 更容易启动农村市场。
注 释 :
有关于这 一 模型 的基 础 probi t 二元 模型 参 照 浅野 中 村 (2001) 。 ordered probit 模 型 参照 Wooldridge (2001) 。
主要参考文献 :
[1]Jayachandran, N :A Probi t Latent Variable Model of Nutrition Information and Dietary Fiber Intake, American J ournal of Agricultural Ec onomics, 78:628 639, 1996
[2]Jeffrey M Wooldridge 、 2001 Econometric Analysis of Cross Section and Panel Data Massachus etts Ins ti tute of Technology Pres s.
[3]屈小博 , 霍学喜 交易成本对农户农产品销售行为的影响 基于陕西省 6个县 27个村果农调查 数据的分析 [J] 中国农村经济 , 2007(8)
[4]柳尚武 , 夏则飞 , 王永善 , 颜 军 进口水果消费影响因素的实证研究 以南京市 场为例 [J] 现代农业科技 , 2007(18)
[5]浅野皙 , 中村二郎 计量经济学 [M]. 北京 :中国社会科学出版社 , 2001.
[6]赵 忠 我国农村人口的健康状况及影响因素 [J] 管理世界 , 2006(3)
[7]大日康史 护理社会保险中实 际护理需 求的分 析 家庭结 构类别 的估计 [J]. 社 会保障 研究季 刊 , 2002, Vol. 38No. 1
A study on Ordered Probit Model to the Factor of Farmer
Household s Consumption Decision
Hao A imin
Abstract:Thi s paper is based on consumer s questionnaire census data, u tilize ordered Probit model to set up framer household s consu mp tion demand model, analyze the micro factor which influence on framer household s consumption, Get the following conclusion :(1) T he framer household s income has impor tant i nfluence on consump tion of framer household s consump tion. The consumption will of low-income household is obviously higher than the well-to-do family. (2) Householder s personal factor has impor tant influence on framer household s consumption will. The householder s education level is i mproved and householder s staple one consume positive influence to framer households non-agriculturally. (3) Insur ance and can convenient loan get money present positive correlation to framer household consumption will. (4) The environment of rural consumption of resident has important influence on framer household s con sumption will. At last this paper has put forward the corresponding countermeasure in view of the above. Key words:Farmer; Consumpti on Intention; Ordered Probit Method
财经科学 2009/3总 252期 城乡统筹 105
实证分析——有序probit模型的半参数估计
第25卷第lI期 2008年11月
统计研究
Statistical Research
V01.25.No.11 Nov.2帅8
我国居民医 疗需 求影响因素的实证分析 ——有序probit模型的半参数估计
林相森艾春荣
内容提要:本文以个人潜在医疗需求为潜变最,以表示患病情况的有序离散变量为被解释变量,建立了有序 probit回归模型,日的在于考察年龄、收入、性别、教育等主要个人人I=1特征和经济社会地位变量对医疗需求的影 响。本文实证分析采用的是中国健康与营养调查2004年的微3l!|l调奁数据,采用半参数方法对模型进行了估计。估 计结果显示:年龄、性别、婚姻状态、居住在农村、收入水平、教育水平对个人的医疗需求有不问程度的影响。实证 分析结果对于预测我国医疗费用的发展趋势和缓和医疗服务中的不平等问题都有参考价值。
关键词:医疗需求;有序pmbit模型;半参数估计
中图分类号:C812文献标识码:A 文章编号:1002—4565(2008)11—0040—06
Determinants of Chinese Residents’Demand for Medical Care
——An
Application of Semiparametric Estimation of Ordered Probit Model
Lin Xiangsen&Ai Chunrong
Abstract:To investigate determinants of individual demand for medical care,we build up an ordered pmbit model where the extent of morbidity is the explained variable and variablesindicating individual demographic characteristics and social-economic status are chosen asexplaining variables。with the demand for medical care being the corresponding latent varisble.This econometric model is estimated by semiparametrie estimation using data from China Health&Nutrition Survey in 2004.Regression results show that age,gender,marriage status,living in rural al'e硒,incomelevel and education have effects on demand’for medical Care to various extents。which is useful when forecasts of national medical expenses in the future a抛to be made and when measulf;e¥a旭to be made to mitigate inequality in medical care consumption.
Key words:Demand for medical care;Ordered pmbit model;Semiparametric
estimation
从微观层次上研究个人医疗需求的影响因素在 国外的卫生经济学研究中是一个很受重视的主题。 反映个人社会经济地位和人口学特征的变量被视为 重要的影响个人医疗需求的潜在变量,例如:收入、 教育水平、职业、种族、年龄、性别、家庭规模和结构 等。现实中,哪些因素对个人的医疗需求有影响? 有怎样的影响?回答了这些问题,才可以合理地预 测未来总体医疗费用发展的态势。相对来说,上述 基本人口学特征和经济社会结构的未来状态是相对 容易被合理预测的,以这些预测为基础,结合各种因 素对医疗需求的影响,可以更好地预测我国未来一 段时期内的医疗总费用,提供比基于单因素的预测 更加有价值的信息。找到医疗需求的影响因素,也 将提供具有可操作性的政策评价工具,评估某项政 策对于某些特定人群的可能影响,评估整个社会的 医疗资源是否可以更有效率地按需分配,从而提高 整个医疗体系的公平程度。这种评价工具可以广泛 应用于政府部门制定公共卫生政策、医疗保险政策、 医疗救助政策等与个人健康和医疗服务相关的其他 政策过程。
现有实证分析文献中表示个人医疗需求的方法 有以下三种:用一定时间内使用医疗服务的频率表 示;用一定时间内实际发生的医疗费用表示;用一定 时间内患病或需要医疗服务的概率表示。第二种方 法所表示的是对医疗服务的经济需求,也就是预算 约束下的有购买能力的、可以实现的医疗需求,第三
万 方数据
第巧卷第ll期 林相森 艾春荣:我国居民医疗需求影响因素的实证分析 ?41?
种方法表示的是不受预算约束的客观的医疗需求, 也就是潜在医疗需求。而第一种方法所衡量的医疗 需求兼有其他两种的特点。由于很多医疗政策的出 发点在于满足客观的个人医疗需求,潜在医疗需求 理应成为实证研究的重点之一。比如,如果讨论的 是降低医疗服务中的不平等问题,就应该研究医疗 服务的潜在需求,而不是医疗服务的经济需求,因为 “平等”的标准就是要求具有相同潜在医疗需求的人 得到相同程度的满足(关于医疗服务平等性或公平 性含义的讨论参见Braveman et.al,1996;陈家应等, 2000;胡琳琳、胡鞍钢,2003;赵郁馨等,2005)。 从微观层面研究我国居民医疗需求及其影响因 素的文献还不多。Mocan et a1.(2004)用由中国社科 院实施的、来自中国10个省(直辖市)的70个城市 中的6407个城市家庭的调查数据,分别建立了两部 分模型(two.part model)和离散因素模型(discrete factor model),估计了收入多种等因素对家庭医疗支 出的影响。高梦滔、姚洋(2004)使用来自我国农业 部的8省农户调查数据,采用了两种处理样本选择 (sample selection)问题的计量分析方法,研究了农村 人口两周内患病和医疗支出的影响因素。Wagstaff 和Lindelow(2005)利用中国健康与营养调查(China Health&Nutrition Survey,简写为CHNS)的1991年、 1993年、1997年和2000年4年的数据,采用面板数 据的固定效应模型分析了被调查家庭的户主的保险 状况与医疗支出和劳动时间等之间的关系。梁维萍 等(2005)采用系统抽样方法对山西省1228户农民 家庭进行健康询问调查,重点研究了收入与医疗开 支之间的关系。封进和秦蓓(2006)采用CHNS调查 数据,分别建立了医疗决策模型和医疗支出模型,利 用工具变量估计加豪斯曼检验的方法估计了中国农 村医疗支出和收入水平之间的关系。林相森、舒元 (2007)则以新的方式使用了两部分模型方法,利用 CHNS2000年的调查数据,分析了可能影响我国居民 医疗支出的收入、教育、年龄等重要因素。林相森 (2007)建立了probit计量经济模型研究了收入、教 育年限和居住地等因素对个人患病概率的影响。以 上文献有两个特点:第一,从对医疗需求的表示方法 或者研究对象来看,主要是用实际支出金额衡量医 疗服务的经济需求,只有最后一篇用患病概率来反 映医疗服务的潜在需求,把表示患病/没有患病的二 元变量作为回归方程中的被解释变量;第二,从计量 经济模型的估计方法来看,都采用了参数估计方法。 本文拟深化对此主题的研究,从两个方面进行 创新。第一,提出一种新的研究方法,将患病细分为 轻度患病、中度患病和患重病三种情况,将三者与没 有患病视为同类情况,综合起来作为反映潜在医疗 需求的被解释变量,建立一个有序pmbit模型 (ordered pmbit model,简写为OP模型)。现有文献 中用患病/没有患病表示医疗需求的作法虽然有一 定意义,但其弊端很明显:患病次数相同但所患疾病 特征不同的两个人的医疗需求差别可能很大,仅仅 用患病概率来表示的医疗需求无法反映出这种差 别。一般而言,一个人患病程度越重,他对医疗服务 的需求就越大①,因此本文作法是对现有衡量医疗 服务潜在需求方法的改进。以此为基础进行实证分 析,其结论应该对政策制定有更好的参考价值。第 二,本文对OP模型的估计采用的是半参数方法,它 的优势在于避免了参数估计方法所依赖的分布假 设。参数估计方法都是基于一定的分布假设,估计 结果的有效性和可靠性严格依赖于这些假设是否成 立,而实际数据与这些假设可能存在矛盾,而且,严 谨地直接检验这些假设往往很困难,甚至不可能。 采用半参数估计方法有助于得到稳健可靠的结论。 本文的结构如下:第一部分,建立OP模型;第 二部分是数据说明和变量描述;第三部分是回归结 果分析;第四部分,结论和含义。
一、OP模型的建立及其半参数估计 OP模型是受限因变量模型(1imited dependent variable model)的一种,它是用可观测的有序反应数 据建立模型来研究不可观测的潜变量(1atent variable)变化规律的方法。本文所研究的潜在医疗 需求,,’可视为一种潜变量,因为无法观测到它的具 体值。(潜在)医疗需求的影响方程用线性形式表示 如下:
,,j=算7i卢+£j i=1,2,…,^f (1) 其中,祝是可能影响医疗需求的一组解释变量 的观测值,卢是相应的一组未知系数,£。是分布函数 为F的误差项。虽然这里的,,?是无法观测到的, 但另外一个可以观测到的变量Y;与其有如下关系:
①理论上讲,医疗需求的大小应该用医疗服务的数量和质量 的乘积来度量,或者说用相当于多少标准质量的医疗服务来度量。
万 方数据
?42? 统计研究 2008年11月
Yi 2 1,如果Yl’<口1>口1><口2>口2>
_,,如果口川≤Yi。
Y。是取值范围为{l,2,…,.,}的离散变量,它表 示第i个人的患病程度,口;是一组新的参数,且口, <><><口j。这样,y。就被彻底划分为',个互不 重叠的区间,y表示某个具体的观测值落到了哪个="" 区间。不难看出,y取某个特定值j的概率为:="" pr【yf="">口j。这样,y。就被彻底划分为',个互不>
f F(a。一菇7∥) 如果.『=1
{F(aj—x'ifl)一F(q一,一x'ifl)如果2≤J≤J一1【l—F(口J一。一x'ifl) 如果-『=.,
接下来,把Y作为被解释变量,建立OP模型。 则此模型的对数似然函数即为:
H J
lnL=∑∑In[F(aj一菇7∥)一F(aj一。一菇7i卢)] i=I』=I
(2) 通过最大化该对数似然函数式(2),可以估计出 OP模型中的系数p和参数a;(_『
OP模型的参数估计法和半参数估计法的区别 在于对s;的分布函数的假定。参数估计法将其设 定为标准正态分布,此时,上式中的F全部由标准 正态分布的累积分布函数西替换。而半参数法与 此不同,它将£i的分布函数视为未知函数,用 Hermit形式的展开方法来逼近£i的概率密度函数。 本文所采用的形式如下:
1
K
^(e)=音(∑7。£‘)2≠(£) (3) 其中,声(£)是标准正态分布的密度函数,而
^∞ 置
0=I (∑y店‘)2乒(e)出
J一一正历
为方便起见,笔者把‰设为1。容易证明,这 种处理并不会改变上面的概率密度函数。
根据此概率密度函数,得出e;的分布函数为: ,“
鼻
I (∑豫‘)2声(s)如
n(1‘)=笔∑等l_——一 (4) I (∑7。e‘)2乒(e)de
只要未知的概率密度函数满足某些平滑性条 件,就可以通过不断提高K由上述Hermit序列任意 程度地逼近。再加上比较“温和”的正则性等条件, 模型中的系数可以通过最大化拟似然函数一致地估 计出来,其中,拟似然函数式(2)中的未知分布函数 由式(4)替换(详见Gallant&Nychka,1987)。
从式(3)可以看出,OP模型的参数估计其实是 半参数估计的一种特殊情况。只要把y。(k≠0)都 设为0,式(3)就变为标准正态分布的密度函数了, 这意味着£。服从标准正态分布,此时对OP模型的 估计就等同于普通的OP模型的参数估计。可以证 明,当K≤2时,九(k≠0)都为0的条件能够成立。 于是,K=3是进行半参数估计的起点。另外,鉴于 半参数估计对参数估计的嵌套性质,可以用似然比 检验(LR test)检验进行半参数估计的必要性。
以上大致介绍了OP模型的半参数估计的思路 和特点,详细介绍和讨论参见Stewart(2005)。
二、数据说明和变量描述
本文使用的数据来自于由北卡罗来纳大学人口 研究中心和中国疾病控制与预防中心合作开展的中 国健康与营养调查。总的来说,CHNS目前是关于 中国医疗问题研究的质量最高的数据来源。它涵盖 广西、贵州、黑龙江、河南、湖南、湖北、江苏、辽宁和 山东9省(区)。到目前为止,CHNS已经完成七轮, 分别在1989年、1991年、1993年、1997年、2000年、 2004年和2006年进行。由于这七轮调查所跨时间 较长,而且正值我国相关制度变化比较频繁的时期, 居民的行为方式可能存在不连续的性质,利用最新 的数据进行横截面分析的作法对于制定政策的参考 价值相对较大。但由于已公开的2006年调查数据 尚不完整,故笔者以2004年的样本为研究对象。 从现有实证研究文献来看,个人社会经济地位 和人口学特征对医疗需求的影响在显著性和大小方 面往往表现出或大或小的差异,这种差异可能是因 为不同的样本或总体有不同行为方式,也可能是由 于研究方法的不同造成的。这种差异或者不一致并 不能成为研究人员把这些潜在影响因素抛在回归方 程之外的理由。本实证研究的目的在于考察这些基 本的潜在影响变量对我国居民的医疗需求的影响。 有些理论和实证研究认为,由于中国的城乡在公共 医疗设施等多方面的差别,城乡因素也是影响我国
万 方数据
第篮卷第ll期 林相森艾春荣:我国居民医疗需求影响因素的实证分析 ?43?
居民医疗需求的重要因素之一。鉴于此,笔者把反 映居住地是城市或农村的虚拟变量也包括进来。 具体来讲,本文回归中的解释变量包括被调查 个人的性别、年龄、年龄的平方、教育水平(小学、初 中、高中、中专、大专或本科、硕士以上)、所在家庭的 人均收入水平(高、中、低,简称“收入水平”)、婚姻状 况、城市,农村的居住地虚拟变量。一般认为,对医 疗服务的需求与年龄有关,年龄越大所需的医疗服 务就越多,至少,在超出某一年龄之后会出现这种正 向关系,比如40岁以后(Wagstaff,1993),但二者之 间的关系并不一定是简单的线性关系。更多地接受 教育可能会使人们知道和理解更多的卫生保健知 识,从而减小患病可能,同时,教育水平高的人在利 用医疗服务生产“健康”时拥有更高的效率,可能节 省医疗服务的投入。但是,由于教育水平高的人对 疾病所带来的风险认识更清楚,在无法确定疾病的 性质时可能会消费更多的医疗服务以尽量消除潜在 的风险。但是,不同类型的教育在此方面的功能未 必相同。城市和农村在很多方面都有区别,城市比 农村有更多更好的基础设施和卫生资源,医疗服务 设施可及性和方便性更佳;城市的自然环境质量可 能比农村差,城市人口一般比农村人口较少进行体 力活动,精神压力可能更大,这些情况都可能会对医 疗需求有影响。人均收入水平虽然不能直接影响医 疗需求,但可以通过饮食结构、居住条件和生活方式 等建立与患病和医疗服务之间的联系;同时,它也反 映一个人在社会中所处的经济阶层,可以通过心理 或精神途径影响一个人的生理健康。
表1OP模型变量的基本统计特征
变量 样奉数 样本均值 最小值 最大值 女性 715l 0.46O l 年龄 715143.2618104农村 71510.630l 在婚 715l O.82O l 变量 变罱值 样本数 比例(%) 低 238033.28
收人水平 中 239433.48
高 237733.24
小学 195327.3l
初中 298341.7l
高中 102714.36
教育水平
中专 6I盯 8.49
大专、本科 5788.08
硕士以上 30.04
无病 614685.95
轻度 3645.09
患病情况
中等 5ll 7.15
严重 1301.82
表1给出了本文OP回归模型中的解释变量和 被解释变量的基本统计特征。其中,家庭人均收入 是按家庭所有成员数平均得来,收入水平低、中、高 三组的年实际收入均值分别为1451.5元、4442.3元 和12914.4元。本文OP回归模型中的被解释变量 是被调查者的患病情况:在被调查的四周内,样本中 没有得过病的人约占86%,得了程度较轻的疾病的 人约占5%,得了中等病情的疾病的人约占7%,得 了重度疾病的人占不到2%。
三、回归结果
为了找到现实中能够影响我国居民医疗需求的 因素,笔者用非参数方法估计了以个人患病情况作 为被解释变量的OP模型。
为选择合适的残差分布函数中参数K的值从 而正确地设定模型,需要把K从3不断提高。因为 低阶K对应的模型是嵌套在高阶K所对应的模型 的,故可以用LR检验来确定合适的K值。
表2汇报了K取不同值时对模型进行半参数 估计并进行LR检验的结果。这里的LR检验有两 种。第一种是K取大于3的值时的模型分别对K =2时对应的普通OP模型的LR检验,表2的第5列报告了它们对应的P值,由此看出:当K分别取 3、4、5时对应的扩展的OP模型是显著异于普通OP 模型的,因此用参数方法对OP模型进行估计是不 合适的,应该用半参数法估计。但是,进行半参数估 计时K的取值应该是多少呢?第二种LR检验,也 就是K阶的扩展OP模型与K-1阶的扩展OP模型 之间的LR检验,就可以用来确定K的取值。表中 第7列报告了K分别取3、4、5时这种LR检验对应 的P值,由此可以看出K取4和5时模型的估计结 果没有显著性差异,但K取3和4时模型的估计结 果存在显著性差异,因此K的最终取值应该是4。 表2K取不同值时的LR检验
对瞢通OP 对K-1阶模
X 对数似然值 自由度 p值 P值 的LR检验 型的LR检验
2—3712.2105
3—37lO.74272.9356l O.08662.9356O.0866 4—3709.07186.27742O.04333.3418O.0675 5—3708.69557.030030.07090.75260.3857在估计OP模型时,为避免多重共线性问题,表 示低收入水平的解释变量和表示教育水平为小学的 解释变量没有放入回归方程中,低收入和教育水平 为初中的人就成了基准或参照。表3报告了估计结
万 方数据
?44? 统计研究 枷8年11月
果。其中,第2至4列给出的是半参数估计结果,后 3列给出的是参数估计法得出的结果,以供对比。 表3OP模型半参数估计及参数估计结果
半参数估计(K=4) 参数估计
解释变量
系数 标准差 P值 系数 标准差 P值 女性 O.0992O.0566O.0800.0740O.03770.050年龄 O.00” O.0116O.8180.OD80O.00740.277年龄平方 0.0003O.000l O.006O.000l O.0()01O.056在婚 —0.0125O.05260.812—O.0085O.03650.816收入水平:中 —0.1085O.0r7cr7O.125一O.06940.0479O.1镐 收入水平:高 一O.0593O.07280.415一O.0454O.04880.353农村 一O.31500.06830.0【】0—0.21130.0399O.000初中 一0.11720.0697O.093一O.07740.04600.092高中 一O.06890.09470.467一O.0532O.06150.387中专 一O.3584O.12580.004—0.11830.0784O.005大专或本科 —0.04400.11710.707一O.0253O.07650.740硕士以上 —6.9074O.31220.000—6.4438287956.21.000偏度 O.08240
峰度 2,20343
标准差 1.7834l
首先看看OP模型的半参数估计结果。从系数 卢的统计显著性可以看出,性别、年龄的平方项、居 住地为农村、教育水平为初中、中专和硕士以上都显 著地影响个人的患病情况,其中,居住在农村、年龄 平方项、中专和硕士以上教育水平都在l%的水平 上显著;年龄、收入水平和教育水平为高中和大专或 本科都不能够显著影响患病情况。从对被解释变量 影响方向和大小来看,女性比男性更容易患病;年龄 和年龄的平方对患病情况也有正向作用;处于在婚 状态可以降低患病机会;中、高收入水平的人比低收 入的人患病的几率下降(一0.1085、一0.0593都是负 数),但是,高收入的人下降幅度小于中等收入水平 的人(一0.1085<一0.0593);农村居民比城市居民 的更不易患病;相对于仅有小学毕业水平的人而言,="" 更高教育水平的人更不容易患病,按下降幅度从高="" 到低排依次是硕士以上、中专、初中、高中、大专或本="" 科,可见并不是教育水平越高就越不容易患病,教育="">一0.0593);农村居民比城市居民>
在本文第一部分已经强调过:OP模型中的系数 p与医疗需求方程式(1)中的系数p是相同的。因 此,可以对各种因素对医疗需求的影响进行类似的 解释,比如,处于在婚状态可以降低个人医疗需求; 中高收入水平的人医疗需求低于低收入水平的人, 但高收入水平人的医疗需求又高于中等收入水平的 人;农村居民比城市居民的医疗需求低;教育水平对 医疗需求有非线性的复杂影响。等等。
对比OP模型的半参数估计和参数估计结果会 发现,两种方法估计所得的系数的符号完全一样,显 著性也很一致(除了“硕士以上”教育水平的显著性 完全相反)。解释变量的系数口的绝对值差别不是 非常大,但半参数估计所得的系数估计值的绝对值 ‘基本都大于参数法的对应值(除了“年龄”的系数以 外)。此外,半参数方法估计出的参差的分布的偏度 和峰度分别是0.0824(右偏)和2.2034(低峰薄尾), 标准差是1.7834,明显不同于标准正态分布所对应 的偏度值0、峰度值3和标准差1。
四、结论和含义
本文以研究医疗需求的影响因素为目标,以个 人潜在医疗需求为潜变量,以表示患病情况的有序 离散变量为被解释变量,建立了OP回归模型,并用 半参数方法进行了估计。从OP模型的半参数估计 得出的结论总结如下:
第一,医疗需求存在着性别之间.的差异,女性高 于男性,且此差异具有统计上的显著性。
第二,就我国的成年居民而言,随着年龄增长个 人对医疗服务的需求会上升。而年龄的二次项对医 疗需求的影响是正的,且具有统计显著性,随着年龄 上升,个人医疗需求增长的速度会加快。这一结论 暗示了人口的年龄结构与国家医疗总费用之间的关 系。在未来的几十年内,我国人口年龄结构的老龄 化会越来越明显,如何筹措、分担日益沉重的医疗费 用负担,是需要提前思考和准备应对的问题。
第三,婚姻状况能够显著影响医疗需求,处于在 婚状态可以降低医疗需求。但是,究竞是处于在婚 状态能够直接使个人在生理上更健康,还是完整的 婚姻生活提高了生活质量进而间接地提高健康水 平?对于这一问题,本文的实证分析无法解答,需要 进一步研究。
第四,相对而言,低收入人群对医疗服务的需求 更多。但这并不表示收入越高对医疗的需求就越 少,高收入的人比中等收入水平的人就要高些。这 可能是因为低收入水平导致生活质量低,对个人健 康不利;而过高的收入水平可能伴随着比较大的精 神压力或者不够健康的生活方式,从而部分抵消了 优越的物质生活对健康的有利影响。不过,收入水 平对医疗需求的影响在统计上还不够显著。
第五,虚拟变量“农村”对患病情况、从而对医疗 需求的影响无论是从其统计显著性还是经济显著性
万 方数据
第25卷第ll期 林相森 艾春荣:我国居民医疗需求影响因素的实证分析 ?45?
来看都很明显,这似乎意味着居住在农村可以显著 降低个人医疗需求。造成这种城乡差别的原因究竟 是什么呢?是自然环境、生活方式、精神压力等方面 的区别吗?本文的实证分析无法给出进一步的解 释。需要注意一点:本文实证分析所使用的被解释 变量“患病情况”并非来自医生的专业判断,而是来 自于入户调查时被调查者的个人判断。整体而言, 医疗保健知识和意识在农村地区的普及程度远不如 城市,农村居民可能会得出错误的判断,过于乐观地 估计自己的患病情况。因此,也许要慎对实证分析 给出的居住在农村可以降低医疗需求这一结论。 第六,教育水平对医疗需求的影响是比较复杂 的,不同的教育类型对于医疗需求的影响有很大不 同。从影响的统计显著性来看,与小学水平相比,初 中、中专和硕士以上的教育水平都可以降低个人医 疗需求;从影响的程度来看,影响最大的依次是硕士 以上、中专、初中、高中、大专或本科。不同的教育类 型对医疗需求的作用机制如何?如何利用这些机制 有效降低个人医疗需求?这些都是需要深入研究的 问题,也是国家制定医疗政策时有必要考虑的问题。 总的来看,本文采用半参数方法估计的OP模 型揭示出了表示个人人口特征和经济社会地位的主 要变量对个人医疗需求的影响,所得的结论主要具 有三方面的现实意义和政策含义:第一,预测我国中 长期医疗费用的走势时,不但要考虑人口总量的变 化,也要考虑人口结构的变化,包括人口学结构和经 济阶层结构的变化,本文的实证研究所提供的结论 在此方面有一定参考借鉴价值。第二,随着我国社 会保障制度、收入分配制度的不断完善和发展,长 期来看。我国居民(尤其是中低收入居民)在进行医 疗服务消费的决策时所面对的预算约束可能会越来 越松,潜在的医疗需求会越来越多地转化成现实的 需求。从潜在医疗需求角度考察各种重要因素对医 疗需求的影响,可以为合理地估算我国医疗费用长 期变化范围提供基础。第三,医疗服务中的平等性 是世界各国医疗制度和医疗体制改革的主要目标之 一,我国也不例外。研究如何降低不同人群的医疗 需求或者更好地满足有更大医疗需求的人群所需要 的医疗服务,都是提高医疗服务中的平等性的可选 办法。本文在此方面可以提供一些有价值的线索, 比如,向低收入、低教育水平和单身居民提供社会医 疗救助,可以更好地满足处于不利状态的群体的医 疗需求,从而提高整个社会的医疗服务平等性。
参考文献
[1]Braveman。P.,E.Tarimo,A.Creese。R.Monaxch,L.Nelson.
Equity in Health and Health Care:a WHO/SIDA Initiative[R]. Geneva:WHO,1996.1.
[2]Gallant。A.Ronald.Douglas N.Nycldm.Semi-Nonparametric Maximum Likelihood Estimation[J].Econometrica,1987(55):363— 390.
【3JMocan,H.Naci,Erdai Tekin,Jeffrey S.Zax.The Demand for Medical Care in Urban China[J].World Development。2004(2):289—304. 【4JStewart,Mark B..A Comparison of Semiparametric Estimators for the
Ordered
Response Model[J].Computational Statistics end Data Analyw,2005(49):555—573.
[5]Wagstaff,Adam.The demand for health:An Empirical Reformulation of the Grossman Model[J].Health Economics,1993(2):189—198. [6]Wagstaff。Adam,Magnus Lindelow.Can Insurance Increase Financial Risk?The CurlOus Case of HealtlI Insurance in China【W].Wodd Bank Policy Research Working Paper 3741。2005.
[7]陈家应,龚幼龙,舒宝刚,严非.卫生服务公平性研究的理论与 现实意义[J].中国卫生资源,2000(4):167—169.
[8]封进,秦蓓.中国农村医疗消费行为变化及其政策含义[J].世 界经济文汇,2006(1):75—88.
[9]高梦滔,姚洋.性别。生命周期与家庭内部健康投资——中国 农户就诊的经验证据[J].经济研究,2004(7):115—125.
[IO]胡琳琳,胡鞍钢.从不公平到更加公平的卫生发展:中国城乡疾 病模式差距分析与建议[J].管理世界,2003(1):78—87.
[11]粱维萍.郑建中,韩颖,覃凯,贺鹭.农村居民收入与医疗服务 需求及其弹性研究[J].中国农村卫生事业管理,2005(10):15— 17.
[12]林相森,舒元.我国居民医疗支出的影响因素分析[J].南方经 济。2007(6):22—30.
[13]林相森.患病概率与医疗消费的城乡不平等[J].华中科技大学 学报(社科版),2007(4):91—94.
[14]赵郁馨、张毓辉、唐景霞、王丽、万泉、陶四海.卫生服务利用公 平性案例研究[J].中国卫生经济,2005(7):5—7.
作者简介
林相森,男,33岁,辽宁沈阳人,2007年毕业于中山大学 岭南(大学)学院,获经济学博士学位,现为华中科技大学经 济学院讲师、博士后,研究方向为卫生经济学、劳动经济学。 艾春荣,男,45岁,湖北浠水人,1990年毕业于美国麻省 理工学院经济系,获经济学博士学位,现为美国佛罗里迭大 学经济系终身教职教授,上海财经大学统计学系主任,上海 财经大学高等研究院常务副院长,研究方向为计量经济学。
(责任编辑:吕忠伟赵曾琪)
万 方数据
probit模型与logit模型
probit 模型与 logit 模型
2013-03-30 16:10:17
probit 模型是一种广义的线性模型。服从正态分布。
最简单的 probit 模型就是指被解释变量 Y 是一个 0,1变量, 事件发生地概率是依赖于解释变量, 即 P (Y=1) =f(X),也就是说 ,Y=1的概率是一个关于 X 的函数,其中 f(.)服从标准正态分布。 若 f (.) 是累积分布函数,则其为 Logistic 模型
Logit 模型(Logit model,也译作 “ 评定模型 ” , “ 分类评定模型 ” ,又作 Logistic regression, “ 逻辑 回归 ” )是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量 心理学、市场营销等统计实证分析的常用方法。
逻辑分布(Logistic distribution)公式
P(Y=1│X=x)=exp(x’β)/1+exp(x’β)
其中参数 β常用极大似然估计。
Logit 模型是最早的离散选择模型,也是目前应用最广的模型。 Logit 模型是 Luce (1959) 根据 IIA 特性首次导出的; Marschark (1960) 证明了 Logit 模型与最大效用理论的一致性; Marley (1965) 研究了模型的形式和效用非确定项的分布之间的关系, 证明了极值分布可以推导出 Logit 形式的模型; McFadden (1974)反过来证明了具有 Logit 形式的模型效用非确定项一定服从极 值分布。
此后 Logit 模型在心理学、社会学、经济学及交通领域得到了广泛的应用,并衍生发展出了 其他离散选择模型, 形成了完整的离散选择模型体系, 如 Probit 模型、 NL 模型 (Nest Logit model) 、 Mixed Logit模型等。模型假设个人 n 对选择枝 j 的效用由效用确定项和随机项两部分构成: Logit 模型的应用广泛性的原因主要是因为其概率表达式的显性特点,模型的求解速度快, 应用方便。 当模型选择集没有发生变化, 而仅仅是当各变量的水平发生变化时 (如出行时间发生 变化),可以方便的求解各选择枝在新环境下的各选择枝的被选概率。根据 Logit 模型的 IIA 特 性, 选择枝的减少或者增加不影响其他各选择之间被选概率比值的大小, 因此, 可以直接将需要 去掉的选择枝从模型中去掉,也可将新加入的选择枝添加到模型中直接用于预测。
Logit 模型这种应用的方便性是其他模型所不具有的,也是模型被广泛应用的主原因之一。 Logit 模型的优缺点
Logit 模型的优点是:
(1)模型考察了对两种货币危机定义情况下发生货币危机的可能性,即利率调整引起的汇率 大幅度贬值和货币的贬值幅度超过了以往的水平的情形,而以往的模型只考虑一种情况。
(2)该模型不仅可以在样本内进行预测,还可以对样本外的数据进行预测。
(3)模型可以对预测的结果进行比较和检验,克服了以往模型只能解释货币危机的局限。 虽然 Logit 模型能够在一定程度上克服以往模型事后预测事前事件的缺陷,综合了 FR 模型 中 FR 概率分析法和 KLR 模型中信号分析法的优点,但是,它只是在利率、汇率等几个主要金 融资产或经济指标的基础上预警投机冲击性货币危机, 与我们所要求的一般货币危机预警还有所 差异。 所以仅用几个指标来定义货币危机从而判断发生货币危机的概率就会存在一定问题, 外债、 进出口、外汇储备、不良贷款等因素对货币危机的影响同样非常重要。
logit 模型也叫 Logistic 模型,服从 Logistic 分布。
probit 模型服从正态分布。
两个模型都是离散选择模型的常用模型。但 logit 模型简单直接,应用更广。
离散选择模型的软件很多,有 limdep , elm 、 nlogit 等。
spss18.0中能做 2元和多元 logit 模型。
stata , sas , guass 都能做 logit 模型。
入门级的软件是 spss 和 elm , 后者可以做多元 logit 和分层 logit 。 但是 elm 必须购买注册号才能
使用。
logistic 回归是直接估计概率,而 logit 模型对概率做了 Logit 转换。不过, SPSS 软件好像将以 分类自变量构成的模型称为 Logit 模型, 而将既有分类自变量又有连续自变量的模型称为 Logistic 回归模型。至于是二元还是多元,关键是看因变量类别的多少,多元是二元的扩展。
其次,当因变量是名义变量时, Logit 和 Probit 没有本质的区别,一般情况下可以换用。区别在 于采用的分布函数不同, 前者假设随机变量服从逻辑概率分布, 而后者假设随机变量服从正态分 布。其实,这两种分布函数的公式很相似,函数值相差也并不大, 唯一的区别在于逻辑概率分布 函数的尾巴比正态分布粗一些。 但是, 如果因变量是序次变量, 回归时只能用有序 Probit 模型。 有序 Probit 可以看作是 Probit 的扩展
首先, 通常人们将 “Logistic 回归 ” 、 “Logistic 模型 ” 、 “Logistic 回归模型 ” 及 “Logit 模型 ” 的称谓相互 通用,来指同一个模型,唯一的区别是形式有所不同:logistic 回归是直接估计概率,而 logit 模 型对概率做了 Logit 转换。不过, SPSS 软件好像将以分类自变量构成的模型称为 Logit 模型, 而将既有分类自变量又有连续自变量的模型称为 Logistic 回归模型。 至于是二元还是多元, 关键 是看因变量类别的多少,多元是二元的扩展。
其次,当因变量是名义变量时, Logit 和 Probit 没有本质的区别,一般情况下可以换用。区别在 于采用的分布函数不同, 前者假设随机变量服从逻辑概率分布, 而后者假设随机变量服从正态分 布。其实,这两种分布函数的公式很相似,函数值相差也并不大, 唯一的区别在于逻辑概率分布 函数的尾巴比正态分布粗一些。 但是, 如果因变量是序次变量, 回归时只能用有序 Probit 模型。 有序 Probit 可以看作是 Probit 的扩展
比较logit 模型和probit 模型
European Journal of Scientific Research
ISSN 1450-216X Vol.27 No.4 (2009), pp.548-553
? EuroJournals Publishing, Inc. 2009
http://www.eurojournals.com/ejsr.htm
The Comparison Logit and Probit Regression Analyses in Estimating the Strength of Gear Teeth
A.A. Shariff
Centre For Foundation Studies In Science, University of Malaya
50603 Kuala Lumpur, Malaysia
E-mail: asma@um.edu.my
A. Zaharim
Faculty of Engineering and Built Environment
K. Sopian
SERI University Kebangsaan Malaysia, Bangi, Selangor, Malaysia
Abstract
Logit and probit are two regression methods which are categorised under Generalized Linear Models. Both models can be used when the response variables in the analyses are categorical in nature. For the case of the strength of gear teeth data, it can be in terms of counted proportions, such as r teeth fail out of n teeth tested. In this paper, the two models, logit and probit are discussed and the methods of analysis are compared for simulated data sets obtained from experimental procedure called staircase design (SCD) experiment. For the analysis, the response variable is the proportion failing and the explanatory variable is the corresponding load. The analysis is also compared with the explanatory variable of logarithm of load. The population distributions of strengths considered are normal and Weibull distribution and 1000 SCD experiments are simulated. The sampling distributions of the various estimators are then compared for bias, standard deviation, and mean squared error for the two contrasting population distributions of strength. It is found that, a regression of the logit on the logarithm of load seems to be the most robust approach if normality of strengths is in doubt.
Keywords:Logit, probit, regression analysis, counted proportion, gear teeth, staircase design.
1. Introduction
For ordinary linear regression, the response variable is always quantitative and continuous in nature. When the response variables are categorical and in particular binary, that is, it can assume only two values (a ‘yes-no’ or ‘fail-survive’) or in terms of counted proportions (r fail out of n tested) we are led to consider some other models which are more appropriate than ordinary linear regression. An important characteristic of data in which the response variables are binary is that the response variables must lie between 0 and 1. Therefore fitting these data using ordinary linear regression can give prediction for the proportion of above one or less than zero, which would be meaningless. On the other
The Comparison Logit and Probit Regression Analyses in Estimating the Strength of Gear Teeth 549
hand what we actually need in this situation is a regression model which will predict the proportion of
occurrences, p (let us call them p instead of y ) at certain levels of x .
For this type of data, in particular, when the response variables are in terms of counted
proportions, the relationship between response variables p and explanatory variables x is a non-linear
curved relationship (S-shaped) curve which is usually called sigmoid . The S-shaped behaviour is very
common in modeling binomial responses as a function of predictors and also makes use of the
assumption that the responses are from underlying binomial or binary distribution. The purpose of
logistic modelling (and also probit) is the same as other modelling techniques used in statistics, that is,
to find a model that fits the data best and is the simplest, yet physically reasonable in describing the
relationship between the response and the explanatory variables [1]. There is little to distinguish
between logit and probit models. Both curves are so similar as to yield essentially identical results. It
was found that probit and logit analysis applied to the same set of data produce coefficient estimates
which differ approximately by a factor of proportionality, and that factor should be about 1.8 [2].
2. Materials and Methods
2.1. Logit Versus Probit Regression Techniques Logit model can be presented as
p Z Z =+exp() exp()
1 (1) where p is the proportion of occurrences, Z =βββ011+++x x k k ... and x x k 1... are the explanatory variables. The inverse relation of equation (1) is
Z p p =??????
ln 1 (2) that is, the natural logarithm of the odds ratio, known as the logit. It transforms p which is restricted to
the range [0, 1] to a range [, ]?∞∞ .
Probit regression analysis involves modeling the response function with the normal cumulative
distribution function. The probit of a proportion p is just the point on a normal curve with mean 0 and
standard deviation 1 which has this proportion to the left of it.
The model can be presented as
Φ?==+++1011() ... p Z x x k k βββ (3) where p is the proportion and Φ?1 is the inverse of the cumulative distribution function of the standard normal distribution. That is,
p Z u du Z ==??∞
∫Φ() exp(/) 122 (4) is the cumulative distribution function of the standard normal distribution.
For logistic and probit regression, the binomial, rather than the normal distribution describes
the distribution of the errors and will be the statistic upon which the analysis is based. The principles
that are used for ordinary linear regression analysis could be adapted to fit both regressions. However,
instead of using least square method to fit the model, for logistic and probit regressions, it is more
appropriate to use maximum likelihood estimate. The likelihood function is given as
L p p i r i m
i n r i i i =?=?∏() 11,
where the p i are defined in terms of the parameters ββ0,..., k and the known values of the predictor
variables. This has to be maximized with respect to the parameters.
550
A. A. Shariff, A. Zaharim and K. Sopian
2.2. Experimental Design Gear teeth are commonly tested by applying oscillatory loads, using a special machine called pulsator-test machine. In the experiment, the test specimen, in this case the gear tooth is subjected to vibrations of a resonant spring/mass system. When this happens, it experiences stresses and crack propagation takes place. Eventually, after certain number of cycles the tooth fails. The number of cycles to failure can then be recorded. If the tooth does not fail after a certain fixed number of cycles, it is considered to have survived in the experiment. The experimental procedure used is the well-known staircase design (SCD). SCD experiment is also known as sensitivity testing or ‘up-and-down’ method [3] where the testing of specimens is made close to the anticipated mean level. In the experiment the first test piece should be tested at a load level assumed to be near the mean value of the fatigue strength. If failure occurs before N cycles, the next test piece is tested at one step, a fixed change in load, below the first load level. Otherwise, the next test at the load one step above the first level. This procedure is continued until all the pieces have been tested. The increment between load levels should be equal for steps up and down and should be approximately one standard deviation of the fatigue strength distribution. Since the data obtained are categorical in nature, particularly in terms of counted proportions, fatigue strength of a gear is then determined by analysing the data obtained using appropriate statistical techniques, in this case logit and probit.
2.3. Analysis For SCD
The results obtained in the experiment are then analysed using logit and compared with probit. The
logit transformation of p is defined by ln(p p
1?, and the lines ln() p p
x 101?=+ββ are fitted, using maximum likelihood. A comparison is made with fitting the line,
ln() ln p p
x 101?=+ββ which is equivalent to assuming a log-normal distribution of strengths.
For probit, results of SCD experiment are analysed by fitting the line
Φ?=+101() p x ββ
where p is the proportion failing and x is the corresponding load. This is equivalent to assuming a normal distribution of strengths. Then a comparison is made with
Φ?=+101() ln p x ββ
The estimated mean fatigue strength, μ, and the lower 1% point of the distribution of fatigue
strength, . x 099, are the values of x corresponding to p =05. and p =001. respectively. The standard
deviation can be estimated from ( ) /. . σμ=?x 099233 .
The methods of analysis have been compared for simulated data sets. The population distribution of strengths is specified and 1000 SCD experiments are simulated. The sampling distributions of the various estimators can thus be compared for bias, standard deviation, and mean squared error. Two contrasting population distributions of strength are considered:
(i). normal distribution with mean of 20.0 and standard deviation of 2.0;
(ii).
W eibull distribution [4 – 6], which has a cumulative distribution function F(x) defined by Pr() () exp[(/) ]X x F x x b c <>
with shape parameter, c = 2, and scale parameter, b = 22.56. These parameter values correspond to a mean of 20 and standard deviation of 10.45. The probability density functions of both distributions are plotted in Figure 1. The Weibull distribution has a substantial area near zero. This might be realistic for
The Comparison Logit and Probit Regression Analyses in Estimating the Strength of Gear Teeth 551
the strength of a component being tested under extreme conditions, as in an accelerated testing programme. It could also be interpreted as strength above some minimum value.
Figure 2: Probability density function of normal (, . ) μσ==2020 and Weibull (, .45) μσ==2010
distribution
In the simulation, each SCD used 50 test specimens. There are 1000 independent SCD experiments within a simulation. Each specimen put on test is randomly selected from the 50 specimens. For the normal distribution the load increment is chosen to be 2, while for the Weibull distribution it is chosen to be 6, since the standard deviation for this distribution is larger.
Results obtained from the above experiments are analysed using logit and then compared with probit analyses for each distribution. The means and standard deviations of the estimated mean, standard deviation and lower 1% point of the strength distribution are computed from 1000 SCD experiments for each distribution.
These results are tabulated in Table 1; the standard deviations of these statistics are shown in brackets, and the root mean square error (RMSE) is also calculated using the formula
552
A. A. Shariff, A. Zaharim and K. Sopian Table 1:
Results of Staircase Experiments Analysed by Probit and Logit Regression Techniques with the load on a linear scale for Each Distribution.
RMSE (standard deviation)(bias)22=+
where, bias = (actual value - mean of estimated value).
These RMSE values are presented in square brackets. Table 2 shows results for the logit and probit analysis using a logarithmic scale for load.
Table 2: Results of Staircase Experiments Analysed by Probit and Logit Regression Techniques with the load
on a logarithmic scale for Each Distribution
The Comparison Logit and Probit Regression Analyses in Estimating the Strength of Gear Teeth 553 3. Results and Discussion
Table 1 indicates that for load on linear scale, results obtained by probit analysis are more realistic with less error as compared to logit for normal distribution of strength. Logit analysis appears to overestimate the standard deviation and hence underestimate the lower one percent point of the distribution. However, for the Weibull distribution, which has a large standard deviation, both methods predict negative lower 1% points which are physically impossible.
Regressing the sample probit against the logarithm of load (refer to Table 2) gives estimates with a smaller standard deviation and, somewhat surprisingly, a slightly smaller mean squared error. Regressing logit of the sample proportion against the logarithm of load is a slight improvement on the probit analysis and a
considerable improvement on a regression of logit against load.
When sampling from both normal and Weibull distributions the regression of the logit against the logarithm of load gives an estimate of the lower 1% point with the smallest mean squared error. Overall, a regression of the logit on the logarithm of load seems to be the most robust approach if normality of strengths is in doubt.
References
[1]Hosmer, D.W., & Lemeshow, S. (1989). Applied Logistic Regression. Wiley Series in Probability and Mathematical Science. Wiley-Interscience Publication.
[2]Aldrich, J.H. & Nelson, F.D. (1984). Linear Probability, Logit and Probit Models. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-045. Beverly Hills and London: Sage Pubns.
[3]Lloyd, D. K., & Lipow, M. (1989). Reliability: managements, methods, and mathematics (Second ed.). American Society for Quality Control.
[4]ISO/CD 12107. (1997). Draft for Public Comment, Metallic Materials - Fatigue Testing - Statistical Planning and Analysis of Data, British Standard Institution.
[5]Weibull, W. (1961). Fatigue Testing and the Analysis of Results. Pergamon Press. Oxford. [6]Crowder, M.J., Kimber, A.C., Smith, R.L. & Sweeting, T.J. (1991). Statistical Analysis of Reliability Data. Chapman and Hall.
转载请注明出处范文大全网 » 有序probit模型在中国股票市场的检验
3000=115>60%=17>3000=1,>