范文一:偏相关系数概述
相关系数:在多要素所构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视作常数(保持不变),即暂时不考虑其他要素影响,单独研究两个要素之间的相互关系的密切程度,所得数值结果为相关性系数。
简单相关系数:又叫相关系数或线性相关系数. 它一般用字母r 表示. 它是用来度量定量变量间的线性相关关系.
复相关系数:又叫多重相关系数,复相关是指因变量与多个自变量之间的相关关系. 例如, 某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系.
偏相关系数(第一种表述):又叫部分相关系数:部分相关系数反映校正其它变量后某一变量与另一变量的相关关系, 校正的意思可以理解为假定其它变量都取值为均数. 即:偏相关系数是在控制了一些列其他变量的影响之后计算出的两变量之间的相关系数
偏相关系数(第二种表述):Partial correlation coefficient,在多元回归分析中,在消除其他变量影响的条件下,所计算的某两变量之间的相关系数。
偏相关系数的假设检验等同于偏回归系数的t 检验. 复相关系数的假设检验等同于回归方程的方差分析.
偏相关系数的好处,目的在于:在多元相关分析中,简单相关系数可能不能够真实的反映出变量X 和Y 之间的相关性,因为变量之间的关系很复杂,它们可能受到不止一个变量的影响。这个时候偏相关系数是一个更好的选择。
范文二:相关系数与偏相关系数在相关分析中的应用
2003年6月云南财贸学院学报June, 2003
第19卷 第3期Journal of Yunnan University of Finance and Economics Vol. 19 No. 3
相关系数与偏相关系数在相关分析中的应用
严丽坤
(云南财贸学院统计信息学院, 云南昆明650221)
X
摘 要:在相关分析中, 通常利用相关系数来分析或测定这些变量之间的线性相关程度, 然而, 简单相关系数受其他因素的影响, 反映的往往是非本质的联系。要准确地反映两个经济变量之间的内在联系, 需要计算偏相关系数。通过偏相关系数与相关系数的比较, 来确定这两个变量之间的内在线性联系会更真实, 更可靠。
关键词:相关分析; 相关系数; 偏相关系数
中图分类号:F222 文献标识码:A 文章编号:1007-5585(2003) 03-0078-03
Application of Correlation Coefficient and Biased
Correlation Coefficient in Related Analysis
YAN Li-kun
(Statistics and In formation School , Y unnan University o f Finance and Economics, Kunming 650221, China )
Abstract:In the related analysis, the correlation coefficient is generally used to analyze and de ter -mine the linear . s related degrees of variables. Because it is affected by other fac tors, what the simple correlation coefficient reflec ts is not the essence of relations. In order to reflec t e xac tly the internal rela -tions between the two economic variables, it needs calculating the biased c orrelation coefficient. B y comparison with biased correlation c oefficient and correlation coefficient, it will be more real and rel-i able to de ter mine the internal linear relations between the two variables.
Key Words:Related Analysis; Correlation Coefficient; Biased Correlation Coefficient
相关分析是处理变量与变量之间关系的一种统计方法。近年来这种统计方法已广泛应用于经济学、医学、生物学、社会学等诸多领域, 并取得了一定实效。从所处理的变量多少来看, 如果研究的是两个变量间的关系称为简单相关; 如果研究的是两个以上变量间的关系称为多元相关。从变量之间的关系形式上看, 有线性相关分析及非线性相关分析。从统计思想和方法来看, 线性相关是最基本的方法。
在相关分析中, 通常利用两个变量之间的简单相关系数和一个变量与多个变量之间的复相关系数来分析或测定这些变量之间的线性相关程度, 并据此进行线性回归分析、预测和控制等。相关系数r 绝对值愈大(愈接近1) , 表明变量之间的线性相关程度愈高; 相关系数绝对值愈小, 表明变量之间的线性相关程度愈低。相关系数为零时, 表明变量之间不存在线性相关关系。故此, 人们通常利用相关系数的大小来解释变量间相互关系的大小。例如, 以云南省人均收入与人均食品支出为资料计算最为简单的恩格尔函数所表明的在商品价格不变的条件下食品支出与收入水平的关系(如表1所示) :
X 收稿日期:2003-01-16
作者简介:严丽坤(1963) ) , 女, 浙江江山人, 云南财贸学院讲师, 主要从事统计理论与统计教学研究。
严丽坤:相关系数与偏相关系数在相关分析中的应用
以食品支出为Y 、人均收入为X 作相关性检验, 得r XY =0. 96465, 相应的概率值p=0. 0001<0. 05="A" 。这说明人均收入的增长与食品支出的增长程度呈高度正相关。为定量分析收入增长对食品支出的影响,="" 对两者进行回归分析,="" 得线性回归方程:="" y="" t="362." 6418+0.="" 29425x="">0.>
经检验人均收入与食品支出之间的线性关系极其显著。在不考虑其他因素的情况下, 收入每提高一个单位, 食品支出将增加0. 29425元; 362. 6418表示即使在收入为0的情况下, 食品支出也需要362. 64元。食品支出在总收入中平均所占Y T 比重为: =362. 6418/X T +0. 29425
X T
表1 云南省人均收入、人均食品支出年份19911992199319941995199619971998199920002001
人均收入(元) 1703. 162061. 742639. 073433. 974064. 934977. 955558. 296042. 786178. 686324. 646797. 71
人均食品支出(元)
763. 84861. 61066. 991441. 931808. 711971. 542109. 532222. 582194. 252091. 72105. 66
资料来源:5云南统计年鉴6(2002) , 中国统计出
版社。
T
上式中的即所谓的恩格尔系数。显而易见, 在此, 恩格尔系数会随着X T 的增加而递减。这与德国
X T
统计学家恩格尔提出的反映食品支出与收入水平之间关系的恩格尔定律的结论是一致的。在这里, 相关系数r=0. 96465, 既表明了收入增长与食品支出关系, 又反映了收入增长与食品支出具有内在的线性联系的程度。
然而, 简单相关系数受其他因素的影响, 反映的往往是表面的非本质的联系。例如, 一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论, 在一定收入水平下, 该商品的价格越高, 商品的需求量就越小。也就是说, 需求与价格之间应当是负相关。可是, 在现实经济生活中, 由于收入和价格常常都有不断提高的趋势, 如果不考虑收入对需求的影响, 仅仅利用需求和价格的时间序列数据去计算简单相关系数, 就有可能得出价格越高需求越大的错误结论。
高度相关并不意味着因果性。如果观察到样本相关系数具有某个大的正值或负值, 就作结论说x 的变化引起了y 的变化, 这是错误的。以云南省GDP 和全省年末人口数资料(表2) 来说明: 众所周知, GDP 是衡量经济的重要指标, 其数值的大小受众多因素的影响。如果GDP 为A 、年末人口数为B 进行相关性分析, 则r AB =0. 9816, 且p=0. 0001<0. 05="A" 。这意味着人口b="" 与国内生产总值a="" 之间存在高度正相关,="" 亦即b="" 越大,="" a="" 也越大。如果我们把这个高度正相关理解为这两个变量内在联系或因果关系,="" 就会得出这样的结论:要想提高云南省的gdp,="" 只需大量增加人口。这无论从经济理论还是从日常生活哲理来说都是极其荒谬的。我们认为人口和gdp="" 之间不应该有什么本质的内在联系。但是,="" 是什么原因导致人口与国民收入具有如此高度的正相关关系呢?="" 只要我们认真研究就会发现,="" 人口与gdp="" 都与另外一个变量)="" )="" )="" 时间t="" 有联系,="">0.>
年份1991
1992199319941995199619971998199920002001
表2 云南省GDP 、年末人口数
GDP(亿元) 517. 41
618. 69779. 21973. 971206. 681491. 621644. 231793. 91855. 741955. 092074. 71
年末人口数(万人)
3782. 13831. 63885. 23939. 23989. 64041. 54094. 04143. 84192. 44240. 84287. 4
资料来源:5云南统计年鉴6(2002) , 中国统计出
版社。
云南财贸学院学报
的变化而变化, 而且都是同方向变化的。我们计算人口与时间T 的相关系数r BT =0. 9865, 国民生产总值A 与时间T 的相关系数r AT =0. 988。可以看出人口与GDP 都与时间T 高度正相关。正是由于人口和GDP 都与时间高度正相关, 所以才导致人口与国民收入之间高度正相关。这就告诉我们, 两个经济变量之间的高度相关关系, 有时并不是这两个经济变量本身的内在联系所决定的, 它完全可能由另外一个变量的媒介作用而形成高度相关。所以, 我们绝不能只根据相关系数很大, 就认为两者经济变量之间有直接内在的线性联系。此时要准确地反映两个经济变量之间的内在联系, 就不能简单的计算相关系数, 而是需要考虑偏相关系数。
偏相关系数是在对其他变量的影响进行控制的条件下, 衡量多个变量中某两个变量之间的线性相关程度的指标。所以, 用偏相关系数来描述两个经济变量之间的内在线性联系会更合理、更可靠。偏相关系数不同于简单相关系数。在计算偏相关系数时, 需要掌握多个变量的数据, 一方面考虑多个变量之间可能产生的影响, 另一方面又采用一定的方法控制其他变量, 专门考察两个特定变量的净相关关系。在多变量相关的场合, 由于变量之间存在错综复杂的关系, 因此偏相关系数与简单相关系数在数值上可能相差很大, 有时甚至符号都可能相反。
偏相关系数的取值与简单相关系数一样, 相关系数绝对值愈大(愈接近1) , 表明变量之间的线性相关程度愈高; 相关系数绝对值愈小, 表明变量之间的线性相关程度愈低。例如, 我们以上讨论的人口与GDP 的关系, 如果令时间T 不变, 计算人口与GDP 的偏相关系数为r AB. T =0. 2743, 且P=0. 4431>0. 05=A 。由此可以看出, 如果去掉时间的因素, 人口与GDP 之间的偏相关系数很小, 即如果固定时间不变, 人口与GDP 之间的关系是微弱的, 且经检验人口与GDP 之间没有什么内在的必然的线性联系。人口越多未必GDP 越高, 这是比较合乎实际的。
由以上的实例可以看出, 在相关分析中, 我们切不可只根据相关系数很大, 就认为两个经济变量之间有内在的线性联系或因果关系。因为相关系数只表明两个变量的共变联系, 尽管这种共变联系有时也体现了两个变量的内在联系(如物价与需求量) , 但在很多情况下, 这种共变联系是由某个或某些变量的变化所引起的。所以, 我们在研究经济变量之间的相关关系时, 当由样本计算的两个变量的相关系数很大时, 我们要认真检查一下这种相关是否与经济理论和经济意义相符合; 如果不符, 一定是由于其他变量的变化所引起的。这时, 我们就需要研究和探索引起这两个变量高度相关的变量; 去掉这些变量变化的影响因素, 计算偏相关系数, 最后确定这两个变量之间的内在线性联系。当我们研究多个经济变量时, 有时计算其中两个变量的相关系数与经济理论和经济意义相符。但由于其他变量影响的作用, 这个相关系数可能扩大或缩小了这两个变量之间的真实联系, 这时, 通过偏相关系数与相关系数的比较, 来确定这两个变量之间的内在线性联系会更真实, 更可靠。所以, 在相关分析中, 我们除了使用相关系数以外, 还应该使用偏相关系数, 这是非常重要, 也是十分必要的。参考文献:
[1] 袁卫, 庞皓, 曾五一1统计学[M].北京:高等教育出版社, 2000. [2] 云南省统计局1云南统计年鉴[Z].北京:中国统计出版社, 2002.
责任编辑、校对:李品秀
范文三:相关系数与偏相关系数在相关分析中的应用
2003年6月云南财贸学院学报June,2003第19卷第3期JournalofYunnanUniversityofFinanceandEconomicsV01.19No.3
相关系数与偏相关系数在相关分析中的应用+
产丽垮
(云南财贸学院统计信息学院,云南昆明650221)
摘要:在相关分析中,通常利用相关系数来分析或测定这些变量之间的线性相关程度,然而,简单相
关系数受其他因素的影响。反映的往往是非本质的联系。要准确地反映两个经济变量之间的内在联系.需要计算偏相关系教。通过偏相关系数与相关系数的比较,柬确定连两个变量之间的内在线性联系套更真实。曼可靠。
关键词:相关分析;相关系数;偏相关系数
中图分类号:F222文献标识码:A文章编号:1007—5585(2003)03—0078—03
AppHcationofCorrelationCoefficientandBiased
CorrelationCoefflcientinRelatedAnalysis
YANLi—kun
(StatisticsandInformationSchool,YtmnanUnivemityo,FinatweandEconomics,16㈣ning650221,Ch/rm)
Abstract:Intherelatedanalysis,thecorrelationcoefficientisgenerallyusedtoanalyzeand
determinethelinear’relateddegreesofvadables.Becauseitisaffectedbyotherfactors,whatthesimplecorl-elatloncoefficientreflectsisnottheessenceofrelations.Inordertoreflectexactly吐leintemalrelationsbetweanthetwoeconomicvariables,itneedscalculatingthebhsedcurrelationeoemciem.Bvparisonwitllbiasedeorreladoncoefficientandcorrelationeoefficient.itwillhemorerealandteliabhtodeterminetheinternallinearrelationsbetweenthetwovariables.
KeyWords:RelatedAnalysis;CorrelationCoefficient;BiasedCorrelationCoefficient
相关分析是处理变量与变量之间关系的一种统计方法。近年来这种统计方法已广泛应用于经济学、医学、生物学、社会学等诸多领域,并取得了一定实效。从所处理的变最多少来看,如果研究的是两个变量间的关系称为简单相关;如果研究的是两个以上变量问的关系称为多元相关。从变量之间的关系形式上看,有线性相关分析及非线性相关分析。从统计思想和方法来看,线性相关是最基本的方法。
在相关分析中,通常利用两个变量之间的简单相关系数和一个变量与多个变虽之间的复相关系数来分析或测定这些变量之间的线性相关程度,并据此进行线性回归分析、预测和控制等。相关系数r绝对值愈大(愈接近1),表明变最之间的线性相关程度愈高;相关系数绝对值愈小,表明变量之问的线性相关程度愈低。相关系数为零时,表明变量之间不存在线性相关关系。故此,人们通常利用相关系数的大小来解释变量间相互关系的大小。例如,以云南省人均收入与人均食品支出为资料计算最为简单的恩格尔函数所表明的在商品价格不变的条件下食品支出与收入水平的关系(如表1所示):
+收稿日期:2003一01—16
作者简介:严丽坤(1963一),士,浙江江山人,云南对贸学院讲师。主要从事统计理论与兢计教学研究。-78?
严丽坤:相关系数与偏相关系数在相关分析中的应用
以食品支出为Y、人均收人为x作相关性检表1云南省人均收入、人均食品支出
验,得rxY=0.96465,相应的概率值P=0.00010.05=a。由此可以看出,如果去掉时间的因素,人口与GDP之间的偏相关系数很小,即如果固定时间不变,人口与GDP之间的关系是微弱的,且经检验人口与GDP之间没有什么内在的必然的线性联系。人I:3越多未必GDP越高,这是比较合乎实际的。
由以上的实例可以看出,在相关分析中,我们切不可只根据相关系数很大,就认为两个经济变量之间有内在的线性联系或因果关系。因为相关系数只表明两个变量的共变联系,尽管这种共变联系有时也体现了两个变量的内在联系(如物价与需求量),但在很多情况下,这种共变联系是由某个或某些变量的变化所引起的。所以,我们在研究经济变量之间的相关关系时,当由样本计算的两个变量的相关系数很大时,我们要认真检查一下这种相关是否与经济理论和经济意义相符合;如果不符,一定是由于其他变量的变化所引起的。逸时,我们就需要研究和探索引起这两个变量高度相关的变量;去掉这些变量变化的影响因素,计算偏相关系数,最后确定这两个变量之间的内在线性联系。当我们研究多个经济变量时,有时计算其中两个变量的相关系数与经济理论和经济意义相符。但由于其他变量影响的作用,这个相关系数可能扩大或缩小了这两个变量之间的真实联系,这时,通过偏相关系数与相关系数的比较,来确定这两个变量之间的内在线性联系会更真实,更可靠。所以,在相关分析中,我们除了使用相关系数以外。还应该使用偏相关系数,这是非常重要,也是十分必要的。
参考文献:
[1]袁卫,庞皓,曾五一.统计学[M].北京:高等教育出版社,2000.
[21云南省统计局.云南统计年鏊[z1.北京:中国统计出版社,2002
责任编辑、校对:李品秀
80?
相关系数与偏相关系数在相关分析中的应用
作者:
作者单位:
刊名:
英文刊名:
年,卷(期):
被引用次数:严丽坤云南财贸学院,统计信息学院,云南,昆明,650221云南财贸学院学报JOURNAL OF YUNNAN UNIVERSITY OF FINANCE AND ECONOMICS2003,19(3)34次
参考文献(2条)
1.袁卫;庞皓;曾五一 统计学 2000
2.云南省统计局 云南统计年鉴 2002
本文读者也读过(4条)
1. 王海燕.杨方廷.刘鲁 标准化系数与偏相关系数的比较与应用[期刊论文]-数量经济技术经济研究2006,23(9)
2. 姚俊.YAO Jun 半偏相关系数的计算公式及其应用[期刊论文]-常州工学院学报2010,23(5)
3. 李钢 关于偏相关系数计算思想的思考[期刊论文]-商场现代化2008(8)
4. 许婧婧.刁承泰.何丹.XU Jing-jing.DIAO Cheng-tai.HE Dan 我国特大城市建设用地的驱动力研究[期刊论文]-国土资源科技管理2005,22(5)
引证文献(34条)
1.姚俊 半偏相关系数的计算公式及其应用[期刊论文]-统计与决策 2011(2)
2.姚俊 半偏相关系数的计算公式及其应用[期刊论文]-常州工学院学报 2010(5)
3.冯毅.张瑾 重庆市直辖以来卫生资源发展相关分析研究[期刊论文]-中国卫生经济 2007(2)
4.赵明扬.孙长忠.康磊 偏相关系数在林冠截留影响因子分析中的应用[期刊论文]-西南林业大学学报 2013(2)
5.张金宝.王清连.胡根海.张志勇.李成奇.付远志 国审棉新品种百棉1号产量构成因素分析及高产探讨[期刊论文]-种子 2010(3)
6.章玲.周德群 改进的BP算法在数据相关性检验中的应用[期刊论文]-统计与决策 2005(12)
7.王海燕.杨方廷.刘鲁 标准化系数与偏相关系数的比较与应用[期刊论文]-数量经济技术经济研究 2006(9)
8.段金菊.尹冬虹.何志强.宋艳.王芳芳 不同统计方法对1998-2010年鲍曼不动杆菌耐药率与抗菌药物使用相关性研究[期刊论文]-中国执业药师 2011(6)
9.吴明坤 论偏相关分析在英语教学中的应用[期刊论文]-滁州学院学报 2006(1)
10.张绍礼.姜少英 我国冬季两项女子运动员体能监测体系的构建研究[期刊论文]-沈阳体育学院学报 2013(3)
11.张丹.王知松 主成分分析法在辣椒粉风味评价中的应用[期刊论文]-商品与质量·焦点关注 2012(4)
12.彭家宇.魏国胜.周恒.朱杰.许自成.毕庆文.黎根 湖北咸丰烟区不同海拔生态因素和烟叶化学成分的综合评价
[期刊论文]-安徽农业科学 2010(16)
13.朱杰.赵会纳.郭燕.王得强.程亮.许自成 河南烟区植烟土壤养分状况综合评价[期刊论文]-郑州轻工业学院学报(自然科学版) 2009(1)
14.李蔚.戴宝生.卢华平.南策雄.易黎.张登科.黄晓丽.陈晓伟.黎青.吴亚宏 冈杂棉8号产量构成因子分析及高产栽培主攻方向[期刊论文]-湖北农业科学 2011(24)
15.李炳华.朱霁平.小出治.彭晨 城市火灾风险表征量及其与社会经济因素的多元相关性分析——以日本2005年统计数据为例[期刊论文]-安全与环境学报 2010(6)
16.朱建东.王伟.李哲.崔秀珍 陆地棉主要产量性状相关及遗传参数分析[期刊论文]-湖北农业科学 2012(11)
17.李峰.欧世金.何新华.潘介春 '吉尔'杧果秋梢生长规律及母枝质量与开花的关系[期刊论文]-中国农学通报2011(8)
18.耿志强.杨科.韩永明.顾祥柏 基于数据驱动有向图和高阶统计的控制系统故障检测方法#[期刊论文]-新型工业化 2013(11)
19.张现国.汪慧贞.王俊岭.韩伟.李爽 供水管网漏损评价指标筛选与计算实例[期刊论文]-给水排水 2011(1)
20.张秀梅.张征.安保利.丰满.朱凌.隋丽丽 基于CVM的鄂尔多斯沙棘景观服务价值评估[期刊论文]-生态科学2010(6)
21.张秀梅.张征.丰满.朱凌.隋丽丽 基于CVM的鄂尔多斯沙棘景观服务价值评估[期刊论文]-国际沙棘研究与开发2010(3)
22.赵锋.郭爱煌 基于网络层次分析法的无线自组网性能评估指标研究[期刊论文]-传感技术学报 2011(1)
23.高维常.许冬青.袁有波.张骏.王智明.潘文杰.张长华.邹焱 申湄基地烤烟主要化学成分与吸食品质的关系[期刊论文]-贵州农业科学 2011(5)
24.张川.娄祝坤.甘甜 政府审计效能对审计工作成果的影响研究——来自中国省级审计机关的经验证据[期刊论文]-会计与经济研究 2013(3)
25.叶春.李春华.王秋光.陈小刚 大堤型湖滨带生态系统健康状态驱动因子——以太湖为例[期刊论文]-生态学报2012(12)
26.郭毅.赵景波 咸阳市建国60年来耕地利用因素与粮食生产相关分析[期刊论文]-干旱地区农业研究 2010(5)
27.李强 基于偏相关分析的区域植被覆盖变化[期刊论文]-安徽农业科学 2012(25)
28.孙丽.吴全.裴志远.潘家文 温度植被干旱指数(TVDI)与多因子关系研究[期刊论文]-地理与地理信息科学2010(2)
29.宫恒瑞 1981-2010年乌昌地区20 cm蒸发皿蒸发量变化原因分析[期刊论文]-干旱区研究 2013(5)
30.姜春.钱乐祥.吴志峰.文雅.邓南荣 基于小波变换的土壤有机碳与其影响因子多尺度相关分析[期刊论文]-应用生态学报 2013(12)
31.魏国胜.周恒.朱杰.彭家宇.王欣.黎妍妍.任晓红.杨寒文.许自成 土壤pH值对烟草根茎部病害的影响[期刊论文]-江苏农业科学 2011(1)
32.张远东.张笑鹤.刘世荣 西南地区不同植被类型归一化植被指数与气候因子的相关分析[期刊论文]-应用生态学报 2011(2)
33.李向婷.白洁.李光录.罗格平.古丽·加帕尔.李均力 新疆荒漠稀疏植被覆盖度信息遥感提取方法比较[期刊论文]-干旱区地理 2013(3)
34.叶春.李春华.王秋光.陈小刚 大堤型湖滨带生态系统健康状态驱动因子——以太湖为例[期刊论文]-生态学报2012(12)
引用本文格式:严丽坤 相关系数与偏相关系数在相关分析中的应用[期刊论文]-云南财贸学院学报 2003(3)
范文四:相关系数与偏相关系数在相关分析中的应用
Ξ 相关系数与偏相关系数在相关分析中的应用
严丽坤
()云南财贸学院 统计信息学院 ,云南 昆明 650221
摘 要 :在相关分析中 ,通常利用相关系数来分析或测定这些变量之间的线性相关程度 ,然而 ,简单相 关系数受其他因素的影响 ,反映的往往是非本质的联系 。要准确地反映两个经济变量之间的内在联系 ,需 要计算偏相关系数 。通过偏相关系数与相关系数的比较 ,来确定这两个变量之间的内在线性联系会更真
实 ,更可靠 。
关键词 :相关分析 ;相关系数 ;偏相关系数
中图分类号 : F222 文献标识码 :A 文章编号 :1007 - 5585 (2003) 03 - 0078 - 03
Application of Correlation Coeff icient and Bia sed
Correlation Coeff icient in Related Analysis
YAN Li - kun
( )Statistics and Inf ormation School , Yunnan University of Finance and Economics , Kunming 650221 , China
Abstract :In the related analysis , the correlation coefficient is generally used to analyze and deter2 mine the linear’s related degrees of variables. Because it is affected by other factors , what the simple correlation coefficient reflects is not the essence of relations. In order to reflect exactly the internal rela2 tions between the two economic variables , it needs calculating the biased correlation coefficient . By comparison with biased correlation coefficient and correlation coefficient , it will be more real and reli2 able to determine the internal linear relations between the two variables.
Key Words :Related Analysis ; Correlation Coefficient ; Biased Correlation Coefficient 相关分析是处理变量与变量之间关系的一种统计方法 。近年来这种统计方法已广泛应用于经济 学 、医学 、生物学 、社会学等诸多领域 ,并取得了一定实效 。从所处理的变量多少来看 ,如果研究的是 两个变量间的关系称为简单相关 ;如果研究的是两个以上变量间的关系称为多元相关 。从变量之间
的关系形式上看 ,有线性相关分析及非线性相关分析 。从统计思想和方法来看 ,线性相关是最基本的
方法 。
在相关分析中 ,通常利用两个变量之间的简单相关系数和一个变量与多个变量之间的复相关系 数来分析或测定这些变量之间的线性相关程度 ,并据此进行线性回归分析 、预测和控制等 。相关系数
() r 绝对值愈大 愈接近 1,表明变量之间的线性相关程度愈高 ;相关系数绝对值愈小 ,表明变量之间的 线性相关程度愈低 。相关系数为零时 ,表明变量之间不存在线性相关关系 。故此 ,人们通常利用相关 系数的大小来解释变量间相互关系的大小 。例如 ,以云南省人均收入与人均食品支出为资料计算最
() 为简单的恩格尔函数所表明的在商品价格不变的条件下食品支出与收入水平的关系 如表 1 所示:
Ξ 收稿日期 :2003 - 01 - 16
作者简介 :严丽坤 (1963 —) ,女 ,浙江江山人 ,云南财贸学院讲师 ,主要从事统计理论与统计教学研究 。
?78 ?
严丽坤 :相关系数与偏相关系数在相关分析中的应用
表 1 云南省人均收入 、人均食品支出 以食品支出为 Y、人均收入为 X 作相关性检
验 ,得 r= 0 . 96465 , 相应的概率值 p = 0 . 0001 < xy="" ()()年份="" 人均收入="" 元="" 人均食品支出="" 元="">
α0 . 05 =。这说明人均收入的增长与食品支出的 1991 1703. 16 763. 84 增长程度呈高度正相关 。为定量分析收入增长对 1992 2061. 74 861. 6 食品支出的影响 ,对两者进行回归分析 ,得线性回 1993 2639. 07 1066. 99 归方程 : Y= 362 . 6418 + 0 . 29425X T T1994 3433. 97 1441. 93
经检验人均收入与食品支出之间的线性关系 1995 4064. 93 1808. 71 极其显著 。在不考虑其他因素的情况下 ,收入每 1996 4977. 95 1971. 54
1997 5558. 29 2109. 53 提高一个单位 ,食品支出将增加 0 . 29425 元 ; 362 .
1998 6042. 78 2222. 58 6418 表示即使在收入为 0 的情况下 ,食品支出也
1999 6178. 68 2194. 25 需要 362 . 64 元 。食品支出在总收入中平均所占
2000 6324. 64 2091. 7
2001 6797. 71 2105. 66
( ) 资料来源 《: 云南统计年鉴》2002,中国统计出 Y T比重为 : = 362 . 6418/ X+ 0 . 29425版社 。 T XT
Y T上式中的 即所谓的恩格尔系数 。显而易见 ,在此 ,恩格尔系数会随着 X的增加而递减 。这与德国 T XT
统计学家恩格尔提出的反映食品支出与收入水平之间关系的恩格尔定律的结论是一致的 。在这里 , 相关系数 r = 0 . 96465 ,既表明了收入增长与食品支出关系 ,又反映了收入增长与食品支出具有内在的 线性联系的程度 。
然而 ,简单相关系数受其他因素的影响 ,反映的往往是表面的非本质的联系 。例如 ,一种商品的 需求既受收入水平的影响又受其价格的影响 。按照经济学理论 ,在一定收入水平下 ,该商品的价格越 高 ,商品的需求量就越小 。也就是说 ,需求与价格之间应当是负相关 。可是 ,在现实经济生活中 ,由于 收入和价格常常都有不断提高的趋势 ,如果不考虑收入对需求的影响 ,仅仅利用需求和价格的时间序 列数据去计算简单相关系数 ,就有可能得出价格越高需求越大的错误结论 。
高度相关并不意味着因果性 。如果观察到样本相关系数具有某个大的正值或负值 ,就作结论说
() x 的变化引起了 y 的变化 ,这是错误的 。以云南省 GDP 和全省年末人口数资料 表 2来说明 :
众所周知 , GDP 是衡量经济的重要指标 ,其数
表 2 云南省 GDP、年末人口数 值的大小受众多因素的影响 。如果 GDP 为 A 、年
末人口数为 B 进行相关性分析 ,则 r= 0 . 9816 , AB )()(GDP 亿元 年末人口数 万人 年份
α且 p = 0 . 0001 < 0="" .="" 05="。这意味着人口" b="" 与国内="" 1991="" 517.="" 41="" 3782.="" 1="" 生产总值="" a="" 之间存在高度正相关="" ,亦即="" b="" 越大="" ,a="" 1992="" 618.="" 69="" 3831.="" 6="" 也越大="" 。如果我们把这个高度正相关理解为这两="" 1993="" 779.="" 21="" 3885.="" 2="" 个变量内在联系或因果关系="" ,就会得出这样的结="" 1994="" 973.="" 97="" 3939.="" 2="" 论="" :要想提高云南省的="" gdp="" ,只需大量增加人口="" 。="" 1995="" 1206.="" 68="" 3989.="" 6="" 这无论从经济理论还是从日常生活哲理来说都是="" 1996="" 1491.="" 62="" 4041.="" 5="" 极其荒谬的="" 。我们认为人口和="" gdp="" 之间不应该="" 1997="" 1644.="" 23="" 4094.="" 0="" 有什么本质的内在联系="" 。但是="" ,是什么原因导致="" 1998="" 1793.="" 9="" 4143.="" 8="">
1999 1855. 74 4192. 4 人口与国民收入具有如此高度的正相关关系呢 ?
2000 1955. 09 4240. 8 只要我们认真研究就会发现 ,人口与 GDP 都与另
2001 2074. 71 4287. 4 外一个变量 ———时间 T 有联系 ,它们都随着时间
( ) 资料来源 《: 云南统计年鉴》2002,中国统计出
版社 。
?79 ?
? 1994-2013 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
云南财贸学院学报
的变化而变化 ,而且都是同方向变化的 。我们计算人口与时间 T 的相关系数 r= 0 . 9865 ,国民生产 BT
总值 A 与时间 T 的相关系数 r= 0 . 988 。可以看出人口与 GDP 都与时间 T 高度正相关 。正是由于人 AT
口和 GDP 都与时间高度正相关 ,所以才导致人口与国民收入之间高度正相关 。这就告诉我们 ,两个 经济变量之间的高度相关关系 ,有时并不是这两个经济变量本身的内在联系所决定的 ,它完全可能由 另外一个变量的媒介作用而形成高度相关 。所以 ,我们绝不能只根据相关系数很大 ,就认为两者经济 变量之间有直接内在的线性联系 。此时要准确地反映两个经济变量之间的内在联系 ,就不能简单的 计算相关系数 ,而是需要考虑偏相关系数 。
偏相关系数是在对其他变量的影响进行控制的条件下 ,衡量多个变量中某两个变量之间的线性 相关程度的指标 。所以 ,用偏相关系数来描述两个经济变量之间的内在线性联系会更合理 、更可靠 。 偏相关系数不同于简单相关系数 。在计算偏相关系数时 ,需要掌握多个变量的数据 ,一方面考虑多个 变量之间可能产生的影响 ,另一方面又采用一定的方法控制其他变量 ,专门考察两个特定变量的净相 关关系 。在多变量相关的场合 ,由于变量之间存在错综复杂的关系 ,因此偏相关系数与简单相关系数 在数值上可能相差很大 ,有时甚至符号都可能相反 。
( ) 偏相关系数的取值与简单相关系数一样 ,相关系数绝对值愈大 愈接近 1,表明变量之间的线性 相关程度愈高 ;相关系数绝对值愈小 ,表明变量之间的线性相关程度愈低 。例如 ,我们以上讨论的人 口与 GDP 的关系 ,如果令时间 T 不变 ,计算人口与 GDP 的偏相关系数为 r= 0 . 2743 ,且 P = 0 . 4431 AB. T
α> 0 . 05 =。由此可以看出 ,如果去掉时间的因素 ,人口与 GDP 之间的偏相关系数很小 ,即如果固定 时间不变 ,人口与 GDP 之间的关系是微弱的 ,且经检验人口与 GDP 之间没有什么内在的必然的线性 联系 。人口越多未必 GDP 越高 ,这是比较合乎实际的 。
由以上的实例可以看出 ,在相关分析中 ,我们切不可只根据相关系数很大 ,就认为两个经济变量之间有内在的线性联系或因果关系 。因为相关系数只表明两个变量的共变联系 ,尽管这种共变联系
() 有时也体现了两个变量的内在联系 如物价与需求量,但在很多情况下 ,这种共变联系是由某个或某 些变量的变化所引起的 。所以 ,我们在研究经济变量之间的相关关系时 ,当由样本计算的两个变量的 相关系数很大时 ,我们要认真检查一下这种相关是否与经济理论和经济意义相符合 ; 如果不符 ,一定 是由于其他变量的变化所引起的 。这时 ,我们就需要研究和探索引起这两个变量高度相关的变量 ;去 掉这些变量变化的影响因素 ,计算偏相关系数 ,最后确定这两个变量之间的内在线性联系 。当我们研 究多个经济变量时 ,有时计算其中两个变量的相关系数与经济理论和经济意义相符 。但由于其他变 量影响的作用 ,这个相关系数可能扩大或缩小了这两个变量之间的真实联系 ,这时 ,通过偏相关系数 与相关系数的比较 ,来确定这两个变量之间的内在线性联系会更真实 ,更可靠 。所以 ,在相关分析中 , 我们除了使用相关系数以外 ,还应该使用偏相关系数 ,这是非常重要 ,也是十分必要的 。 参考文献 :
1 袁卫 ,庞皓 ,曾五一 1 统计学 M . 北京 :高等教育出版社 ,2000 .
2 云南省统计局 1 云南统计年鉴 Z. 北京 :中国统计出版社 ,2002 .
责任编辑 、校对 :李品秀 ?80 ?
? 1994-2013 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
范文五:相关系数与偏相关系数在相关分析中的应用Ξ
相关系数与偏相关系数在相关分析中的应用Ξ
2003年 6月 云南财贸学院学报 June ,2003
第 19卷 第 3期 Journal of Yunnan University of Finance and
Economics Vol. 19 No. 3
X
相关系数与偏相关系数在相关分析中的应用
严丽坤
云南财贸学院 统计信息学院 ,云南 昆明 650221
摘 要 :在相关分析中 ,通常利用相关系数来分析或测定这些变量之间的
线性相关程度 ,然而 ,简单相
关系数受其他因素的影响 ,反映的往往是非本质的联系。要准确地反映两个
经济变量之间的内在联系 ,需
要计算偏相关系数。通过偏相关系数与相关系数的比较 ,来确定这两个变量
之间的内在线性联系会更真
实 ,更可靠。
关键词 :相关分析 ;相关系数 ;偏相关系数
中图分类号 :F222 文献标识码 :A 文章编号 :1007 - 55852003 03 - 0078 - 03
Application of Correlation Coefficient and Biased
Correlation Coefficient in Related Analysis
YAN Li - kun
Statistics and Information School , Yunnan University of Finance and Economics , Kunming 650221 , China
Abstract :In the related analysis , the correlation coefficient is generally used to analyze and deter2
mine the linear’ s related degrees of variables. Because it is affected by other factors , what the simple
correlation coefficient reflects is not the essence of relations. In order to reflect exactly the internal rela2
tions between the two economic variables , it needs calculating the biased correlation coefficient. By
comparison with biased correlation coefficient and correlation coefficient , it will be more real and reli2
able to determine the internal linear relations between the two variables.
Key Words :Related Analysis ; Correlation Coefficient ; Biased Correlation Coefficient
相关分析是处理变量与变量之间关系的一种统计方法。近年来这种统计方法
已广泛应用于经济
学、 医学、 生物学、 社会学等诸多领域 ,并取得了一定实效。从所处理
的变量多少来看 ,如果研究的是
两个变量间的关系称为简单相关 ;如果研究的是两个以上变量间的关系称为多元相关。从变量之间
的关系形式上看 ,有线性相关分析及非线性相关分析。从统计思想和方法来看 ,线性相关是最基本的
方法。
在相关分析中 ,通常利用两个变量之间的简单相关系数和一个变量与多个变量之间的复相关系
数来分析或测定这些变量之间的线性相关程度 ,并据此进行线性回归分析、 预测和控制等。相关系数
r绝对值愈大 愈接近 1 ,表明变量之间的线性相关程度愈高 ;相关系数绝对值愈小 ,表明变量之间的
线性相关程度愈低。相关系数为零时 ,表明变量之间不存在线性相关关系。故此 ,人们通常利用相关
系数的大小来解释变量间相互关系的大小。例如 ,以云南省人均收入与人均食品支出为资料计算最
为简单的恩格尔函数所表明的在商品价格不变的条件下食品支出与收入水平的关系 如表 1所示 :
X 收稿日期 :2003 - 01 - 16
作者简介 :严丽坤 1963? ,女 ,浙江江山人 ,云南财贸学院讲师 ,主要从事统计理论与统计教学研究。
?78? 1994-2007 China Academic Journal Electronic Publishing House.
All rights reserved ////0>. :相关系数与偏相关系数在相关分析中的应用
表 1 云南省人均收入、 人均食品支出
以食品支出为 Y、 人均收入为 X作相关性检 验 ,得 r 0. 96465 , 相应的概率值 p 0. 0001
XY
年份 人均收入 元 人均食品支出 元
1991 1703. 16 763. 84 α
0. 05 。这说明人均收入的增长与食品支出的 1992 2061. 74 861. 6 增长程度呈高度正相关。为定量分析收入增长对 1993 2639. 07 1066. 99 食品支出的影响 ,对两者进行回归分析 ,得线性回 1994 3433. 97 1441. 93 归方程 : Y 362. 6418 + 0. 29425X
1995 4064. 93 1808. 71 T T
1996 4977. 95 1971. 54 经检验人均收入与食品支出之间的线性关系 1997 5558. 29 2109. 53 极其显著。在不考虑其他因素的情况下 ,收入每 1998 6042. 78 2222. 58 提高一个单位 ,食品支出将增加 0. 29425 元 ;362.
1999 6178. 68 2194. 25 2000 6324. 64 2091. 7 6418表示即使在收入为 0 的情况下 ,食品支出也 2001 6797. 71 2105. 66 需要 362. 64 元。食品支出在总收入中平均所占
资料来源《 : 云南统计年鉴》 2002 ,中国统计出 Y
T
比重为 : 362. 6418/ X + 0. 29425
T
版社。
X
T
Y
T
上式中的 即所谓的恩格尔系数。显而易见 ,在此 ,恩格尔系数会随着 X 的
增加而递减。这与德国
T
X
T
统计学家恩格尔提出的反映食品支出与收入水平之间关系的恩格尔定律的
结论是一致的。在这里 ,
相关系数 r 0. 96465 ,既表明了收入增长与食品支出关系 ,又反映了收入增长与食品支出具有内在的
线性联系的程度。
然而 ,简单相关系数受其他因素的影响 ,反映的往往是表面的非本质的联系。例如 ,一种商品的
需求既受收入水平的影响又受其价格的影响。按照经济学理论 ,在一定收入水平下 ,该商品的价格越
高 ,商品的需求量就越小。也就是说 ,需求与价格之间应当是负相关。可是 ,在现实经济生活中 ,由于
收入和价格常常都有不断提高的趋势 ,如果不考虑收入对需求的影响 ,仅仅利用需求和价格的时间序
列数据去计算简单相关系数 ,就有可能得出价格越高需求越大的错误结论。
高度相关并不意味着因果性。如果观察到样本相关系数具有某个大的正值或负值 ,就作结论说
x的变化引起了 y的变化 ,这是错误的。以云南省 GDP和全省年末人口数资料 表 2 来说明 :
众所周知 ,GDP是衡量经济的重要指标 ,其数
表 2 云南省 GDP、 年末人口数
值的大小受众多因素的影响。如果 GDP为 A、 年
末人口数为 B 进行相关性分析 ,则 r 0. 9816 ,
AB 年份 GDP 亿元 年末人口数 万人
1991 517. 41 3782. 1
且 p 0. 0001 0. 05 α。这意味着人口 B 与国内 1992 618. 69 3831. 6 生产总值 A之间存在高度正相关 ,亦即 B 越大 ,A 1993 779. 21 3885. 2 也越大。如果我们把这个高度正相关理解为这两 1994 973. 97 3939. 2 个变量内在联系或因果关系 ,就会得出这样的结 1995 1206. 68 3989. 6 1996 1491. 62 4041. 5 论 :要想提高云南省的 GDP ,只需大量增加人口。 1997 1644. 23 4094. 0 这无论从经济理论还是从日常生活哲理来说都是 1998 1793. 9 4143. 8 极其荒谬的。我们认为人口和 GDP 之间不应该 1999 1855. 74 4192. 4 2000 1955. 09 4240. 8 有什么本质的内在联系。但是 ,是什么原因导致 2001 2074. 71 4287. 4 人口与国民收入具有如此高度的正相关关系呢
资料来源《 : 云南统计年鉴》2002 ,中国统计出 只要我们认真研究就会发现 ,人口与 GDP都与另 版社。
外一个变量 ? ? ?时间 T有联系 ,它们都随着时间
?79? 1994-2007 China Academic Journal Electronic Publishing House.
All rights reserved ////.