潘建红
jinruchouru@163.com
2012年 08月 08日
*-----------------------------------------------------------------------------------------* PARAMETERS:
trial:the original clinical dataset
var:the number of four cells in the 2 by 2 table
*-----------------------------------------------------------------------------------------*; %macro pr_diff(trial,var);
proc transpose data=&trial out=dataset(drop=_name_) prefix=a; ***the cells named a1-a4;
var &var;
run;
***one sample binomial proportion confidence interval---wilson score method;
data _null_;
call symput(
run;
***two samples:unpaired case---Newcombe method;
data unpaired;
set dataset;
n1=a1+a2; p1=a1/n1;
n2=a3+a4; p2=a3/n2;
l1=(2*a1+&z. **2-&z. *sqrt(&z. **2+4*a1*a2/n1))/(2*(n1+&z. **2));
*lower confidence interval for one sample;
u1=(2*a1+&z. **2+&z. *sqrt(&z. **2+4*a1*a2/n1))/(2*(n1+&z. **2));
*upper confidence interval for one sample;
l2=(2*a3+&z. **2-&z. *sqrt(&z. **2+4*a3*a4/n2))/(2*(n2+&z. **2));
u2=(2*a3+&z. **2+&z. *sqrt(&z. **2+4*a3*a4/n2))/(2*(n2+&z. **2));
d=p1-p2;
l_unpaired=d-sqrt((p1-l1)**2+(u2-p2)**2);
*lower confidence interval for the difference;
u_unpaired=d+sqrt((p2-l2)**2+(u1-p1)**2);
*upper confidence interval for the difference;
run;
data group_a;
retain group a1 a2 n1 p1 d l_unpaired u_unpaired;
format group $255.;
informat group $255.;
set unpaired;
group=
rename
a1=positive
a2=negative
n1=sum
p1=proportion
d=difference;
keep group a1 a2 n1 p1 d l_unpaired u_unpaired;
run;
data group_b;
retain group a3 a4 n2 p2 ;
format group $255.;
informat group $255.;
set unpaired;
group=
rename
a3=positive
a4=negative
n2=sum
p2=proportion;
keep group a3 a4 n2 p2 ;
run;
data unpaired_diff;
set group_a group_b;
label
group=
positive=
negative=
sum=
proportion=
difference=
l_unpaired=
u_unpaired=
run;
/*-----------------------------------------------------------------------------------------------*/
***two samples:paired case---Newcombe method;
data paired;
set dataset;
n=a1+a2+a3+a4;
n1=a1+a2; p1=n1/n;
n2=a1+a3; p2=n2/n;
l1=(2*n1+&z. **2-&z. *sqrt(&z. **2+4*n1*(n-n1)/n))/(2*(n+&z. **2));
*lower confidence interval for one sample;
u1=(2*n1+&z. **2+&z. *sqrt(&z. **2+4*n1*(n-n1)/n))/(2*(n+&z. **2));
*upper confidence interval for one sample;
l2=(2*n2+&z. **2-&z. *sqrt(&z. **2+4*n2*(n-n2)/n))/(2*(n+&z. **2));
u2=(2*n2+&z. **2+&z. *sqrt(&z. **2+4*n2*(n-n2)/n))/(2*(n+&z. **2));
d=p1-p2;
q1=(a1+a2)*(a3+a4)*(a1+a3)*(a2+a4);
if q1=0 then
do;
coe=0; q2=. ; q3=. ;
end;
else do;
q2=a1*a4-a2*a3;
if q2>n/2 then q3=q2-n/2;
else if 0<><=n then="" q3="">=n>
else if q2<0 then="" q3="">0>
coe=q3/sqrt(q1);
end;
l_paired=d-sqrt((p1-l1)**2-2*coe*(p1-l1)*(u2-p2)+(u2-p2)**2);
*lower confidence interval for the difference;
u_paired=d+sqrt((p2-l2)**2-2*coe*(p2-l2)*(u1-p1)+(u1-p1)**2);
*upper confidence interval for the difference;
run;
proc format;
value fmt
1=
2=
run;
data group;
do i=1 to 2;
do j=1 to 2;
output;
end;
end;
run;
data group;
merge group &trial(keep=&var);
run;
data paired_1;
set group;
group_a=put(i,fmt. );
group_b=put(j,fmt. );
drop i j;
run;
data paired_2;
set paired;
keep p1 p2 d l_paired u_paired;
run;
data paired_diff;
retain group_a group_b &var p1 p2 d l_paired u_paired; merge paired_1 paired_2;
label
group_a=
group_b=
&var=
p1=
p2=
d=
l_paired=
u_paired=
keep group_a group_b &var p1 p2 d l_paired u_paired; run;
%mend pr_diff;
run ;
************Example*****************;
***generate two by two table;
data table;
do i=1to 2;
do j=1to 2;
input f @@;
output ;
end ;
end ;
cards ;
53 4 1 3
;
run ;
%pr_diff(table,f);
可信区间的用途和意义
可信区间的用途和意义
中国循证医学2001年12月第l卷弟4期ChineseJoumMolF!一些-些!!:!:!
可信区间的用途和意义
刘关键洪旗
(四J】】大学华西医院樯康流行病学教研室成都610041)
?
方法学?
摘要:本文介绍丁可信区间的用途和意义,并集中举倒说明r常用统计指标.如RRR(relativeriskreduction.相对危险
度减少率),ARR(ab?luiskducti0n.绝对危险度减少
率),NNr(numberneededtOtreat,需要处理的病人数)等的
可信区间计算法,供循证医学研究者参考.
美蕾诵:可信Ix-矧循证医学
Applicationofconfidenceinterval(CI)
LIUGmm-.B~m.HONGOi(Oep~rtmemf,,CtinicMEpidemiogog3~,West
ChinaHospita1.SichuanUniz~rsity.Chengdu.
6l0041China)
ABSTRACTS:l111hispaper.wintroducemeaningandpurpeofconfidencei
nterval(CI)inevidence—basedmedicine,For
exat~lp]e.RRR,ARR,NNTIt?sre|eranceIorHF,efanddoer0IEBMinChina.
Keywords:(?onfidenceinterval;evidence—basedmedicine
1前言
在循证医学的研究或应用中.经常使用可信区
间(confidenceinterval,CI)对某事件的总体进行推
断.可信区间是按一定的概率去估计总体参数(均
数或率)所在的范围,它是按预先给定的概率(1一
.,常取95%或99%)确定未知参数值的可能范
围,这个范围被称为所估计参数值的可信区间或置
信区间如95%可信区间,就是从被估计的总体
中随机抽取含量为”的样本,由每一个样本计算
一
个可信区间.理论上其中有95%的可能性(概
率)将包含被估计的参数.故任何一个样本所得
95%可信区间用于估计总体参数时,被估计的参数
不在该区间内的可能性(概率)仅有5%可信区
间是以上,下可信限为界的一个开区间(不包含界
值在内).可信限(confidencelimit,CL)或置信限
只是可信区间的上,下界值.可信区间的用途主要
有两个:
(1)估计总体参数,在临床科研工作,许多指标
都是从样本资料获取,若要得到某个指标的总体值
(参数)时,常用可信区间来估计.如率的可信区间
是用于估计总体率,均数的可信区间用于估计总体
均数:
(2)假设检验,可信区间也可用于假设检验,
95%的可信区间与a为0.05的假设检验等价.若
某研究的样本RR或OR的95%可信区间不包含
1,即上下限均大于1或上下限均小于1时,有统计
学意义(P<0.05);若它的RR或OR值95%可信
区间包含l时,没有统计学意义(P>0.05).再如
某研究两疗效差值的95%可信区间不包含0,即上
下限均大于0或上下限均小于0时,有统计学意义
(尸<0.05);两疗效差值的95%可信区间包含0
时,两疗效无差别(P>0.05)
各种指标的可信区间计算,最常采用正态近似
法,其中标准误的计算是其关键.标准误是由于抽
样所致的样本与总体间的误差,用以衡量样本指标
估计总体参数的可靠性,标准误越大,用样本估计
总体的误差也就越大,反之就越小.在数值资料
(计量资料)中,标准误的大小与个体变异()成正
比.与样本含量()的平方根成反比.在分类资料
(计数资料)中,标准误主要受样本含量(“)和某事
件发生率(P)大小的影响,样本含量愈大,抽样误
作者简卉:刘关键,男,46岁.融教授,发表论文l0糸篇,生物统计学为主
要研究方向.
中国循证医学2001年l2月第1卷第4期嬖!!0』兰!:呈型!!竺坚竺:
型:!:!
差愈小;某事件发生率愈接近于0.5,其抽样误差
愈小,某事件发生率离0.5愈远(即发生率愈接近
于0或1),抽样误差愈大.
可信区间的范围愈窄,样本估计总体的可靠性
愈好;可信区问的范围愈宽,样本估计总体的可靠
性愈差.
2率的可信区间
总体率的可信区间可用于估计总体率,样本率
与总体率比较,两样本率比较.计算总体率的可信
区间时要考虑样本率(P)的大小.
(1)正态近似法当足够大.如>100,且
样本率P与1一P均不太小,且p与(1一P)均
大于5时,可用下式求总体率的1一a可信区问
率的标准误:SE=?P(1一P)/n
率的可信区间:P?u~SE=(P—UoSE,P+u.
SE)
式中u..查U值表,若计算95%的可信区
间,这时u005=1.96,6t=0.05.
例如;采用某治疗措施治疗60例某病患者,治
愈24例,其治愈率为24/60=40%,该治愈率的
95%的可信区间为:
SE=_二I=?r二瓦=0.063
P?u.SE:(P—UoSE,P+UoSE)
=
(0.41.96×0.063.0.4+1.96×
0.063)
=
(276%,52.4%)
该治愈率的95%的可信区间是276%,
52.4%.
(2)当样本率P<030或P>0.70时,对百分
数采用平方根反正弦变换,即
Y=sin.?p或sinY=?I)
当P从0%,100%时,Y从0,90(角度,以下
略去).若以弧度表示则Y从0,1.57(n/2).
(Bartlett.MS建议当P=100%时,P:1—1/4n,
当P=0时,P=1/4n).y的标准误,按角度计算
s=/n;若按弧度计算=,/174f1),总体
率的1—6t的可信区间按下式计算:
(y一sy,ysy)
然后再按下式变换求出百分数表示的可信区
间:
PL=sin(Y—u);Pu=in2(Y+usv)
例如:某医师调查某厂工人高血压病的患病情
况.检查4553人,257人有高血压,患病率为
?
236?
5.6446%,求该厂高血压患病率的95%可信区问?
本例Uo05=1.96,按上式计算:
v=sin?0.056446=0.239878,
Sv=雨两=0.00741(以弧度计)
则Y的95%可信区间为:
(0.2398781.96×0.007410,0.239878+
1.96×0.007410)=(0.2254,o.2544)
而率的95%可信区间为:
P.=sin(0.2254)=0.0499;
P1=sin2(0.2544)=0.0633
故该厂高血压患病率的95%可信区间为
(4.99%.6.33%).
3RR的可信区间
相对危险度的RR(relativerisk),应先计算
RR,再求RR的自然对数值ln(RR),其In(RR)的
标准误SE(InRR)按下式计算:
SE(InRR):?{+c—a+._b一0
=
?+一一
In(RR)的可信区问为:In(RR)?u.SE(InRR)
RR的可信区间为:exp[In(RR)?U.SE
(InRR)]
例如:某医师研究了阿斯匹林治疗心肌梗塞的
效果,其资料见表1,试估计其RR的95%可信区
间.
寰1阿斯匹韩治疗心肌梗凭的效果
Table2Theeffectof舾p.tintreatMI
RR:Pl:rl/n1
=
60/1
_0_48
陡2/n2zu
ln(RR)=Jn(0.48)=一0.734
SE(JnRR)
/1.111
15?30125120
=
0.289
In(RR)的95%可信区间为:
ln(RR)?1.96SE(1nRR)
0.734?1.96×0.289=(一1.301.一0.167)
一
刘关键可信区问的用途的意义
RR的95%可信区间为:
exp[in(RR)?1.96SE(InRR)]
=exp(一1.301,一0.167)=(O.272,0.846)
该例RR的95%可信区间为0.272,0.846,
其上,下限均小于l,可以认为阿斯匹林治疗心肌
梗死有效.
4OR的可信区间
由于队列资料的RR的l—n可信区间与OR
的1-n可信区间很相近,且后者计算简便,因而临
床医学可用OR的可信区间计算法来代替RR的
可信区间的计算.
OR的可信区间的计算,应先计算OR,再求
OR的自然对数值in(OR),其In(OR)的标准误SE
(1n(]R)按下式计算
sE(1noR)=,17j
1n(oR)的可信区间为:In(oR)?UaSE(1nOR)
OR的可信区间为:exp[1n(OR)?SE
(InOR)]
例如:前述阿斯匹林治疗心肌梗塞的效果,试
估计其OR的95%可信区间.
OR=:0_4o9
1n(oR)=1n(2.44)=一0.894
SE(InOR)=41/a+l/b+l/c+l/d
=?I/30+I/90+I/I5+l/ll0二0.347
1n(OR)的95%可信区间为:
1n(OR)?1.96SE(1nOR):一0.892?1.96×
0.347:(一1.573,一0.214)
OR的95%可信区间为:
exp[1n(oR)?1.96SE(InOR)]
=exp(一1.573,一0.214):(O.207,0.807)
该例OR的95%可信区间为0.207,0.807
而该例的RR的95%可信区间为0.272,0.846
可见OR是RR的估计值.
5RRR的可信区间
RRR可信区问的计算,由于RRR=l—RR.故
RRR的可信区间可由l—RR的可信区间得到,如
上例RR=0.48,其95%的可信区间为0.272,
0.846,故RRR:l一0.48=0.52,其95%的可信区
闻为0.154,O.728.
6ARR的可信区间
ARR的标准误为:
ARR的可信区间:ARR?uDSE=(ARR—lIa
SE,ARR+uSE)
例如:试验组某病发生率为15/125=12%,而
对照组人群的发生率为30/120=25%,其ARR=
25%一l2%=13%,标准误为:
sE:PI(--P1)+堕!:
n1n2
=
0.12(1s0.12)+0.25(
1
1
2
-
0
0.25)=
0.012549l20?,
其95%的可信区间为:
ARR?UaSE=(ARR—HaSE,ARR+uSE)
:
(0.13—1.96×0.049,0.13+1.96×0.049)=
(3.4%,22.6%)
该治愈率的95%的可信区间为3.4%,
22.6%.
7NNT及可信区间
可信区间的计算,由于无法计算NNT的标准
误,可由ARR的95%的可信区间来计算.因为
NNT=1/ARR,故NNT的95%的可信区间为:
NN?P95%可信区问的下限:
1/(ARR95%可信区间的上限值)
NN1,95%可信区间的上限:
1/(ARR95%可信区间的下限值)
例如上述ARR的95%可信区间为3.4%,
22.6%,其NNT的95%可信区间下限为:1/
22.6%=4.4;上限为:1/3.4%=29.4.故该NNT
的95%可信区间为4.4,294.
8均数的可信区间
总体均数据的可信区间可用于估计总体均数,
样本均数与总体均数比较两均数比较.计算时当
总体标准差未知时用t分布原理,而d已知时,按
正态分布原理计算.
(1)均数的可信区间
通常,均数的95%的可信间可按下式计算:
X?toSE即95%CI的下限为:X—to05.
SE,上限为:x+to.
0s.uSE
式中为样本含量,X,S分别为样本均数和标
准差,sE为标准误.sE:s,ta,v
的值可用自由度
(u)与检验水准(n)查t界值表得到.
当样本含量足够大时,如n>100,其95%的
可信间可按下式近似计算,n越大近似程度愈好.
?
237?
一
中国循证医学2001年I2月第1卷第4期Chin~J~rnal删
Evidenc~BasedMedicineD—
ec
—
embe
—
r2001,Vo
—
1.1No.4
X?1.96SE即95%CI的下限为:X一1.96
SE,上限为:X+UaSE
例:某医师测定某工厂l44名健康男性工人血
清高密度脂蛋白(mmol/L)的均数X=1.3207,标
准差s=0.3565,试估计该厂健康男性工人血清高
密度脂蛋白总体均数的95%可信区间?
本例n=l44,X=1.3207,S=0.3565.12=144
1.可用大样本公式X?1.96s/?n计算
下限为:x一1.96s/?n
=1.3207一(1.96)(0.3565)/~/144=1.2625
上限为:x+1.96sn
=1.3207+(1.96)(0.3565)/~/144=1.3789
故该例总体均数的95%可信区间为(1.2625
mmol/L,1.3789retool/L).
例如:某研究的Xl=17.2.sl=6.4,n1=38.X2
=l5.9,s2=5.6,n,=45.其均数的差值为:
d=lxI—x2}=17.2l5.9=1.3
其差值的标准误为:
SE
=
~/(38-1)x6.4z+(451)x5.6zx452(上38+4上5),,
=1.317
该例自由度u:38+45—2=81?80.故以自
由度为踟.n=0.05.查表得tom_80:1.99,将其代
人95%cI的计算公式.得:d?t0mSE=1.3?
1.99×1.317=(一1.32.3.92)
(2)两个均数差值的可信区问1
95%CI为:d?t0帖SE
即95%CI的下限为:d—t005SE
上限为:d+tlI_sE
式中d为两均数之差,即d=I.一一XI;SE为
两均数差值的标准误,其计算公式为:
蛆=
?×c+
参考文献
DavidI_.Sackett.W.ottRichai-d?n.William
Rosenberg.eta1.Evidence.basedmedicine——一}t0wto
practiceandteachEBM.M]Thesecondedition.
Churchi【【LivingstonePublishHouseToronto:2000.
王家良.主编.牺床流行病学[M].第2版.上海:上
海科技出版社.2001.
杨树勤主编.卫生统计学[M].第3版.北京:人民
卫生出版杜.1996
四川大学华西第二医院举办循证医学学术讲座
为了让医疗业务人员和管理人员适应现代医
学的发展,对循证医学有个初步的认识和了解,
华西第二医院于2001年l0月20日举办了一期循
证医学学术讲座,邀请了中国循证医学中心主任李
幼平教授和副主任刘鸣教授来院讲课.共105人
参加了听课,约占全院业务人员的1/3.听课人员
涉及临床医生,医技科室的技术人员,研究机构的
科研人员护理人员,部分相关的管理人员.
李幼平教授讲课的题目为《循证医学简介》.
李教授介绍了循证医学的概念及中国循证医学中
心的建设和发展.使与会者对循证医学及中国循
?
消息?
证医学中心有r一定的认识.刘鸣教授的讲课题
目为《在临床工作中实践循证医学——医护人员的
作用》.刘教授结合临床实例,深入浅出地讲解了
循证医学在临床实践中应用的重要意义.使与会者
受益匪浅.
由于此次学术活动举办得非常成功,且对医务
人员和医疗管理人员有很大帮助,医院决定再次邀
请李幼平教授和刘鸣教授到我院举办循证医学讲
座.要求投有参加过听课的人员必须接受循证医学
教育.同时,医院将借此契机,启动循证医学发展.
(四川太学华西第二匿院聃教部张迅)
可信区间的用途和意义
!』生堕兰兰童己—型坠L业旦
曼!童笙!塑
兰!!!:::!!!::型生兰:,!!!!!:堡兰!坚:!!::!!:!!!!!翌堡:;业!:!’型:!兰!!
?方法学?
可信区间的用途和意义
刘关键
洪
旗
成都610041)
(四川大学华西医院临床流行稿学教研室
们
b
reducti
1111-:本文介绍了可信区问的用途和意义,并集中举例说明f常用统计指标.如RRR(rPlatiw,sk
可信区同计算方法.以供循证医学研究者参考。关键词:可信区间循证医学
m.相对危险
度减少宰)、ARR(absoluteriskreduction.绝对危险度减少率)、NN’1(numbernPededtotreat,需要处理的病人数)等的
Applicationofconfidenceinterval(C1)
LIU
Guan-jian?HONGQi(DepartmentofClinicalEpidemiol093-.WestChinaHoapital,Ewhuanf7"jtFr5,rv,(?kengdu.
Chf”d)
paper,we
61004l
ABSTRACTS:Inthis
introducemeaningand
user
purpose
ofconfidenceinlerva[((、I)in
example,RRR、ARR、NNl.11’sreferanceforanddoeruf
EBMi㈧(7hi
evidelice.ba㈣d㈣di
inP.For
Keywords:Confidenceinterval:cvidence—basedmedicine
1
前言
在循证医学的研究或应用中,经常使用可信区
善墓-估汁总体率、均数的町信区间用于估计总体
(2)假设检验,可信区间也可用于假设检验,95%的可信区间与a为0.05的假设检验等价。若某研究的样本RR或OR的95%町信区间不包含I,即t下限均大于1或上下限均小于l时,有统计学意义(P0.05)。再如某研究两疗效差值的95%可信区问不包含0.即上下限均大于0或上下限均小于0时,有统计学意义(P0.05):
各种指标的可信区间计算,最常采用正态近似法,其中标准误的计算是其关键。标准误是由于抽样所致的样本与总体问的误差,用以衡量样本指标估计总体参数的口『靠性.标准误越大,用样本估计总体的误差也就越大,反之就越小。在数值资料(汁量资料)中,标准误的大小与个体变异(一)成止
比,与样奉含量(n)的平方根成反比。在分类资料
问(confidenceinterval,CI)对某事件的总体进行推
断:可信区间是按一定的概率去估计总体参数(均数或率)所在的范围,它是按预先给定的概率(1一
。.常取95%或99%)确定未知参数值的可能范
围.这个范围被称为所估计参数值的可信区间或置信区间。如95%可信区间.就是从被估计的总体中随机抽取含量为n的样本,由每一个样本计算一个町信区间,理论上其中有95%的可能性(概率)将包含被估计的参数。故任何一个样本所得95%可信区问用于估计总体参数时,被估计的参数不在该区间内的可能性(概率)仅有5%。可信区间是以上、下可信限为界的一个开区1日】(小包含界值在内)。可信限(confidencelimit,CL)或置信限只是可信区间的上、下界值。可信区间的用途主要
有两个:
(1)估计总体参数,在临床科研工作,许多指标都是从样本资料获取.若要得到某个指标的总体值(参数)时,常用可信区间来估计。如率的可信区间
(汁数资料)中,标准误主要受样本含量(”)和某事
件发生率(P)大小的影响,样本含量愈大,抽样误
怍者简介:刘关键.男,46岁.副教授,发表沦文10余篇,以生物统计学为主要研究方向。
235
万方数据
中国循证医学2001年12月第1卷第4期
差愈小;某事件发生率愈接近于0.5,其抽样误差愈小,某事件发乍率离0.5愈远(即发牛率愈接近于0或1),抽样误差愈大。
可信区间的范围愈窄,样本估计总体的可靠性愈好;可信区间的范围愈宽,样本估计总体的可靠
件愈差。
2率的可信区间
总体率的可信区间可用于估计总体率、样本率与总体率比较,两样本率比较。计算总体率的可信
区间时要考虑样本率(P)的大小。
(1)正态近似法
当H足够大,如n>100,且
样本率P与1一P均不太小,且月p与H(1一P)均大于5时,可用下式求总体率的1一a可信区问
率的标准误:SE= ̄/p(1一P)/n
率的可信区间:P±uaSE=(P—u。SE,p+u。
SE)
式中u。以a在u值表,若计算95%的可信区
间,这时ua
05=1.96.口=0.05。
例如:采用某治疗措施治疗60例某病患者,治愈24例,其治愈率为24/60=40%,该治愈率的
95%的可信区间为:
SE=一v/P(1
P)/n=,/o.4(1—0.4)/60=0.063
P!uaSE=(P
uQSE,P+UaSE)
=(0.4—1.96×0.063.0.4+1.96×
0.063)
=(27.6%,52.4%)
该治愈率的95%的可信区I司是27.6%~
524%:
(2)当样本率P0.70时,对百分数采用平方根反正弦变换,即
y=sin。1虾或sinY=4pp
当P从0%~100%时,Y从0~90(角度,以下
略去),若以弧度表示则Y从0~1.57(x/2),
(Bartlett.MS建议当P=100%时,P=1
l/4n,
当P=0时,P=1/4n)。Y的标准误,按角度计算
Sv=√丽百了石;若按弧度计算s,=/Ⅳr丽,总体
率的1
a的可信区间按下式计算:
(Y
u。sy,Y+uasy)
然后再按下式变换求出百分数表示的可信区
间:
PI=sin2(Y—u。s。);Pu=sin2(Y+u。s。)
例如:某医师调查某厂工人高血压病的患病情
况.检查4553人,257人有高血压,患病率为
?236?
万
方数据5.6446%,求该厂高血压患病率的95%可信区间?
本例u¨∞=1.96,按卜式I|算:
Y=sin。 ̄/—0.05—6446=0.239878.
s。= ̄/I/(4×4553)=0.0074“以弧度计)则y的95%可信区间为:
(0.239878—1.96×0.007410.0.239878+1.96×0.007410)=(0.2254,0.2544)
而率的95%可信区问为:
PI.=sin2(0.2254)=0.0499;PIl=sin2(0,2544)=0.0633
故该厂高血压患病率的95%可信区间为
(4.99%,6.33%)。
RR的可信区间
相对危险度的RR(relativerisk),应先计算
RR.再求RR的自然对数值【n(RR),其In(RR)的标准误SE(InRR)按下式计算:
s踟n㈣=√÷+{土。;。
~+——————————
丌T广i~rl
r2
[11
n2
In(RR)的可信区问为:In(RR)=u。SE(1nRR)RR的可信区间为:exp[In(RR)±u。sE
(InRR)j
例如:某医师研究了阿斯匹林治疗心肌梗塞的效果,其资料见表1.试估计其RR的95%可信区
l目。
裹l
阿斯匹林治疗心肌梗死的效果
Table2’I'heeffHtofaspirin
treat
MI
RR=面pt一丽rl/nl=黜=048
jn(RR)=1n(0.48)=0.734
sE(InRR)=√{+吉一击五l
/1.1
ll~1530
125
12【)
=0.289
In(RR)的95%可信区间为:
In(RR)±1.96SE(1nRR)
0.734±1
96×0.289=(1301,0
167)
3
刘关键可信区问的用途的意义
RR的95%可信区间为:exp【In(RR)11.96SE(InRR)]
=exp(一I.301,0.167)=(0.272,0,846)
该例RR的95%可信区间为0.272~0.846,
其上、F限均小于I.可以认为阿斯匹林治疗心肌
梗死有效。
4
OR的可信区间
由于队列资料的RR的1一口可信区间与OR
的1一。可信区间很相近,且后者计算简便,因而临床医学可用OR的可信区问计算法来代替RR的可信区间的计算。
OR的可信区间的计算,应先计算OR,再求OR的自然对数值In(OR),其In(OR)的标准误SE(1nOR)按下式汁算
SE(InOR)二 ̄,l/a+l/b十1/c+1/d
In(OR)的可信区问为:In(OR)±u。SE(InOR)OR的可信区间为:exp[In(OR)±U。SE(1nOR)]
例如:前述阿斯匹林治疗心肌梗塞的效果,试估计其OR的95%可信区间。
OR=暴器=0409
In(oR)=ln(2.44)=一0.894
SE(InOR)=、/『万了『7丽_T万砜
=、厂『万矿可刁矿可7订了T?丽=0.347
In(OR)的95%可信区间为:
【n(oR)±1.96SE(InOR)二0.892±1.96×
0
347=f一1.573,一0.214)
OR的95%可信区间为:
exp[In(OR)±1.96SE(1nOR)]
=exp(
1.573,一0.214)=(0.207。0.807)
该例OR的95%可信区间为0.207~0.807,
而该例的RR的95%可信区间为0.272~0.846,可见OR是RR的估计值。
5
RRR的可信区间
RRR可信区『白J的计算,由于RRR=1一RR.故
RRR的可信区间可由1
RR的可信区间得到,如
上例RR=0.48,其95%的可信区间为0.272~0.846,故RRR=l0.48=0.52,其95%的可信区
间为0.154~0.728。
6
ARR的可信区间
ARR的标准误为:
万
方数据sE:/业二型4.—p2(1—-P一2)
N
“1
“2
ARR的口r信区间:ARR
i
U。SE=(ARR—IJ。
SE.ARR+UaSE)
例如:试验组某病发生率为15/125—12%,而对照组人群的发生率为30/120=25%,其ARR=
25%一12%=13%,标准误为:
簪西
乒
=^fO.12(1-0.12)25
+堕型上120旦型=o
_J
049
u_J
其95%的可信区间为:
ARR±u。SE=(ARR—u。SE,ARR+u。SE)
=(0.13
1.96×0.049.0.13十1.96×0.049)=
(3.4%.22.6?帖)
该治愈率的95%的可信区间为3.4%一
22.6%。7
NNT及可信区间
町信区间的计算,由于无法计算NNT的标准
误,可由ARR的95%的可信区间来计算。因为NN-r=l/ARR,故NNT的95%的町信区间为:
NNT95%可信区间的下限:l/(ARR95%可信区间的上限值)NNT95%可信区间的上限:1/(ARR95%可信区间的下限值)
例如上述ARR的95%叮信区间为3.4%~
22.6%,其NNT的95%可信区间下限为:l/22.6%=4.4;上限为:1/3.4%=29.4,故该NNfI的95%可倍区间为4.4~29.4。
8均数的可信区间
总体均数据的可信区间可用于估计总体均数、样本均数与总体均数比较、两均数比较。计算时当总体标准差未知时用t分布原理,而a已知时,按正态分布原理计算。
(1)均数的可信区间
通常,均数的95%的可信间可按下式计算:又±to.05。sE即95%CI的下限为:x
to喊,
SE,上限为:X+t005.。SE
式中一为样本含量,又。s分别为样本均数和标准差,sE为标准误,SE=s/五.t…的值可用自由度(u)与检验水准(a)查t界值表得到。
当样本含量足够大时,如”>100.其95%的可信问可按下式近似汁算,n越大近似程度愈好。
?237?
中国循证医学
200l午12月第1卷第4期
Chin…Jou
1.96
alof
EvidenceBasedMedicineDecembet
2001,V¨INm4
X=1
96SE即95%CI的下限为:X
例如:某研究的XI=17.2,s1=6.4.nI=38,X2
=15.9,s2=5.6,n2=45,其均数的差值为:
d=一Xl一一X2l=17.2一15其差值的标准误为:
SE
9=l
3
SE+上限为:X+usE
例:某医师测定某工厂144名健康男性工人血清l岛密度脂蛋白(mmol/L)的均数又=1.3207,标准差s=0.3565,试估计该厂健康男性工人血清高密度脂蛋白总体均数的95%可信区间?
本例n=144,X=1.3207,s=0.3565.u=144
=,∥338-1)x
=1.317
6.42+(45-1)x
542"6.5
。(上38+4上5)
~
,
—1,可用大样本公式又11.96s/石计算
下限为:X
1.96s/4n
该例自由度u=38十45—2=8l≈8fl,故以自
由度为80,a=0.05,查表得to05㈣=1.99.将其代人95%cI的计算公式.得:d±t”'05。SE=1.3±
=1.3207一(1.96)(0.3565)//雨=1,2625
上限为:x+1.96s/4nn
=1.3207+(1.96)(0.3565)/√雨=1.3789
故该例总体均数的95%可信区间为(1.2625
mmol/L.1.3789mmol/[。)。
I.99×1.317=(一I.32.3.92)
参考文献
I—Sackett.W.SkottRichardmn.William
(2)两个均数差值的可信区间
95%CI为:d±to05..SE
David
Rosenberg.eta1.Evidence—hased
practice
medicinc——how
10
即95%CI的下限为:d—to㈣。SE
上限为:d+to05。SE
‘
andteachEBM
lMjThesecondedition.
ChurchillLivingstonePublishHoll辨Toronlo:2000
式中d为两均数之差,即d=l又I
两均数差值的标准i吴,其计算公式为:
王家良。主编,临床流行病学[MJ。第2版。上海:上海科技出版社,2001.
X2;SE为
3杨树勤。主编。n生统计学[M!。第3版.北京:人民
口生山版社.1996
?消息?
四川大学华西第二医院举办循证医学学术讲座
为了让医疗业务人员和管理人员适应现代医学的发展,对循证医学有一个初步的认识和r解,
华西第二医院于2001年10月20I]举办了一期循
证医学中心有了一定的认识。刘呜教授的讲曝题
目为《在临床工作中实践循证医学——医护人员的
作用》。刘教授结合临床实例,深入浅出地讲解了
循证医学在临床实践中应用的罩要意义.使与会者受益匪浅。
证医学学术讲座,邀请了中国循证医学中心主任李幼平教授和副主任刘鸣教授来院讲课。共105人参加了听课,约占全院业务人员的1/3。听课人员涉及I艋床医隹、医技科窜的技术人员、研究机构的科研人员、护理人员、部分相关的管理人员。
李幼平教授讲课的题目为《循证医学简介》。李教授介绍了循证医学的概念及中国循汪医学中心的建设和发展。使与会者对循证医学及中国循
由于此次学术活动举办得非常成功,且对医务人员和医疗管理人员有很大帮助,医院决定再次邀请李幼平教授和刘呜教授到我院举办循证医学讲座.要求没有参加过听课的人员必须接受循证医学教育。同时,医院将借此契机,启动循证医学发展。
f四川赶学芈西摹二医院科教部张迅)
万方数据
238
可信区间的用途和意义
作者:作者单位:刊名:英文刊名:年,卷(期):
刘关键, 洪旗
四川大学华西医院临床流行病学教研室,成都,610041中国循证医学
CHINESE JOURNAL OF EVIDENCE-BASED MEDICINE2001,1(4)
参考文献(3条)
1.杨树勤 卫生统计学 19962.王家良 临床流行病学 2001
3.David L Sackett;W Scott Richardson;William Rosenberg Evidence-based medicine--how to practice andteach EBM 2000
本文链接:http://d.g.wanfangdata.com.cn/Periodical_zgxzyx200104008.aspx
计算可信区间
循证医学中常用可信区间的研究
作者:刘关键 洪旗 四川大学华西医院临床流行病学教研室 成都 610041
Study of statistical measures in evidence-based medicine
LIU Guan-jian, HONG Qi.( Department of Clinical Epidemiology, The West China Hospital of Sichuan University, Chengdu, 610041 China)
ABSTRACTS: In this paper, we introduce meaning and purpose of confidence interval (CI) in Evidence-Based Medicine, For example, RRR、ARR、NNT. It's referance for user and doer of EBM in China.
Key words: Confidence interval;evidence-based medicine
在循证医学的研究或应用中,经常使用可信区间(confidence interval,CI)对某事件的总体进行推断。可信区间是按一定的概率去估计总体参数(均数或率)所在的范围,它是按预先给定的概率(1-a,常取 95%或99%)确定未知参数值的可能范围,这个范围被称为所估计参数值的可信区间或置信区间。如95%可信区间,就是从被估计的总体中随机抽取含量为n 的样本,由每一个样本计算一个可信区间,理论上其中有95%的可能性(概率)将包含被估计的参数。故任何一个样本所得95%可信区间用于估计总体参数时,被估计的参数不在该区间内的可能性(概率)仅有5%。可信区间是以上、下可信限为界的一个开区间(不包含界值在内)。可信限(confidence limit,CL)或置信限只是可信区间的上、下界值。可信区间的用途主要有两个:
(1)估计总体参数,在临床科研工作,许多指标都是从样本资料获取,若要得到某个指标的总体值(参数)时,常用可信区间来估计。如率的可信区间是用于估计总体率、均数的可信区间用于估计总体均数。
(2)假设检验,可信区间也可用于假设检验,95%的可信区间与a为0.05的假设检验等价。若某研究的样本RR或OR的95%可信区间不包含1,即上下限均大于1或上下限均小于1时,有统计学意义(P<0.05);若它的rr或or值95%可信区间包含1时,没有统计学意义(p> 0.05)。再如某研究两疗效差值的95%可信区间不包含0,即上下限均大于0或上下限均小于0时,有统计学意义(P<0.05);两疗效差值的 95%可信区间包含0时,两疗效无差别(p="">0.05)。
各种指标的可信区间计算,最常采用正态近似法,其中标准误的计算是其关键。标准误是由于抽样所致的样本与总体间的误差,用以衡量样本指标估计总体参数的可靠性,标准误越大,用样本估计总体的误差也就越大,反之就越小。在数值资料(计量资料)中,标准误的大小与个体变异(s)成正比,与样本含量(n)的平方根成反比。在分类资料(计数资料)中,标准误主要受样本含量(n)和某事件发生率(p)大小的影响,样本含量愈大,抽样误差愈小;某事件发生率愈接近于 0.5,其抽样误差愈小,某事件发生率离0.5愈远(即发生率愈接近于0或1),抽样误差愈大。
可信区间的范围愈窄,样本估计总体的可靠性愈好;可信区间的范围愈宽,样本估计总体的可靠性愈差。
1.率的可信区间
总体率的可信区间可用于估计总体率、样本率与总体率比较,两样本率比较。计算总体率的可信区间时要考虑样本率(p)的大小。
(1)正态近似法 当n足够大,如n>100,且样本率p与1- p均不太小,且np与n(1-p)均大于5时,可用下式求总体率的1-a可信区间率的标准误:SE=p(1-p)/n
率的可信区间:p±uaSE = (p-uaSE ,p+uaSE)
式中ua以a查u值表,若计算95%的可信区间,这时u0.05=1.96,a=0.05。例如:采用某治疗措施治疗60例某病患者,治愈24例,其治愈率为24/60=40%,该治愈率的95%的可信区间为:
SE = p(1-p)/n = 0.4(1-0.4)/60 =0.063
p±uaSE = (p-uaSE ,p+uaSE)
= (0.4-1.96×0.063,0.4+1.96×0.063)
= (27.6%,52.4%)
该治愈率的95%的可信区间是27.6%~52.4%。
(2)当样本率p0.70时,对百分数采用平方根反正弦变换,即y= sin-1p 或 sin y=p
当P从0~100%时,y从0~90(角度,以下略去),若以弧度表示则y从0~1.57(π/2)。(Bartlett. MS建议当p=100%时,p=1-1/4n,当p=0时,p=1/4n)。y的标准误,按角度计算sy=820.7/n ;若按弧度计算 sy=1/(4n) ,总体率的1-a的可信区间按下式计算:(y-uasy ,y+uasy )
然后再按下式变换求出百分数表示的可信区间:
PL=sin2(y-uasy ); PU=sin2(y+uasy )
例如:某医师调查某厂工人高血压病的患病情况,检查4553人,257人有高血压患病率为5.6446%,求该厂高血压患病率的95%可信区间?
本例u0.05=1.96,按上式计算:y=sin-10.056446 =0.239878,sy =1/(4×4553) =0.00741(以弧度计)则y的95%可信区间为:(0.239878-1.96×0.007410,0.239878+1.96×0.007410)=(0.2254, 0.2544)
而率的95%可信区间为:PL=sin2(0.2254)=0.0499; PU=sin2(0.2544)=0.0633
故该厂高血压患病率的95%可信区间为(4.99%,6.33%)。
2 RR的可信区间
相对危险度的RR(relative risk),应先计算RR,再求RR的自然对数值ln(RR),其ln(RR)的标准误SE (lnRR)按下式计算:
SE(lnRR)= 1 a + 1 c - 1a+b - 1c+d = 1 r1 + 1 r2 - 1n1 - 1n2
ln(RR)的可信区间为: ln(RR) ± ua SE(lnRR)
RR的可信区间为: exp[ ln(RR) ±ua SE(lnRR) ]
例如:某医师研究了阿斯匹林治疗心肌梗塞的效果,其资料见表1,试估计其RR的95%可信区间。
表1 阿斯匹林治疗心肌梗死的效果
table 2. the effect of aspirin treat MI
组别 有效 无效 合计
心梗组(MI) 15(r1) 110 125(n1)
对照组(Control) 30(r2) 90 120(n2)
合计(Total) 45 200 245(N)
RR = p1 p2 = r1/n1 r2/n2 = 15/125 30/120 =0.48
ln(RR)=ln(0.48)= - 0.734
SE(lnRR)= 1 r1 + 1 r2 - 1 n1 - 1 n2 = 1 15 + 1 30 - 1125 - 1120 = 0.289
ln(RR)的95%可信区间为:
ln(RR) ± 1.96SE(lnRR) = -0.734 ± 1.96×0.289 = (-1.301,-0.167)
RR的95%可信区间为:
exp[ ln(RR) ±1.96 SE(lnRR) ] = exp(-1.301,-0.167)=(0.272,0.846)
该例RR的95%可信区间为0.272~0.846,其上、下限均小于1,可以认为阿斯匹林治疗心肌梗死有效。
3 OR的可信区间
由于队列资料的RR的1-a可信区间与OR的1-a可信区间很相近,且后者计算简便,因而临床医学可用OR的可信区间计算法来代替RR的可信区间的计算。OR的可信区间的计算,应先计算OR,再求OR的自然对数值ln(OR),其ln(OR)的标准误SE (lnOR)按下式计算:SE(lnOR)= 1/a+1/b +1/c +1/d
ln(OR)的可信区间为: ln(OR) ± ua SE(lnOR)
OR的可信区间为: exp[ ln(OR) ±ua SE(lnOR) ]
例如:前述阿斯匹林治疗心肌梗塞的效果,试估计其OR的95%可信区间。
OR= 15×90 30×110 = 0.409
ln(OR)=ln(2.44)= -0.894
SE(lnOR)= 1/a+1/b +1/c +1/d = 1/30+1/90+1/15+1/110 =0.347
ln(OR)的95%可信区间为:
ln(OR)±1.96 SE(lnOR)= -0.892±1.96×0.347= ( -1.573,-0.214)
OR的95%可信区间为:
exp[ ln(OR) ±1.96SE(lnOR) ]= exp(-1.573,-0.214) = (0.207,0.807)
该例OR的95%可信区间为0.207~0.807,而该例的RR的95%可信区间为0.272~0.846,可见OR是RR的估计值。
4 RRR的可信区间
RRR可信区间的计算,由于RRR=1-RR,故RRR的可信区间可由1-RR的可信区间得到,如上例RR=0.48,其95%的可信区间为 0.272~0.846,故RRR=1-0.48=0.52,其95%的可信区间为0.154~0.728。
5 ARR的可信区间
ARR的标准误为: SE= p1 (1-p1)n1 + p2 (1-p2)n2
ARR的可信区间: ARR±uaSE = (ARR-uaSE ,ARR+uaSE)
例如:试验组某病发生率为15/125=12%,而对照组人群的发生率为30/120=25%,其ARR=25%-12% =13%,标准误为:
SE= p1 (1-p1)n1 + p2 (1-p2)n2 = 0.12 (1-0.12)125 + 0.25 (1-0.25)120 =0.049
其95%的可信区间为:
ARR±uaSE = (ARR-uaSE ,ARR+uaSE)
= (0.13-1.96×0.049,0.13+1.96×0.049)= (3.4%,22.6%)
该治愈率的95%的可信区间为3.4%~22.6%。
6 NNT及可信区间
NNT可信区间的计算,由于无法计算NNT的标准误,可由ARR的95%的可信区间来计算。因为NNT= 1/ARR,故NNT的95%的可信区间为:
NNT95%可信区间的下限:1/(ARR95%可信区间的上限值)
NNT95%可信区间的上限:1/(ARR95%可信区间的下限值)
例如上述ARR的95%可信区间为3.4%~22.6%,其NNT的95%可信区间下限为:1/22.6%=4.4;上限为:1/3.4%=29.4,故该NNT的95%可信区间为4.4~29.4。
7 均数的可信区间
总体均数据的可信区间可用于估计总体均数、样本均数与总体均数比较、两均数比较。计算时当总体标准差未知时用t分布原理,而s已知时,按正态分布原理计算。
(1)均数的可信区间
通常,均数的95%的可信间可按下式计算:
X-±t0.05,n SE 即95%CI的下限为:X--t0.05,nSE,上限为:X-+t0.05,n SE
式中n为样本含量,X-、s分别为样本均数和标准差,SE为标准误,SE=s/n,ta,n的值可用自由度(n)与检验水准(a)查t界值表得到。
当样本含量足够大时,如n>100,其95%的可信间可按下式近似计算,n越大近似程度愈好。
X-±1.96SE 即95%CI的下限为:X--1.96 SE,上限为:X-+ua SE
例:某医师测定某工厂144名健康男性工人血清高密度脂蛋白(mmol/L)的均数X-=1.3207,标准差s=0.3565,试估计该厂健康男性工人血清高密度脂蛋白总体均数的95%可信区间? 本例n=144,X-=1.3207,s=0.3565,n=144-1,可用大样本公式 X-±1.96s/n 计算 下限为:X--1.96s/n = 1.3207-(1.96) (0.3565)/144 =1.2625
上限为:X-+1.96s/n = 1.3207 + (1.96) (0.3565)/144 =1.3789
故该例总体均数的95%可信区间为(1.2625 mmol/L, 1.3789 mmol/L)。
(2)两个均数差值的可信区间
95%CI为:d±t0.05,n SE
即95%CI的下限为:d-t0.05,n SE 上限为:d+t0.05,n SE
式中d为两均数之差,即 d= | X-1-X-2 | ;SE为两均数差值的标准误,其计算公式为: SE= (n1-1) s12 + (n2-1) s22n1+n2-2 × (1 n1 + 1 n2 )
例如:某研究的X-1=17.2,s1=6.4,n1=38,X-2=15.9,s2=5.6,n2=45,其均数的差值为: d = | X-1-X-2 | = 17.2-15.9 = 1.3
其差值的标准误为:
SE= (38-1) ′6.42+ (45-1) ′5.6238+45-2 × (1 38 + 1 45 ) =1.317
该例自由度n=38+45-2=81"80,故以自由度为80,a=0.05,查表得t0.05,80=1.99,将其代入95%CI的计算公式,得:
d±t0.05,n SE = 1.3±1.99×1.317= (-1.32,3.92)
参考文献:
1 David L.Sackett, W.Scott Richardson, William Rosenberg, et al. EVIDENCE-BASED MEDICINE-how to practice and teach EBM.[M] The second edition. churchill livingstone publish
house:Toronto,2000.
2 王家良。主编。临床流行病学。第2版。上海:上海科技出版社,2001.
3 杨树勤。主编。卫生统计学。第3版。北京:人民卫生出版社, 1996.
循证医学中常用可信区间的研究
循证医学中常用可信区间的研究
在循证医学的研究或应用中,经常使用可信区间(confidence interval, CI )对某事件的总体进行推断。可信区间是按一 定的概率去估计总体参数(均数或率)所在的范围,它是按预先给定的概率(1-a ,常取 95%或 99%)确定未知参数值的可能范 围,这个范围被称为所估计参数值的可信区间或置信区间。如 95%可信区间,就是从被估计的总体中随机抽取含量为 n 的样本, 由每一个样本计算一个可信区间,理论上其中有 95%的可能性(概率)将包含被估计的参数。故任何一个样本所得 95%可信区间 用于估计总体参数时,被估计的参数不在该区间内的可能性(概率)仅有 5%。可信区间是以上、下可信限为界的一个开区间 (不包含界值在内)。可信限(confidence limit, CL )或置信限只是可信区间的上、下界值。可信区间的用途主要有两
个:
(1)估计总体参数,在临床科研工作,许多指标都是从样本资料获取,若要得到某个指标的总体值(参数)时,常用可信区间 来估计。如率的可信区间是用于估计总体率、均数的可信区间用于估计总体均数。
(2)假设检验,可信区间也可用于假设检验, 95%的可信区间与 a 为 0.05的假设检验等价。若某研究的样本 RR 或 OR 的 95%可 信区间不包含 1,即上下限均大于 1或上下限均小于 1时,有统计学意义(P<0.05);若它的 rr="" 或="" or="" 值="" 95%可信区间包含="" 1时,没有统计学意义(p=""> 0.05)。再如某研究两疗效差值的 95%可信区间不包含 0,即上下限均大于 0或上下限均小于 0时,有 统计学意义(P<0.05);两疗效差值的 95%可信区间包含="" 0时,两疗效无差别(p="">0.05)。
各种指标的可信区间计算,最常采用正态近似法,其中标准误的计算是其关键。标准误是由于抽样所致的样本与总体间的误 差,用以衡量样本指标估计总体参数的可靠性,标准误越大,用样本估计总体的误差也就越大,反之就越小。在数值资料(计量 资料)中,标准误的大小与个体变异 (s)成正比,与样本含量 (n)的平方根成反比。在分类资料(计数资料)中,标准误主要受样 本含量 (n)和某事件发生率 (p)大小的影响,样本含量愈大,抽样误差愈小;某事件发生率愈接近于 0.5,其抽样误差愈小,某事 件发生率离 0.5愈远(即发生率愈接近于 0或 1),抽样误差愈大。可信区间的范围愈窄,样本估计总体的可靠性愈好;可信区 间的范围愈宽,样本估计总体的可靠性愈差。
1. 率的可信区间
总体率的可信区间可用于估计总体率、样本率与总体率比较,两样本率比较。计算总体率的可信区间时要考虑样本率(p ) 的大小。
正态近似法 当 n 足够大,如 n >100,且样本率 p 与 1- p均不太小,且 np 与 n(1-p)均大于 5时,可用下式求总体率的 1-a 可信区间率的标准误:SE=p(1-p)/n率的可信区间:p ±uaSE = (p-uaSE , p+uaSE)式中 ua 以 a 查 u 值表,若计算 95%的可信区 间,这时 u0.05=1.96, a=0.05。
例如:采用某治疗措施治疗 60例某病患者,治愈 24例,其治愈率为 24/60=40%,该治愈率的 95%的可信区间为:
SE = p(1-p)/n = 0.4(1-0.4)/60 =0.063
p ±uaSE = (p-uaSE , p +uaSE)
= (0.4-1.96×0.063, 0.4+1.96×0.063)
= (27.6%, 52.4%)
该治愈率的 95%的可信区间是 27.6%~52.4%。
(2)当样本率 p <0.30或 p="">0.70时,对百分数采用平方根反正弦变换,即 y= sin-1p 或 sin y=p,当 P 从 0~100%时, y 从 0~90(角度,以下略去),若以弧度表示则 y 从 0~1.57(π/2)。 (Bartlett. MS建议当 p=100%时, p=1-1/4n,当 p=0时, p=1/4n)。 y 的标准误,按角度计算 sy=820.7/n ;若按弧度计算 sy=1/(4n) ,总体率的 1-a 的可信区间按下式计算:(y -uasy , y+uasy ),然后再按下式变换求出百分数表示的可信区间:PL=sin2(y-uasy ); PU=sin2(y+uasy )
例如:某医师调查某厂工人高血压病的患病情况,检查 4553人, 257人有高血压患病率为 5.6446%,求该厂高血压患病率的 95%可信区间?
本例 u0.05=1.96,按上式计算:
y=sin-10.056446 =0.239878, sy =1/(4×4553) =0.00741(以弧度计),则 y 的 95%可信区间为:
(0.239878-1.96×0.007410, 0.239878+1.96×0.007410) =(0.2254, 0.2544),而率的 95%可信区间为:
PL=sin2(0.2254)=0.0499;
PU=sin2(0.2544)=0.0633
故该厂高血压患病率的 95%可信区间为(4.99%,6.33%)。
2. RR的可信区间
相对危险度的 RR (relative risk),应先计算 RR ,再求 RR 的自然对数值 ln(RR),其 ln(RR)的标准误 SE (lnRR)按下式计 算:
SE(lnRR)= 1 a + 1 c - 1a+b - 1c+d = 1 r1 + 1 r2 - 1n1 - 1n2
ln(RR)的可信区间为: ln(RR) ± ua SE(lnRR)
RR的可信区间为: exp[ ln(RR) ±ua SE(lnRR) ]
例如:某医师研究了阿斯匹林治疗心肌梗塞的效果,其资料见表 1,试估计其 RR 的 95%可信区间。
3. OR的可信区间
由于队列资料的 RR 的 1-a 可信区间与 OR 的 1-a 可信区间很相近,且后者计算简便,因而临床医学可用 OR 的可信区间计算 法来代替 RR 的可信区间的计算。
OR的可信区间的计算,应先计算 OR ,再求 OR 的自然对数值 ln(OR),其 ln(OR)的标准误 SE (lnOR)按下式计算:
SE(lnOR)= 1/a+1/b +1/c +1/d
ln(OR)的可信区间为: ln(OR) ± ua SE(lnOR)
OR的可信区间为: exp[ ln(OR) ±ua SE(lnOR) ]
例如:前述阿斯匹林治疗心肌梗塞的效果,试估计其 OR 的 95%可信区间。
OR= 15×90 30×110 = 0.409
ln(OR)=ln(2.44)= -0.894
SE(lnOR)= 1/a+1/b +1/c +1/d = 1/30+1/90+1/15+1/110 =0.347
ln(OR)的 95%可信区间为:
ln(OR)±1.96 SE(lnOR)= -0.892±1.96×0.347= ( -1.573, -0.214)
OR的 95%可信区间为:
exp[ ln(OR) ±1.96SE(lnOR) ]= exp(-1.573, -0.214) = (0.207, 0.807)
该例 OR 的 95%可信区间为 0.207~0.807,而该例的 RR 的 95%可信区间为 0.272~0.846,可见 OR 是 RR 的估计值。
4. RRR的可信区间
RRR可信区间的计算,由于 RRR=1-RR ,故 RRR 的可信区间可由 1-RR 的可信区间得到,如上例 RR=0.48,其 95%的可信区间 为 0.272~0.846,故 RRR=1-0.48=0.52,其 95%的可信区间为 0.154~0.728。
5. ARR的可信区间
ARR的标准误为: SE= p1 (1-p1)n1 + p2 (1-p2)n2
ARR的可信区间: ARR±uaSE = (ARR-uaSE , ARR+uaSE)
例如:试验组某病发生率为 15/125=12%,而对照组人群的发生率为 30/120=25%,其 ARR=25%-12% =13%,标准误为: SE= p1 (1-p1)n1 + p2 (1-p2)n2 = 0.12 (1-0.12)125 + 0.25 (1-0.25)120 =0.049
其 95%的可信区间为:
ARR ±uaSE = (ARR-uaSE , ARR +uaSE)
= (0.13-1.96×0.049, 0.13+1.96×0.049)= (3.4%, 22.6%)
该治愈率的 95%的可信区间为 3.4%~22.6%。
6. NNT及可信区间
NNT可信区间的计算,由于无法计算 NNT 的标准误,可由 ARR 的 95%的可信区间来计算。因为 NNT= 1/ARR,故 NNT 的 95%的 可信区间为:
NNT95%可信区间的下限:1/(ARR95%可信区间的上限值)
NNT95%可信区间的上限:1/(ARR95%可信区间的下限值)
例如上述 ARR 的 95%可信区间为 3.4%~22.6%,其 NNT 的 95%可信区间下限为:1/22.6%=4.4;上限为:1/3.4%=29.4,故该 NNT 的 95%可信区间为 4.4~29.4。
7. 均数的可信区间
总体均数据的可信区间可用于估计总体均数、样本均数与总体均数比较、两均数比较。计算时当总体标准差未知时用 t 分布 原理,而 s 已知时,按正态分布原理计算。
(1)均数的可信区间
通常,均数的 95%的可信间可按下式计算:
X -±t0.05,n SE 即 95%CI的下限为:X --t0.05,nSE ,上限为:X -+t0.05,n SE
式中 n 为样本含量, X -、 s 分别为样本均数和标准差, SE 为标准误, SE=s/n, ta,n 的值可用自由度(n )与检验水准(a )查 t 界值表得到。
当样本含量足够大时,如 n >100,其 95%的可信间可按下式近似计算, n 越大近似程度愈好。
X-±1.96SE 即 95%CI的下限为:X --1.96 SE,上限为:X -+ua SE
例:某医师测定某工厂 144名健康男性工人血清高密度脂蛋白 (mmol/L)的均数 X -=1.3207,标准差 s=0.3565,试估计该厂 健康男性工人血清高密度脂蛋白总体均数的 95%可信区间?
本例 n=144, X -=1.3207, s=0.3565, n=144-1,可用大样本公式 X-±1.96s/n 计算
下限为:X --1.96s/n = 1.3207-(1.96) (0.3565)/144 =1.2625
上限为:X -+1.96s/n = 1.3207 + (1.96) (0.3565)/144 =1.3789
故该例总体均数的 95%可信区间为(1.2625 mmol/L, 1.3789 mmol/L)。
(2)两个均数差值的可信区间
95%CI为:d ±t0.05,n SE ,即 95%CI的下限为:d -t0.05,n SE 上限为:d +t0.05,n SE
式中 d 为两均数之差,即 d= | X-1-X -2 | ; SE 为两均数差值的标准误,其计算公式为:
SE= (n1-1) s12 + (n2-1) s22n1+n2-2 × (1 n1 + 1 n2 )
例如:某研究的 X -1=17.2, s1=6.4, n1=38, X -2=15.9, s2=5.6, n2=45,其均数的差值为:
d = | X-1-X -2 | = 17.2-15.9 = 1.3
其差值的标准误为:
SE= (38-1) ′ 6.42+ (45-1) ′ 5.6238+45-2 × (1 38 + 1 45 ) =1.317
该例自由度 n=38+45-2=81
转载请注明出处范文大全网 » 率差可信区间SAS程序
0.30或>0.05);两疗效差值的>0.05);若它的>0.05);两疗效差值的>0.05);若它的rr或or值95%可信区间包含1时,没有统计学意义(p>