显著性水平的含义
张 小 天Ξ
。的情况下,;中,假设检验形成正确结论的最小概率,。
,浙江大学哲学社会学系副教授。
一
在社会学研究的许多场合,我们要接触到显著性水平这个概念:在对样本资料进行统计分析和报告统计结果时,要频繁地使用它;在阅读统计报告时,
也要经常依据它做出判断。在这些时候,对于显著性水平的含义的透彻了解有助于明晰我们思考问题的思路、把握信息的内容。从更宽泛的视野来看,透彻地了解显著性水平的含义,对于我们在确定研究方案时是否选用统计方法以及适用何种统计方法,对于我们衡量统计在社会学研究中的价值,也具有相当的意义。
众所周知,显著性水平是针对假设检验而言的;它是指在假设检验中错误地否定正确的假设的概率,是指当假设正确时否定假设的可能。但是,尚没有被清楚地回答的更进一步的问题是:显著性水平这个概率是不是指在假设检验中犯错误的概率?是不是指否定假设时犯错误的概率、即结论为错误的概率?是不是指否定假设的概率?这个概率是针对所使用的假设检验的方法而言的、还是针对由假设检验已获得的结论而言的?①此外,这个概率有没有进一步引申的含义,我们能不能从中获知一些其它的内容?鉴于已有许多社会学研究、而且将会有更多的社会学研究要不断地触及到显著性水平这个概念,可能用一篇不太长的文章来澄清这些问题是值得的。
二
显著性水平是针对假设检验而言的一种犯错误的概率,而假设检验是统计推论的一种。Ξ非常感谢李哲夫教授给予的评论。李教授对我初期看法的评论指出了我当时的错误,激励我进行了更多的思考;后来对本文初稿的评论又指出了我在叙述方式的不足之处。
针对什么条件、针对何种随机试验而言的?①由于概率总是针对某种条件而言的,总是针对某种随机试验的,这几个问题也可以概括为:显著性水平这个概率是
31
另一种也涉及到犯错误的概率的统计推论是区间估计。由于我们对于区间估计中犯错误的概率以及用来表示这个概率的置信水平的含义已有了较为全面的了解,所以先复述一下区间估计中置信水平的确切含义,并将此含义做一个引申,以做为探讨我们当前问题的一些参照,可能是有益的。
当总体均值为μ时,样本均值X有一个相应的抽样分布。设X落在μ周围∑范围内的概
μ+∑μ≤X+∑,所以μ距离X率为0195,由于随机事件μ-∑≤X≤等于随机事件X-ρ≤
μ≤X+∑)=P(μ-∑≤X≤μ+∑)=0195。于是,我们不超过∑的概率为0195:P(X-ρ≤
可以利用任何一个抽样结果X做出区间估计:在0195置信水平上μ,〔X-∑,X+∑〕内。在这里,置信水平01950195;即如果我们以一个样本均值X为中心,以∑μ将落在这个置信区间〔X-∑,X+∑〕内,1-0195=0105。。X形成,这个结论要么正确、要么错误,。它所针对的随机试验是X断言总体均值μ落在置信区间〔X-∑,X+∑〕内。在这个随机试验中,,但样本、样本均值、置信区间、结论的内容以及
①结论的正确与否是随机的。如果从频率的角度理解概率,那么在0195置信水平上μ的置信
区间为〔X-∑,X+∑〕就是指,由于每100次抽样和区间估计中会有约95次抽样的结果满足μ-∑≤X≤μ+∑,所以由这约95次抽样所做出的区间估计,也就是会有约95次区间估计X
②μ≤-∑≤X+∑将是正确的。
统计推论是由样本资料来推知总体参数的取值,使我们对总体的状况有某种了解。而获知取值也就是测量。因此也可以认为统计推论是一类测量的方法,是利用对样本的测量实现对总体参数的测量。从这个角度看
,区间估计是这类测量方法中的一种,其测量结果是指出总体参数所在的区间。不同置信水平的区间估计就是不同的区间估计测量方法;我们可以对这种测量方法的置信水平做出选择。置信水平表明了所选用的区间估计测量方法产生正确测量结果和错误测量结果的概率;表明了多次重复使用所选择的测量方法时出错的大概比例是多少。因此可以认为,置信水平标识了用来测量总体的区间估计测量方法的效度;置信水平越
③高,测量方法出错的可能越小,测量方法的效度越高。
三
假设检验是另外一种对总体参数做出断言的方法。这种方法是将我们在验证理论时所使用的最为基本的假设检验推理方式,也就是在逻辑学上标为“否定后件假言三段论”,或在数学上称为“反证法”的推理形式,衍生到假言概率命题上所形成的推论方法。衍生的原则是以同
①其实,样本均值、置信区间、结论的内容及结论的正确与否都是样本的函数,所以必定也是随机的。
②参见布莱洛克著,傅正元等译《社会统计学》:,中国社会科学出版社1988年版,第203-206页;D1S1Moore,Statis2tics(NewYork:W1H1FreemanandCompany;1979),pp275-276;卢淑华《:社会统计学》,北京大学出版社1989年版,第242-245页,第248-250页。
③区间估计这种测量方法的信度与统计量抽样分布的方差及区间估计的置信区间大小有关:抽样分布方差越小,置信区间越大,则信度越高。在样本容量一定下,由于置信区间与置信水平成正向关系,所以这种测量方法的信度与效度并不存在紧张关系,而是同方向变化。但它们与测量的精度有紧张关系。
32
样的方法对待概率相近的事件;具体地说,可以认为是采用了小概率原理:在一次观察中,小概
①率事件不可能发生。当我们想了解总体均值μ的取值时,先依据研究的目标或以往的研究
结论选取一个值μ0,做出零假设μ=μ0。如果该假设成立,则样本均值X有一个特定的抽样分
μ0-∑μ布,设X落在区间〔,0+∑〕的概率为0195。在零假设成立时,虽然不能肯定一次抽样
μ0-∑μ的X一定落在区间〔,0+∑〕内,但落在此区间的概率极大;而X落在此区间之外、即
落在否定域中的可能性接近于0。在一次抽样后,如果X落入否定域,则我们否定零假设,并
μ0;如果X落在否定域之外、μ0-∑μ断言μ≠即落在区间〔,0+∑〕内,,不做
②出关于总体均值的任何结论。这就是一个显著性水平为0105μ=μ0”μ0-∑μ法中,尽管“和“X落在〔,0+∑〕内”,但它们的关系仍是随机的;它们之间不存在演绎推论关系。错误的结论。
很容易看到的是,X落入否定域的概率,也就。
,:零假设为真,即总体均值μ确实μ0。它是指在这个条件下,依据样本均值X是否落在否定域来决定是否否定零假设的这种断言方法将否定零假设,将出现错误断言的概率。它所针对的随机试验是在这个条件下进行一次随机抽样,然后采用这种断言方式对总体参数做出推断。在这个随机试验中,零假设、零假设为真以及做出断言的方式是确定的,而样本、样本均值X、X
③是否落入否定域、是否否定零假设、是否产生结论即是否产生错误结论则是随机的。因此显
著性水平是指零假设为真的条件下假设检验这种断言方法犯错误的概率。而且这时我们还易于看到,显著性水平是针对假设检验的方法而言的,并不是针对由此方法已经获得的结论;它不是指结论是错误结论的概率。在这个条件下,进行假设检验的结果要么是没有结论,要么是形成否定零假设的结论;在形成结论的情况下,结论必定是错误的。也就是说,在零假设为真的条件下,假设检验不能产生正确的结论,这种方法产生正确结论的概率为0。而显著性水平0105也表明,在这个条件下假设检验方法不能产生关于总体参数的结论的概率为1-0105=0195。从频率的角度看,假设检验的显著性水平为0105表明,当零假设恰好正确时,用多次抽样做多次假设检验,则在每100次抽样和假设检验中,会有约95次抽样的假设检验形不成关于总体的结论,会有约5次抽样的假设检验产生结论,但都是错误结论;或者说,在每100次假设检验中,我们会犯约5次错误。
那么,当总体均值μ不等于μ0,从而零假设为真这个条件不成立时情况会怎样呢?这时样本均值X仍有一个相应的抽样分布,X落在由零假设划定的否定域的概率大于显著性水平
μ0-∑μ0105,落在否定域之外,即落入〔,0+∑〕的概率小于0195。依据假设检验中设定的断
①否定后件假言三段论的推理形式为:若P则q,非q,所以非P。而在统计中的假设检验推论方法为:若P则极可能q,非q,所以非P。其中前者的大前提陈述了一个必然联系。后者的大前提是一个假言概率命题,陈述的是随机关系,
只是其后件以极大的概率与其前件相联。
②当X落入否定域之外时不去肯定零假设、不做出关于总体均值的结论,这是绝大多数社会学研究中的通行做法,也是许多人所主张的做法(比如布莱洛克《社会统计学》:,第106页)。但这样的做法却并不是将回避开逻辑学中称为“承认后件谬误”的错误推理形式衍生到这里的结果。我们这样做的原因有两个:一是当X落入否定域外时就肯定零假设的推论方法犯乙种错误的最大概率极高,接近于0195;二是大多数社会学研究并不是处在决策情景中,并不是必须做出一个关于总体的结论。
③在这各项当中,后面的一项总是前面的一项的函数,所以各项都是随机的。
33
μ0,从而获得正确结论;也可能形不成关于言方式,我们可能否定这个错误的零假设,断言μ≠
①总体参数的任何结论;但不论怎样,都不会产生错误结论。在这种情况下,假设检验这种方
法产生正确结论的概率及不能形成结论的概率还取决于实际的μ值与我们选定的μ0值的距离:这个距离越大,则产生正确结论的概率越大,直至接近于1;形不成结论的概率越小,直至接近于0。而当我们进行社会学研究时,真实的μ值是未知的。因此在零假设为伪的情况下,虽然存在着假设检验能否形成结论的概率,但我们只能知道这种方法否定零假设,即产生正确结论的概率大于0105,形不成关于总体的结论的概率小于0195。
实际上的总体均值μ可能等于μ0,也可能不等于μ0;,也可能不相符。虽然我们不知道是哪种情况出现,μ0。在假设检验的视野中,总体均值μ、我们选定的μ0μ0,不存在μ=μ0
μ0的概率。及μ≠
μ0是针对μ=μ0和μ≠
这样,:当实际情况为μ=μ0,即零假设为真时,假设0105、即犯错误的概率为0105,得不出结论的概率为
μ0,即零假设为假0195,,0;当实际情况为μ≠
时,0105,即得出正确结论的概率大于0105,而且μ与μ0相距越远,这个概率越大,假设检验得不出结论的概率小于0195,但不会产生错误结论,即犯错误的概率为0。然而,在假设检验产生出结论的情况下,结论是错误还是正确取决于零假设
μ0的概率,所以不存在在假设检验所产生的结论中,结是真还是伪。由于不存在μ=μ0及μ≠
论为错误或正确的概率,即不存在否定零假设中错误否定的概率。同样,由于不存在零假设真假的概率,也不存在不区分条件的假设检验犯错误的概率,更不存在不区分情况的假设检验否定零假设,产生结论的概率。不过,我们仍可以以另外一种方式来综合地描述零假设为真和零
②假设为伪这两种情况下假设检验的各种结果的概率状况。综合这两种情况看,假设检验的
μ0的结论;而这个结论可能是正确的,结果可能是得不出结论,也可能是否定零假设,产生μ≠
也可能是错误的。也就是说,假设检验的结果有三种:得不出结论、产生错误结论,或产生正确结论。在不同的情况下,这三种结果的概率都不相同。但我们可以指出不同情况中各种结果的概率的最大值和最小值:在显著性水平为0105时,假设检验产生结论的最小概率为0105,得不出结论的最大概率为0195;产生错误结论的最大概率为0105;产生正确结论的最小概率为0,最大概率接近于1。可见,在假设检验中,虽然产生结论的概率及产生正确结论的概率可能很大,也可能很小,但犯错误的概率必定很小;而且零假设与实际状况相差越远,产生结论及
③产生正确结论的概率越大。
在进行假设检验时,我们要对显著性水平和零假设做出选择。较低的显著性水平会使假设检验产生结论的概率及其最小概率较小,同时也使犯错误的最大概率较小。假设检验的结论是由零假设来引导的。我们所选择的零假设决定了假设检验所可能产生的结论的内容:在
①布莱洛克认为,
在我们力图排除错误的假设的意义上,没有否定一个错误的假设也是一种错误。所以在这种零假设为伪的情况下没有做出结论是一种错误(布莱洛克《社会统计学》:,第154页)。当然,这种错误不是指结论的错误,因此我在这里并不把不否定错误零假设看成是错误。而且,如果把布莱洛克的这个看法引申一下,似乎也应该将没有肯定一个正确的假设看成是一种错误。但我们却从来没有过这样的看法。
μ0两种情况。②其实,这时候更有价值的视野是同时考察μ与μ0之间的各种距离,而不是只区分开μ=μ0和μ≠
③正是为了使假设检验具有这最后一项性质,我们在设定假设检验的推论方法时,一般将否定域设定为一个无限区间,而不是设定为一个点或一个较小的有限区间。
34
能够产生结论的时候,结论必定是否定零假设。同时,对零假设的选择其实也决定了零假设真假哪一种情况出现,从而决定了所能产生的结论只能是错误的还是只能是正确的。而且,零假设的真假更具体地决定了显著性水平的意义:零假设为真时,显著性水平表示了假设检验产生结论、产生错误结论的概率;零假设为假时,显著性水平表示产生结论、产生正确结论的最小概率。事实上,零假设与显著性水平共同决定了假设检验产生错误结论、产生正确结论,以及不能形成结论的确切概率。但是,在进行假设检验时,我们并不能知道所选择的零假设会使零假设真伪的哪一种情况出现,所以无法据此进行选择,而只能根据所希望得到的结论的内容来做出选择,率上的意义。
果,也可能会没有测量结果,,也可能是错误的;①
②。在使用这种测量方法时,要
事先做出两项设定:。不同的设定可以认为是不同的测量方
③法。:它决定了可能产生的测量结果的内容,、错误测量和正确测量的概率上的具体作用。在实际上无法获知所设定的零假设与被测的总体参数的差距的情况下,显著性水平决定了所选择的测量方法出现失败测量的最大概率以及产生错误测量结果的最大概率。由于假设检验这种测量方法产生正确测量结果的最小概率总是0、最大概率总是接近于1,我们无法利用这种测量方法产生正确测量结果的概率来指示其效度。我们只能以相反的这种方法产生错误测量结果的概率来指示其效度。显著性水平表示了假设检验测量方法产生错误测量结果的最大概率,所以可以认为它标识了这种测量方法的效度:显著性水平越低,
④测量方法的效度越高。我们总可以用极低的显著性水平来保证这种测量方法的效度,这正
是假设检验测量方法的价值所在。
四
综上所见,假设检验中的显著性水平具有如下含义:(1)它是在假设检验的零假设与总体参数的实际状况相一致,即零假设为真的条件下,假设检验这种断言总体参数取值的方法否定零假设、
产生关于总体参数的结论以及犯错误的概率。(2)它也是在零假设与实际状况不一致,即零假设为假的情况中,假设检验否定零假设、产生结论以及产生正确的最小概率。(3)在通常我们不知道零假设的真伪,须考虑到各种情况的时候,它就是假设检验否定零假设和产生
①如果从研究资源的利用或研究的成本来看,测量失败是一种不经济,也应该尽力避免。
②当然,在单尾假设检验中,测量结果是断言总体参数小于或大于某一数值。
③如果将假设检验更形象地看成是一台测量总体参数的仪器,那么也可以将要设定的零假设和显著性水平看成是可调节仪器状态的两个参数。不同的设定,测量仪器的状态不同。
④其实,这种测量方法的效度更主要地取决于零假设与实际状况是否相符,即取决于它所需的另外一项设定。但是在无法知道零假设与实际状况是否相符的时候,我们就必须考虑到各种情况,这时是显著性水平决定了效度。如果将测量失败和否定零假设看成是不同的测量后果并以此定义这种测量方法的信度的话,那么信度其实由零假设与实际状况的差距及显著性水平共同决定:在没有差距或差距不大时,显著性水平越低则信度越高;在差距很大时,显著性水平越低则信度越低。在综合考虑到差距各种情况时,信度的高低与显著性水平的高低就不存在普遍性的单向关系。因此可以说这种测量方法的信度与效度间没有关系。不过,由于显著性水平总与测量失败的概率成反向关系,所以这种测量方法的效度与其测量的不经济成正向关系。
35
结论的最小概率,以及犯错误的最大概率。(4)当我们把假设检验看成是测量总体参数的方法时,它就是产生错误测量结果的最大概率,标识了这种测量方法的效度:显著性水平越低,效度越高。(5)它不是指假设检验犯错误的概率,不是指假设检验否定零假设、产生结论的概率,也不是指假设检验所产生的结论是错误结论,即否定零假设时错误否定的概率。在假设检验的视野中,不存在这些概率;我们必须区分零假设与实际状况的各种关系,在各种条件下谈论概率,或者在此基础上谈论在所有条件下概率的最大值和最小值;而且概率都是由样本的随机性①()所导致的。6它是针对假设检验这种方法而言的,,不是针对假设检验所产生的结论。法的信心。
1996年元月定稿
责任编辑:张宛丽
书讯
△李庆善著《中国人新论———从民谚看民心》已由中国社会科学出版社1996年11月出版,全书26万字,定价16元。
(瑞士H.B.丹尼什著,陈一筠译)已由社会科学文献出版社于1996年8△《精神心理学》
月出版,
全书1814万字,定价16150元。△马庚存著《中国近代妇女史》已由青岛出版社于1995年12月出版,全书25万字,定价1118元。
(上、△王树人、喻柏树著《传统智慧再发现———常青的智慧与艺魂》下卷)已由作家出版社
于1996年2月出版,全书52万字,定价37150元。
(张)
①都是关于样本的函数的概率。
36
农业科研中显著性检验与显著性水平的讨论
农业科研中显著性检验与显著性水平的讨论
王国胜
(河北科技师范学院数理系,河北秦皇岛066004)
摘要 讨论了农业上显著性检验的前提和目的、统计学上差异的意义、显著性水平的选择、显著性检验的结论。关键词 显著性检验;显著性水平;统计学差异
中图分类号 S11+4 文献标识码 A 文章编号 0517-6611(2007)19-05676-02
农业科学研究离不开统计分析。其中显著性检验是重要内容,应用十分广泛。然而,在目前报道的许多农业科技文献甚至出版的农业统计书籍中,经常出现概念模糊、表述不清、使用不当或者误用。主要表现在以下几个方面。1 显著性检验的使用
1.1 显著性检验的前提 显著性检验通常只能用于随机样本的数据。例如,某养马场考察系统培养对马匹的影响。这时不宜简单地将赛马的某些指标和普通马直接相比,从而得出赛马某项指标比普通马好的结论。因为赛马通常是经过严格选拔,有些指标未经系统培养就优于普通马。同时,从事不同项目的赛马各有特点(从事耐力项目的红肌多,从事速度项目的白肌多,从事障碍项目的协调性好等),这时进行显著性检验,若不对此加以考虑,则不但没有必要,而且缺乏样本随机性这个基本条件。这类错误时而可见,应该引以为戒。随机抽取样本是对相应总体作无偏估计的前提,也是进行显著性检验的必备条件。假如研究者取得的样本缺乏随机性,则不能代表总体,当然也就不适宜进行针对总体指标而言的显著性检验。
1.2 显著性检验的目的 2个或多个样本相比较,当样本之间有差异时,产生差异可能是由于抽样误差,也可能是某些本质因素不同所致。显著性检验目的是确定样本间的差异由于抽样误差所致的概率(P)大小,如果这一概率较大(P>0.05),通常认为不能排除样本间的差异是由于抽样误差所致,即这2个样本均数(率或构成比)是从2个相同的总体中抽到(实际上是来自同一总体),统计学称之为差异无显著性;这一概率若很小(P≤0.05,即小概率事件),则认为2个样本均数(率或构成比)是从2个本质不同的总体中抽到,它们之间的差异属于本质不同的差异,不是抽样误差所致,而是由于其他因素所致,统计学称之为差异有显著性。2 统计学上的差异
统计学上的差异是相对的,它建立在一定的显著性水平上。在甲显著水平上表现出差异,在乙显著水平上不一定出现差异,因此,差异显著只表示在一定的较小允许误差条件下有显著意义;差异不显著,也只是因为误差太大而不能确认其差异。这有可能是由于样本本身存在的差距较小、样本中个体之间的变异较大,也可能是观察的例数不足,或某种偶然因素的影响所致,并不排除今后出现“差异显著”结果的可能性。换言之,未发现其存在显著差异不等于其本身不存在差异。为了理解方便,笔者用取样数目相等(n1=n2)的t
作者简介 王国胜(1964-),男,河北蠡县人,讲师,从事数学与应用数
学的教学与研究。
收稿日期 2007-05-18
检验公式来帮助说明。已知: t=
x1-x2
1)
(n2
-1)s+(n-1)
s2
(n1+n2-2
n+1n2
当n1=n2时,
只须t>
(x-x)
ns2
2
(2)
1+
s2成立,就表现不出统计学上的显著差异,式(2)中n或(x1-x2)越小、s1和s2越大,则不等式成立的可能性越大。这样一来,有时虽然x1与x2的差距很大,但由于s1和s2也很大,也不能表现出统计差异。
此外,公式选择不当,也会影响显著性的判断。如果研究者在对待某种药剂施用后治疗畜禽病初期和治疗畜禽病末期2次测量值的比较时,研究者应使用
t=
xm
n(n-1)
∑(x2
(3)
n-xn)
式中,xm=x1-x2,xn=x1-x2。而不可使用(1)式。3 显著性水平的确定
3.1 显著性检验犯2类错误的分析 显著性水平(α)的确定在统计假设检验中占有重要地位。就我国农业科学研究领域来看,凡涉及到显著性水平确定时,几乎所有人都选择0.05或0.01,在国外亦成惯例。然而,笔者认为,这样处理并不总是合理的,不少情况下应针对不同条件区别对待。因为农业科研属于生物方面的研究,其试验条件、试验单位(受试者)不可能完全一致,试验误差较大,尤其在进行小规模实验时,如果一味坚持0.05或0.01的显著性水平,则很容易把有差异的东西说成无差异。
众所周知,考虑统计量是否在解消假设H0的接受域内时,存在犯2类错误结论的可能性,第1类错误是解消假设确实成立,然而被否定了。第2类错误是解消假设不成立,但是被接受了。现在就以解消假设H0∶μ=μ0和备择假设H1∶μ=μ1单侧检验为例进行讨论
(图1)。如图1所示,犯第1类错误的可能性为α,犯第2类错误的可能性为β,则有
β=∫∞μ
ψ(t)dt(4)
β其中 μxn-μ1
β=
σ/n结合图1不难看出:
(1)当其他情况不变时,α大,则β小;反之α小,必导致β大。
(2)其他情况不变,增加样本容量n,β值将有效减小。
因为在这场合下x的方差σ/n将减小。从而H0分布或H1分布都将趋陡峭,以致同一α下,β将减小。
(3)其他情况不变,假设下的u0与u1的差值将直接
影响β值。
图1 第一类错误和第二类错误的关系
3.2 统计样本的容量和处理程度 在统计假设检验的问题里,样本容量n(观察数)的确定是重要的一环。n取得太大,将导致人力、物力和财力的浪费;若n取得太小,则导致α与β的增大。因此,应该在一定条件下确定最低限度的取样量n的值。已知:
n=(uα+uβ2
△/σ
在农业科研实践中,样本容量经常有所限制,许多情况下只能取到4~5个样本,获得较大n的机会较少。即客观条件只允许在一个狭小的范围里选择。
μ0与μ1的差值大小,既取决于本身存在的差距大小,也取决于实验数量做得是否足够大。这就是说,有时处理前和处理后本身应该出现较大的差距,但研究者处理不善,未能达到能分辨出这种差异的程度或未能达到其本身应该出现的差距。事实上,农业科研中有时实验周期延长比较困难,致使μ0与μ1的差值不可能太大。因此,在样本容量n、μ0与μ1差值难以扩大的情况下,实际应用时要减小β,只能用调整α来达到。
3.3 显著性水平的选择 一般说来,显著性水平的选择往往是人为的,但在使用它们的科学领域中看起来是合适的选择。对于农业科研方面的实验(尤其是育种和疫苗筛选项目)犯第二类错误的后果往往比犯第一类错误的后果更严重,因为它会使研究者拒受备择假设,而备择假设的内容往往是有重要价值的。所以说,研究者宁可冒犯第1类错误的风险,也应尽量减少犯第2类错误的机率。这样显著性水平可放宽至0.10,甚至更大(将图中的分界线向左移)。这里研究者还应该注意到,在规定α下,取单侧分位数将导致较小的β,因为对同样的α,双侧分位数u0离μ0更远,但更靠近μ1,以致β将增大。从这一角度看,在实际工作中,凡是可以采用单侧检验的场合,就尽量利用这一有利条件,以有效地减小β值。
关于笔者提出的酌情采用0.10甚至更大数值的显著性
水平有实际意义。答案是肯定的。例如,考察某种饲料配方使用2个月后对三元杂交猪瘦肉率的影响,通常2个月的饲喂可能只会提高瘦肉率1%或者更少。不过,哪怕这种微弱的提高,从专业的角度看却标志着猪肉的瘦肉率有了明显改善。然而,由于μ1与μ0的差值很小,试验中猪的瘦肉率表现也不会没有波动,同时难以宰杀很多猪来考察瘦肉率(即样本容量n一般也不会大),这时采用0.05的显著性水平不易发现差异。可以说,农业科学中的许多项目,在某项指标上,本来都存在相同的变化趋势,但是由于研究者没有根据自己的实验设计和完成试验的具体情况去选择合适的显著性水平,结果所得到的结论不同。4 显著性检验的结论
统计检验上显著意义和实际应用上的显著效果是两码事,即“差异有(无)显著性”与“有(无)显著性差异”是2个内涵不同的概念,前者是用来表达显著性检验结果的统计学术语,有其特殊的涵义;后者是一般用语,表示相差的程度,不能用来表达显著性检验的判断结果,否则会引起混淆以至对检验结果的错误理解。当统计检验得出在某一水平上有显著意义的结论时,只表明该结果纯属偶然出现的概率很小,而并不能直接解释为要检验的实际指标具有“显著效果”(即差别较大)。例如某文表述:“紫外保健灯对肉仔鸡体重的影响主要在第2、6周。在第2周与对照组相比增加了3.86%,差异极显著(P
差别无显著性意义(P>0.05),绝不能表达为“无显著(性)差别”;
差别有显著性意义(P≤0.05),绝不能表达为“有显著(性)差别”;
差别有极显著性意义(P≤0.01),绝不能表达为“有极显著(性)差别”。参考文献
[1]何慧,孙颉,谢笔钧.水溶性灵芝肽在动物体外的抗氧化活性[J].中国
农业科学,2006,39(12):2603-2607.
[2]张兰霞,施正香,王新颖,等.紫外线对肉仔鸡骨骼发育的影响[J].中
国农业科学,2006,39(9):1902-1906.
[3]中国科学院数学研究所概率统计室.常用数理统计表[M].北京:科学
出版社,1974.
农业科研中显著性检验与显著性水平的讨论
农业科研中显著性检验与显著性水平的讨
论
安徽农业科学.JournalofAnhuiA.Sci.2007,35(19):5676—5677责任编辑朱永和责任
校对俞洁
农业科研中显着性检验与显着性水平的讨论
王国胜(河北科技师范学院数理系,河北秦皇岛o66004) 摘要讨论了农业上显着性检验的前提和目的,统计学上差异的意义,显着性水平的
选择,显着性检验的结论.
关键词显着性检验;显着性水平;统计学差异
中图分类号sll4文献标识码A文章编号0517—661l(2007)19—05676—02 农业科学研究离不开统计分析.其中显着性检验是重 要内容,应用十分广泛.然而,在目前报道的许多农业科技 文献甚至出版的农业统计书籍中,经常出现概念模糊,表述 不清,使用不当或者误用.主要表现在以下几个方面. 1显着性检验的使用
1.1显着性检验的前提显着性检验通常只能用于随机样 本的数据.例如,某养马场考察系统培养对马匹的影响.这 时不宜简单地将赛马的某些指标和普通马直接相比,从而得 出赛马某项指标比普通马好的结论.因为赛马通常是经过 严格选拔,有些指标未经系统培养就优于普通马.同时,从 事不同项目的赛马各有特点(从事耐力项目的红肌多,从事 速度项目的白肌多,从事障碍项目的协调性好等),这时进行 显着性检验,若不对此加以考虑,则不但没有必要,而且缺乏 样本随机性这个基本条件.这类错误时而可见,应该引以为 戒.随机抽取样本是对相应总体作无偏估计的前提,也是进 行显着性检验的必备条件.假如研究者取得的样本缺乏随 机性,则不能代表总体,当然也就不适宜进行针对总体指标
而言的显着性检验.
1.2显着性检验的目的2个或多个样本相比较,当样本之 间有差异时,产生差异可能是由于抽样误差,也可能是某些 本质因素不同所致.显着性检验目的是确定样本间的差异 由于抽样误差所致的概率(尸)大小,如果这一概率较大(P> 0.CI5),通常认为不能排除样本间的差异是由于抽样误差所 致,即这2个样本均数(率或构成比)是从2个相同的总体中 抽到(实际上是来自同一总体),统计学称之为差异无显着 性;这一概率若很小(P?0.05,即小概率事件),则认为2个 样本均数(率或构成比)是从2个本质不同的总体中抽到,它 们之间的差异属于本质不同的差异,不是抽样误差所致,而 是由于其他因素所致,统计学称之为差异有显着性. 2统计学上的差异
统计学上的差异是相对的,它建立在一定的显着性水平 上.在甲显着水平上表现出差异,在乙显着水平上不一定出 现差异,因此,差异显着只表示在一定的较小允许误差条件 下有显着意义;差异不显着,也只是因为误差太大而不能确 认其差异.这有可能是由于样本本身存在的差距较小,样本 中个体之间的变异较大,也可能是观察的例数不足,或某种 偶然因素的影响所致,并不排除今后出现"差异显着"结果的 可能性.换言之,未发现其存在显着差异不等于其本身不存 在差异.为了理解方便,笔者用取样数目相等(/7,l=/7,2)的t 作者简介王国胜(1964一),男,河北蠡县人,讲师,从事数学与应用数 学的教学与研究.
收稿日期2007-05.18
检验公式来帮助说明.已知:
————
X
—
1--X—
2
而'1)
~/(nl-1)s.
1y+
一
(nz-1)szZ/1
..一.
.
n2
当nl=2时,
只须,>(2)
,/l+2
成立,就表现不出统计学上的显着差异,式(2)中/7,或(一 X2)越小,sl和s2越大,则不等式成立的可能性越大.这样 一
来,有时虽然zl与2的差距很大,但由于sl和s2也很 大,也不能表现出统计差异.
此外,公式选择不当,也会影响显着性的判断.如果研 究者在对待某种药剂施用后治疗畜禽病初期和治疗畜禽病 末期2次测量值的比较时,研究者应使用
一,—————
(3)一,---------------------------一,?,,
~/?(一靠)
C中,m=l一2,n=l一2.
而不可使用(1)式.
3显着性水平的确定
3.1显着性检验犯2类错误的分析显着性水平(a)的确 定在统计假设检验中占有重要地位.就我国农业科学研究
领域来看,凡涉及到显着性水平确定时,几乎所有人都选择 0.CI5或0.01,在国外亦成惯例.然而,笔者认为,这样处理并 不总是合理的,不少情况下应针对不同条件区别对待.因为 农业科研属于生物方面的研究,其试验条件,试验单位(受试 者)不可能完全一致,试验误差较大,尤其在进行小规模实验 时,如果一味坚持0.CI5或0.01的显着性水平,则很容易把有 差异的东西说成无差异.
众所周知,考虑统计量是否在解消假设的接受域内 时,存在犯2类错误结论的可能性,第l类错误是解消假设 确实成立,然而被否定了.第2类错误是解消假设不成立, 但是被接受了.现在就以解消假设Ho:=0和备择假设 Hl:=l单侧检验为例进行讨论(图1).
如图1所示,犯第1类错误的可能性为a,犯第2类错误 的可能性为口,则有
p:j(t)(4)
其中口:兰
/4/7,
结合图1不难看出:
(1)当其他情况不变时,a大,则小;反之a小,必导致 大.
(2)其他情况不变,增加样本容量/7,,值将有效减小.
35卷l9期王国胜农业科研中显着性检验与显着性水平的讨论5677
因为在这场合下的方差将减小.从而分布或H 分布都将趋陡峭,以致同一a下,口将减小.
(3)其他情况不变,假设下的".与"的差值将直接影 响口值.
分柠
/.c【一o
/'\分布
缓受区域否定区域1
,
解消假设
图1第一类错误和第二类错误的关系
3.2统计样本的容量和处理程度在统计假设检验的问题 里,样本容量n(观察数)的确定是重要的一环.n取得太大, 将导致人力,物力和财力的浪费;若n取得太小,则导致a与 口的增大.因此,应该在一定条件下确定最低限度的取样量 n的值.已知:
n=()
在农业科研实践中,样本容量经常有所限制,许多情况 下只能取到4—5个样本,获得较大n的机会较少.即客观 条件只允许在一个狭小的范围里选择.
Fo与的差值大小,既取决于本身存在的差距大小, 也取决于实验数量做得是否足够大.这就是说,有时处理前 和处理后本身应该出现较大的差距,但研究者处理不善,未 能达到能分辨出这种差异的程度或未能达到其本身应该出 现的差距.事实上,农业科研中有时实验周期延长比较困 难,致使.与的差值不可能太大.因此,在样本容量n, .与差值难以扩大的情况下,实际应用时要减小p,只能 用调整a来达到.
3.3显着性水平的选择一般说来,显着性水平的选择往 往是人为的,但在使用它们的科学领域中看起来是合适的选 择.对于农业科研方面的实验(尤其是育种和疫苗筛选项 目)犯第二类错误的后果往往比犯第一类错误的后果更严 重,因为它会使研究者拒受备择假设,而备择假设的内容往 往是有重要价值的.所以说,研究者宁可冒犯第1类错误的 风险,也应尽量减少犯第2类错误的机率.这样显着性水平
可放宽至0.10,甚至更大(将图中的分界线向左移).这里研 究者还应该注意到,在规定a下,取单侧分位数将导致较小 的,因为对同样的a,双侧分位数".离.更远,但更靠近 ,以致将增大.从这一角度看,在实际工作中,凡是可以 采用单侧检验的场合,就尽量利用这一有利条件,以有效地 减小口值.
关于笔者提出的酌情采用0.10甚至更大数值的显着性 水平有实际意义.答案是肯定的.例如,考察某种饲料配方 使用2个月后对三元杂交猪瘦肉率的影响,通常2个月的饲 喂可能只会提高瘦肉率1%或者更少.不过,哪怕这种微弱 的提高,从专业的角度看却标志着猪肉的瘦肉率有了明显改 善.然而,由于与.的差值很小,试验中猪的瘦肉率表 现也不会没有波动,同时难以宰杀很多猪来考察瘦肉率(即 样本容量n一般也不会大),这时采用0.05的显着性水平不 易发现差异.可以说,农业科学中的许多项目,在某项指标 上,本来都存在相同的变化趋势,但是由于研究者没有根据 自己的实验设计和完成试验的具体情况去选择合适的显着 性水平,结果所得到的结论不同.
4显着性检验的结论
统计检验上显着意义和实际应用上的显着效果是两码 事,即"差异有(无)显着性"与"有(无)显着性差异"是2个内 涵不同的概念,前者是用来表达显着性检验结果的统计学术 语,有其特殊的涵义;后者是一般用语,表示相差的程度,不 能用来表达显着性检验的判断结果,否则会引起混淆以至对 检验结果的错误理解.当统计检验得出在某一水平上有显 着意义的结论时,只表明该结果纯属偶然出现的概率很小, 而并不能直接解释为要检验的实际指标具有"显着效果"(即 差别较大).例如某文表述:"紫外保健灯对肉仔鸡体重的影 响主要在第2,6周.在第2周与对照组相比增加了3.86%,
差异极显着(P<0.O1),在第6周增加了2.55%,差异显着(P <0.05)".这里作者不是混淆了"差异有(无)显着性"与"有 (无)显着(性)差异"是两个内涵不同的概念,就是没有恰当 地表述出本意.从专业上看,肉仔鸡体重增加3.86%和增加 2.55%差别不大.前面的结论易让人产生"第2周肉仔鸡体 重变化很大"的歧义.如果作者采用这样的表述"……增加 了3.88%(P<0.O1),……增加了2.55%(P<0.05)"则是合 理的.再如:某种蔬菜种子的发芽率是95%,经过药剂浸种 后发芽率提高了0.5%.从统计检验出发,这0.5%的增加有 可能获得统计上的显着意义,却不能使研究者作出该药剂浸 种处理能够"显着提高种子发芽率"的结论.这时只能认为 该手段在提高种子发芽率方面的效果不大可能是偶然机遇. 效率本身的大小,从显着性检验上不能反映出来.所以,为 了避免产生歧义,显着性检验结果的正确表达应该是: 差别无显着性意义(P>0.05),绝不能表达为"无显着 (性)差别";
差别有显着性意义(P?0.05),绝不能表达为"有显着 (性)差别";
差别有极显着性意义(P?0.O1),绝不能表达为"有极显 着(性)差别".
参考文献
[1]何慧,孙颉,谢笔钧.水溶性灵芝肽在动物体外的抗氧化活性[J].中国 农业利学,20o6,39(12):2603—2607.
[2]张兰霞,施正香,王新颖,等.紫外线对肉仔鸡骨骼发育的影响[J].中 国农业科学,20o6,39(9):19(/2—1906.
[3]中国科学院数学研究所概率统计室.常用数理统计表[M].北京:科学 出版社,1974.
显著性水平
显著性水平
引起变动的原因也有不同:一类是条件差异,一类是随机差异。它是准。 概念
估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用α表示
1-α 为置信度或置信水平,其表明了区间估计的可靠性
了通常的偶然因素的作用范围,说明还有系统性的因素发生作用,因
而就可以否定某种条件不起作用的假设。假设检验时提出的假设称为
机因素引起,不存在条件变动因素。
显著性水平不是一个固定不变的数字,其越大,则原假设被拒绝的可能性愈大,原假设为真而被否定的风险也愈大。显著性水平应根据所研究的的性质和我们对结论准确性所持的要求而定。
显著性水平的理解
断界限的小概率标准。检验中,依据显著性水平大小把概率划分为二
个区间,小于给定标准的概率区间称为拒绝区间,大于这个标准则为
须把握以下二点:
1、显著性水平不是一个固定不变的数值,依据拒绝区间所可能承担的风险来决定。
2、统计上所讲的显著性与实际生活工作中的显著性是不一样的。
显著性水平
显著性水平
1.概念与意义
在假设检验中,显著性水平(Significantlevel,用α表示)的确定是假设检验中至关重要的问题。
显著性水平是在原假设成立时检验统计量的值落在某个极端区域的概率值。因此,如果取α=0.05,如果计算出的p值小于α,则可认为原假设是一个不可能发生的小概率事件。当然,如果真的发生了,则犯错误的可能性为5%。显然,显著性水平反映了拒绝某一原假设时所犯错误的可能性,或者说,α是指拒绝了事实上正确的原假设的概率。
2.通常的取值
α值一般在进行假设检验前由研究者根据实际的需要确定。
常用的取值是0.05或0.01。对于前者,相当于在原假设事实上正确的情况下,研究者接受这一假设的可能性为95%;对于后者,则研究者接受事实上正确的原假设的可能性为99%。
显然,降低α值可以减少拒绝原假设的可能性。因此,在报告统计分析结果时,必须给出α值。
3.进行统计推断
在进行假设检验时,各种统计软件均会给出检验统计量观测值以及原假设成立时该检验统计量取值的相伴概率(即检验统计量某特定取值及更极端可能值出现的概率,用p表示)。
p值是否小于事先确定的α值,是接受或拒绝原假设的依据。
如果p值小于事先已确定的α值,就意味着检验统计量取值的可能性很小,进而可推断原假设成立的可能性很小,因而可以拒绝原假设。相反,如果p值大于事先已确定的α值,就不能拒绝原假设。
在计算机技术十分发达,以及专业统计软件功能十分强大的今天,计算检验统计量及其相伴概率是一件十分容易的事情。
然而,在20世纪90年代以前,只有服从标准正态分布的检验统计量,人们可以直接查阅事先准备好的标准正态分布函数表,从中获得特定计算结果的相伴概率。而对于的服从t-分布、F-分布、卡方分布或其它特殊的理论分布的检验统计量(大多数的假设检验是这样),人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率(通常为0.1、0.05和0.01)为自变量,以检验统计量的临界值为函数排列。
在进行统计推断时,人们使用上述临界值表根据事先确定的显著性水平,查阅对应于某一自由度和特定相伴概率的检验统计量的临界值,然后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值,即实际的相伴概率小于事先规定的显著性水平,便可拒绝原假设。否则,可接受原假设。
4.举例
在根据显著性水平进行统计推断时,应注意原假设的性质。
以二元相关分析为例,相关分析中的原假设是"相关系数为零"(即2个随机变量间不存在显著的相关关系)。如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),就可以认为"相关系数为零"的可能性很低,既2个随机变量之间存在显著的相关关系。
在正态分布检验时,原假设是"样本数据来自服从正态分布的总体"。此时,如果计算出的检验统计量的相伴概率(p值)低于事先给定α值(如0.05),则表明数据不服从正态分布。只有p值高于α值时,数据才服从正态分布。这与相关分析的假设检验不同。
5.作者在描述相关分析结果时常有的失误
仅给出相关系数的值,而不给出显著性水平。这就无法判断2个随机变量间的相关性是否显著。
有时作者不是根据显著性水平判断相关关系是否显著,而是根据相关系数的大小来推断(相关系数越近1,则相关关系越显著)。问题是,相关系数本身是一个基于样本数据计算出的观测值,其本身的可靠性尚需检验。
此外,作者在论文中常常用"显著相关"和"极显著相关"来描述相关分析结果,即认为p值小于0.05就是显著相关关系(或显著相关),小于0.01就是极显著相关关系(或极显著相关)。
在假设检验中,只有"显著"和"不显著",没有"极显著"这样的断语。只要
低于事先确定的α值,就可以认为检验计算出的检验统计量的相伴概率(p值)
结果"显著"(相关分析的原假设是"相关系数为零",故此处的"显著"实际意味着"相关系数不为零",或说"2个随机变量间有显著的相关关系");同样,只要计算出的检验统计量的相伴概率(p值)高于事先确定的α值,就可以认为检验结果"不显著"。
在进行相关分析时,不能同时使用0.05和0.01这2个显著性水平来决定是否拒绝原假设,只能使用其中的1个。
MSN空间完美搬家到新浪博客!