范文一:P值检验法在实际生活中的应用
假设检验中的 P 值法在实际生活中的应用 摘 要
假设检验是统计判断的重要内容,在很多情况下大多采用临界值 法, 而在现代统计软件中假设检验多是采用计算 P 值的方法进行推断的。 检验时需要由样本观测值计算出检验统计量的观测值和衡量观测结果 极端的 P 值, 然后通过比较 P 值和显著性水平 α的大小作判断, 当 P<α时,>α时,>
H ;当 P<α时,不能拒绝原假设 0h="" 。论文列举了="" p="" 值检验法="">α时,不能拒绝原假设>
关键词:假设检验;临界值法; P 值法; SAS
The application of Hypothesis test P-value method in real life
Abstract
Hypothesis test is an important content of statistical judgment; the critical value method is used in many cases. However, in modern statistical software in hypothesis testing, the method of calculating the P value of extrapolation is used here and there. Inspection need by the value of the sample observations calculate the test statistic of the observation value and measure observations of extreme value, and then compare P values and a significant level of their size, to determine, when refuse the null hypothesis; when can not refuse the null hypothesis. The paper presents some application cases of the value of P test in life, and also to do some comparative advantage.
Key Words :Hypothesis test, the critical value method, the P-value method, SAS
目 录
引言 ........................................................ 2 1. P-值的定义 ................................................ 2 1.1临界值法 ................................................. 2
1.2 P-值法 ................................................... 3
2.计算公式介绍 .............................................. 3
3.双边检验 P 值与单边检验 P 值的关系 ...........................4 3.1 检验统计量为对称连续分布时 .............................. 4
3.2 检验统计量为非对称分布时 ................................ 4
4. 应用实例 ................................................. 6
5. P-值法的优势 ..............................................12 结束语 ...................................................... 12 参考文献 ................................................... 13
引言
假设检验法是统计判断中的重要内容, 在平时的很多情况下多习惯采用临界 值法做出判断原假设 0H 是否成立的方法,但是由于计算机的普及以及现代统计 软件的出现在很多问题的计算中多采用假设检验的 P 值法。 用这种方法在检验时 需要有相应的样本观测值, 并用这个观测值计算出检验的统计量在相应的观测值 和衡量观测值结果中所出现的极端 P 值, 之后再通过比较 P 值大小和显著性水平
α的大小来作出具体的判断。当 P α≤时,则拒绝原假设 0H ;当 P<>
能拒绝原假设 0H 。本文先介绍了 P 值法的定义,和一些计算方法再列举了 P 值 检验法在生活中一些应用案例,最后和传统的临界值法做了优势比较。
1. P-值的定义
在介绍 P-值法之前,我们首先要介绍一种比较传统的用来做假设检验的方 法 -临界值法(也可以叫做显著性水平法) 。
1.1临界值法
设样本总体为 2
0X N μσ (, ) ,并且其中 20σ为一个已知常数,现在想要检
验出 μ是否会大于某给定常数 0μ。 再设原假设为 0H , 备选假设为 1H , 如下所示:
0010H :;H >μμμμ≤:。从总体中抽取一些简单随机样本,并记录样本的均值为
1
1X=n
i i X n =∑。
易知 2
0(,
) X N n
σμ (1)
从而有
()0,1U N =
(2)
当 0H 成立时
1P u α-??
≥??
α≤ (3)
其中 1αμ-称为临界值 , 满足 ()1P U =1-u αα-≤显著性水平 α为一较小的正数 如 0.10.05或 。式(3)说明当 0H 成立时,检验统计量 (
)0
X-μσ
大于等于
临界值是个小概率事件,对于某具体样本 12, , n X X X ,若该小概率事件发生, 则拒绝原假设 0H 。否则就没有比较充分的理由去拒绝原假设 0H 。
1.2 P-值法
而对于上述问题, P-值法的定义如下:
对于某些具体的样本,其均值可以记为 11X n
i i x n ==∑
,设 P =PU ??
≥ ?
(4)
若 p α≤,则拒绝原假设 0H ,否则就没有充分的理由去拒绝原假设 0H 。 式(4)中的 P 就是在原假设 0H 成立的前提下所计算出的样本值,也可以说 成是更极端情况的概率大小,简称为 P 值。
2.计算公式介绍
若 W 为检验统计量, 而 0W 为 W 的观测值, 通常 P 值可以用下面公式计算得 到。
I:单边检验 P 值
(i )拒绝域在右边区域的检验
假设 0010H Hθθθθ≤≥::
{}0P =PW W ≥右
(ii)拒绝域在左边区域的检验
假设 00:H θθ≥ 10H θθ<>
{}0p p W W =≤左
Ⅱ :双边检验 P 值
假设 0H :010; :H θθθθ=≠
(i )当检验的统计量为对称分布的双边检验时
由于 {}{}00P =PW W +W -W ≥≤双
又 {}{}{}000P W W =1-PW W =PW -W ≥≥≤ 故可以得到以下结论:
{}{}{}000002P , 0,
P =P2P , 0;
W W W W W W W ≥≥??≥=?≤<>
(ii)当检验统计量为非对称分布的双边检验时,可以得到以下结论:
{}{}{}00P =2min P , P W W W W ≥≤双
3.双边检验中 P 值与单边检验中 P 值间的关系
根据上面 P 值的计算公式不难推出如下性质:
设 W 为检验统计量, 0W 为 W 的观察值, W 中 为 W 的中位数, P 双 , P 右 和 P 左
分别为双边检验 0H :010=;H :θθθθ≠, 右边检验 0010H :;H :θθθθ≤>和左边检验
0010:; :H H θθθθ≥<的 p="">的>
3.1 检验统计量为对称连续分布时
001P W 02P =11-P W 0; 2?≥?????双 右="" 双="" ,="" ,="" ,="">??双>
1
1P W 0, 2P =1P W 0. 2
?-≥????<>
左 双 , ,
3.2 检验统计量为非对称分布时
001P W W 2P =11-P W W 2?≥?????双 中="" 右="" 双="" 中="" ,="" ,="" ,="" ;="" 0011-p="" w="" w="" 2p="1P" w="">??双>
?≥??????双
中 左 双 中
, , ,
证 :1.检验统计量为对称连续分布时,由于
{{}{}000P W W =PW W +PW -W ≥≥≤
且统计量为联系对称分布,故有以下结论:
{}{}{
}000002P W W ,W 0
P P W W =, 2P W W ,W <>
{}0P =PW W ≥右 及 {}0P =PW W ≤左 ,
所以
(i)拒绝域为右边区域的检验 ,
若 0W 0≥, 则 P =右 {}0P W W =P/2≥双 ;
若 0W 0<,则 {}{}00p="PW" w="">,则>
若 0W 0≥, 则 {}{}00P P W W =1-PW>W=1-P/2=≤双 左 ; 若 0W 0<,则 {}0p="PW" w="P/2≤双" 左="" 。="" 2.="">,则>
{}{}{}00P =2min P W W P W W ≥≤双 , , {}{}00P =PW W P =PW W ≥≤右 左 及 , 所以
(i )拒绝域为右边区域的检验,
若 0W W ≥中 ,则 {}0P =PW W =P/2≥双 右 ; 若 0W W <中 ,则="" p="" 右="{}0P" w="" w="" ≥="1-P" 双="" 。="" (ii="">中>
若 0W W ≥中 ,则 {}0P W W =1-P/2≤双 左 ; 若 0W W <中 ,则="" {}0p="PW" w="P/2≤双" 左="">中>
当知道了双边检验的 P 值法和单边检验的 P 值法的关系后, 三种不同检验法 就可以一次性地完成。 事实上, 在实际应用中如果只作一次双边检验或者单边检 验时候, 得到的拒绝原假设 0μμ=的结论下, 有时还需要进行进一步的检验来判 定是能否可以认为 0μμ>或者 0μμ<才可以得到更为准确的结论。 即使是在得到="" 不="" 可="" 以="" 拒="" 绝="" 原="" 假="" 设="" 0μμ="的" 结="" 论="" 下="" ,="" 如="" 果="" 双="" 边="" 检="" 验="" 的="" p="" 值="" 还="" 不="" 够="">才可以得到更为准确的结论。>
(0. 050. 1
p
,也可以说是拒绝备择假设 0μμ≠的证据较弱,经常也需要再进 一步作单边检验,以方便得到更为合理的 0μμ≥或 0μμ≤的结论。对于以上两种 情形, 再利用以上所述的双边检验的 P 值法和单边检验的 P 值法之间的关联, 那
么三种检验方法的同时进行就将变得会有必要了。
在我们研究双边检验的 P 值法和单边检验的 P 值法之间的关系时, 有时当检 验的统计量为非对称分布的时候还要用到检验统计量分布中常用的中位数, 我们 可以查阅有关资料中给出的分位数表, 或者用一些统计软件调用相应分位数函数 来进行计算。
4. 应用实例
例 1在某次投掷一元硬币的重复试验中,假如你投掷一元硬币 1000次,并 记录下相应的一元硬币出现字的次数。如果每次出现字的次数都是 500,那么你 就有把握认为这枚一元硬币是均匀的;
如果出现字的次数小于 450或者大于 550, 那么你就会有一点怀疑它是不是 均匀的;
如果出现字的次数小于 300或者大于 700, 那么你就比较怀疑是不是均匀的; 如果出现字的次数小于 100或者大于 900,那么你就非常怀疑是不是均匀的。 如上所述, 如果出现字的次数和出现花的次数的差异越大, 你就越有把握认 为这枚硬币不是均匀的,即拒绝原假设。再重新叙述下 P 值的基本定义, “ P 值 就是当原假设为真时, 比得到的相应样本的观察结果出现更加极端的现象所得的 概率” 。把这个基本定义再代入上面所述的投掷一元硬币的重复试验的中去,好 比说目前你所观察到的情况是“一元硬币投掷出现字的次数是 100或者 900。以 致出现字和出现花的次数差异是 800” :
若原假设为真 (一元硬币是均匀的 ) , P 值就是你投掷 1000次一元硬币。所 得的出现字和花的次数的差异大于 800的概率。
若这个 P 值很大,则表明每次投掷均匀的一元硬币 1000次,经常会有出现 字和花的次数差异大于 800的情形。
若这个 P 值很小,则表明每次投掷均匀的一元硬币 1000次,你将很难看到 出现字和花的次数差异会超过 800。
若一枚一元硬币投掷出字和花的次数差异大于 800。这是一个“极端”的情 况, 只好认为原假设不对, 一元硬币是不均匀的。 在这里我们所用到的基本逻辑 思维是:在假定原假设为真的前提条件下,出现我们所观察到的偏差 (投掷出字 和花的差异为 800) ,是如此的不可能,即 P 值很小,以至于我们不能再继续相
信原假设成立的真确性与否。
例 2 一项关于某品牌巧克力的抽样调查结果显示,在 n=34个曾吃过该品牌 巧克力的被访者中, 有 3X =个人喜欢该品牌巧克力。 生产该饮料的厂家声称 “五 分之一的消费者喜欢该品牌巧克力” 。检验该厂家说法的合理性。
从样本看,喜欢该品牌巧克力的被访者的比例为 3
25
,低于厂家的声称 15。
这种差异可能是由于抽取样本的随机性导致的,也有可能是因为厂家的声称有 误。
由于样本的结果 15小于厂家的声称 3
35,所以设立 0H 与 1H 如下:
0111
H ;H 55
:p=:p
其中, P 为实际喜欢该品牌巧克力的消费者比例。
容易知道,在抽取的 34n =个曾吃过该品牌巧克力的被访者中,喜欢
该品牌巧克力的被访者人数 X 服从二项分布,即 1X b 345?
? ??
? ,那么出现样本值
或者更极端值的概率为
()()2
k=0P X 2=P X=k ≤∑
342
0341455k k
k k -=??????
=??????
??????
∑
=0.017
即 -P 值为 0.017. 那么对于任何大于等于 0.017的显著性水平 α,我们拒绝 0H , 即可以认为厂家的声称是错误的。 作出此结论 (厂家的声称是错误的) 所犯弃真 错误的概率为 0.017。
例 3 某公司从奶牛厂购买牛奶。公司管理人员怀疑奶牛厂在牛奶中掺水以 谋利。 通过公司检验检验人员对牛奶的冰点温度进行测定可以检验出牛奶中是否 掺了水。 查阅有关物理化学资料可以知道我们生活中天然牛奶的冰点温度的数值 常常是近似地服从正态分布的,并且它平均值为 00=-0.544C μ,标准差为
=0.009C
σ。 假如牛奶掺了水将会导致牛奶的冰点温度升高以致接近于水的冰点 温度(00C ) 。检验检疫人员检测奶牛厂所提供的 5桶牛奶的冰点温度,记录下 来,并且计算出其均值 0
X =-0.534C —
, 问你是否可以认为奶牛场在牛奶中惨了水 呢?取 =0.05α
解:用 P-值法检验 0010H =-0.544 Hμμμμ≤≥:: =0.05α
Z =
()
P 值 ={}P Z 2.4844=1-2.4844=0.0028≥Φ()
,其中 P 值为是否可认为奶牛厂在牛 奶中掺了水,对于任何大于 0.0028的显著性水平 α,可以拒绝 0H 。即可以认为 奶牛厂在提供的牛奶中掺了水。
例 4一家食盐厂以生产袋装食盐为主,其每天大约可以生产 8000袋,每袋 重量规定为 50克。为了分析厂家生产的每袋食盐重量是否达到要求,有关质检 部门经常进行随机抽查检验。现在从某天生产的一批食品中随机抽检了 25袋, 测得每袋重量如表 4-1所示。 试以抽样的样本数据为依据, 检验袋装食盐的平均 重量与 50克是否有显著性的差异。
分析与解答 设重量变量为 weight, 本题是要求做原假设为 =μ50的双边检 验。 但是由于根据双边检验 P 值与单边检验 P 值的关系, 我们还可以将三种检验 同时地进行。
(i )双边检验 ()0010H ==100H =0.05μμμμα≠:; :, 。 图 4-1 t检验结果
从图中软件计算结果可知原假设 = 50μ的 P 双 值为 0.0365,在 0.05的显著水 平下,所以可以拒绝原先的假设。
(ii )右边区域检验(0H 50μ≤:; 1H 50μ>:, =0.05α) 。
由于
1
t=2.33>0, P=P =0.018252
双 右
拒绝右边检验的原假设 50. μ≤
(3)左边区域检验(01H 50 H50, 0.05μμα≥<=:; :)="">=:;>
由于
2.230, t => 1P /2=0.98175-双 , 所以不能拒绝左边区域检验的原假设 0H :50μ≥。
综上,我们可以认为袋装食盐的平均重量与 50有显著差异,袋装食品的平 均重量大于 50克。
例 5 某药材生产商要检查包装机械的状态。根据规定,包装机正常工作时, 每袋重量为 45克, 方差为 4. 随机抽取当天生产的 16袋样本称重后结果如表 4-2所示,试检验药材包装机的工作状态是否正常。
分析与解答 设重量的变量英文名为 Weight, 本题首先做出原假设为 2=4σ的双边检验, 再根据双边检验的 P 值与单边检验的 P 值之间的关系, 我们可以将 三种检验同时进行,并且综合分析三种情况后作出判断。
(i )双边检验(2222
0010H ==4 H=0.05σσσσα≠:; :, ) 。
在 SAS 中做方差的卡方检验结果如图 4-2.
图 4-2 2
χ检验的结果
从图中软件的计算结果我们可以知道原假设 2=4σ的 P 双 值为 0.0661, 在 0. 05
的显著性水平之下,所以不能拒绝原假设存在。
(ii )右边检验(2201H 4H 4, 0.05σσα≤>=:; :) 。 由 于 自 由 度 为
15
的 2χ分 布 中 位 数 为
14.339, 由 于
{}22026.500P =PW W =1-P/2=0.96695χχ=>≤双 中 左 , , 不能拒绝左边检验的原假设
24σ≥。
综上,我们可以认为包装药材重量的方差值大于等于 4,即认为现在包装机 工作状态不够稳定,需要维修。
例 6 从机械厂的两台机器所加工的相同零件中, 分别抽出 8个和 9个样品, 经过测量得到的尺寸如表 4-3所示, 试检验两台机械所加工零件的稳定性哪个较 好?(=0.05α)
表 4-3 两台机器所加工同的相同零件的尺寸(单位:厘米)
分析与解答 设尺寸变量名为 Y , A 机床加工该零件尺寸的方差为 21σ, B 机床
加工该零件尺寸的方差 22σ。本题首先做原假设为 2212=σσ的双边检验,再根据检
验 P 值与单边检验 P 值的关系, 将三种检验同时进行, 并进行综合分析作出判断。
(i )双边检验(2222
012112H =H =0.05σσσσα≠:; :, ) 。
在 SAS 中做两总体方差比 F 检验结果如图 4-3.
从图中软件计算结果可以知道原假设 22
12=σσ的 P 双 值为 0.0897,在 0.05的
显著水平之下,所以不能拒绝原先的假设。
(ii )右边检验(2222
012112H H , 0.05σσσσα≤>=:; :) 。
由 于 自 由 度 为 (7, 8) 的 F 分 布 中 位 数 为 0.988,
F=3.53>F 中 , P =P/2=0.0491 <0.05双 友="" ,="" 拒绝右边检验的原假设="">0.05双>
12σσ≤。
(iii )左边检验(2222
012112H H , 0.05σσσσα≥<=:; :)="">=:;>
由于 {}0F=3.53>F=P
W W 1P /20.95515≤=-=双 中 左 , P ,不能拒绝左边检验 的原假设 22
12σσ≥。
综上,我们可以认为 A 机床加工的零件尺寸的方差不比 B 机床加工的零件
图 4-3 F检验结果
例 7在士兵射实弹射击训练中,某士兵每次击中靶子的概率为 0p ,在连续 射击 n 次后,一次都没有击中靶子的概率为 p 。如果这名士兵每次击中靶的概率 为正常水平,那么一次没有击中靶的概率 p 为小概率事件,即 0.01p <。这个时 候我们就可以做出两个相互对立的假设,即="" 0h="" p="" 0.01≥:,如果="" 0h="" 成立,则士兵="" 每次击中靶的概率="" 0p="" 是不正确的。其对立假设="" 1h="" p="">。这个时><:成立时,则可以认为 这名士兵击中靶的概率="" 0p="" 是正确的。="" ,若="" x="" 为第一次击中靶子前所需的次数,那="" 么="" x="" 服从几何分布,可以记作="" x="" ge(p)="" 。若在第一次击中靶子之前已经有="" 17次="">
0H P 0.01≥::对 1H P 0.01<>
解:因为 X Ge(P) ,所以它概率的分布为:
100F (1) (0,1, 2, , ) x x p p x n -=-=
它的分布函数为:{}10000
() Pr (1) 1(1) i
x
x T i F x T X p p p +==≤=-=--∑
显而易见, () T F x 为 P 的递增函数,所以 X 是 P 的某个检验统计量。又因为原假 设 0:0.01H p ≤, 所以在原假设成立的基础上, X 越小那么拒绝 0H :0.01P ≤ 的
条件就越充分,所以这个实验的检验 P 值为:
(){}1200Pr 1(1) 10.990.16548obs x T obs p F x X x p +==≤=--=-≈ ,上式中的 obs X 为
X 的观察值。由于 p 值大于 0.01,故这名士兵每次射击的中靶概率不属于正常 水平。
5. P-值法的优势
P -值法与临界值法处理问题的思路方向不同。 P -值法的核心是计算 出样本值或者更极端值的概率, 然而临界值法则侧重于与比较检验统计量的 值与临界值的差值的大小。 P-值法与临界值法相比具有许多优势。
1. P -值法使用方便。
在统计推断的内容中, 只要是涉及到假设检验的相关问题, 无论是涉及 参数的假设检验(如方差分析或者回归分析等) ,还是涉及非参数的假设检 验 (如尺度检验或者总体分布的检验等) , 统计分析软件均能方便地给出 P -值,从而可以很快捷地得出是否拒绝 0H 的结论。
2. P -值法所得到的结论更准确。
在 P -值法中, P -值本质上是在拒绝 0H 时犯弃真错误的概率。事实上,在利用 -P 值法作检验时,
对于任何大于等于 P 的显著性水平 α, 但确切的犯弃真错误的 概率并不清楚。因此, P -值法所得到结论更加准确无误。
结束语
在对比传统的临界值法后引出 P 值法的准确定义。再在给出单双边检验 P 值的计算公式的基础上掌握统计推断中双边检验 P 值与单边检验 P 值的关系, 不 仅可以更加灵活地使用统计软件解决实际问题, 而且可以让三种检验同时进行使 推断结果更加乐观, 符合实际。 并可从实际生活的应用中体会会出 P 值法的方便 和所得结论的准确性。
参考文献
[1] 陈希孺 . 概率论与数理统计 [M]. 中国科学技术大学出版社 , 第 1版 .2009: 180-232
[2] 魏宗舒 . 高等学校教材?概率论与数理统计教程 [M]. 高等教育出版社 , 第 2版 . 2010: 313-342
[3] 郭跃华 . 概率论与数理统计 [M].高等教育出版社 ; 第 1版 .2011:250-270 [4] 李从珠 . 概率论与数理统计 [M].北京 :中国工商业出版社 .2002:256-312 [5] Prem S Mann.Introductory statistica[M].美 国 :Johns Wiley & Son,2004:190-243
[6] 吴喜之 . 非参数统计 [M]. 北京 : 中国统计出版社 , 1999: 312-364
[7] 贾俊平 , 金勇进 . 统计学 [M]. 北京 : 中国人民大学出版社 , 2004: 190-232 [8] 韩志霞,张玲 .P 值检验和假设检验 [J].边疆经济与文化 ,2006,(4): 62-63 [9] 攀冬梅 , 假设检验中的 P 值 [J].郑州经济管理干部学研学报 ,2002,(4): 70-71
[10] 汪远征 , 徐雅静 . SAS软件与统计应用教程 [M].北京 : 机械工业出版社 , 2007; 198-234.
[11] 薛薇 , SPSS统计分析方法及应用 [M]. 北京:电子工业出版社 ,2004: 247-285
[12]Gerald Keller, Brian Warrack. Statistics for management and economics [M]. 王琪延 , 赫志敏等译 . 北京 : 中国人民大学出版社 , 2006: 312-367 [13] 谢明文 . 关于单侧检验拒绝的证明及假设检验的概率实质 [J].北京 :数学 的实践与认识 , 2004(10): 99-103
[14] 程依明,濮晓龙 . 概率论与数理统计教程 [M].北京 :高等教育出版社 ,2005:
276-345
[15] 王嘉澜 . 数理统计中关于假设检验问题的几个要点问题 [J]. 高等理科教 育 , 2005, 23(3): 54-58
范文二:[教学]P值检验法在实际生活中的应用
假设检验中的P值法在实际生活中的应用
摘 要
假设检验是统计判断的重要内容,在很多情况下大多采用临界值法,而在现代统计软件中假设检验多是采用计算P值的方法进行推断的。检验时需要由样本观测值计算出检验统计量的观测值和衡量观测结果
P<>
P<>
在生活中一些应用案例,并和临界值法的做了优势比较。
关键词:假设检验;临界值法;P值法;SAS
The application of Hypothesis test P-value method
in real life
Abstract
Hypothesis test is an important content of statistical judgment; the critical value method is used in many cases. However, in modern statistical software in hypothesis
testing, the method of calculating the P value of extrapolation is used here and there. Inspection need by the value of the sample observations calculate the test statistic of the observation value and measure observations of extreme value, and then compare P values and a significant level of their size, to determine, when refuse the null hypothesis; when can not refuse the null hypothesis. The paper presents some application cases of the value
of P test in life, and also to do some comparative advantage.
Key Words:Hypothesis test, the critical value method, the P-value
method, SAS
目 录
引言........................................................3
1(P-值的定义................................................3
1.1临界值法.................................................3
1.2 P-值法...................................................4
2(计算公式介绍..............................................4
3(双边检验P值与单边检验P值的关系...........................5
3.1 检验统计量为对称连续分布时..............................5
3.2 检验统计量为非对称分布时................................6
4. 应用实例.................................................7
-5. P值法的优势..............................................13
结束语......................................................14
参考文献...................................................15
引言
假设检验法是统计判断中的重要内容,在平时的很多情况下多习惯采用临界值法做出判断原假设是否成立的方法,但是由于计算机的普及以及现代统计H0
软件的出现在很多问题的计算中多采用假设检验的P值法。用这种方法在检验时需要有相应的样本观测值,并用这个观测值计算出检验的统计量在相应的观测值和衡量观测值结果中所出现的极端值,之后再通过比较值大小和显著性水平PP
P,,P<>
能拒绝原假设。本文先介绍了P值法的定义,和一些计算方法再列举了P值H0
检验法在生活中一些应用案例,最后和传统的临界值法做了优势比较。
1(P-值的定义
P-在介绍值法之前,我们首先要介绍一种比较传统的用来做假设检验的方法-临界值法(也可以叫做显著性水平法)。 1.1临界值法
22设样本总体为,并且其中为一个已知常数,现在想要检XN (,),,,00
,验出,HH是否会大于某给定常数。再设原假设为,备选假设为,如下所示:010
H:;H>,,,,,:。从总体中抽取一些简单随机样本,并记录样本的均值为0010
n1。 XX=,in,1i
2,0XN (,)易知 (1) ,n
X,,UN0,1从而有 (2) , ,,n,0
,,X-,0,,当成立时 (3) HPu,,,0,,1n,0,,
其中称为临界值,满足显著性水平为一较小的正数PU=1-,u,,,,,1,,1,,
如0.10.05或。式(3)说明当成立时,检验统计量大于等于X-,,nH,,,,000
临界值是个小概率事件,对于某具体样本,若该小概率事件发生,XXX,,?12n则拒绝原假设。否则就没有比较充分的理由去拒绝原假设。HH00
1.2 P-值法
而对于上述问题,P-值法的定义如下:
n,,X-,10对于某些具体的样本,其均值可以记为,设 P=PU,,xX,,,i,,nn,,1i0,,(4)
若,则拒绝原假设,否则就没有充分的理由去拒绝原假设。p,,HH00
P式(4)中的就是在原假设成立的前提下所计算出的样本值,也可以说H0
P成是更极端情况的概率大小,简称为值。 2(计算公式介绍
WWPW若为检验统计量,而为的观测值,通常值可以用下面公式计算得0
到。
PI:单边检验值
(i)拒绝域在右边区域的检验
H H::,,,,,,假设 0010
P=PWW, ,,0右
(ii)拒绝域在左边区域的检验
H:,,,H:,,,假设 0010
ppWW,,,,0左
?:双边检验P值
假设: H,,,,,,;:H0100
(i)当检验的统计量为对称分布的双边检验时
由于 P=PWW+W-W,,,,,,双00
又 PWW=1-PWW=PW-W,,,,,,,,,000
故可以得到以下结论:
2P,0,WWW,,,,,,00 P=PWW,,,,,双02P,0;WWW,,,,,00,
(ii)当检验统计量为非对称分布的双边检验时,可以得到以下结论:
P=2minP,PWWWW,, ,,,,,,双00
3(双边检验中P值与单边检验中P值间的关系
P根据上面值的计算公式不难推出如下性质:
WWW设为检验统计量,为的观察值,W为的中位数,,和WPPP0双右中左分别为双边检验H:,,,,=;H:,,右边检验H:;H:,,,,,,和左边检验01000100
PHH:;:,,,,,,的值,则它们有下面关系: 0010
3.1 检验统计量为对称连续分布时
11,,PW0,,,1PW0,,,,双0双0,,,,22P=P= ,,右左11,,1-PW0;,,,PW0.,双0双0,,,2,2
3.2 检验统计量为非对称分布时
11,,PWW,,,1-PWW,,,双0双0中中,,,,22 P=P=,,右左11,,1-PWW,;,PW<>
证:1.检验统计量为对称连续分布时,由于
PWW=PWW+PW-W,,,,,,,,,000
且统计量为联系对称分布,故有以下结论:
2PWW,W0,,,,,,00 PPWW=,,,,,,双02PWW,W<>
及, P=PWW,P=PWW,,,,,00右左
所以
(i)拒绝域为右边区域的检验,
,则PWW=P/2,; 若W0,P=,,0双0右
P=PWW=1-PW
(ii)拒绝域为左边区域的检验,
PPWW=1-PW>W=1-P/2,,若,则; W0,,,,,00双0左
P=PWW=P/2,若W0,,则。 ,,0双0左
2.检验统计量为非对称分布时,由于
P=2minPWWPWW,,,P=PWWP=PWW,,及 ,,,,,,,,,,,,双0000右左
所以
(i)拒绝域为右边区域的检验,
P=PWW=P/2,WW,若,则; ,,00双右中
PWW,WW,P1-P/2若,则==。 ,,00双中右
(ii)拒绝域为左边区域的检验
PWW=1-P/2,WW,若,则; ,,00双中左
P=PWW=P/2,WW,若,则。 ,,00双中左
当知道了双边检验的P值法和单边检验的P值法的关系后,三种不同检验法
就可以一次性地完成。事实上,在实际应用中如果只作一次双边检验或者单边检验时候,得到的拒绝原假设的结论下,有时还需要进行进一步的检验来判,,,0
定是能否可以认为或者才可以得到更为准确的结论。即使是在得到,,,,,,00
不可以拒绝原假设的结论下,如果双边检验的P值还不够大,,,0
,也可以说是拒绝备择假设的证据较弱,经常也需要再进,,,(0.050.1),,p0
一步作单边检验,以方便得到更为合理的或的结论。对于以上两种,,,,,,00
情形,再利用以上所述的双边检验的P值法和单边检验的P值法之间的关联,那么三种检验方法的同时进行就将变得会有必要了。
在我们研究双边检验的P值法和单边检验的P值法之间的关系时,有时当检验的统计量为非对称分布的时候还要用到检验统计量分布中常用的中位数,我们可以查阅有关资料中给出的分位数表,或者用一些统计软件调用相应分位数函数来进行计算。
4. 应用实例
例1 在某次投掷一元硬币的重复试验中,假如你投掷一元硬币1000次,并记录下相应的一元硬币出现字的次数。如果每次出现字的次数都是500,那么你就有把握认为这枚一元硬币是均匀的;
如果出现字的次数小于450或者大于550,那么你就会有一点怀疑它是不是均匀的;
如果出现字的次数小于300或者大于700,那么你就比较怀疑是不是均匀的;如果出现字的次数小于100或者大于900,那么你就非常怀疑是不是均匀的。
如上所述,如果出现字的次数和出现花的次数的差异越大,你就越有把握认为这枚硬币不是均匀的,即拒绝原假设。再重新叙述下P值的基本定义,“P值就是当原假设为真时,比得到的相应样本的观察结果出现更加极端的现象所得的概率”。把这个基本定义再代入上面所述的投掷一元硬币的重复试验的中去,好比说目前你所观察到的情况是“一元硬币投掷出现字的次数是100或者900。以致出现字和出现花的次数差异是800”:
若原假设为真(一元硬币是均匀的),P值就是你投掷1000次一元硬币。所得的出现字和花的次数的差异大于800的概率。
若这个P值很大,则表明每次投掷均匀的一元硬币1000次,经常会有出现字和花的次数差异大于800的情形。
若这个P值很小,则表明每次投掷均匀的一元硬币1000次,你将很难看到出现字和花的次数差异会超过800。
若一枚一元硬币投掷出字和花的次数差异大于800。这是一个“极端”的情况,只好认为原假设不对,一元硬币是不均匀的。在这里我们所用到的基本逻辑思维是:在假定原假设为真的前提条件下,出现我们所观察到的偏差(投掷出字和花的差异为800),是如此的不可能,即P值很小,以至于我们不能再继续相信原假设成立的真确性与否。
n=34例2 一项关于某品牌巧克力的抽样调查结果显示,在个曾吃过该品牌
X,3巧克力的被访者中,有个人喜欢该品牌巧克力。生产该饮料的厂家声称“五分之一的消费者喜欢该品牌巧克力”。检验该厂家说法的合理性。
31,低于厂家的声称。从样本看,喜欢该品牌巧克力的被访者的比例为255这种差异可能是由于抽取样本的随机性导致的,也有可能是因为厂家的声称有误。
13由于样本的结果小于厂家的声称,所以设立与如下:HH10535
11 H;H:p=:p<>
P其中,为实际喜欢该品牌巧克力的消费者比例。
n,34 容易知道,在抽取的个曾吃过该品牌巧克力的被访者中,喜欢
1,,该品牌巧克力的被访者人数X服从二项分布,即,那么出现样本值Xb34 ,,,5,,
或者更极端值的概率为
2
PX2=PX=,k,,,,,k=0
kk34,23414,,,,,, ,,,,,,,,k55,,,,,,k,0
=0.017
-PH,即值为0.017.那么对于任何大于等于0.017的显著性水平,我们拒绝,0即可以认为厂家的声称是错误的。作出此结论(厂家的声称是错误的)所犯弃真
错误的概率为0.017。
例3 某公司从奶牛厂购买牛奶。公司管理人员怀疑奶牛厂在牛奶中掺水以谋利。通过公司检验检验人员对牛奶的冰点温度进行测定可以检验出牛奶中是否掺了水。查阅有关物理化学资料可以知道我们生活中天然牛奶的冰点温度的数值
0常常是近似地服从正态分布的,并且它平均值为,标准差为,=-0.544C0
0。假如牛奶掺了水将会导致牛奶的冰点温度升高以致接近于水的冰点,=0.009C
0温度()。检验检疫人员检测奶牛厂所提供的5桶牛奶的冰点温度,记录下0C
—0X=-0.534C来,并且计算出其均值,问你是否可以认为奶牛场在牛奶中惨了水
,=0.05呢,取
,=0.05解:用P-值法检验 H=-0.544 H::,,,,,,0010
x-,-0.534--0.544()0Z=的观察值为:Z,=2.4844
n0.0095,
P值=PZ2.4844=1-2.4844=0.0028,,(),其中P值为是否可认为奶牛厂在牛,,
0.0028奶中掺了水,对于任何大于的显著性水平,可以拒绝。即可以认为H,0奶牛厂在提供的牛奶中掺了水。
例4一家食盐厂以生产袋装食盐为主,其每天大约可以生产8000袋,每袋重量规定为50克。为了分析厂家生产的每袋食盐重量是否达到要求,有关质检部门经常进行随机抽查检验。现在从某天生产的一批食品中随机抽检了25袋,测得每袋重量如表4-1所示。试以抽样的样本数据为依据,检验袋装食盐的平均重量与50克是否有显著性的差异。
表4-1 25袋食盐的重量(单位:克) 55.6 46 55.5 50.4 52.8 52.8 53.7 50(3 53.2 57.9 46.8 55.6 51.6 48.2 47.9 46.5 56.7 50.8 52.2 54.2 55.7 53.6 47.2 50.6 54.2
,=分析与解答 设重量变量为weight,本题是要求做原假设为50的双边检验。但是由于根据双边检验P值与单边检验P值的关系,我们还可以将三种检验同时地进行。
H==100H=0.05:;:,,,,,,,(i)双边检验。,,0010
在SAS中作t检验结果如图4-1。
The TTEST Procedure
Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err Weight 25 50.12 51.6 53.08 2.8028 3.5896 4.9936 0.7179
T-Tests
Variable DF t Value Pr>|t|
weight 24 2.23 0.0365
图4-1 t检验结果
0.03650.05从图中软件计算结果可知原假设的值为,在的显著水P,= 50双
平下,所以可以拒绝原先的假设。
,=0.05(ii)右边区域检验( , )。H50:;,,H50:,,01
由于
1 t=2.33>0, P=P=0.01825双右2
拒绝右边检验的原假设 ,,50.
(3)左边区域检验()。 H50 H50,0.05:;:,,,,,,01
由于
,1P/2=0.98175,t,,2.230,双
所以不能拒绝左边区域检验的原假设H:50,,。 0
50 综上,我们可以认为袋装食盐的平均重量与有显著差异,袋装食品的平
50均重量大于克。
例5 某药材生产商要检查包装机械的状态。根据规定,包装机正常工作时,
45每袋重量为克,方差为4.随机抽取当天生产的16袋样本称重后结果如表4-2所示,试检验药材包装机的工作状态是否正常。
表4-2 16袋药材重量(单位:克)
45 45 51 46 44 48 42 47
48 48 44 48 45 43 45 50
2,=4分析与解答 设重量的变量英文名为Weight,本题首先做出原假设为的双边检验,再根据双边检验的P值与单边检验的P值之间的关系,我们可以将三种检验同时进行,并且综合分析三种情况后作出判断。
2222 (i)双边检验()。H==4 H=0.05:;:,,,,,,, 0010
在SAS中做方差的卡方检验结果如图4-2.
Sample Statistics for WEIHGT
N Mean Std. Dev. Variance
-----------------------------------------------
16 46.5 2.6583 7.0667
Hypothesis Test
Null hypothesis: Variance of WEIGHT = 4
Alternative: Variance of WEIGHT^=4
Chi-square Df Prob
-----------------------------------------------
26.500 15 0.0661
2图4-2 检验的结果 ,
20.06610.05从图中软件的计算结果我们可以知道原假设,=4的值为,在P双
的显著性水平之下,所以不能拒绝原假设存在。
22(ii)右边检验()。 H4H4,0.05:;:,,,,,,01
2 由于自由度为15的分布中位数为14.339,由于,
22,,,,,26.500P=PWW=1-P/2=0.96695,,不能拒绝左边检验的原假设,,双中左0
2,,4。
综上,我们可以认为包装药材重量的方差值大于等于4,即认为现在包装机工作状态不够稳定,需要维修。
例6 从机械厂的两台机器所加工的相同零件中,分别抽出8个和9个样品,经过测量得到的尺寸如表4-3所示,试检验两台机械所加工零件的稳定性哪个较
,=0.05好,()
表4-3 两台机器所加工同的相同零件的尺寸(单位:厘米) A机床 6.25 5.78 5.88 5.76 5.85 5.79 6.48 5.85 B机床 6.08 6.25 5.94 5.94 5.79 6.03 5.85 6.1 5.93
2分析与解答 设尺寸变量名为Y,A机床加工该零件尺寸的方差为,B机床,1
222加工该零件尺寸的方差,,=,。本题首先做原假设为的双边检验,再根据检212
验P值与单边检验P值的关系,将三种检验同时进行,并进行综合分析作出判断。
2222(i)双边检验()。H=H=0.05:;,,,,, :,,012112
在SAS中做两总体方差比F检验结果如图4-3.
22从图中软件计算结果可以知道原假设的值为0.0897,在0.05的P,,=双12
显著水平之下,所以不能拒绝原先的假设。
2222(ii)右边检验()。HH,0.05:;,,,,,,,, :012112
由于自由度为(7,8)的F分布中位数为0.988,
22F=3.53>,,拒绝右边检验的原假设。FP=P/2=0.0491 <>
2222(iii)左边检验()。HH,0.05:;,,,,,,,, :012112
由于F=3.53>F=PWW1P/20.95515,P,,,,,不能拒绝左边检验,,0双中左
22的原假设。 ,,,12
综上,我们可以认为A机床加工的零件尺寸的方差不比B机床加工的零件
尺寸的方差小,即B机床加工的零件比A机床加工的零件尺寸更加稳定。
Sample Statistics
Y
Group N Mean Std. Dev. Variance
----------------------------------------------------
A 8 5.955 0.2635 0.069457
B 9 5.99 0.1404 0.0197
Hypothesis Test
Null hypothesis: Variance 1 / Variance 2= 1
Alternative Variance 1 / Variance 2^=1
-Degrees of Freedom-
F Numer. Denom. Pr>F
---------------------------------------------
3.53 7 8 0.0897
图4-3 F检验结果
p例7在士兵射实弹射击训练中,某士兵每次击中靶子的概率为,在连续0
pn射击次后,一次都没有击中靶子的概率为。如果这名士兵每次击中靶的概率
为正常水平,那么一次没有击中靶的概率为小概率事件,即。这个时pp,0.01候我们就可以做出两个相互对立的假设,即,如果成立,则士兵HP0.01:,H00每次击中靶的概率是不正确的。其对立假设成立时,则可以认为PHP0.01:,10
这名士兵击中靶的概率是正确的。,若为第一次击中靶子前所需的次数,那XP0
17么X服从几何分布,可以记作。若在第一次击中靶子之前已经有次XGe(P)
没有击靶子,则检验
对。 HP0.01::,HP0.01:,01
解:因为,所以它概率的分布为: XGe(P)
x,1 F(1)(0,1,2,,),,,ppxn?x00
ix,1x它的分布函数为:FxTXppp()Pr(1)1(1),,,,,,,,,,000T,0i
PPX显而易见,为的递增函数,所以是的某个检验统计量。又因为原假Fx()T
P,0.01X设,所以在原假设成立的基础上,越小那么拒绝: 的Hp:0.01,H00
P条件就越充分,所以这个实验的检验值为:
x20obs,1pFxXxp,,,,,,,,,Pr1(1)10.990.16548 ,上式中的X为,,,,obsTobs0
Xp的观察值。由于值大于0.01,故这名士兵每次射击的中靶概率不属于正常水平。
5. P-值法的优势
P,P,值法与临界值法处理问题的思路方向不同。值法的核心是计算出样本值或者更极端值的概率,然而临界值法则侧重于与比较检验统计量的值与临界值的差值的大小。P-值法与临界值法相比具有许多优势。
P,1.值法使用方便。
在统计推断的内容中,只要是涉及到假设检验的相关问题,无论是涉及
参数的假设检验(如方差分析或者回归分析等),还是涉及非参数的假设检验(如尺度检验或者总体分布的检验等),统计分析软件均能方便地给出P,值,从而可以很快捷地得出是否拒绝的结论。 H0
2.值法所得到的结论更准确。 P,
在值法中,值本质上是在拒绝时犯弃真错误的概率。事实上,在利用P,P,H0
-值法作检验时,对于任何大于等于的显著性水平,但确切的犯弃真错误的PP,
概率并不清楚。因此,P,值法所得到结论更加准确无误。 结束语
在对比传统的临界值法后引出P值法的准确定义。再在给出单双边检验P值的计算公式的基础上掌握统计推断中双边检验P值与单边检验P值的关系,不仅可以更加灵活地使用统计软件解决实际问题,而且可以让三种检验同时进行使推断结果更加乐观,符合实际。并可从实际生活的应用中体会会出P值法的方便和所得结论的准确性。
参考文献
[1] 陈希孺. 概率论与数理统计[M]. 中国科学技术大学出版社, 第1版.2009: 180-232
[2] 魏宗舒. 高等学校教材?概率论与数理统计教程[M]. 高等教育出版社, 第2版. 2010: 313-342
[3] 郭跃华. 概率论与数理统计[M].高等教育出版社; 第1版.2011:250-270
[4] 李从珠. 概率论与数理统计[M].北京:中国工商业出版社.2002:256-312
[5] Prem S Mann.Introductory statistica[M].美国:Johns Wiley & Son,2004:190-243
[6] 吴喜之. 非参数统计[M]. 北京: 中国统计出版社, 1999: 312-364
[7] 贾俊平, 金勇进. 统计学[M]. 北京: 中国人民大学出版社, 2004: 190-232
[8] 韩志霞,张玲.P值检验和假设检验[J].边疆经济与文化,2006,(4): 62-63
[9] 攀冬梅,假设检验中的P值[J].郑州经济管理干部学研学报,2002,(4): 70-71
[10] 汪远征, 徐雅静. SAS软件与统计应用教程[M].北京: 机械工业出版社, 2007; 198-234.
[11] 薛薇, SPSS统计分析方法及应用[M]. 北京:电子工业出版社,2004: 247-285
[12]Gerald Keller, Brian Warrack. Statistics for management and economics
[M]. 王琪延, 赫志敏等译. 北京: 中国人民大学出版社, 2006: 312-367
[13] 谢明文. 关于单侧检验拒绝的证明及假设检验的概率实质[J].北京:数学的实践与认识, 2004(10): 99-103
[14] 程依明,濮晓龙.概率论与数理统计教程[M].北京:高等教育出版社,2005:
276-345
范文三:未知_t检验法剔除异常值最好
四川工业学院 学报
Journal of Sich uan Uni v ers ity o f Sc ience and Technology
文章编号 :1000-5722(2000) 03-0084-03
收到日期 :2000-04-15
作者简介 :王文周 (1941-) , 男 , 四川省资阳市人 , 四川工业学院电子信息与电子气工程系物理实验中心副教授 , 大学 , 主要从事数 理统计应用和 物理及实验研究。
未知 R , t 检验法剔除异常值最好
王文周
(四川工业学院电子信息与电气工程系 , 成都 610039)
摘 要 : 未知总体标准差 R , 在五种检验法中 , 优劣次 序为 :t 检验 法、 格 拉布斯 检验法、 峰 度检验 法、 狄 克逊检验法、 偏度检验法。
关键词 : 异常观测值 ; 统计准则 ; 检验 法 ; t 检验法 ; 格拉 布斯检 验法 ; 峰度检 验法 ; 狄克 逊检 验法 ; 偏度 检验法
中图分类号 :O 212. 1
文献标识码 :B
未知总体标准差 R , 至少有七种检验法。其中拉 依达 ( ±??±) 检验法 (3s 法 ) 只适宜于样本容量 (实验 次数 ) n>10的情况 ; 而肖维勒 (Cauvenet) 检验法虽然 曾独步一时 [1], 但它的显著水平 A 不固定 , 难于和其他 方法作比较 , 并且它假定 n 较小时也为正态分布 , 这不 合理。格拉布斯 (Grubbs) 检验法 [2]、 狄克逊 (Dxion) 检 验 法 [3]、 偏 度 检 验 法 和 峰度 检 验 法 收 入 国 家 标 准 G1B4883%85
[4]
。 /美国标准试验方法 0中就有格拉布
斯检验法 (ASTM E178-68) 。剩下一个未选入国家标
准的 t 检验法 [5~7], 我们将证明它是最好的检验法。
1 检验法的统计量和临界值
已知正态样 本的一组观测 值 x 1, x 2, , , , x n , 其 中 x m (x max 或 x min 中之一 ) 为可疑值 , 如何判断 x m 为 异常值呢 ? 各种检验法的共同点是 :当它的统计量大于
临界值时就判为异常值。 写成通式就是
Y m >Y p (n )
(1)
式中 Y m 是统计量 , Y p (n) 是临界值。 Y 是可以替 换的。 格拉布斯检验法、 t 检验法、 峰度检验法、 偏度检 验法、 狄克逊检验法的统计量依次为 G m 、 T m 、 K m 、 S m 、 D m , 它们 的临 界值 依次 为 G p (n) 、 T p (n) 、 K p (n ) 、 S p (n) 、 D p (n) 。 为了方便 , 我们 所用的符号与 文献略 有不同 [4]。 各种检验法的统计量有不同的计算公式 (见 附录一 ) , 临界值需要查表 [4]。 狄克逊检验法还要求把 观测值重新排列 :x (1)
p =
1-A (单侧检验 )
1-A /2 (双侧检验 )
(2)
剔除异常值一般取 A =0. 01, 故一般 p =0. 99或 p =0. 995。
统计量表达式中的样本均值 x 和标准偏差 s 分别 为 :
x =
n E n
i =1
x i
(3) s =
-1E i=1
(x i - x ) 2
(4)
不包括可疑值 x m 的样本均值 x c 和标准偏差 s c 分别为 :
x c =n -1E n
i=
1i X m
x i (5)
s c =
-2E i =1
i X m
(x i - x c ) 2(6)
t 检验法的临界值为 :
T p (n ) =
n -1t p (n -2)
(7) 式中 t p (n -2) 是自由度为 (n -2) 的 t 分布的 p 分位
数 [8]。 一般 /数理统计 0教材的附录都有 /t 分布的分位 数表 0[8], 或查国家标准 GB 4086. 3-83的 /t 分布的分 位数表 0。 T p (n) 列成表可查 (附录二 ) 。
2 五种检验法的相对统计量之值
比较不同检验法的优劣是很困难的。 有人曾用蒙 特卡罗法对若干混入另一母体数椐的情况各进行了一
万次以上的模拟试验 , 用来判断哪一种检验法好 [9]。 这 种方法实在太复杂 , 而且不能保证两万次以上的模拟 试验就没有例外。 作者经过长期思考 , 探索出一种能比 较任何检验法优劣的方法。 其要点是首先定义出 /相对 统计量 0, 使不同的检验法之间可以直接比较 :相对统 计量大的检验法更优。 其次再设计出一套观测数据 , 它 可以代表无穷多组观测值 , n \3时 T c m =1, 计算其 他检验法的相对统计量 , 其大者为最好。
定义 :统计量与临界值之比称为相对统计量。 我们 在统计量的右上角加一撇表示相对统计量。 五种检验 法的相对统计量分别为 G c m 、 T c m 、 K c m 、 S c m 、 D c m 。 其中 T c m =T m /T p (n) 。 相对统计量大于 1, 表示能剔出异 常值 ; 相对统计量小于 1, 不能剔出异常值 ; 相对统计 量等于 1, 统计量处于临界值。
观测值的个数 (样本容量 ) 少于 3时不可能发现可 疑值 , 所以必须 n \3。 我们让 n \3时 T c m =1, 再看 其他检验法的相对统计量有多大。 假定在 y 坐标系的 两个测量值为 y 1, y 2, 这是两个任意值 , 并假设 y 1< y="" 2。="" 进行坐标变换="">
x i = y i -(y 1+y 2) /2
(y 2-y 1) /2
(8)
则 y 1, y 2在 x 坐标中分别变为 x 1=-1, x 2=1。 在 x 坐标系中 , 为了使 n \3时 T c m =1, x 3, x 4, x 5, , , , 就不能是任意值。 由 x 1=-1, x 2=1, 若取定式 (7) 的 p 值 , 可得出下侧临界统计量 x 3; 再由这三个巳知值得 出上侧临界值 x 4, ,, , 如此等等 , 不一而足。 这样我 们就使 x 下标为奇数的值 (x 1, x 3, x 5, , , ) 成为下侧 的值 , 使 x 下标为偶数的值 (x 2, x 4, x 6, ,, ) 成为上 侧的值。 n \3时 , 每个 x n 都是临界值 , 但都不是异常 值。 这样的一些数的分布特点是 /中间密 , 两边稀 0, 它 是符合实际情况的。 可疑值由 x m 变成 x n , 则 G c m 、 T c m 、 K c m 、 S c m 、 D c m 变成 G c n 、 T c n 、 K c n 、 S c n 、 D c n 。
n \3时 , 令 T c n =1, 由 T c n 的定 义 则 T n = T p (n ) , 再由 T n 的定义 (见附录一的 T m ) 和式 (7) , 得 :
T n = |x n -
x c |
s c
=
-1
t p (n -2) (9)
即 x n =
x +(-1) n
-1
t p (n -2) s c (n \3) (10) 例如 :p =0. 995, x 3=-110. 3, x 4=692. 9, x 5=-2260. 7, x 6=5325. 6, ,, , x 100=5. 969126@107。 又 如 :p =0. 99, x 3=-55. 1, x 4=237. 7, x 5=-617. 5, x 6=1215. 8, ,, , x 100=1737166。 可见这些数是相当 大的。 我们没有把 x n 列入表 1中。 如果把式 (10) 的 (-1) n , / 稀 0, 都是不符合实际情况的。 由式 (10) 算出来的一系 列 x n 是否能保证 T c n =1呢 ? 由式 (10) 可以倒推出式 (9) , 再由式 (7) 和 T c n 的定义就推出了 T c n =1, 而且必 须 n \3。 这些值在 x 坐标系中是一套固定值 , 但在 y 坐标系中就代表无穷多套观测值 , 因为 y 1、 y 2是可以 任意变化的。 经过编程计算 , 再加上个别计算可得相对 统计量的结果。 狄克逊检验法公式多 , 编程复杂 , 只好 个别计算。 例如计算 D c 6:x (6) =5325. 6, x (5) =692. 9, x (1) =-2260. 7, 利用 n =3~7的高端公式可算出 D c 6。 我们把几种检验法的相对统计量列入表 1中。 其 规律是 G c n 、 D c n (n =8, 11, 14例外 ) 、 S c n 随 n 增大而减 小 , K c n 先随 n 增大减小 , 后随 n 增大而增大。
表 1T c n =1时其 它几种检验法的相对统 计量之值 * n
p =0. 995p =0. 99
G c n
(双侧 )
D c n
(单侧 )
D c n
(双侧 )
K c n
(双侧 )
G c n
(单侧 )
D c n
(单侧 )
S c n (单侧 ) 3
4
5
1. 000
0. 993
0. 972
0. 998
0. 930
0. 887
0. 998
0. 930
0. 887
0. 999
0. 985
0. 956
0. 976
0. 909
0. 843
6
7
8
9
10
0. 949
0. 927
0. 908
0. 891
0. 877
0. 825
0. 760
0. 859
0. 785
0. 697
0. 825
0. 760
0. 868
0. 791
0. 702
0. 830
0. 797
0. 777
0. 926
0. 901
0. 879
0. 861
0. 845
0. 764
0. 692
0. 753
0. 634
0. 573
0. 421 0. 363 0. 319 11
12
13
14
15
0. 864
0. 853
0. 843
0. 834
0. 826
0. 889
0. 854
0. 821
0. 868
0. 825
0. 894
0. 874
0. 835
0. 873
0. 825
0. 753
0. 738
0. 831
0. 819
0. 809
0. 800
0. 791
0. 790
0. 752
0. 712
0. 734
0. 696
0. 259
0. 206 20
25
30
35
40
0. 795
0. 773
0. 757
0. 745
0. 734
0. 662
0. 549
0. 472
0. 656
0. 548
0. 472
0. 719
0. 723
0. 730
0. 738
0. 747
0. 759
0. 737
0. 721
0. 708
0. 698
0. 550
0. 454
0. 390
0. 157 0. 130 0. 114 0. 101 0. 092 45
50
60
70
80
0. 726
0. 718
0. 706
0. 697
0. 689
0. 756
0. 764
0. 782
0. 798
0. 813
0. 689
0. 682
0. 669
0. 659
0. 651
0. 087 0. 078 0. 071 0. 065 0. 060 90
100
0. 682
0. 676
0. 824
0. 837
0. 645
0. 639
0. 055 0. 052检验法可能犯两类错误 :第一类错误是把正常值 判为异常值 , 犯这类错误的概率为 A (正是显著水平 ) ; 第二类错误是把异常值当正常值留下 , 犯这类错误的 概率为 B , 并把 (1-B ) 称为功效函数 , 功效函数的值大 就说检验功效高。 五种检验法的显著水平 A 取为相同 值 , 说明它们犯第一类错误的概率相同 ; 相对统计量越 大越容易剔除异常值 , 说明犯第二类错误的概率低。 这就转化为谁的相对统计量越大 , 谁就越好。 T c n =1, 其它检验法的相对统计量小于 1, 所以说 t 检验法比其 c n >D (仅 p =n 85
第 19卷第 3期 王文周 :未知 R , t 检验法剔除异常值最好
=11, 12, 14例外 ) , G c n >S c n , 说明格拉布斯检验法比 狄克逊检验法和偏度检验法好 ; n [35, G c n >K c n , 考 虑到一般是小样本 (n [30) , 所以格拉布斯检验法也 比峰度检验法好。 这样格拉布斯检验就是仅次于 t 检 验法的好检验法。 峰度检验法为第三 , 狄克逊检验法为 第四 , 最后是偏度检验法。
t Test $the Superlative Test
to Discard Abnormal Values with R Unknown
WANG Wen -zhou
(Departm ent of E lectronic Information an d Electrical Engineering, Sichuan Un iversity of S cience and Technology, Chengdu 610039)
Abstract:Giv en R , the population standard deviation, is unknown, the sequence for the five tests arrang ed in priority order goes like t test, Grubbs test, peakness test, Dix ion test, skewness test.
Key words:abnormal v alues (outliers); statistical criteria; test; t test; Grubbs test; peakness test; Dix ion test;
附录一 五种检验法的统计量之计算公式 [4]
G m =
|x m - x | T m =|x m - x c |
K m =
n E
n
i=1
x 4i -
4 x E
n
i=1
x 3i +
6 x 2E n
i=1x 2i -3n
x 4E i=1
x 2i -n x 2
2
S m =
E n
i=1
x 3i -3 x E n i=1
x 2i +2n x 3E n i=1
x 2
i -n x 2
3/2
n =3~7:D m =x (n) -x (n-1)
x (n)-x (1)高端 )
D m =x (2) -x (1)
(n) (1)(低端 )
n =8~10:D m =x (n) -x (n-1)
x (n) -x (2)
高端 )
D m =
x (2) -x (1)
(n-1) (1)
低端 )
n =11~13:D m =x (n) -x (n-2)
x (n) -x (2)
高端 )
D m =
x (3) -x (1)
(n-1) (1)
低端 )
n =14~30:D m =x (n) -x (n-2)
(n) (3)
高端 )
D m =
x (3) -x (1)
(n-2) (1)
低端 )
附录二
t 检验法的临界值表
n p =0. 995p =0. 99p =0. 975p =0. 954511. 466. 538. 045. 084. 973. 563. 372. 63678910
5. 044. 363. 963. 713. 54
4. 103. 633. 363. 183. 05
3. 042. 782. 622. 512. 43
2. 342. 182. 082. 01
1. 96
11121314153. 413. 313. 233. 173. 122. 962. 892. 832. 782. 742. 372. 332. 292. 262. 241. 921. 891. 871. 851. 8316171819203. 083. 043. 012. 982. 952. 712. 682. 662. 642. 622. 222. 202. 182. 172. 161. 821. 811. 801. 791. 7821222324252. 932. 912. 902. 882. 862. 602. 592. 572. 562. 552. 152. 142. 132. 122. 111. 771. 771. 761. 751. 752627282930
2. 852. 842. 832. 822. 81
2. 542. 532. 522. 522. 51
2. 102. 102. 092. 092. 08
1. 741. 741. 741. 731. 73
参
考 文 献
[1]W. Cauvenet. Spherical and Practical As tro ò[M ]. Lippincoff. Philadephia, 1868:588
[2]F. E. Grubbs. S ample Cri teria for Testing Outl ying Observations[J]1Ann. Math. Stati stics. 1950, (21) :27
[3]W. J. Dixon, . Analysis of Extreme Values [J ]. Ann. Math. Statis -tics, 1950, (21) :488
[4]全国文献工作标准 化技术委 员会 :GB 4883) 85数据 的统计 处理和解释正态样本异常值的判断和处理 [S]1北京 :中国标准出版社 , 1985
[5]肖明耀 , 怎样剔除含有粗差的观测值 [J], 计量工作 , 1973, (2) :
10~12
[6] D?o?, . . . 3?μ??o? ???à?à′oD[J]. à??3±, 1973[7]费业泰 . 误 差理 论与 数据 处埋 [M ]. 北京 :机 械工 业出 版社 , 1987:45, 50
[8]伊亨云等 . 概率论与数理统计 [M ]. 重庆大学 出版社 , 1995:119~120, 205
[9]何国伟 . 误差分析方法 [M]. 北京 :国防工业出版社 , 1978:67
86四川工业学院学报 2000年
范文四:F检验法
F 检验法
两位分析人员对某样品中的A含量进行测定, 结果如下, 这两人之间有无显著性差异? (F =6. 26, t =2. 26)
甲:2. 01,2. 10,1. 86,1. 92,1. 94,1. 99mg/l.
乙:1. 88,1. 92,1. 90,1. 97,1. 94mg/l.
题目给出条件,告诉F=6. 26,可以用 F 检验发。
F 检验法是通过计算两族数据的方差之比来检验两组数据是否存在显著差异。 比如, 使用不 同的分析方法对同一试验进行测定得到的标准偏差不同; 或几个实验室用同一种分析方法测 定同一试样,得到的标准偏差不同,这时就有必要研究产生这种差异的原因,通过 F 检验 法就可以得到满意的解决。
F 检验法其步骤如下:
(1)计算统计量方差之比。 F =(S1)*(S1)/(S2)*(S2);式中, (S1)*(S1)、 (S2)*(S2)--分别 为两组测定值的方差。
(2)查 F 分布表。
(3)判断:当计算所得的 F 值大于 F 分布表中相应显著水平 a 和自由度 f1、 f2的临界值 F a ,(f1, f2),即 F 大于 Fa ,(f1, f2)时,则两组方差之间有显著差异;当 F 小于 Fa , (f1, f2)时,则两组方差无显著性差异。
在编制 F 分布表时,是将大方差做分子,小方差做分母,所以,在由样本值计算统计量 F 值时,也要将样本方差, (S1)*(S1)、 (S2)*(S2)中的较大一个作为分子,较小一个作为分母。
简单的说,就是先分别求甲、乙两组数据的方差
甲:(s1) ×(S1)=0.083×0.083=0.0069
乙:(s2) ×(S2)=0.035×0.035=0.0012
然后根据 F =:(s1) ×(S1) /(s2) ×(S2) =0.0069/0.0012=5.75
查 F 分布表, F0.05,(5, 4)=6.26, F 小于 F0.05,(5, 4)=6.26
说明差别不显著。即两种方法的精密度是一致的。
另一种方法:运用题目给出条件 t =2. 26
t 检验法
用以比较一个平局值和标准值之间或两个平均值之间是否存在显著性差异。
进行 t 检验的称许如下:
(1)选定所用的检验统计量,当检验样本均值 X 与总体均值 u 是否存在显著差异时,使用 统计量。 t =(x -u ) /(s/sqrt(n)),式中 s --标准差。
当检验两个平均值之间是否存在显著性差异时,使用统计量
t =(X1-X2) /s2*sqrt(n1*n2/(n1+n2));
其中 s2为合并标准差,按下式计算
s2=sqrt[((n1-1)*s1*s1+(n2-1)*s2*s2) /(n1+n2-2)]
式中 s1*s1--第一个样本的方差;
s2*s2--第二个样本的方差;
n1--第一个样本的测定次数
n2--第二个样品的测定次数
(2)计算统计值,如果由样本值计算的统计量值大于 t 分布表中相对应显著性 a 和相应自 由度 f 下的临界值 ta , f 则表明被检验的均值由显著性的差异;反之,差异不显著。
应用 t 检验时,要求被检验的两组数据具有相同或相近的方差,因此,在进行 t 检验之前必 须进行 f 检验,只有在两方差一致性的前提下才能进行 t 检验。
根据两组数据,分别计算两种方法的平均值 X 和标准偏差 s
X1=1.97, s1=0.083
X2=1.92, s2=0.035
计算合并标准差
s =sqrt[((n1-1)s1*s1+(n2-1)s2*s2)/(n1+n2-2)]
=sqrt[((6-1)*0.083*0.083+(5-1)*0.035*0.035)/(6+5-2)]=0.066
t=(X1-X2)/s*sqrt[n1*n2/(n1+n2)]=(1.97-1.92)/0.066*sqrt[6*5/(6+5)]=1.25
差 t 分布表,当 f =5+6-2=9时, t0.05, 9=2.26, t 小于 t0.05, 9=2.26,说明差别不显 著。
即甲乙两种测定结果是一致的。
范文五:T检验法
T 检验法
T 检验 ,亦称 student t 检验(Student's t test ) ,主要用于样本含量较小(例 如 n<30) ,总体标准差="" σ未知的="" 正态分布="">30)>
T 检验 是用于小样本 (样本容量 小于 30) 的两个平均值差异程度的检验方法。 它是用 T 分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显 著。
T 检验是 戈斯特 为了观测酿酒质量而发明的。 戈斯特在位于都柏林的健力士 酿酒厂担任统计学家。戈特特于 1908年在 Biometrika 上公布 T 检验,但因其老 板认为其为 商业机密 而被迫使用笔名(学生) 。
T 检验的适用条件:正态分布资料
单个样本的 t 检验
目的:比较样本均数 所代表的未知总体均数 μ和已知总体均数 μ
。 计算公式:
t 统计量:
自由度:v=n - 1
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
[编辑 ]
单个样本的 t 检验实例分析 [1]
例 1 难产儿出生体重
一般婴儿出生体重 μ
= 3.30(大规模调查获得) ,问相同否? 解:1. 建立假设、确定检验水准 α
H 0 :μ= μ
(难产儿与一般婴儿出生体重的总均数相等; H 0无效假设, null
hypothesis )
(难产儿与一般婴儿出生体重的总均数不等; H 1备择假设, alternative hypothesis , )
双侧检验,检验水准 :α = 0.05
2.计算检验统计量
3. 查相应界值表,确定 P 值,下结论
查附表 1: t 0.05 / 2.34 = 2.032,t = 1.77,t < t="" 0.05="" 2.34,="" p=""> 0.05,按 α = 0.05水准, 不拒绝 H 0, 两者的差别无统计学意义, 尚不能认为难产儿平均出生体重与 一般婴儿的出生体重不同
[编辑 ]
配对样本 t 检验
配对设计:将受试对象的某些重要特征按相近的原则配成对子, 目的是消除 混杂因素的影响,一对观察对象之间除了处理因素 /研究因素之外,其它因素基 本齐同,每对中的两个个体随机给予两种处理。
?两种同质对象分别接受两种不同的处理,如性别、年龄、体重、病情程度 相同配成对。
?同一受试对象或同一样本的两个部分,分别接受两种不同的处理
?自身对比。即同一受试对象处理前后的结果进行比较。
目的:判断不同的处理是否有差别
计算公式及意义:
t 统计量 :
自由度:v=对子数 -1
适用条件:配对资料
[编辑 ]
T 检验的步骤 [2]
1、 建立虚无假设 H 0:μ1= μ2, 即先假定两个总体平均数之间没有显著差异;
2、计算统计量 t 值,对于不同类型的问题选用不同的 统计量 计算方法;
1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度, 其统计量 t 值的计算公式为:
2)如果要评断两组样本平均数之间的差异程度,其统计量 t 值的计算公式 为:
3、根据自由度 df=n-1,查 t 值表,找出规定的 t 理论值并进行比较。理论
值差异的 显著水平 为 0.01级或 0.05级。不同自由度的显著水平理论值记为 t(df)0.01和 t(df)0.05
4、比较计算得到的 t 值和理论 t 值,推断发生的概率,依据下表给出的 t 值与差异显著性关系表作出判断。
T 值与差异显著性关系表
t P 值 差异显著程度
差异非常显著
差异显著 t < t="" (df="" )0.05="" p=""> 0.05 差异不显著
5、根据是以上分析,结合具体情况,作出结论。
[编辑 ]
T 检验举例说明
例如, T 检验可用于比较药物治疗组与安慰剂治疗组病人的测量差别。理论 上,即使样本量很小时,也可以进行 T 检验。 (如样本量为 10,一些学者声称甚 至更小的样本也行) ,只要每组中变量呈正态分布,两组方差不会明显不同。如 上所述, 可以通过观察数据的分布或进行正态性检验估计数据的正态假设。 方差 齐性的假设可进行 F 检验,或进行更有效的 Levene's 检验。如果不满足这些条 件,只好使用非参数检验代替 T 检验进行两组间均值的比较。
T 检验中的 P 值是接受两均值存在差异这个假设可能犯错的概率。 在 统计学 上, 当两组观察对象总体中的确不存在差别时, 这个概率与我们拒绝了该假设有 关。 一些学者认为如果差异具有特定的方向性, 我们只要考虑单侧 概率分布 , 将 所得到 t-检验的 P 值分为两半。另一些学者则认为无论何种情况下都要报告标 准的双侧 T 检验概率。
1、数据的排列
为了进行独立样本 T 检验,需要一个自(分组)变量(如性别:男女)与一 个因变量(如测量值) 。根据自变量的特定值,比较各组中因变量的均值。用 T 检验比较下列男、女儿童身高的均值。
性别
身高 对象 1 对象 2 对象 3 对象 4 对象 5 男性
男性
男性
女性
女性 111 110 109 102 104
男性身高均数 = 110
女性身高均数 = 103
2、 T 检验图
在 T 检验中用箱式图可以直观地看出均值与 方差 的比较,见下图:
这些图示能够很快地估计并且直观地表现出分组变量与因变量关联的强度。 3、多组间的比较
科研实践中, 经常需要进行两组以上比较, 或含有多个自变量并控制各个自 变量单独效应后的各组间的比较, (如性别、药物类型与剂量) ,此时,需要用方 差分析进行 数据分析 ,方差分析被认为是 T 检验的推广。在较为复杂的设计时, 方差分析具有许多 t-检验所不具备的优点。 (进行多次的 T 检验进行比较设计中 不同格子均值时) 。
[编辑 ]
T 检验注意事项
?要有严密的抽样设计随机、均衡、可比
?选用的检验方法必须符合其适用条件 (注意:t 检验的前提是资料服从正 态分布 )
?单侧检验和双侧检验
单侧检验的界值小于双侧检验的界值, 因此更容易拒绝, 犯第Ⅰ错误的可能 性大。
?的结论不能绝对化
?不能拒绝 H 0,有可能是样本数量不够拒绝 H 0,有可能犯第Ⅰ类错误 ?正确理解 P 值与差别有无统计学意义
P 越小,不是说明实际差别越大,而是说越有理由拒绝 H0 ,越有理由说明 两者有差异,差别有无统计学意义和有无专业上的实际意义并不完全相同
?和可信区间的关系
?结论具有一致性
?差异:提供的信息不同
区间估计给出总体均值可能取值范围, 但不给出确切的概率值, 假设检验 可 以给出 H0成立与否的概率
转载请注明出处范文大全网 » P值检验法在实际生活中的应用