范文一:样本均值的分布
第七章 : 概率和样本:样本均值的分布 综述
样本均值的分布
概率和样本均值的分布
标准误的特性
一(综述
上一章:总体中某一特定分数或一组分数出现的概率 本章: 总体中特定样本发生的概率。 与推论统计关系更密切. 推论统计的目标,
逻辑,
从同一总体取3次不同样本. 每一个都不同. 不同形状, 不同均值, 不同 方差. 如何对总体均值作出最佳估计? 可能取多少个样本?
(注意是回置取样,sampling with replacement)
二(样本均值的分布(distribution of sample mean) , 所有这些可能的样本会组成一个简单,有序,可预测的模式
(样本分布).
, 因此, 我们可以用样本均值的分布(distribution of
的特征为依据来预测。 sample mean)
, 样本均值的分布(distribution of sample mean):总体
中可抽取的所有可能的特定容量(n)的随机样本的集合的样
本均值。
, 样本分布: 总体中可抽取的所有可能的特定容量的样本所
形成的统计分布。
我们所要做的就是考察所有可能的样本 (n一定,这点很重要) 然后根据其特性作出预测。
如何作到?
一个具体例子:
考虑下列总体: 2, 4, 6, 8
这个总体很小,我们知道其均值 (和方差但
假定我们不知道, 想根据样本进行估计:
1
step 1: 选取样本容量。 本例中n = 2 – 以后还会讨论样本容量,
而一般原则是:样本容量越大,样本间相似的机会越高(样本与总体
相似的机会也越高)
step 2: 考虑所有可能的样本, 并考察其分布
____________________________________
分数 样本均值
样本 first second ()
1 2 2 2
2 4 3 2
3 2 6 4
4 2 8 5
5 4 2 3
6 4 4 4
7 4 6 5
8 4 8 6
9 6 2 4
10 6 4 5
11 6 6 6
12 6 8 7
13 8 2 5
14 8 4 6
15 8 6 7
16 8 8 8
样本均值的分布
f
2 1
3 2
4 3
5 4
6 3
7 2 8 1 step 3: 现在可以回答这个问题: 选取一个均值大于7
p( > 7)的样本的概率是多少?
考察样本均值的分布, 我们发现 16 个当中有1个 a其
均值大于 7.
实际情况比上例复杂的多。我们必须借助样本均值的一些特性. 1. 形状:
较大时(30 以样本均值的分布形状一定是正态分布.当 n
上),样本均值的分布几乎是完全的正态分布. 如果在同一
总体中选择一组样本, 大部分均值应当堆积在总体均值
附近(如果不是这样,取样一定有偏差)
2. 均值:
2
这些样本均值的平均应该等于总体均值. 样本均值的平
均 叫做 的期望值. 期望值的意思因为这个值会在总
体均值 的附近.
在上例中, 的期望值(一组样本均值的均值) 是:
2 + 3 + 4 + 5 + 3 + 4 + 5 + 6 + 4 + 5 + 6 + 7 + 5 + 6 + 7 + 8 = 80 = 5。0 16 16
注意: 如果 n 足够大, 那么分布是正态, 也一定是对称和单峰, 则mean = median = mode 3. 方差: 样本均值分布的标准差 叫做 的标准误
(standard error of ;SE)
的标准误= = 与 的标准距离. , 这个统计量描述了与均值的标准(或称典型,平均)距离. 在
这里,它也是样本 均值 和 总体均值 的差值. , 这个统计量的主要目的和用途是 告诉我们样本均值对总体
均值的估计是否准确. 换言之,取样误差是多大.
标准误的数值取决于两个特征: 总体方差和样本容量
1) 总体方差 - 总体方差越大, 样本均值的方差越大.
总体方差小 总体方差大 与 总体均值的差与 总体均值的差异大 异小
2) 样本容量 - 样本容量(n) 越大,样本越能准确地代表
总体. 这个规律叫做大数定律(law of large numbers) .
假定总体是1,000个学生. 欲知总体的SAT 分数.
- 如果随机抽取1个学生,
用这个学生的分数预测总体
分数的准确性怎样?
-如果随机抽取5个学生. 会
不会更准确些?
-如果随机抽取100个学生
呢,
将这两个特征合并起来,就是标准误的定义公式.
的标准误= =
3
, 中心极限定律 (Central Limit Theorem)中包含所有这些特性 (形状, 均值, 方差)
, 中心极限定律(Central Limit Theorem): 对于任何
均值为 μ,标准差为σ的总体, 样本容量为n的样本
均值的分布,随着n 趋近无穷大时,会趋近均值为
标准差为 的正态分布 μ,
因此,当 n 足够大时(30或以上): ~ ) N
三(样本分布与概率
一位老师对班上学生的IQ感兴趣. 她班上有9位学例 1:
生,她认为他们都很聪明. 这班学生IQ 的均值大于等于 112的概率是多少?
IQ test: μ= 100, σ= 15
的分布 (注意: 即使小于 30,首先我们需要知道样本n
我们仍然假定正态分布.) ~ N ) = N(100, 5)
我们需要知道对应这个样本均值的z分数: Z =
P( > 112) = P(Z > (112 - 100)/ 5 ) = P(Z > 2.4)
= 0.0082
这个答案是否合理?
- 最初看起来似乎不对
- 应当大于 z = 1对应的概率, 因为 115
对应于z = 1
- 但是, 必须注意这不是正确的分布, 我
们需要考察样本均值的分布
-我们知道样本均值分布的标准误是5 和
均值是 100.
- 所以 112 应当位于 z >2 之外
例 2: 如果班上有25位学生,如果让其均值位于顶端 10%的IQ 分布,均值应该有多大?
首先我们需要知道样本的分布 (注意: 即使n 小于 30,我们仍然假定正态分布.)
~ N (μ, ) = N (100, 3)
然后我们需要找出对应于这个全距的均值:
这个公式与我们从前遇到的很类似 :
= Z* + μ = (= Z)(μ
step 1: 查正态分布表:90% 概率对应的 Z 分数是1.28 step 2: = 1.28 * + 100 = (1.28)(3)+100 = 103.84
4
所以, 对于 25 个人的样本, 他们的均值必须在103.84 以上才能位于分布顶端的10%
假定上例中样本较小, n = 16? 答案会不会改变? step 1: l查正态分布表:90% 概率对应的 Z 分数 step 2: =1.28*(15/sqrt(16)+100=(1.28)(3.75)+100 =104.80
所以, 对于 25 个人的样本, 他们的均值必须在104.80以上才能位于分布顶端的10%
对于不同的样本容量:
n=9,=1.28*(15/sqrt(9))+100 =(1.28)(5)+ 100=106.40
n=4,=1.28 * + 100 = (1.28)(7.5) + 100 = 109.60
n=1,=1.28 * + 100 = (1.28)(15) + 100 = 119.20
注意: 如果 n = 1, 标准误等于总体标准差
所以, 样本容量越小, 取样误差 (标准误, ) 越大.
四(标准误的解释:
A) 取样误差: 任何一个样本可能大于或小于估计值。
B) 标准误: 大部分均值会与μ相当接近 , 但也有一些会
非常不同. 样本均值的方差代表μ和 之间的标准距
离。它的定义是样本容量和 代表μ的准确程度间的
关系.
C) 信度: 标准误变小时,我们用作为μ的估计值的信心增加。
-信度大略是指同一总体的不同样本 (具同样的样本容量)
彼此间的近似程度. 如果大部分样本 具有相似的统计量
(e.g., 均值, 标准差), 那么其信度就高。如果大部分
样本具有不同的统计量, 其信度就低.
- 从上面的例子中可以看出, 当 n 增大时,样本 统计量
能更好地对总体参数进行估计. 因此, 多次重复取样, 且
样本容量相对较大,我们会得到相近的统计量(都在总体
参数附近).
D) 稳定性: 标准误越小, 添加或去掉一个分数或改变某一 分数会改变 μ的估计值.
- 我们已经讨论过添加或去掉一个分数或改变某一 分数
对总体均值和标准差的影响,而对标准误的影响又如何呢?
总体 X ~ N(50, 10) [μ= 50; [σ= 10]
比较这两个样本:
样本 1: = 50, n = 4 1
= = 10/2 = 5
样本 2: = 50, n = 100 2
= = 10/10 = 1
假定我们在每个样本中添加一个新的分数 20. 样本 1: 新的均值是:50 * 4 = 200 --> (200 + 20)/5 = 44
5
样本2: 新的均值是:50 * 100 = 5000 --> 5020/101 =
49.7
所以样本 2 比样本 1 稳定. 一般说,标准误越小,样本越稳
定.
6
范文二:[汇编]样本均值的抽样分布
抽样分布
根据样本统计量去估计总体参数,必须知道样本统计量分布。
定义6.2 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。
由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。
(一)样本均值的抽样分布
从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下
N!nn共有个可能的样本,在不重复抽样条件下,共有个可能样本。NC,NnNn!()!,
2,因此,样本均值是对于每一个样本,我们都可以计算出样本的均值xs()或或p
一个随机变量。所有的样本均值形成的分布就是样本均值的抽样分布。
[例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为:
xxxx,,,,1234 1234
总体分布为均匀分布,如图6.1所示。
y
0.3
0.25
0.2
0.1
x
1 0 2 3
图6.1
10总体均值: ,,,,X2.54
2()xx,,2总体方差: ,,,1.25n
2若重复抽样,n=2 则共有个可能样本。具体列示如表5.1.1。416,
表6.1 可能的样本及其均值
1每个样本被抽中的概率相同,均值为 16
样本均值的抽样分布如表5.1.2和图5.1.2所示。
x样本均值抽样分布的形状与原有总体的分布有关,如果原有总体是正态分
布,样本均值也服从正态分布。
n,30如果总体分布是非正态分布,当x为大样本()时,样本均值的分布
趋于服从正态分布;当x为小样本时,其分布不是正态分布。
x下面再让我们来看看样本均值抽样分布的特征:数学期望和方差。
2,,设总体共有N个元素,其均值为,方差为,从中抽取容量为n的样本。
(6.1)E()xxX,,,,
2,2(重复抽样) (6.2),,xn
2,Nn,2(不重复抽样) (6.3)(),,x1nN,
对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于
Nn,NnN/有限总体,当很大,而又很小,修正系数会趋于1,不重复抽样也N,1
可按重复抽样来处理。
x样本均值抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]
加以验证。
1.01.53.54.040,,,,?,样本均值的均值 x,,,,2.51616
22()x,,101.25,,i2样本均值的方差 ,,,,,xnn162
表6.2 样本均值的抽样分布
px()
0.3
0.2
0.1
x 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
图6.2 样本均值的抽样分布
(二)抽样比例的抽样分布
比例即结构相对数,即成数。
NN01总体比例 ,,1,,,NN
nn01样本比例p, 1,,p nn
当n很大时,样本比例p的抽样分布可用正态分布近似。
对于样本比例p,若,就可以认为样本容量足够大了。npnp,,,5(1)5和
(6.4)EP(),,
,,(1),2,(重复抽样) (6.5),Pn
,,(1),,Nn2,()(不重复抽样) (6.6),PnN,1
与样本均值分布的方差一样,样本比例的方差,对于无限总体,不重复抽样
Nn,NnN/5%,也可按重复抽样来处理;对于有限总体,当很大,而,修正系数N,1
会趋于1,不重复抽样也可按重复抽样来处理。
范文三:样本均值的抽样分布
抽样分布
根据样本统计量去估计总体参数,必须知道样本统计量分布。 定义6.2 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n
的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。 由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际
上是一种理论分布。
(一)样本均值的抽样分布
从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下
N!nn共有个可能的样本,在不重复抽样条件下,共有个可能样本。NC,NnNn!()!,
2对于每一个样本,我们都可以计算出样本的均值,因此,样本均值是xs()或或p
一个随机变量。所有的样本均值形成的分布就是样本均值的抽样分布。 [例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为:
xxxx,,,,12341234
总体分布为均匀分布,如图6.1所示。
y
0.3
0.25
0.2
0.1
x
1 2 0 3
图6.1
10总体均值: ,,,,X2.54
2()xx,,2,,,1.25总体方差: n
2416,若重复抽样,n=2 则共有个可能样本。具体列示如表5.1.1。
表6.1 可能的样本及其均值
1每个样本被抽中的概率相同,均值为 16
样本均值的抽样分布如表5.1.2和图5.1.2所示。
样本均值x抽样分布的形状与原有总体的分布有关,如果原有总体是正态分布,样本均值也服从正态分布。
n,30如果总体分布是非正态分布,当x为大样本()时,样本均值的分布趋于服从正态分布;当x为小样本时,其分布不是正态分布。
下面再让我们来看看样本均值x抽样分布的特征:数学期望和方差。
2,设总体共有N个元素,其均值为,方差为,从中抽取容量为n的样本。 ,
(6.1) E()xxX,,,,
2,2,(重复抽样) (6.2) ,xn
2,Nn,2()(不重复抽样) (6.3) ,,x1nN,
对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于
Nn,NnN/有限总体,当很大,而又很小,修正系数会趋于1,不重复抽样也N,1
可按重复抽样来处理。
x样本均值抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]加以验证。
1.01.53.54.040,,,,?样本均值的均值 ,x,,,,2.51616
22()x,,101.25,,i2样本均值的方差,,,, ,xnn162
表6.2 样本均值的抽样分布
px()
0.3
0.2
0.1
x 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0
图6.2 样本均值的抽样分布
(二)抽样比例的抽样分布
比例即结构相对数,即成数。
NN01总体比例 ,,1,,,NN
nn01样本比例 1,,pp,nn
当n很大时,样本比例p的抽样分布可用正态分布近似。 对于样本比例p,若,就可以认为样本容量足够大了。 npnp,,,5(1)5和
EP(),, (6.4)
,,(1),2(重复抽样) (6.5) ,,Pn
,,(1),,Nn2(不重复抽样) (6.6) ,(),PnN,1
与样本均值分布的方差一样,样本比例的方差,对于无限总体,不重复抽样
Nn,N很大,而nN/5%,,修正系数也可按重复抽样来处理;对于有限总体,当N,1会趋于1,不重复抽样也可按重复抽样来处理。
范文四:两样本均值t检验 单一样本均值的t检验
注:直接替换“置信水平”和“样本数据”就可得出其他计算结果(蓝颜色的数据),但是在更换“样本数据”时,需要重新指定一下“样本数据”所包含的数据,具体方法是:选中“样本数据”及其下面的数据,点击“插入”?“名称”?“指定”?“首行”?“确定”即可(这叫“名称引用”)。样本数据959288929395899892
举例:有一种新农药防治柑橘红蜘蛛,进行了9个小区的实 验,其防治效果为:95%、92%、88%、92%、93%、95%、89%、98%、92%,与原有使用的一种农药防治效果为90%相比,分析该新农药是否显著优于原有农药。(置信水平95%)
结果分析:t统计量值为2.5955,大于95%置信水平的t分布差异显著性临界值2.306,所以新农药的防治效果显著高于
1
原有农药的防治效果。但当置信水平设置为0.99时,t分布临界值为3.355,t统计量值小于这个临界值,所以在该置信水平
下,效果又是不显著的,所以新农药的防治效果显著高于原有农药,但又不是极其显著高于原农药。
另附:t检验的核心思想:
μ
t值越大,样本均值与总体均值的差距越大,那么究竟多大时就认为样本均值不能代表总体均值了呢,一般认为实际算得的t? ,即P?5%t0.05时,可以解释为两均值相同的可能性在5%以下,也就是说两者之间差异 μ。
2
范文五:样本均值的期望等于总体的期望
设X1,X2,X3?Xn为总体X的一个样本,样本均值为X,总体方差为σ2,均值为μ ___
证明1:为什么样本均值的期望等于总体的期望? 因为简单随机抽样的样本
X1,X2,
X3?Xn与总体X是同分布的,所以各样本期望均为总体期望。
?2证明2:为什么样本均值的方差等于? n
12?1n?1n
D(X)?D??Xi??2?D(X)?? n?ni?1?ni?1__
证明3:为什么样本方差的期望等于总体的方差?
__1n2s?(X?X)?in?1i?12
__n__1n122E(s)?E((X?X))?E((X?X))??iin?1i?1n?1i?12
_____1222?E[X1?X2???Xn?nX?2(X1?X2???Xn)X]n?1
__1222?E(X1?X2??Xn?nX2)n?1 22222因为E(Xi)?D(Xi)?E(Xi)?D(X)?E(X)????
__122所以E(s)??[n(???)?nE(X2)]n?1
__2____?又因E(X2)?D(X)?E2(X)???2
n
故E(s2)??222