范文一:数理统计的基本概念
第二 数理统章计初步基本
念概参数 计估 设假验
检
学
习目
的理统计数内的十容分富,本章丰主要 绍介它的基概念本、参估数和假设计检。验 过通章本学习的应步初掌用握理统计数处理随机现象 的基思本想和法方,高运提用数 统理方法分计析和决实解际问能力。
题 6rifts
基
本
要
求
1.
解理总、个体体简、单机样本和统随计的量 念。概 .2解频率了分表、布方直图作的。 法3理.解样本值均、样本差的方概,念握掌根 数据据算计样本值均、样方本差方法的。 .了解4生产χ 2量变、 t 变、 量 F变量的型模 典;式解 χ理 2 分布 t、分布和 F分 布分的位数,会 相查应的数表。值 5.了正态总解的体某常用抽些分样,布正态如 总样体产生本的准标正态分布、χ 2布、分t分布、 F 布分。等
6.
理参解的点估计、估数量计估与计值概的。 念握矩估掌计(法一、二阶阶矩)与大极似估计法然。7.了解无 性偏、有效和一致性(相合性性的 )念概并会验,估证计量无偏的、性效有。 8.理解区性间估计概念,的会求个正单总体的态均值和 方差置信的区, 会间求个两正总态体均的值 和方差比差置的信区。间 9.理解设假验的检本基想思,握掌假设检验 基本的步,骤解了设假检可能发生的两类验错。 10. 误解单了个两个正和总态的体值均方差的和假设检验。 1 .了解总体1分布设假的χ 2 检法验会应,用该方 法进行布拟合分优检度。验
重
点
1
.样、本统量计估和计等量念概的理。 解.矩估计法2和大极然似计估法。 3.计估量评选标准的无偏(、性效性)有 4。.正态总的体值均方和的差置信间区 5.假。检设的验本基想方思法步骤、两及错误类。
难
点1
统.计和估计量等量念概理解。的 .极大2似然估计的法基本思的想理解 3。统计.量分布的不同情况及下界值的临定。
确§.1数2统计理的本基念概
一.体、样品总样本 二、. X1, 2X ,"X n 联合的分布
三统.量计其及字数征 特四几种常.用统计量的分
布返回
一
总.体样品、样、本 Ppuoatlin oampSle总体
:要究对象研全体的; 品样从总体:随机中抽取一的个体个;样本: 由若个干品构成样样本中包含,品样的个 称数为样本长。 Sam度lp siez e()1总体一是 个 r?v ,记 X ,其分布函为
数 ( Fx) 称 为总体布函数分;
2)样(品是一也 个 ? vr,它与总 同体布分; 3()样是由本干若独立同布的分 r v?所构
成
样品,个数称的为样本长。度
"
, n X 联的分合布二 X.1,X 2 ,Al lie Ddstiiburtino"
X n,为来 自体总设 X 为个总一,体 X1 ,X2, 的
个长度为 一 n的本样,的观察值为 它1 x , x2 ,,"x n
。
由X1, X 2 , X 若的布函数分 为F ( x ),", X n 独的立知,性则 1X,X 2, ", X n 联合分布函的数为
F ( x1
,x 2 , , " n )x= ∏ F xi()
* i
=1
n(-1)2
",
Xn 的 X 的若布密分为 度 f (x) 则,X 1 ,X ,2联合 布分密度为
f ( x1 ,
x ,",2x )n=∏ f ( xi
)i =
1
*
n
(-22)
若 是X散离型随变量机其,概率分布为
kp= P (X = x k ), k= ,12," ,
则X 1X, 2", ,Xn 的联 概率分布为
P合{X 1 = xi 1, X2 = xi2 , , X"n x=i } n= i1 ppi "2 ipni1 ,
i 2, " , ni= 12,,"
例2-1设 总体X ~ (B,1 p ),即
{ P X x } = p=x ( 1? p) 1 ? x (x =1, 0 ),
1,XX2, X 为 3 X一的样个本 求,样 本X1 , 2,XX 3的 合
概率分布。
解 由联于 X 1,X2, X 3相互独 ,立它们的且概分率布 别为
分P{
Xj =i jx} p
=
xi j
1(? p )
1 ?i xj
(x ji= 1, ;0j = ,12,3) ,3
样本故 X 1,X 2, 3X的 合联率概布为分
P{ 1X= xi 1, X2 = x 2i, X 3= x i3} = ∏ {P X j =x ij
j} =
= p1
x
i
(1 ?1p
)
? x1i1
×
p
x2
(i1 p?
)
1 x? i
2
×p
x i3
(
?1p )
1 ?x 3i
=
p
x1i +x 2 i +x3
(1 ?ip)
? 3 (xi 1 +i 2x+ i3x )
(
x i j=1, 0 ) 。
三
、 统计量及本样数特征
字
Satistti
定c 义-12设 X ,1 X2, , X"n 为 总体X 一的样个本
",X ,n) g( x1 , x 2",,x n ) 连为续函,数果g( 如X1 X ,2,
不
包任含何知未数,则参称为其个一统计。量例如
X ~ N ( ,σ μ2) , 其 μ 中知, 已 2σ 知未,
X1 , 2X, ",Xn 总体为X 的一个 本样则, ∑ (X i? μ ) 2是
n一
个计量,统 ∑但 iX / 不是σ个统一量计。
i =1
n
i
=1
常用
的统量
样计本均、值样方本和样差本矩。
"
, n X来自是体 总 X长 定义度2- 设2 1X,X2, 为 n的一个 本样则,称 1 nS mple aman e X= ∑ i (2X-) n i =31 Saplmev rainaec 1 2n2 S = ( X ?X ) 2(4- )∑ in ? 1 i1= rOiignmoments 1 nk m=∑ Xi k( k= 1 ,2 ,)" 2-() n5 =i Ce1nrta lmomens 1 n ′t = ( ∑Xi ? ) X (k = k, 1m k,2 ) "2-() 6 i n=1分 为样别本值、均样本差方样本 k、阶 原矩点和 本 k样 中阶矩心 。了讨论问题方为便 ,们称总我体X k的阶 矩为总 体k 阶矩例如 EX。称为 总体均值,D X称 总体方为。
差理 定-1 2 设XE= μ DX ,= 2 ,σ X1, X 2,", nX 是 来自X 的一个 本样则, X =E , μ DX=
σ2
n,
E S 2 =σ2 。
证:明由 X于 i与总 体 同X布,因而 分XEi = μ ,
XDi =σ 2, i 1, =2 ,," ,n以
所 1n 1n E X=E ( ∑X i) ∑= EXi μ=n i =1 n =i
11 1 D X σ =D( ∑ Xi )= ∑ DX i 2=n i1 n= n =i
1nn 2
n 12 S E =2E ( [ ?XX ] ∑ i) n ?1 =i 1 n1 22 =E[ ( X i∑? 2 X X i X +])n ?1i =1 n 12 2 E (∑X i ?n ) X =n? 1 i 1 =1 n[∑ ( X iD+ ( X iE) 2 ) ? n ( DX +(E X ) 2 )] n= 1? i=12 1n σ= [ ∑ ( σ +2μ 2 ) ? n ( +μ 2)]
=σ 2 ?n1 i 1 = npk 还可证明:m k??→ X E = kμ
p? ′ m′k ( X ? E)k =μ μ ?→
k顺序
统计量
rOdre Sttastic
i设
1X, X 2, ", Xn 取自总是 X体 的一个样,将样本 观测本值 1 x,x 2 , ", x n 按大 递增小顺的排序序
x:1) ≤( ( x2 ≤ ) " ≤( n )x
Oservebdv auel
当X 1 X ,2, ," n X取 值为 x , 1 x2," , x n时, 定
X义( ) , X1( ) ,2 " X ( ,n) 取 值为 x 1( ) x, 2() ,,"x ( ) ,n则 X (称1), ( X 2 ) " , , ( Xn) 由为X , 1X2 , , X" n 出导一的组序顺
计量,称统X ( k) 为 k 个第顺统计序量, 特别地分别 称 (1X =)mi {X n } Xi (n ) =max{X }i1≤
i ≤ 1≤ni ≤
为最n小序统计顺和最大量序顺统计量
。
经
验分函数
布 设 1X, X 2 , ,"X n 是取自总 X 体的个一本,样样本将 观测 值1x ,x 2 " , x ,n 大按小 递 增 的 顺 序 排 成
(1)x ≤ (x2 ≤)" x≤(n ),作函数并
定
理 (格列汶*Γ科ИЛВΗО) е总设体 的分X布函 为 数F ( x) 经,分验函布为数 Fn (x) 则,当n → ∞ 时有
P{l misup | Fn ( )x F? ( x)| =0} = 1
n→ ? ∞
四、几种
用常计量统分的
S布malipg ndisrbttioun统计
是量样的本函,数是它一个随变机, 量统计量分布称的为样分抽布。下介绍来以正自 总体的几个态用统常计量的分。
布1. 2 χ布分
2
. t 布分3 .F 分布
1
. 分布χ
2
"
, X n来自正是态总 X 体~ N(,01 )的 设 X 1, X2
,2 2 2"+ +X n个样本一则,统计称 量χ 2= X 1 + X 2 服 自
从
由度 n 为 χ的 2分 ,记为布χ 2~χ ( 2n) 。 此 ,自处度是指上式右端包含独由变量立的个。 数χ 2 ( n )分布的 率密概度为
n y1 ? ??1 ? /n y 2 e 22,y > 0 f ( y ) =? 2Γ( / 2)n? 0, 其 ?它
2(7-)
f
( y) 的图形如图 -21 所示,Γ (x ) 为 函数Γ
。
y
n1 =n= 5 n =0
1
y
α
o
o
x
λ
x
2图-1图 2- 2对于给的定数α正( 0
P
{ > λχ = ∫}
2λ
∞+
f
( y) yd =
α
Criitca lavlu
e的点 λ 为 χ
2 ( n) 分布 上 α 的位点,如分 图22 所-。
示时有称 也λ 随机变量 为χ 2的 -α 分位数(1或界值)临 。不同α的 n、对 应的λ 已值成表制(格附见表4)
。
χ 2
布分随变量机如有下质:
性.设 χ 11 2~ 2χ (n 1) χ, 22 ~χ 2( n ) 2且互独立,相则
χ有 1 + χ 22 2~ χ 2 n1(+ 2 )n2
设 χ .2 ~χ 2 ( )n, 则E ( χ 2 n ())= n , D χ 2(( n) ) 2=n
3. 设1 ~ χ Q (2n )1 Q, 2~χ 2 ( n 2) , n 1>n 2 , Q则1? Q2 与 2 相互独Q,立 且1Q ?Q2 ~χ 2(n1 ? n2 )。
例
2- 设2X 1, X2, "X, 是来n总体自
X
N ( μ~ , σ ) 2度长 为 的n一个本样且, 1n2 2 2 XE =μ ,D X= σ ,记 = ∑S X(i
? X , n)? 1 i 1 = 2(n 1? S )2 χ (~n ?1) 。证明 χ 2 2
σ=证明 由:于
n
12 ?S 2 = X (X) ∑i n ? 1 i=1 1 n 2 [=( X? μ )?( X μ? ) ∑ i n]? i1=1
nn 1 1 2 2 S? = 2( XX ) = [( X μ?) ( X?? μ )] ∑ i ∑ n ?i 1i =1 n ? 1i 1
=
n1= ∑ ([X i ? μ ) 2 n? X(? μ ) 2] n ? 1 i =
1于是(
n? 1 S)2
σ
/n iX ?μ 2 又X ~ N ( μi σ, ), 准化得 ~标 N(,01) ,i
1
σ2=
=
∑
n
Xi( ?μ
σ
?()2
X?
μ2)
从而由σχ 2分布 义知定
而 X
,1X 2, " , X n相 独互,故 X立 ? n Xμ 1 ?μ 2 ? μX相 独立互, ,,",
σσ
σ
∑又
X
μ
?n
(Xi ?
μi
=
σ1
) ~ χ 2 2n)
(
σ/n
~
N( 0, ) 1所以 (,X ?
μσ
/ n
2 )~ χ (12)
由
χ2 布分的质性3 得
χ =2
(
n 1?)S 2
σ
2
~
χ2 n(? 1 )
利用性代线数正交中换的变方法还 可2 证以明 : 与X S 互相独立。
2
t. 分:布设
X~ N(0, 1 ) , ~ Y χ2 ( n) 并,且互独立相则称 ,rv . X=tY n/服 自由度从为n 的 t分 布记, t为 ~ t ( n 。) tn( 分布)概的率度密函数
n 为1 +Γ( ) ? 2 +1 n x f 2 x( =) 1 (+) 2 nn nπ Γ ( ) 2 其 中 Γ ( α) 为 函数。Γ( ? ∞
2-图3中 出画 n 了=1、10、∞ 时 f x ( )的形。图
yn = 01n= n5 =
1
αy
o
图2 4-
o 2图3
-
λ x
x
于对定的给数正 (α
件{Pt> λ } ∫λ = ( fx d) = x
α+
∞点的λ 为t( n 分布)上 α的 位点分如图 2(4-所 示。有)时也称 λ为随机 变 量t的1? α 分位(或数临值)。界不同的 α、n 应的对λ 值已 成制格(表见表附3) 。
例
-3 设2X 1, X2, " X,n 是来 自总体 ~ N (X μ ,σ2 )长 度 n为的 个样本一, 且X =Eμ , DX =σ 2 ,记 1n ?X 2μ2 S= ~ t( n ?)1 。∑ ( X i X ?), 证 明n ?1i = 1S /n
明证由于
X:? μ
σ/
n
N ~(,10),
(
?n 1)S 2
σ
2
~
χ n (?1)
2,
又
与 XS 2 相独立互故由,t 分布定义的知
X
μ S? n
=/
X ?
σ/μn
n (? ) S1 2~ t (n ?)12 σ ( n ?1 )
3. F分
布 设U~ χ2 () mV, ~ 2 (χn ),并且U 、 V相互立,独 U称则机随变 量F= m 从自由度服为( ,nm 的) F分 ,布 V n 作 F记~ F (m, ) ,其n布分密度为
? +m n m+ n ?1m? Γ? 2 ( ) mm 2 m2( ) y( 1 +y) 2 , ? nn ≥y0f (y ) ?=m n ( ΓΓ)( ) ? 2 2 ?0 y,
。
性 质:若 ~ F F ( m n ,) , 1则/ F~ (F ,n m)
内
容
小
结
基本概
念:样、本品样总体、统、计量
;用常统计量:本样均、样值本方差样、 k本阶 原矩、点本样 k阶中心 ;矩
种常三分布:用χ 分布 、t分 布、F 分 布;2
2XE= μD X=σ ",X n 是重 要结论1 :设 ,,X ,1X ,2
来自 X 的一样个本则 E X =
,μ ,DX =
σ
2
,n S 2 E σ =2;
?→
EX 重要结 2论 m:k ?
p
k
= μ kE
ix
t pk ′′ mk ? ?→ ( E X μ?) μ=
k
", X
n是来 总体自 X~ N μ,σ ( )重结要论 :设3X 1, X,
22
样本的,X、 S 分别为本均样值样本和差,则方有
(1) X N~( μσ,/ n ;)
22
(2)
(n? )1S 2
σ
~ 2χ 2(n? )1;
()3 X、 2S 互相独;立
X μ ?() 4 ~ (n t ?)1S / n
xitE
问
题 与 考
思. 采用抽1的方样法推断体总,样对本 什有么求要 ?2 .什么统计量?统计是有量什特么征?3. 什么是样、本统计的量重二性
E?ixt
课
堂 练
1.设习 1 ,X X ,X 23 X,4 来自总是 体 N (,0 22 ) 的简单随机本,
样X= a ( X 1? 2 X ) 2 2+ (b 3 X 3 4 X?4 ) 2
则当a =
/12 ,b = 101/00时 ,统 计量X 服 从χ 分2
,布自由度为其
2
。2
析分依:意,要使统题计量 X从服χ 布分则必 ,/ 2 11 /2需 a使 X( ? 2 X 2 1 )及b ( X 33 4 ? X4 )服标准从正 态分布。相互独由立正的态机随变的量质知性 a1/ 2( X 1 2?X ) ~2N (0 (4, + 1a6a) ,从)解而得Exi
t
2.随设机量变X Y 和相互独且都立服正态从分布 (N0 ,23 ,而 )X1 X,2 ," ,X 9 Y和1 Y2,," , Y9 分别 是来自总体 和Y 的简单随X机本,则样统量
计U
=
X为1 "++X 9
2
Y2 1++"9Y
服
从
t ()9
分布
2( 分)参,
9
数(1分) 。
分
析:
X9
X1 ( 1++") X× +"+1 X9 3 33 =U = Y 92 1 Y1 Y122 "+Y+29 [ ( +)" + ( ) ×] 3 39
Exti
范文二:数理统计的基本概念
6 数理统计的基本概念
基本要求
1 理解总体、样本(品)、样本容量、简单随机样本的概念。能在总体分布给定情况下,正确无误地写出样本的联合分布,这是本章的难点。 ,2 了解样本的频率分布、经验分布函数的定义,了解频率直方图的作法。 23 了解分布、t分布和F分布的概念及性质,了解临界值的概念并会查表计算。
4 理解样本均值、样本方差及样本矩的概念。了解样本矩的性质,能借助计算器快速完成样本均值、样本方差观察值的计算。了解正态总体的某些常用抽样分布。 疑难解答
1、采用抽样的方法推断总体,对样本应当有怎样的要求,
答:为了对总体X的分布进行研究,逐个研究每个个体是不现实的。采用抽样推断总体,其出发点是利用局部认识整体,因此抽出的样本要具有代表性。即要求每个个体被抽取的机会均等,并且抽取一个个体后总体成分不变。首先要求抽样具有“随机性”,第一次抽取的样品X的可能取值应与总体的可能取值是完全一样的,且去取个个值的概率相同。因此,1
X是一个随机变量,并且是与X同分布的随机变量。其次,应具有“独立性”,第一次抽样1
不改变总体成分,第二次抽取的样品X可能的值也与X完全一样,且取值的概率也是相同2
的,因此X也是与X同分布的一个随机变量且与X是相互独立的,同样道理, X, X,?,2134X都是与X同分布的随机变量,并且X, X,?,X是一组相互独立的随机变量,故要求n12n
X, X,?,X是简单随机样本。 12n
2、什么是简单随机样本,在实践中如何获得简单随机样本,
答:设X,X,?,X是来自总体X的容量为n的样本,如果它满足以下两个条件,则称12n
它为简单随机样本:
(1)X,X,?,X与总体X具有相同的分布 12n
(2)X,X,?,X相互独立 12n
由简单随机样本的定义知,用简单随机样本研究总体,可以更好地用概率论中独立条件下的一系列结论,正是这些结论为概率统计提供了必要的理论基础。
一般说来,对总体进行独立重复观测,便可以获得简单随机样本。
具体来说,当抽取样本容量n相对于总体数N很小时(一般),则连续抽nN,110)取n个个体,就近似地看做一个简单随机样本。这是因为抽取的个数很小时,可认为对总体不影响或影响很小。
如果采取有放回抽样,则不必要求n相对很小。
3、什么叫大样本和小样本,它们之间的区别是否是一样本容量的大小来区分的, 答:在样本容量固定的条件下,进行的统计推断、分析问题称为小样本问题,而在样本容量趋于无穷的条件下,进行的统计推断、分析问题称为大样本问题。
然而,众多统计推断与分析问题与统计量或样本的函数的分布相关联。能否得到有关统计量或样本的函数的分布常成为解决问题的关键。所以,大、小样本的区分常与这一分布
能否得到相联系。
对于固定的样本容量,如果能得到有关统计量或样本函数的精确分布,相应统计推断,分析问题通常属于小样本问题。此时,在样本容量有限情况下,能够较精确、满意的讨论各种推断与分析问题。
但是,在一般情况下要确定一个统计量或样本函数的精确分布不是一件容易的事。如果统计量或样本函数的精确分布求不出或其表达方式过于复杂而难于应用时,如能求出在样本容量趋于无穷时的极限分布,利用此极限分布作为其近似分布进行统计推断、分析,此类问题便属于大样本问题。
大样本与小样本决不可以以样本容量的大和小来区分。样本容量的大小受多种因素的影响。有时虽属小样本问题,但要求的样本容量却可能比较大;反之,对某些大样本问题,有可能要求其样本容量却不大。
4、什么是统计量,为什么要引进统计量,
答:所谓统计量是指不含任何未知参数的样本(X, X,?,X)的函数T=T(X, X,?,12n12X). n
引进统计量的目的是为了将杂乱无章的样本值整理成便于对所研究问题进行统计推断、分析的形式。将样本中所含的有关所研究问题的信息集中起来,从而更有效地揭示出问题的实质,进而得到解决问题的方法。例如,为估计总体的期望值,可将样本中关于总体取,
平均值的信息集中起来,这一信息便集中体现在样本分量X, X,?,X的算术平均值 12n
n1上。因为若总体期望值比较大时,取自总体的观测值的平均值自然也有偏大X,X,in,1i
倾向,反之。这样就比较清楚地提出了估计的办法,而若直接考虑样本就显得没有头绪。 ,
此外,样本X, X,?,X是一个n维统计量,对其直接进行统计推断和分析显然没12n
有使用适当统计量——一个一维随机变量来的简单。当然,选择的统计量应较好地集中样本中所含的关于所研究问题的信息,而不会丢失有用的信息。
5、为什么要求统计量中不含有任何未知参数,统计量的分布是否也不含位置参数,
答:统计量的使用目的在于对所研究的问题进行统计推断和分析。如用统计量对位置参数进行估计时,若统计量本身仍含有位置参数,那么就无法根据所测得的样本值求得未知参数的估计值。利用统计量估计参数将失去意义。再如,在假设检验中,若检验统计量中含有未知参数,那么由样本值就无法求出相应的检验统计量的值,也就无法与相应的临界值进行比较,从而使得通过统计量表示的拒绝域失去意义。总之,从统计量的意义上看,要求它不含未知参数是自然的。
2统计量本身虽不含未知参数,但它的分布却可能含未知参数。如,对正态总体N(),,,,
2,22NX其和为未知参数,则统计量,,可见其分布中却含有位置参数和。(,),,,,,n
然而,含有未知参数的样本函数其分布却不一定含有未知参数。如在上例中含有未知参数,
,X,2和的样本函数却服从不含任何未知参数的标准正态分布N (0,1)。 ,
,/n
nn11222B,(X,X)6、数理统计中流行样本方差的两种形式:, S,(X,X),2,iinn,1,1,i1i这两种形式在统计中会发生哪些不同的效应,
n,12222答:由于,是总体X的方差的无偏估计,而不是总体方差的无EB,,ES,,,2n
n,12222偏估计,因此,一般都是以作为方差的估计量。但EB故,S,,,,limlim,2n,,n,,n
2当样本容量很大时,和两者相差很小,对于大样本来说,亦可用来估计总体方差BBS2222称为大样本方差,也叫二阶样本中心矩而,称为样本修正方差因此,有时把BBS,。。 22
2 7、为什么只要已知总体X的数学期望E(X)= ,方差D(X)=存在时,样本均值的X,,
2,渐进分布就为正态分布N呢,; (,),n
答:由独立同分布的中心极限定理,可知
n,,,2X,nt,i,,,x1,,1i,2 limP,x,edt,,,,0n,,,,n2,,
,,,,
2t,,,x,1X,2lim即 P,x,edt,,,0n,,,2,n,,
,X,故随机变量的渐进分布为标准正态分布N(0,1)。即
,n
~,X, (1) ,N(0,1)n,,,n
由此可知
2~,XN ,(,),n,,n
X 这样,在求样本均值落在某区间内的概率P,,时,就可以利用(1)式X,x这是很重要的结论。
8、t分布与标准正态分布的关系如何,
答:从标准正态分布与t分布的概率密度曲线看,他们有相似之处。另外从理论上可以证明,当时自由度为n的t分布的极限分布是标准正态分布,故当n足够大时(一般地n,,
n>45),有. t(n),z,,
9、什么是自由度,如何计算自由度,
答:所谓自由度通常是指不受任何约束,可以自由变动的变量的个数.在数理统计中,自由度是对随机变量的二次型(可称为二次统计量)而言。有线性代数知识可知,一个含有n个变量的二次型
nn
(a,a,i,j,1,2,?n)aXX,,ijjiijiji,,11j
的秩是指对称阵的秩。秩的大小反映了n个变量中可自由变动、无约束的变量个A,(a)ijn
数的多少。这里的自由度便是指二次型的秩。因此要判断一个二次统计量的自由度是多少,便可由判断矩阵A的秩为多少而得到。
10、
11、
12、
范文三:数理统计的基本概念
第六章 数理统计学的基本概念
引例:某公司要采购一批产品,每件产品不是合格品就是不合格品,但该批产品总有一个不合格品率p,由此,若从该产品中随机抽取一件,用X表示这一件产品的不合格数,不难看出X服从一个二点分布b(1, p),但分布中的参数p却是不知道的。显然,p的大小决定了该批产品的质量,它直接影响采购行为的经济效益。因此,人们会对p提出一些问题,比如:
(1) p的大小如何;
(2) p大概落在什么范围内;
(3) 能否认为p满足设定的要求(如p≤0.05)。
引例中研究的问题属于统计学的范畴。统计学是一门应用性非常强的学科,它的历史已有三百多年,即使从皮尔逊(K.Pearson,1857-1936)和费舍尔(R.A.Fisher,1890-1962)的工作算起,统计学的发展也已有一百多年的历史,并且取得了良好的社会和经济效益。
一般认为,统计学是一门研究如何运用有效的方法去收集、整理和分析带有随机性影响的数据的学科。也就是说,统计学是直接从随机现象的观察值去研究它的客观规律。经过多年的研究和发展,统计学已深入到了多个学科中,可以说,凡是一个实际问题涉及一批数据,我们都应该利用统计学方法去分析它、解决它。统计学是唯一的对数据进行整理和分析的学科。随着统计学的发展和完善,其研究内容也非常丰富,且形成了多个学科分支,如抽样调查、试验设计、回归分
析、多元统计分析、时间序列分析、非参数统计、贝叶斯(Bayes)方法,等等。
6.1 总体与样本
6.1.1 总体与个体
总体(母体):研究对象的全体所构成的一个集合;
个体:构成总体的每一个成员;
对多数实际问题,总体中的个体是一些实在的人或物。比如,我们要研究本校学生的身高情况,则本校的全体学生构成问题的总体,而每一个学生即是一个个体。事实上,每个学生有许多特征:性别、年龄、身高、体重、民族、籍贯,等等,而在该问题中,我们关心的只是本校学生的身高如何,对其他的特征暂不予考虑。这样,每个学生(个体)所具有的数量指标值——身高就是个体,而将所有身高全体看成总体。这样一来,若抛开实际背景,总体就是一堆数,这堆数有大有小,有的出现的机会多,有的出现机会小,因此用一个概率分布去描述和归纳总体是恰当的,从这个意义看,总体就是一个分布,而其数量指标就是服从这个分布的随机变量。
例6.1.1 磁带的一个质量指标是一卷磁带(20m)上的伤痕数。每卷磁带都有一个伤痕数,全部磁带的伤痕数构成一个总体。这个总体中相当一部分是0(无伤痕,合格品),但也有1,2,3等,但多于8个的伤痕数非常少见。研究表明,一卷磁带上的伤痕数X服从泊松分布P(λ),但分布中的参数λ却是不知道的。显然,λ的大小决定了一批产品的质量,它直接影响生产方的经济效益。
本例中总体分布的类型是明确的,是泊松分布,但总体中还含有未知参数λ,故总体还不是一个特定的泊松分布。要确定最终的总体分布,就是要确定λ,这是统计的任务。
在有些问题中,我们对每一研究对象可能要观测两个甚至更多个指标,此时可用多维随机变量及其联合分布来描述总体,这种总体称为多维总体。
根据总体中所包含个体的个数,将总体分为有限总体和无限总体。
6.1.2 样本
为了了解总体的分布,我们从总体X中随机地抽取n个个体,记为X1, X2,?, Xn,并记其指标值为x1, x2,?, xn,或称为样本值,则X1, X2,?, Xn称为总体的一个样本,n称为样本容量,或简称为样本量,样本中的个体称为样品。
我们首先指出,样本具有所谓的二重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是一个随机变量,用大写字母X1, X2,?, Xn表示;另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。此时,用小写字母x1, x2,?, xn表示也是恰当的。但由于抽样是随机的,所以样本值x1, x2,?, xn也是随机的。
例6.1.2 啤酒厂生产的瓶装啤酒规定净含量为500 g,由于随机性,事实上不可能使得所有的啤酒净含量均为500 g。现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果(单位:g):
502 499 493 492 501 500 498 496 494 497
这是一个容量为10的样本的观测值,对应的总体为该厂生产的瓶装啤酒的净含量。
从总体中抽取样本可以有不同的抽法,为了能由样本对总体作出较可靠的推断,就希望样本能很好地代表总体。这就需要对抽样方法提出一些要求,最常用的“简单随机抽样”有如下两个要求:
(1)样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每个样品Xi与总体X有相同的分布。
(2)样本要有独立性,即要求样品中每一样品的取值不影响其他样品的取值,这便意味着X1, X2,?, Xn相互独立。
用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。于是,样本X1, X2,?, Xn可以看成是相互独立的具有同一分布的随机变量,又称为i.i.d样本,其共同分布即为总体分布。
易知,对有限总体而言,采用放回抽样就能得到简单随机样本,不放回抽样不能保证X1, X2,?, Xn的独立性,但放回抽样使用起来不方便,当个体的总数N要比得到的样本容量n大得多时,在实际中可将不放回抽样近似地当作放回抽样来处理;但对无限总体而言,因抽取一个个体不影响它的分布,所以不放回抽样也得到简单随机样本。除非特别说明,我们所说的样本一般皆为简单随机样本。
6.1.3 样本的概率分布
设总体X具有分布函数F(x),X1, X2,?, Xn为取自该总体的容量为n的样本,则样本联合分布函数为
F *(x1, x2,?, xn) =