范文一:多元统计分析教案0
第一章 绪论
1 多元统计分析的概念
多元统计分析就是利用统计学和数学方法,将隐没在大规模原始数据群体中的重要信息集中提炼出来,简明扼要的把握系统的本质特征,分析数据系统中的内在规律性。利用多元分析中不同的方法还可以对研究对象进行分类和简化。多元分析是实现做定量分析的有效工具。 2 多元分析的起源和发展
1)1928年,Wishart 发表《 多元正态总体样本协差阵的精确分布》, 是多元统计分析的开端; 2)20世纪30年代多元分析在理论上得到迅速发展;
3)20世纪40年代应用于心理、 教育 、生物等方面; 但由于计算量太大, 其发展受到影响; 4)50年代中期, 由于电子计算机的出现和发展, 使多元分析方法得到广泛应用; 5)60年代由于新理论、新方法不断涌现使多元分析方法的应用范围更加扩大;
6) 多元统计在我国发展较晚,70年代初在我国才受到各个领域的极大关注, 应用日益广泛。 3 多元分析能解决的实际问题
多元分析在工业、农业、医学、经济学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、甚至文学中都有广泛应用,足见其应用的深度和广度。 4 多元分析课程讲授的主要内容
本课程重点介绍多元分析中常用的六种方法: 聚类分析;判别分析;主成分分析;因子分析;对应分析;典型相关分析
我们这门课重点在于应用, 参考课本中的公式推导为次要内容, 大致了解即可, 对每一种分析方法我们要清楚掌握它解决哪类问题、前提条件和局限性, 以及它们相互之间的区别与联系; 会用SAS 、SPSS 等数学软件实现上述过程, 对所研究的问题能做出合理推断和科学评价。 5 原始资料阵及其标准化
1)原始资料阵:设有n 个样品,p 项指标(变量),组成矩阵
x 1p ?
?
x 22 x 2p ?
(x 1, x 2, , x p ) ,
?
?
x n 2 x np ??
1n
2)第j 项指标均值j =∑i =1x ij ,
n
1n
(x -i )(x αj -j ) 3)指标的协方差阵S =(s ij ) p ?p ,其中s ij =∑α=1αi
n -1
?x 11 x 21 X '= x ?n 1
x 12
4
)原始指标(变量)的标准化x =
*ij
x -
第二章 聚类分析
1 什么是聚类分析 1.1 聚类分析的概念
聚类分析又称群分析、点群分析, 是定量研究样品或指标分类问题的一种多元统计方法。其中类指相似元素的集合。 1.2 聚类分析的基本思想
认为所研究的样品或指标之间存在着程度不同的相似性,根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并以此为依据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。 2 距离与相似系数
聚类分析的目的是将研究对象进行分类。它是在事先不知类别的情况下对数据进行分类的分析方法。分类的依据有两类:距离与相似系数。 2.1 变量的类型
1)间隔尺度变量:连续量,如速度,重量等。
2)间隔尺度变量:等级,有次序关系,如一级品、二级品等。 3)间隔尺度变量:无等级也无数量关系,如性别,产品型号。 2.2 常用的距离有以下几种:
1)明考夫斯基距离:d ij (q ) =[2)绝对距离:d ij (1) 3)欧氏距离:d ij (2)
4)切比雪夫距离:d ij (∞) =max x ik -x jk
1≤k ≤p
∑
p k =1
x ik -x jk ]
q q
5
)马氏距离:d ij (M ) =x i =(x i 1, x i 2, , x ip ) ',S =(s ij ) p ?p 为协方差阵
6)兰氏距离:d ij (L ) =
∑
p k =1
x ik -x jk x ik +x jk
2.3 常用的相似系数有以下几种:
1)夹角余弦
:c ij (1)=
x x n
2)相关系数
:c ij (2)=
n (x -)(x -)
聚类分析根据所用方法不同可分为系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法等等;根据分类对象不同又分为对样品聚类(又称Q 型聚类分析)以及对变量进行聚类(又称R 型聚类分析)。对前者聚类多用距离,而后者聚类时多用相似系数。 3 系统聚类法
3.1 系统聚类法的基本思路
就近原则:首先,将n 个样品看成n 类,定义各样品之间的距离(此时其亦为类间距离);其次,按照某种原则将最接近的两类合并为一个新类,于是得到n-1类,定义并计算各类间距离,然后再从中找出最接近的两类合并成一个新类,重复以上步骤,直到全部样品合并成一类为止,将上述合并过程画成聚类谱系图,据此图可将全部样品分类。 3.2 八种系统聚类方法
正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法,系统聚类方法包括最短距离法﹑最长距离法﹑类平均法﹑重心法﹑WARD 法等八种不同的方法,但这些方法聚类的步骤是完全一样的。当采用欧氏距离时,八种并类方法可归结为统一的递推公式。设G K , G L , G M ={G K , G L },G J
1)最短距离法:D KL =min d ij ;D MJ =min{D KJ D LJ }.
i ∈K , j ∈L
2) 最长距离法:D KL =max d ij ;D MJ =max{D KJ D LJ }.
i ∈K , j ∈L
2
3)类平均法:D KL =
1
n K n L
i ∈K , j ∈L
∑
22d ij , ;D MJ =
n K 2n 2
D KJ +L D LJ . n M n M
2
4)WARD 法(离差平方和):D KL =
n K n L
(K -L ) '(K -L ), ; n M
2D MJ =
n J +n K 2n +n L 2n J 2
D KJ +J D LJ -D KL .
n J +n M n J +n M n J +n M
3.3 谱系图及利用谱系图进行分类
根据谱系图确定分类个数的准则:
Bemirmen 于1972年提出了应根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分析的准则。
准则A :各类重心之间的距离必须很大;
准则B :确定的类中,各类所包含的元素都不要太多; 准则C :类的个数必须符合实用目的;
准则D :若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类。
应该指出,关于类的个数如何确定的问题,至今还没有一个合适的标准,也就是说对任何观测数据都没有唯一正确的分类方法。 3.4 分类个数的确定(R 统计量法)
总离差平方和:W =
2
∑
n j =1
(x j -) '(x j -) ,
j
组内离差平方和:W i =
∑(x
j ∈G i k
-i ) '(x j -i ) ,
R 2统计量;R 2=1-∑i =1W i ,R 2∈(0,1),R 2越大聚类效果越好。当R 2在第m +1类时
迅速下降时,确定为m 类。
第三章 判别分析
1 什么是判别分析 1.1 判别分析的基本思想
判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,判别分析无意义。 1.2 判别分析与聚类分析的关系 1.2.1区别
判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。 聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。
1.2.2 联系
两者都是研究分类问题,两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。 2 距离判别法
2.1 距离判别法的基本思想
如果事先已有m 类的先验知识,将每一类视为一个总体,计算各样品与各总体之间的距离,将各样品分别归入与其距离最近的类。 2.2 两总体距离判别
设有两个总体G 1、G 2、x 为一样品,定义x 到两总体的距离分别为d (x , G 1) 和d (x , G 2)
?x ∈G 1, d (x , G 1)
判别准则为:?x ∈G 2, d (x , G 1) >d (x , G 2) ;
?待判,d (x , G ) =d (x , G ).
12?
判别准则的直观表述即样品离哪个总体最近,则判该样品属于哪个总体。
与上述准则等价的想法,就是算出样品到各总体间距离的差,根据差值来判断样品的归属。 2.3 多总体距离判别
设有k 个总体(组)它们的均值μ1, μ2, , μk 它们的协方差阵∑1, ∑2, , ∑k (均G 1, G 2, , G k 、为正定),x 为一样品,x 到总体G
i 的距离d ij (x , G i ) =.
判别准则为:x ∈G l , d (x , G l ) =min d (x , G i ) ;
1≤i ≤k
分为协方差阵相同和协方差阵不同两种情况,它们的判别函数有差异,而判别准则无差异。 3 费歇判别法
3.1 费歇判别法的基本思想
?x i 11
2 x i 1
从k 类总体中抽取具有p 个指标的样品的观测数据,G i 的原始资料阵
x i p ?11?x i 12 x in i ?22
x i 2 x in i ?
?,
?
p ?x i p x in 2i ?
12
i =1,2, , k . 其第j 个样品的观测值x ij =(x ij , x ij , , x ij p ) ', j =1,2, , n i , i =1,2, , k .
借助于方差分析的思想构造一个判别函数,即y ij =a 'x ij ,其中系数a =(a 1, a 2, , a p ) ',的确定原则是使两组间的区别达到最大,而使两组内部的离差达到最小。
组间离差平方和:
SSTR =∑i =1n i (i -) 2=∑i =1n i (a i -a ) 2 a 'Ba , B =∑i =1n i (i -)(i -) ',其中i
和依次为G i 组内平均和总平均
组内离差平方和:
k k k
SSE =∑i =1∑j i =1(y ij -i ) 2=∑i =1∑j i =1(a 'x ij -a i ) 2 a 'Ea
k n k n
,
E =∑i =1(n i -1) S i , S i =
选择a ,使?(a ) =
k
1n i
(x ij -i )(x ij -i ) ' ∑j =1
(n i -1)
'SSTR a Ba =max ,由代数知?(a ) 的最大值,就是a 取E -1B 的最大特
'SSE a Ea
征值所对应的特征向量.. 3.2 判别函数
费歇准则下的线性判别函数
y =∑i =1a i x i =a 'x , 其中a =(a 1, a 2, , a p ) ',x =(x 1, x 2, , x p ) '. 的解应为方程
p
(B -λE ) t i =0
E -1B 的特征根λ1≥λ2≥ ≥λs >0所对应的(单位)特征向量t 1, t 2, , t s . s ≤min(k -1, p ) ,累计贡献率∑i λi
r
∑
p i =1
λi ≥c ,.(0.75
'x , 第二判别式y 2=t 2'x , ……. 第r 判别式y r =t r 'x , 第一判别式y 1=t 1
3.3 判别准则
x ∈G j , ∑j =1(y j -lj ) 2=min ∑j =1(y j -ij ) 2,
1≤i ≤k
r r
其中y ij =t 'j i =
1
n i
∑j =1x ij , 为第j 判别式在G i 的样本均值. ∑j =1(y j -lj ) 2为y 到前r 判别
n i
r
式在G i 的样本均值i =(i 1, i 2, , ir ) '的(欧氏)距离平方. 3.4 两个总体(组)G 1, G 2的判别 1)判别函数y =(1-2) 'S p x ,S p =
-1
1
E 称为联合协方差阵。
n 1+n 2-2
2)判别规则?
?x ∈G 1, y ≥(1+2) 2;-1-1
,其中1=(1-2) 'S p 1;2=(1-2) 'S p 2
?x ∈G 2, y <(1+2)>(1+2)>
3.5 误判概率与误判代价
?(i j ) =x 来自G j 而误判为G i 的概率记为P (i j ) ;误判概率的估计P
数;n i j 为把G j 的元素误判为G i 的元素的个数.
n i j n j
,其中n j 为G j 的个
x 来自G j 而误判为G i 的代价记为c (i j ) ;特别的c (i i ) =0.
4 贝叶斯判别法
4.1 贝叶斯判别法的基本思想
贝叶斯判别法是源于贝叶斯统计思想的一种判别分析法 。这种方法先假定对研究对象已有一定的认识,这种认识以先验概率来描述,然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,利用后验概率分布进行统计推断。 4.2 判别规则 4.2.1 后验概率最大
设有k 个总体(组)G 1, G 2, , G k ,G i 的概率密度f i (x ) ;
x 来自G i 的(先验)概率为
P (x ∈G i ) =p i ,
∑
k i =1
p i =1.
p i f i (x )
后验概率:P (G i x ) =
∑
k j =1
p j f j (x )
,
判别准则为:x ∈G l , P (G l x ) =max P (G i x ) ;
1≤i ≤k
4.2.2 错判的平均损失最小
判别准则为:x ∈G l , 5 逐步判别法
从模型中没有任何变量开始,每一步都对模型进行检验,将模型外对模型的判别贡献大的变量加入到模型中去,同时也检验在模型中是否存在由于新变量的引入而对判别贡献不太显著的变量,如果有,将其从模型中删除,直到模型中的所有变量都符合引入模型的条件,而模型外的变量都不符合引入模型的条件为止,整个过程结束。整个筛选过程实质就是作假设检验,通过检验引入显著性变量,剔除不显著变量。反映在输出结果上,通常可以用F 值的大小作为变量引入模型的标准,
∑p
j =1
j ≠l
k
j
f j (x ) c (l j ) =min ∑p j f j (x ) c (i j )
1≤i ≤k
j =1j ≠i
k
即一个变量是否能进入模型主要取决于协方差分析的F 检验的显著水平。逐步判别过程本身并不建立判别函数,筛选出重要变量后,可用前面所讲的方法建立判别函数和判别准则,对新样品进行判别归类。
第四章 主成分分析
1 主成分分析及基本思想 1.1主成分分析的概念
主成分分析的工作对象是样本点*定量变量类型的数据表。主成分分析的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。很显然,在一个低维空间分析问题要比在一个高维空间中分析容易的多。英国统计学家斯格特(scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。通过主成分分析发现,只需5个新的综合变量(他们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到了5维。可以想象,在5维空间对系统进行任何分析,都比在57维中更加快捷和有效。另一项十分著名的工作是美国的统计学家斯通(STONE )在1947年关于国民经济的研究。他曾利用美国1929-1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴﹑消费资料和生产资料﹑纯公共支出﹑净增库存﹑股息﹑利息和外贸平衡等。在进行主成分分析后,竟以97.4%的精度,用3个新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入﹑总收入变化率和经济发展或衰退的趋势。这样,用3个综合变量取代了原来的17个变量,问题得到了极大的简化。
一个多变量的高维系统如何进行降维处理,可以用几个最直观的例子来说明主成分分析的工作思路。假设有一个二维数据表,表中数据点的分布如图所示,重心为g ,很显然,在长轴方向上,数据的离差最大,因此,所反映的数据信息也最多,这个方向被称为数据变异的最大方向。如果将原点平移到g ,并且做旋转变换,便得到一个正交坐标系。可以看出,若省略短轴,将数据点在长轴上投影,就会得到一个简化的一维数据系统。因此,降维处理的核心思想,就是省却变异不大的变量方向。
又如,一个三维数据群点的分布是球形的,假若这个球是饼状的,其变异较大的方向为u1和u2,而u3方向的变异很小,即在该方向上各样本点取值没有很大的差别,就可以不考虑u3方向,三维空间的数据点就可以在二维平面图上得以显示。达到降维的目的。从中也可以看出主成分分析从几何上看是寻找p 维空间中椭球体的主轴问题。
主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主成分来解释多变量的方差—协方差结构,其功能在于简化原有的变量群。具体地说,就是设法将原来多个指标重新组合成一组新的相互无关的综合指标,来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这些综合指标是原来指标的线性组合,我们称之为主成分。通过这种方法可以降低数据维数,消除原始变量之间的相关性以便进一步利用其他方法对数据进行分析。 1.2 主成分分析的基本思想
各指标间既然有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵内部结构关系的研究,找出影响某一过程的几个综合指标,使综合指标为原来变量的线性组合,并使其尽可能多的反映原来指标的信息,综合指标反映的信息量用其方差来表达,即综合指标的方差越大,表示其包含的信息越多。在所有的线性组合中方差最大的称为第一主成分,如果第一主成分不足以代表原来P 个指标的信息,再选取第二个线性组合作为第二主成分,第一主成分已有的信息就不需要再出现在第二主成分中,依次可造出P 个主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。在解决实际问题时,一般不是取P 个主成分,而是根据累计贡献率的大小取前几个最大主成分,既保留了原指标大部分的信息,又达到降维的目的。 2 主成分分析模型及几何解释 2.1 主成分分析的数学模型
设原始变量为X =(x 1, x 2, , x p ) '考虑它们的线性变换
Y =AX , (或(y 1, y 2, , y p ) '=A (x 1, x 2, , x p ) ') ,即y i =∑α=1a αi x α a i X , i =1, 2, , p .
其中y 1, y 2, , y p 满足以下条件: (1)cov(y i , y j ) =0, i ≠j c ; (2)Dy 1≥Dy 2≥ ≥Dy p .
即y 1是x 1, x 2, , x p 的一切线性组合中方差最大者,y 22是方差次大者,依此类推,称y 1为
p
x 1, x 2, , x p p的第一主成分,y 2为第二主成分,…,y p p为第p 个主成分。
2.2 主成分的几何意义
主成分分析从几何上看是寻找p 维空间中椭球体的主轴问题。 3 主成分的计算
3.1主成分的概念
主成分其实就是原来指标的一些特殊的线性组合,这些线性组合的系数就是原指标协方差矩阵特征值所对应的特征向量。 3.2 主成分的确定
用数学语言来描述即:
设DX =V , 的特征根λ1≥λ2≥ ≥λp >0,所对应的(单位)特征向量a 1, a 2, , a p . 则随机向量X =(x 1, x 2, , x p ) '的第i 个主成分y i =a i X =t i X . , (i =1,2, , p ),即a i 为V 的第i 大特征根λi 对应的单位特征向量。
求主成分关键在于求出协方差阵V 的特征向量,但实际中V 是未知的,一般可用S 作为V 的估计求出S 的特征值和特征向量作为V 的特征值和特征向量的估计。通常,在进行数据分析之前,为了消除量纲影响要先将数据进行标准化,而对于标准化数据来说,其S 与R 相同,故在实际中常由样本相关阵去估计V 的特征值和特征向量。 3.2 贡献率和累计贡献率
第个k 主成分的贡献率为λk 在特征值总和中所占的比重,即λk 前
∑
p i =1
λi . ;
m 个主成分的累计贡献率为前m 个特征值在特征值总和中所占的比重,即
∑
m i
λi
∑
p i =1
λi , m
通常取m 使得前m 个主成分的累计贡献率达到70%至80%即可。 4 主成分分析计算步骤
1)将原始数据标准化,仍记为x ij , X =(x ij ) n ?p 2)求相关系数阵R =(r ij ) p ?p ,r ij =
?r 11 r 21 r ?p 1
r 12r 22 r p 2
r 1p ??x 11
?
r 2p ? x 21
=
?
? r pp ???x p 1
x 12x 22 x p 2
1n
∑x αi x αj ,(或R =n α=1
x 1n ??x 11x 21
??
x 2n ??x 12x 22 ??
??
x pn ????x 1n x 2n
X 'X )
x p 1?
?x p 2?
??x pn ??
3)求相关系数阵R 的特征根
λ1≥λ2≥ ≥λp >0,所对应的(单位)特征向量
?t 11t 12
t 21t 22
t 1, t 2, , t p . T =(t 1, t 2, , t p ) =
t
?p 1t p 2
4)求第i 个主成分y i =a i X =t i X ,
即y i =t 1i x 1+t 2i x 2+ +t pi x p . i =1, 2, , p . 根据累计贡献率
t 1p ?
?
t 2p ?
?
?
t pp ??
∑
m i
λi
∑
p i =1
λi >c . 确定个主成分个数m ,选择前m 个主成分
y i =t 1i x 1+t 2i x 2+ +t pi x p . i =1,2, , m . (m
第五章 因子分析
1 因子分析及基本思想 1.1 因子分析的概念
因子分析是主成分分析的推广和发展,它也是多元统计分析中降维的一种方法。因子分析从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子,以再现原始变量和因子之间的相关关系。它是多元分析中一种降维和分析、简化数据结构的方法。
因子分析的形成和早期发展一般认为是从Charles Spearman在1904年发表的文章《对智力测验得分进行统计分析》开始的。因子分析的形成和发展有相当长的历史,最早用于研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前因子分析在心理学﹑社会学﹑经济学等学科都有成功的应用。 1.2 因子分析的基本思想
根据相关性大小把变量分组,使得同组内的变量间相关关系强,不同组的变量间相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子,可用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一变量。 1.3 因子分析与主成分分析的区别与联系
区别:主成分分析不能作为一个模型来描述,它只是通常的变量变换,因子分析可构造因子模型;主成分分析中主成分的个数和变量个数相同,它是将一组具有相关性的变量变换为一组独立的变量(实际应用时一般只取前m 个主成分),而因子分析的目的是要用尽可能少的公共因子,以构
造一个结构简单的因子模型;主成分表示为原变量的线性组合,而因子分析中是将原变量表示为公共因子和特殊因子的线性组合。
联系:都为降维的方法;可用主成分法来提取因子。 2 因子分析的数学模型 2.1 数学模型
设x =(x 1, x 2, , x p ) '为p 维随机向量, 其均值为
μ=Ex =(μ1, μ2, , μp ) ', 协方差阵为
∑=Dx (σij ) p ?p ,若x 能表示成为x =μ+Λf +ε,
其中f =(f 1, f 2, , f m ) '为随机向量,称为公共因子,ε=(ε1, ε2, , εp ) '为随机向量,称为特殊因子,Λ=(αij ) p ?m 未知常数矩阵,称为因子载荷阵.
通常假定
1)Ef =0 ,Df =I
22
2)E ε=0 ,D ε=diag (σ12, σ2, , σp ) D
3﹑ Cov (f , ε) =0 2.2 因子载荷阵的统计意义
设因子载荷阵Λ=(αij ) p ?m ,αij 称为因子载荷,是连接观测变量和公共因子之间的纽带,其统计意义就是第i 个变量与第j 个公共因子的相关系数,即表示变量x i 依赖公共因子f j 的分量,反映了第i 个变量在第j 个公共因子上的相对重要性。 3 因子载荷矩阵的求解
建立因子模型的关键是要求出因子载荷矩阵,估计因子载荷矩阵的方法很多,有主成分法,极大似然法等,其中主成分法的使用较普遍。
计算因子载荷阵可以从样本的协方差阵∑出发,也可以从样本相关阵出发。当相关变量所取单位不同时,先对变量进行标准化。标准化变量的样本协差阵就是原始变量的样本相关阵R . 3.1 主成分法
设x =(x 1, x 2, , x p ) '为p 维随机向量, (可假设已作了标准化变换) 1)均值为μ与协方差阵∑ (即为相关系数阵R )的估计分别为
=
1n 1n
x , S =(x i -)(x i -) ' ∑∑i =1i i =1
n n -1
2)因子载荷阵Λ=(αij ) p ?m 的估计,αij 称为第i 个变量x i 在第个j 因子f j 上的载荷 取R =S , 的特征根λ1≥λ2≥ ≥λp >0,所对应的正交(单位)特征向量t 1, t 2, , t p . 取
较小的因子数m ,使累计贡献率
∑
2
m i
λi
∑
p i =1
λi . 较大, m
则
Λ=(αij ) =, m )
222 3)特殊方差阵D =diag (σ1, σ2, , σp ) 的估计:σi =s ii -
∑
m
2
α, ij j =1
4)共性方差h i =3.2 主因子法
2
∑
m
222
α, i =1, 2, , p . 当已了标准化则h +σ=1. x ij i i j =1
*
主因子法是主成分法的修正,取R =R -D . 以下同主成分法.
4 因子模型的旋转
在因子分析模型中, 公共因子与因子载荷阵的解不是唯一的。进行因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以利于对公共因子命名和解释结果。若每个公共因子的涵义不清,难以找到合理的解释,可对因子载荷矩阵实行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其他公共因子上的载荷较小。最常用的旋转变换是正交旋转变换。
?cos θ
m =21)时,对因子轴f 1, f 2进行旋转,Λ=(αij ) p ?2,取旋转变换T =
?sin θ
*
旋转后的因子载荷阵Λ*=ΛT =(αij ) p ?2,
-sin θ?
?,则cos θ?
θ由tg 4θ=
p
p p p c 4-2c 1c 2p 22
c =u c =v c =(u -v 决定,其中,,∑∑∑123i i ) ,22i =1i i =1i i =1
c 3-(c 1-c 2) p
c 4=2∑i =1u i v i ,u i =(αi 1h i ) 2-(αi 2h i ) 2,v i =2αi 1αi 2h i .
2
*
Λ*=(αij ) p ?2,其2个列元素平方的相对方差V =V 1+V 2,V j =
1p 22
(d -) , ∑ij i
p i =1
=
1p 21p *2
d =(αh ) ,j =1,2. ∑∑ij i =1ij i =1
p p
2)m >2时,对因子轴f l , f k 进行旋转,共进行
?m ?1
?=m (m -1) 次旋转,即完成第一轮旋转. ?2?2
(1)
(1)
记旋转后的因子载荷阵记为Λ,相应的相对方差为V . 如此继续旋转得到一系列因子载荷阵记为
可停止. Λ(1), Λ(2), , Λ(s ) , 相应的V (1)≤V (2)≤ ≤V (s ) ≤ . 有极限. 实际中当V (s ) 变化不大时,5 因子命名
利用在同一个因子有较大荷阵的几个变量的共同特性对该因子进行命名,即如果i q 个因子
x i 1, x i 2, , x i q 在f j 有较大的载荷,可用x i 1, x i 2, , x i q 的特性对f j 进行命名.
6 因子得分
在得到因子载荷阵和公共因子后,反过来要考察每个样品的因子表现,即通过已知的样品观察值来计算相应的公因子值,称之为因子得分。利用因子得分可对各个样品进行评价。 5.1 加权最小二乘法
因子分析模型
x =μ+Λf +ε?x -μ=Λf +ε
?x 1-μ1=a 11f 1+a 12f 2+ +a 1m f m +ε1
?x -μ=a f +a f + +a f +ε?222112222m m 2即?
?
??x p -μp =a p 1f 1+a p 2f 2+ +a pm f m +εp
εi 2寻找f 1, f 2, , f m 使∑=min, ? i =1
D εi
p
∑
p i =1
(x i -μi ) -(a i 1f 1+a i 2f 2+ +a im f m )
σi 2
=min, ?
用μ的估计(x -μ-Λf ) 'D -1(x -μ-Λf ) =min ?公共因子的得分f =(Λ'D -1Λ) Λ'D -1(x -μ) ,
?=及x i 代人,则 μ
?=(Λ'D -1Λ) Λ'D -1(x -) ,i =1,2, , m 第i 个公共因子的得分f i i
5.2 回归法
公共因子的得分f =Λ'(ΛΛ'+D ) (x -μ)
-1
?=R )代替, 则 ?=S (当x 已标准化时∑ΛΛ'+D ≈∑用∑的估计∑
?=Λ'R -1(x -) ,i =1,2, , m . 第i 个公共因子的得分f i i
7 因子分析计算步骤
1)将原始数据标准化,仍记为x ij , X =(x ij ) n ?p 2)求相关系数阵R =(r ij ) p ?p ,r ij =
1n
x x ,(或R =X 'X ) ∑α=1αi αj
n
3)求相关系数阵R 的特征根λ1≥λ2≥ ≥λp >0,所对应的(单位)特征向量t 1, t 2, , t p . 4)求因子载荷阵Λ:根据累计贡献率
∑
m i
λi
∑
p i =1
λi >c . 确定因子数m ,则
t t t p t 1 t 2
t ?t 11t 12
t 21t 22
Λ=
t
?p 1t p 2
?t t 1m ?
?
t 2m ? t diag =
?
?
t t pm ???p 5)对因子载荷阵Λ进行旋转得到新的载荷阵Λ(s ) =ΛTT 根据载荷阵的数据对因子进行命名. 12 T s ,
?=Λ(s ) 'R -1(x -) ,i =1,2, , m 6)计算因子的得分,f i i
表5 旋转后的因子载荷阵
因子
指标
1
学习态度X 1 实践能力X 2 创新能力X 3 社会责任X 4 身心健康X 5 集体观念X 6 人际关系X 7
0.05441 -0.16960 0.10236 0.63835 0.13237 0.66756 0.90572
2 -0.38312 0.39983 0.90720 -0.09090 -0.26054 -0.66036 0.09767
3 0.75485 0.77292 -0.02515 0.59393 0.00229 -0.22638 -0.05367
4 0.46323 -0.10509 -0.31875 -0.19913 0.92050 0.09516 0.19432
第一个因子中指标X 4, X 6 , X7有较大的载荷,这些是从社会责任,集体观念,人际关系三个方
面反映学生的素质的,因此称为道德因子.
第二个因子中指标X 3有较大的载荷,这是从创新能力反映学生的素质的,因此称为创新因子. 第三个因子中指标X 1 , X2有较大的载荷,这是从学习态度和实践能力这两方面反映学生的素质的,因此称为学习与实践因子.
第四个因子中指标X 5有较大的载荷,这是从身心健康方面反映学生素质的,因此称为身心健康因子.
第六章 对应分析
1 对应分析及其基本思想 1.1对应分析的概念
R 型—对指标的统计分析;Q 型—对样品的统计分析
对应分析是主成分分析的拓广,其特征是它所研究的变量可以是定性变量。通常意义下的对应分析,是指对两个定性变量的多种状态进行对应性研究。对多维定性变量的研究,称为多元对应分析。
对应分析问题在1933年就由希查德松(Richardson )和居代(Kuder )提出。但直到1973年,才由法国统计学家本泽柯瑞(Benzecri )给予圆满的解决。对应分析依靠主成分分析中的降维手段,可以更直观明了的观察和分析定性变量多种状态间的相互关系。它在社会调查和专家评议调查中的使用最为广泛。
对应分析又称为相应分析,是在R 型和Q 型因子分析基础上发展起来的一种多元统计方法,它从R 型因子分析出发,而直接获得Q 型因子分析的结果。根据R 型和Q 型因子分析的内在联系,可将指标(变量)和样品同时反映到相同坐标轴(因子轴)的一张图形上,便于对问题的分析。对应分析可提供三方面的信息即指标之间的关系,样品之间的关系,指标与样品之间的关系。
对应分析(Correspondence analysis) 是一种在低维度空间(Low-dimensional Space)中描述两个变量之间相对关系的分析方法,是一种研究定性变量间相互关系的有效方法,通过对由两个定性或类别变量构成的交互表进行分析,揭示同一变量的各个类别之间的差异、不同变量的各个类别之间的对应关系。用对应分析法,可将两两指标不同分类间的关系在二维坐标图上给出直观、形象的表达。
对应分析的优点:
(1)提供了将定性资料进行定量分析的途径,从数量的角度揭示了交叉列表行列间的关系; (2)对应分析图将不同属性的指标反映在同一坐标系下,有利于研究不同属性指标间的关系。 1.2 对应分析的基本思想
通过一个过渡矩阵Z 将R 型因子分析和Q 型因子分析有机地结合起来。首先给出变量点的协差阵A 和样品点的协差阵B ,由于A 和B 有相同的非零特征根,这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类。 2 对应分析的基本原理
由原始资料阵X 出发,计算规格化的概率矩阵P ,使变量与样品具有相同比例大小,在空间定义两两样品点或两两变量点之间的距离,定义样品点和变量点的协差阵分别为B 和A 。A 和B 的非0特征根相同,而特征根又表示各个公共因子所提供的方差,因此变量空间中的公共因子与样品空间中对应的各个公共因子在总方差中所占的百分比完全相同,从几何意义来看,即诸样品点与样品空间中各因子轴的距离和诸变量点与变量空间中相对应的各因子轴的距离完全相同,因此,可以把变量点和样品点同时反映在同一个因子轴所确定的平面上(即取同一个坐标系),根据接近的程度,将变量点与样品点一起考虑进行分类。 3 对应分析的计算步骤
1) 由原始资料阵X 出发,计算规格化的概率矩阵P ;相当于改变了测度尺度,使变量与样品具有相同比例大小;
?x 11
x 21 X = x ?p 1
x 12x 22
x p 2
x 11x 12
x 1p ?
x 21x 22
?x 2p ?
?
?
x p 1x p 2??x pp ?
x *1x *2
x 1p x 2p x pp x *p
x 1*x 2* x p *x **
P =(p ij ) n ?p ,p ij =
x ij x **
2)
计算过渡矩阵Z =(z ij ), z ij =3) 进行因子分析:
R 型因子分析;A =Z 'Z 的特征根λ1≥λ2≥ ≥λp 累计贡献率∑i λi
m
∑
p i =1
λi >c . 确定因子
个数m
,因子载荷阵F p ?m
?u
u = u ?p u u u p ?v
v = v ?n u 1 u 2
u v v v n v 1 v 2Z U (V =,
v Q
型因子分析:因子载荷阵G n ?m
)
4)当m =2. 时在同一个平面上画出p
个指标点(u i 点(v i u i i =1,2, , p . ,及n 个样品
v i i =1,2, , n . 观察并确定它们之间的关系.
第七章 典型相关分析
1 典型相关分析及基本思想 1.1 典型相关分析的概念
典型相关分析是研究两组变量之间相关关系的一种多元统计方法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的相关关系。
1.2 典型相关分析的基本思想
首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,直到两组变量之间的相关性被提取完毕为止。这样,讨论两组变量之间的相关就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数。 2 典型相关分析的数学描述
对于任意的两组系数:
x =(x 1, x 2, , x p ) ',y =(y 1, y 2, , y q ) '
构造线性组合u =a 'x =(a 1, a 2, , a p )(x 1, x 2, , x p ) '=
∑i =1a i x i ,v =b 'y ==∑i =1b i y i
p q
在满足 Var (u ) =1, Var (v ) =1, 的约束条件下,寻找a 和b 使综合变量u 1和v 1相关最大。
同理除去u 1和v 1之外,构造第二对变量,使u 2和v 2的相关最大,但与第一对变量不相关。 3 总体的典型相关系数和典型变量 3.1 典型相关系数和典型变量的求法
?x ?
在满足 Var (u ) =1, Var (v ) =1, 的约束条件下,两组随机变量 ?的协方差阵
?y ?
∑12??x ??∑-1-1
Var ?= 11?, 求解典型相关系数和典型变量可以转化为求A =∑11∑12∑22∑21﹑
?y ??∑21∑22?
1-1
B =∑-22∑21∑11∑12的特征根和特征向量。
3.2典型变量的性质
1)每个典型变量与本组的所有其他典型变量都不相关;
2)每个典型变量与另一组的对应典型变量相关,与另一组中其他典型变量不相关。不同对的典型变量不相关。
4 样本的典型相关系数和典型变量
当总体的均值向量和协方差未知时,无法求总体的典型相关系数和典型变量,可以用样本的协方差估计值
?R 11
?R 21
R 12??∑11∑12?
, 代替总体的协方差? ?来计算典型相关系数和典型变量。计算R 22??∑21∑22?
时也可以用样本的相关矩阵来求典型相关系数和典型变量。 5 典型相关系数的显著性检验
作典型相关分析之前,首先检验两组变量是否相关,如果不相关,则讨论典型相关就毫无意义。但确定典型相关显著程度,还需要进行相关系数的检验,以决定典型变量的取舍。第i 对典型变量u i , v i 的相关系数ρ(u i , v i ) =ρi , i =1,2, , m . ,要对ρi 是否为0进行检验 6 典型相关的计算步骤
?X p ?n ?
1) 由原始资料阵 ,(不妨设p ≤q )计算相关系数
阵?
Y ?q ?n ?(p +q ) ?n ?R 1
?R 2
11
R 1?2
?=(r ij () p +q ?) p +(q r ij , ) =R ?
22
s ,
S 1=diag S 2=diag
-1-1
2)求 A =R 11R 12R 22R 21的特征根λ12≥λ22≥ ≥λp 2>0λi 2对应的特征向量a i ,
-1-1B =R 22R 21R 11R 12的特征根λi 2对应的特征向量b i ,
3) 确定典型系数:a i *=S 1a i ,b i *=S 2b i 写出样本的典型变量
u 1=a 1*x v 1=b 1*y
**
u 2=a 2x v 2=b 2y
**
u m =a m x v m =b m y
4)显著性检验,假设H 01:ρ1=ρ2= =ρm =0 统计量Q 1=-(n -
m 1
(p +q +3))ln Λ1~χ2(f 1), Λ1=∏i =1(1-λi 2). f 1=pq 2
若拒绝H 01,则至少ρ1≠0
再
检
验
假
设
H 0:2ρ=ρ2= =3ρm =0
……直至检验假设
H 0k +, :ρk +1=ρk +1= =ρm 2=0,H 0, k +1未被拒绝为止
一般的统计量Q r =-(n -r -
m
1
(p +q +1))ln Λr ~χ2(f r ), 2
Λr =∏i =r (1-λi 2). f r =(p -r +1)(q -r +1) ,r =2, , m -1,
第八章 回归分析
3 对应分析的计算步骤
?1x 11
1x 21
1) X =
1x
n 1? x 1p ??y 1??β0?
? ? ? x 2p ?y β2
, Y = ?, β= 1?,
? ? ?? ? ?
x np ?y ?n ??βn ??
2) 最小二乘法,求Q (β0, β1, , βP ,) =
∑
2
(y -βx -βx - -βx ) =min ;的i 0i 11i 2P ip i =1
n
β0, β1, , βP ,
?Q
=0, j =0,1,2,, p ?βj
?β0n +β1∑x i 1+ +∑x ip βp =∑y i ?2
?β0∑x i 1+β1∑x i 2+ +∑x i 1x ip βp =∑x i 1y i
?
?
2?β0∑x ip +β1∑x ip x i 1+ +∑x ip βp =∑x ip y i
??1 x 11 X 'X =1x 21 1??1x 11
??
x ni ??1x 21 x 1p ??n
?
x 2p ? ∑x i 1
=
∑x i 1
∑x i 22 ∑x ip ?
?
∑x i 1x ip ?
,
?
??
? ?x 1p x 2p x ??
np ????1x n 1 x ?np ??? 11
1?X 'Y =
x 11
x 21 x ?? y 1??∑y i ?
y ? x ?
ni ?2 ∑i 1y i ?
? ?=
?x 1p
x 2p
x ? ?? ?
np ???y n ? ?∑x ip y ?i ??
X 'X β=X 'Y ?β?=(X 'X ) -1X 'Y
中心化模型
?
1x 11-1
x 1p -p ??y 1-X = 1x 21-1 x ? ?
?2p -p ?y 2- ?, Y = ?. ?1x n 1-1 x ? ? ??
np -p ??y n -??
n 0
0??X 'X =
0l 11 l ? 0?
?
1p ? ?
, X 'Y = l 1y ? ?
0l
l ? ?
p 1pp ?? ?l ?py ???
l 11l 12
l 1p ?
l 21l 22 l ?
2p ?
?
=L
?l
p 1l p 2
l ?
pp ??
3)显著性检验,假设H 0:β1=β2= =βp =0统计量F =
S R p
S (n -p -1)
~F (p , n -p -1)
e - 21 -
?∑x ip
∑x ip x i 1
∑x 2?ip ??
?i -y ) 2, S e =∑(y i -y ?i ) 2, S T =S R +S e S T =∑(y i -y ) 2, S R =∑(y
假设H 0j :βj =0
统计量t j =
?β~t (n -p -1)
- 22 -
范文二:多元统计分析
现代统计分析方法
专业 2014应用统计 学号 214025200032 姓名 刘德金
一、数据之间的相关关系主要分为三类:
(一)两个定量变量之间的相关性的度量; (二)两个定类变量之间的相关性的度量;
(三)一个定量变量和一个定类变量之间的相关性度量;
(一)两个定量变量之间的相关性度量(简单相关系数和条件相关系数) (1)简单相关系数 1)皮尔逊相关系数:
总体之间的皮尔逊相关系数:??
E(X?EX)(Y?EY)E(X?EX)
2
E(Y?EY)
2
2
样本之间的皮尔逊相关系数:r?
(x?x)(y?y)(x?x)?(y?y)
2
2
2)Spearman相关系数:rs?
(R?R)(S?S)?(R?R)?(S?S)
i
i2
i
i
(其中Spearman相关系数是对针对秩统计量)
(2)条件相关系数
ry,x1,x2?
r(y,x1)?r(y,x2)r(x1,x2)?r(y,x2)
2
2
?r(x1,x2)
(条件相关是排除了中间变量影响之后计算的变量之间的相关系数)
(二)两个定类变量之间的相关性度量 (1)建立在卡方检验上的相关性的度量
2??系数:??
2?C系数:c?
?2?n
2?(m?min(r,c)) V系数:v?
(m?1)
(2)建立在误差消减理论基础上相关程度的测量方法 ?系数:利用最大隶属原则消减的误差和原来误差之比 ?系数:利用概率原则消减的误差和原来误差之比
(三)一个定量变量与一个定类变量之间的相关性度量(基于假设检验来讨论这类问题)
总之,在讨论变量之间的相关性时,应分析清楚变量的类型,在对其进行相关性的度量,看其是否符合现实规律或实际情况。
二、
1.先对这100个数据进行描述性统计分析
统计量
N
缺失
均值 均值的标准误 中值 众数 标准差 方差 偏度 偏度的标准误 峰度 峰度的标准误 极小值 极大值
25
百分位数 50
75
2.67a
个人支票
有效
现金支付
1.09a
信用卡支付
14.44a
a. 存在多个众数。显示最小值
从表中可以看出在100个客户中有38个客户采用现金支付的方式支付,有4 个客户采用个人支票的方式支付,有22个客户采用信用卡的方式支付。
对采用现金支付的客户的支付金额进行分析。均值约为8.8684,中位数为7.4050,方差为27.675,标准差为5.26069,极差为19.39,最小值为1.09,最大值为20.48,偏度系数为0.430说明数据略微右偏,所以其中位数代表性比均值要好,峰度系数为-0.842说明数据分布较标准正态分布来说更加平缓,变异系数为0.5932。
对采用个人支票支付的客户的支付金额进行分析。均值约为42.7320,中位数为41.34,方差为244.043,标准差为15.62186,极差为75.49,最小值为2.67,最大值为78.16,偏度系数为-0.033说明数据略微左偏,说明其中位数和均值代表性都比较好,峰度系数为0.267说明数据分布较标准正态分布来说更加陡峭,变异系数为0.3656。
采用信用卡支付的客户的支付金额进行分析。均值约为44.885,中位数为45.33,方差为221.324,标准差为14.88,极差为55.33,最小值为14.44,最大值为69.77,偏度系数为-0.119说明数据略微呈现左偏,峰度系数为-1.002说明数据分布是一个双峰分布,所以中位数和均值代表性都不是很好,变异系数为0.3315。
比较不同支付方式的均值和中位数以展示不同支付方式的集中趋势。可以看出以支票和信用卡为支付方式的顾客的支付金额要高于以现金支付的金额。使用支票支付的额度均值要高于使用信用卡支付的额度均值,但是使用支票支付的额度中位数却低于使用信用卡支付的额度中位数。这说明二者的分布是偏态的。
三种不同支付方式的支付额度的分布情况如下图
比较不同支付方式的标准差,方差与极差以表现不同支付方式的离中趋势。其中以现金支付的金额的极差,方差标准差最小;以支票支付的金额极差,方差,标准差最大。这说明支付方式为现金的顾客主要都是小额支付,而支付方式为支票或信用卡的顾客的支付金额差异较大。比较不同支付方式的变异系数可知现金支付的顾客的支付金额相对差异最大,以信用卡支付的顾客相对差异最小。
2.研究不同的支付方式之间是否有差异
从表中可以看出,F=83.114,p?0.00,说明不同的支付方式的平均支付额度是显著不同的。
三、
1. Carlson销售额时间序列分析与预测 Carlson百货商店的时间序列如图
从图中可以看出,Carlson百货公司的销售数据具有明显的波动规律,基本上以年为周期波动。对Carlson百货公司的销售数据进行时间序列不同成分分解,得到长期趋势与季节指数,季节指数如下表所示。
季节性因素
序列名称: C商店 月份 季节性因素 (%) 1 2 3 4 5 6 7 8 9 10 11 12
可见5,11,12月的季节指数都超过100%,说明这三个月是销售黄金期。
下一步对长期趋势值进行回归分析,产生时间变量t, t从1到52,实际上我们只有48个数据,之所以让t多4个是为了预测1992年9月到12月的趋势值。
由第一个表可以得出长期趋势值的回归方程为
?T011t 1=2.152+0.
通过第二个表可知显著性检验p值为.000,第三个表显示相关系数为0.871,说明此回归方程对长期趋势值的拟合效果比较好,这时可以把t=49,50,51,52带入此回归方程得出1992年9,10,11,12这4个月的长期趋势值,再把得到的长期趋势值乘以这4个月的季节指数就可以得到这4个月的销售预测值了,1992年9月到12月的预测值分别为21.5亿美元,25.7亿美元,30.6亿美元,45.1亿美元。
2. 全县百货商店销售额时间序列分析与预测 全县百货商店的时间序列如下图所示
从图中可以看出,全县百货公司的销售数据具有明显的波动规律,基本上以年
为周期波动。对全县百货公司的销售数据进行时间序列不同成分分解,得到长期趋势与季节指数,季节指数如下表所示。
季节性因素
序列名称: 商店 月份 1 2 3 4 5 6 7 8 9 10 11 12
季节性因素 (%)
从季节指数中可以看出,十一月、十二月和八月的销售额会高于长期趋势值,而其他月份的销售额会低于长期趋势值。说明十一月、十二月和八月是销售的黄金时段。
下一步对长期趋势值进行回归分析,产生时间变量t, t从1到52,实际上我们已经有52个数据了,之所以还要进行回归分析是为了根据以前的数据预测1992年9月到12月的趋势值,并与其实际值进行比较,看由于受飓风的影响以及增加的商业活动影响后,全县百货商店销售额的增长比例。
??62.13T?80.t067 2
通过第二个表可知显著性检验p值为.000,第三个表显示相关系数为0.459,说明此回归方程对长期趋势值的拟合效果比较好,这时可以把t=49,50,51,52带入此回归方程得出1992年9,10,11,12这4个月的长期趋势值,再把得到的长期趋势值乘以这4个月的季节指数就可以得到这4个月的销售预测值了,1992年9月到12月的预测值分别为501.6亿美元,546.8亿美元,674.2亿美元,1040.3亿美元,而这4个月全县百货商店的实际销售额分别为690亿美元,750亿美元,852亿美元,1218亿美元。如下图所示
从图中可以看出,受灾后的四个月内全县百货商店实际销售额明显高于预测水平,这说明仅仅以48个月的数据进行的估计无法全面刻画Carlson百货商店受灾后的损失,想要准确估计百货商店的损失还需要找出因增加的商业活动使Carlson百货商店销售额增加的部分。
对Carlson百货商店实际销售额损失的估计如下表所示。 时间 九月 十月 十一月 十二月
售额(十亿元) 额(十亿元)
增长(%)
售额(十亿元)
销售额(十亿元)
69 75 85.2 121.8 50.16 54.68 67.42 104.03 37.5598 37.1617 26.372 17.0816 2.12 2.53 3 4.43 2.92 3.47 3.79 5.19
从上表可以看出,因为增加的商业活动使九月的实际销售额比预测销售额高出
37.56%,十月的实际销售额比预测销售额高出37.16%,十一月的实际销售额比预测销售额高出26.37%,十二月的实际销售额比预测销售额高出17.08%。综上所述,从九月到十二月四个月内,Carlson百货商店因飓风受灾实际损失的估计值应该为原先的预测值乘以增加比例,得出的预测实际销售额分别为29.6亿美元、35.3亿美元、38.7亿美元和52.8亿美元,总计156.3亿美元。
范文三:多元统计分析
多元统计分析的定义
多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
多元统计分析的内容和方法
1、 简化数据结构(降维问题)
将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信
息又不太多。
(1)主成分分析
(2)因子分析
(3)对应分析等
2、分类与判别(归类问题)
对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2)判别分析:判别样本应属何种类型的统计方法。 3、变量间的相互联系
一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)
二是:两组变量间的相互关系(典型相关分析)
多元统计分析的理论基础
1、矩阵
2、多元正态分布
欧氏距离和马氏距离
1、欧氏距离(直线距离)
(1)优点
(2)缺陷:权重被忽略和量纲不一致时处理不当
2、马氏距离
(1)优点:克服量纲、克服指标间相关性影响
(2)缺点:确定协方差矩阵困难
假设检验的基本原理
小概率事件原理
小概率思想是指小概率事件(P<><>
设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,
则认为假设成立。
假设检验的步骤
(1)提出一个原假设和备择假设
(2)确定检验统计量
(3)确定显著性水平α
(4)计算检验统计量的值并进行判断
均值向量的检验
正态总体均值检验的类型
1)根据样本对其总体均值大小进行检验( One-Sample T Test ):如妇女身高的检验。
2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ):如两个班平均成绩
的检验。
3)配对样本的检验( Pair-Sample T Test ):如减肥效果的检验。 4)多个总体均值的检验
SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度。
SPSS处理:Analyze — Compare Mean — One-Way ANOVA
结果如下:
Sumof Squares df Mean Square F Sig. Between Groups 6.863 2 3.432 0.674 0.51 Within Groups 1333.341 262 5.089
Total 1340.204 264
表中Sum of Squares表示组内和组间的变动情况,df代表自由度,Mean Square代表均方差,F检验值0.674,显著性水平0.51。一般情况下,显著性水平0.1以下差异显著。对于SIM手机来说,不同收入水平方差分析F值显著性水平0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有显
著性差异,即被调查者的收入水平并不影响其对SIM手机的满意程度。 方差分析的应用条件
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用
方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换
方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差
不齐则不适用方差分析。
聚类分析
是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析类型及方法
1、聚类分析的类型有:
对样本分类,称为Q型聚类分析
对变量分类,称为R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似
变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的 2、聚类分析的方法:
系统聚类(层次聚类)
非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方式聚类
非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等
以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。 例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分 省份 x1 x2 x3 x4 x5 x6 x7 x8 辽宁 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29 浙江 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87 河南 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76 甘肃 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35 青海 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 G1={}G2={}G3={}G4={}G5={}
d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-
13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06 d65=d(3,4)5=min{d35,d45}=2.21
6 1 2 5
6 0
D2= 1 13.12 0
2 24.06 11.67 0
5 2.21 12.80 23.54 0
d71=d(3,4,5)1=min{d13,d14,d15}=12.80
d72=d(3,4,5)2=min{d23,d24,d25}=23.54
7 1 2
D3= 7 0
1 12.80 0
2 23.54 11.67 0
d78=min{d71,d72}=12.80
7 8
D4= 7 0
8 12.8 0
3*******
******
4*******
*************************
5*************
*****
1****************************
**********
2**************************** 判别分析与聚类分析的比较:
1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。
2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。
3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。
距离判别基本思想:
即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,
计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。 贝叶斯(Bayes)判别基本思想:
贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2…..k. 比较k个概率的大
小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。
判别分析类型及方法
(1)按判别的组数来分,有两组判别分析和多组判别分析
(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别
(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。
(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 试用贝叶斯判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?
1、考虑误判损失:
误判到G1的平均损失为
ECM1=0.55*0.46*0+0.15*1.5*400+0.30*0.70*100=
误判到G2的平均损失为
ECM2=0.55*0.46*20+0.15*1.5*0+0.30*0.70*50=
误判到G3的平均损失为
ECM3=0.55*0.46*80+0.15*1.5*200+0.30*0.70*0=
其中ECM2最小,故将x0判别到G2。
2、不考虑误判损失:
将x0判别到G1的条件概率为:
P(G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将x0判别到G2的条件概率为:
P(G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将x0判别到G3的条件概率为:
P(G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=
其中P(G1/x0) 取值最大,故将x0判别到G1。
例7:设有,和三个类,欲判别某样本属于哪一类.已知GGGx1230q,0.05,q,0.65,q,0.30,f(x),0.10f(x),0.63f(x),2.4,,现利用后验概123102030率准则计算属于各组的后验概率: x0
qfx()0.05,0.100.005110P(Gx),,,,0.004 1030.05,0.10,0.65,0.63,0.30,2.41.1345qfx(),ii0i,1
qfx()0.65,0.630.4095220PGx(),,,,0.361 2030.05,0.10,0.65,0.63,0.30,2.41.1345qfx(),ii0i,1
qfx()0.30,2.40.72330PGx(),,,,0.635 3030.05,0.10,0.65,0.63,0.30,2.41.1345qfx(),ii0i,1
例9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重
要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:
x1: 月收入
x2:月生活费支出
x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”
x4:目前工作的年限
x5:前一个工作的年限
x6:目前住所的年限
x7:前一个住所的年限
x8: 家庭赡养的人口数
x9:信用程度,“5”的信用度最高,“1”的信用度最低。
LoanYrs atYrs atYrs atYrs at
RecordMonthlyMonthlyHomePresentPreviousPresentPreviousNo. of
NumberIncomeExpensesOwner?JobJobAddressAddressDepend.Output
1300015000286253
2850425133252513
31000300000.10.30.10.341
4900022501845325
5400010001353214
63500250000.50.50.5211
7220012001631413
84500350008210152
91200100000.50.510.531
1080080000.115131
1175003000110310345
12300010001205151015
132500700110515535
14300026001613422
1570003700110410144
30002800012343116
45001500164493417
原始类判类后验概率1后验概率2后验概率3后验概率4后验概率5
55000.0000100.99999
110.870790.005290.123790.000140
440.039520.016050.146350.787140.01095
220.048270.910020.036110.00560
130.3810.198530.410760.00970.00001
130.22920.108830.634830.026810.00032
110.64920.211280.138960.000560
550.000140.000060.002060.233910.76384
330.188840.006160.80490.00010
330.096240.001720.901690.000330.00003
440.008910.302990.012160.67590.00004
110.796190.003280.200270.00020.00006
330.263540.010660.684580.039750.00147
220.082620.832040.019820.065520
440.000020.001160.000060.998130.00062
主成分分析定义 330.115070.016510.367210.293970.20724
主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。 310.671840.239020.08880.000340
主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分
等等。
满足如下的条件:
222 1、每个主成分的系数平方和为1。即u,u,?,u,1 12iipi
2、主成分之间相互独立,即无重叠的信息。即
Cov(F,F),0,i,j,i,j,1,2,?,p ij
Var(F),Var(F),?,Var(F) 3、主成分的方差依次递减,重要性依次递减,即 12p
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分。
'x,(x,x,x), 例1:设的协方差矩阵为: 123
1,20,,
,,,,,250 ,,
,,002,,
从协方差矩阵出发,求解主成分. (1)求协方差矩阵的特征根
,,,I,0依据求解.
1,,,20
,,,I,,25,,0,(1,,)(5,,)(2,,),(,2)(,2)(2,,),0
002,,,,2,,5.83,,0.17 213
(2)求特征根对应的特征向量
0.38300.924,,,,,,
,,,,,,uuu,,0.924,0,0.383 123,,,,,,
,,,,,,0.00010.000,,,,,,(3)主成分:
F,0.383x,0.924x112
F,x 23
F,0.924x,0.383x 312
(4)各主成分的贡献率及累计贡献率:
第一主成分贡献率: 5.83/(5.83,2,0.17),0.72875第二主成分贡献率: 2/(5.83,2,0.17),0.25
第三主成分贡献率: 0.17/(5.83,2,0.17),0.02125第一和第二主成分的累计贡献率:
(5.83,2)/(5.83,2,0.17),0.97875
由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.87
5%.
样本主成分的性质:
1、第K个主成分yk的系数向量是第K个特征根λk所对应的标准化特征向量。
2、第K个主成分的方差为第K个特征根λk,且任意两个主成分都是不相关的,也就是y1,y2,…,yp的样
本协方差矩阵是对角矩阵
3、样本主成分的总方差等于原变量样本的总方差,为p 4、第K个样本主成分与第j个变量样本之间的相关系数为:,u(因子载荷量) kkj主成分个数的选取 Scree Plot41.累积贡献率达到85%以上
,,,2.根据特征根的变化来确定 i3
p21,,,,1数据标准化情况下: ,ipi,11
03.作碎石图 Eigenvalue描述特征值的贡献 123456
Component Number因子分析的基本理论
因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部
依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析
因子分析的基本思想:
把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量
共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。 主成分分析分析与因子分析的联系和差异:
因子分析是主成分分析的推广,是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳;
因子分析是将原始变量加以分解、演绎。
(1)主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
(2)主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:用潜在的假想变量(公共因子)和随机影响变量(特殊因子)的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵
内部的依赖关系。
(3)主成分分析中主成分个数和变量个数相同,它是将一组具有相关关系的变量变换为一组互不相关
的变量,在解决实际问题时,一般取前m个主成分;因子分析的目的是用尽可能少的公因子,以便构造一
个结构简单的因子模型。
因子分析模型:
设X个变量,如果表示为 ,,,?,,(i,1,2,?,p),i,xaaFF1mi1iimii
,,,,,,,,,,?,,1Fx111aaa,,11121m,,,,,,,,,,,?,,,,,,,Fxaaa2221222m,,22,,,,,,,,,,,,,???? ?,,??F3,,,,,,,,,,?,,,,,,,,aaa12pppm,,x,p,,P,,,F4,,,,p,,
或X,,,AF,,
F,F,?,F,称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被12mi前m个公共因子包含的部分。其中:
(1)Cov(F,,),0 F,,相互独立即不相关;
1,,
,,1,,D(F),,I(2) ,,?,,1,,
F,F,?,F即互不相关,方差为1。 12m
2,,,1,,2,2,,D()(3),, ,,?,,2,,,p,,
2,~N(0,,)即互不相关,方差不一定相等,。 ii
满足以上条件的,称为正交因子模型.
各公共因子之间不独立,则因子分析模型为斜交因子模型. 如果(2)不成立,即D(F),I
公因子F1 公因子F2 共同度hi 特殊因子δi
x1=代数1 0.896 0.341 0.919 0.081
x2=代数2 0.802 0.496 0.889 0.111
x3=几何 0.516 0.855 0.997 0.003
x4=三角 0.841 0.444 0.904 0.096
x5=解析几何 0.833 0.434 0.882 0.118
特征值 G 3.113 1.479 4.959 0.409 方差贡献率(变异量) 62.26% 29.58% 91.85% F1 体现逻辑思维和运算能力,F2 体现空间思维和推理能力
因子分析模型中的几个重要统计量的意义:
(1)因子负荷量(或称因子载荷)----是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程
度。
*x,,F,,F,?,,F,, ii11i22immi
m,,FCov(x,F),cov(,,F)*,ikkiijj,i1
m,,F ,cov(,F),cov(,Fj),ikk ji,i1
,,ij
cov(x*,F)ij,r,r,ij var(x*)var(F)ij
,在各公共因子不相关的前提下,(载荷矩阵中第i行,第j列的元素)是随机变量xi*与公共因子Fj的ij
,相关系数,表示xi*依赖于Fj的程度。反映了第i个原始变量在第j个公共因子上的相对重要性。因此ij
XFj绝对值越大,则公共因子与原有变量的关系越强。 i
(2)共同度----又称共性方差或公因子方差(community或common variance)就是变量与每个公共因子之
X负荷量的平方总和(一行中所有因素负荷量的平方和)。变量的共同度是因子载荷矩阵的第i行的元素i
m22h,a。iij,的平方和。记为 j,1
从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。如因子分析案例中
222h共同度= + =0.919 10.8960.341
2,=1- 0.919 = 0.081 特殊因子----各变量的特殊因素影响大小就是1减掉该变量共同度的值。如i
(3)特征值----是第j个公共因子Fj对于X*的每一分量Xi*所提供的方差的总和。又称第j个公共因子的
方差贡献。即每个变量与某一共同因素之因素负荷量的平方总和(因子载荷矩阵中某一公共因子列所有因
子负荷量的平方和)。
如因子分析案例中
F1的特征值
22222G=+ + ++ =3.113 0.8960.8020.5160.8410.833(4)方差贡献率----指公共因子对实测变量的贡献,又称变异量
方差贡献率=特征值G/实测变量数p,
是衡量公共因子相对重要性的指标,Gi越大,表明公共因子Fj对X*的贡献越大,该因子的重要程度
越高
如因子分析案例中
F1的贡献率为3.113/5=62.26%
因子载荷矩阵求解的方法:
(1)基于主成分模型的主成分分析法
(2)基于因子分析模型的主轴因子法
(3)极大似然法
(4)最小二乘法
(5)a因子提取法
(6)映象分析法
xxx例: 假定某地固定资产投资率,通货膨胀率,失业率,相关系数矩阵为 312
11/5,1/5,,
,,试用主成分分析法求因子分析模型。 1/512/5,,
,,,1/5,2/51,,
(1)求解特征根
,,0.6,,0.85,,1.55 321
(2)求解特征向量:
0.4750.8830,,
,,,U,0.629,0.3310.707 ,,
,,,0.6290.3310.707,,
(3)因子载荷矩阵:
,,0.5690.81400.4751.550.8830.850,,,,,,,0.783,0.3050.548 A,0.6291.55,0.3310.850.7070.6,,,,,,,,,0.7830.3050.548,0.6291.550.3310.850.7070.6,,,,(4)因子分析模型:
x,0.569F,0.814F 112
x,0.783F,0.305F,0.548F 2123
x,,0.783F,0.305F,0.548F 3123
可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。第一公因
子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.706。 什么是对应分析?
对应分析是利用“降维”的方法,以两变量的交叉列联表为研究对象,通过图形的方式,直接揭示变量
之间以及变量的不同类别之间的联系,特别适合于多分类属性变量研究的一种多元统计分析方法。
对应分析的基本思想:
首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的
对应点;
然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类
别点较集中,联系疏远的类别点较分散;
最后,通过观察对应分布图就能直观地把握变量类别之间的联系. 什么是典型相关分析?
典型相关分析是研究两组变量之间相关关系的多元统计分析方法.它借用主成分分析降维的思想,分
别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的
各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系.
对定性变量间关系的描述可用交叉列联表。但交叉列联表存在以下缺陷:
(1)不能充分分析多变量交互效应,不能有效分析多变量之间的关联。
(2)在进行两个变量之间的关联分析时缺乏对其他变量影响的有效控制。
(3)不能准确定量描述一个变量对另一个变量的作用幅度。 交叉列联表
描述属性变量(定类或定序尺度变量)的各种状态或是相关关系。
60 3 63
32 11 43
92 14 106
当属性变量A和B的状态较多时,很难透过列联表作出判断。 怎样简化列联表的结构?
利用降维的思想。如因子分析和主成分分析。但因子分析的缺陷是在于无法同时进行R型因子分析和Q
型因子分析。
怎么办?
范文四:多元统计分析
2012/2013学年 第 1学期 应用多元分析课程考核试卷 A□、 B □ 课程代码:22000342 任课教师:张东 考试形式:开卷□、闭卷□
课程性质:必修□、选修□、考试□、考查□、通识□、专业□、指选□、跨选□
适用年级 /专业 数学与应用数学 学分 /学时数 2/32 考试时间 120 分钟 ……………………………………………………………………………………………………… 学号 姓名 专业 得分
一、填空题()
1、 设 x 和 y 是两个随机变量,它们之间的协方差定义为 ,若
则称 x 和 y 不相关。
2、 随机向量 x 的协方差矩阵 ∑一定是 。
3、 设 A 为常数矩阵, b 为常数向量,则 V (Ax +b )
4、 设 x 和 y 是两个随机变量, 它们之间的相关系数定义为 , 它度量 了 x 和 y 之间线性相关关系的 , ρ的取值范围为 , ρ=0 时, 表明 x 和 y , ρ>0 时,称 x 和 y , ρ<0 时,称="" x="" 和="" y="">0>
5、 P 维正态分布 x p×1~Np (μ, ∑) 的概率密度函数为 。
6、 设 x 是一个 p 维随机向量, 则 x 服从多元正态分布, 当且仅当它的任何 均 服从一元正态分布。
7、 设 x~Np (μ, ∑) , 则 x 的 也服从多元正态分布, 其均值为 μ的 , 协方差阵为 ∑的 。
8、 所谓 μ和 ∑的极大似然估计是指需要满足的条件 ,当 μ已知时, ∑的极大似然估计为 。
9、 设 θ是未知参数 θ(可以是一个向量或矩阵)的一个估计量,如果 则称估计量 θ是被估参数 θ的一个无偏估计,否则就称为有偏的。 θ的方差是 ,对被估参 数 θ的两个无偏估计 θ1和 θ2,若 时,则称 θ1比 θ2有效。
10、 如果 θ的某个无偏估计 θ是 θ的所有无偏估计中最有效的一个,即对 θ的任一无偏估计 θ有 ,则称 θ为 θ的 。如果未知参数 θ(可以是一个向量或矩的 阵)的估计量 θn , 随着样本容量 n 的不断增大,而无限地逼近于真值 θ,则称 θn 为 θ的
二、计算题()
11、 设随机向量 x =(x1, x 2, x 3) ’ 的数学期望和协方差矩阵分别为 μ= 5? 27 和 ∑= 41
2
1
9? 32
? 3
25
, 设 y 1=2x 1? x 2+4x 3, y 2=x 2? x 3 , y 3=x 1+3x 2? 2x 3 , 试求 y =(y1, y 2, y 3) ’ 的数学期望和协方差矩阵。
12、 对来自组 π1和 π2的两个样本有 x 1 = 42 , x 2 = 3? 1 , S p = 6.5 1.11.1 8.4 ,试用距离判别法 给出判别规则,并将 x0=(2, 1) ’ 分到组 π1或 π2,假定 ∑
∑=
2
1
。
13、 设 x=(x1, x 2, x 3
) ’
的协方差矩阵为 ∑= 1
? 20
? 2
500
2
,求 ∑的特征值、特征向量 及 主成分和其贡献率,若要求累计贡献率 ≥90%,需要几个?
14、 根据下列模型计算其 LSE 、残差和残差平方和。 模型:Y i =β0+β1x i1+β2x i2 (i=1, … ,5) 对数据:
15、 设有五个样品,每个只测量了一个指标,分别是 1, 2, 6, 8, 11,试用最短距离法将 它们分类,并作出树形图。
○ 1样品间采用绝对值距离,计算样品间的距离矩阵 D 0,列于如下表:
16、 对某房地产数据如右表: x 1为总居住面积
x
2为评估价值
Y 为售价
n=20
试用 LSE 法拟合模型 Y j =β0+β1x j1+β2x j2+εj 成 Y n×1=x n×(r+1)β(r+1)×1+εn ×1
范文五:多元统计分析
公式
其中υij为样本协差阵S的元素。S的分布是维夏特分布,它是一元统计中的Ⅹ2分布的推广。 另一典型问题是:假定两个多维正态分布协差阵相同,检验其均值向量是否相同。设样本X1,X2,?,Xn抽自正态总体Np(μ1,∑),而Y1,Y2,?,Ym抽自Np(μ2,∑),要检验假设H 0:μ1=μ2(见假设检验)。在一元统计中使用t统计量(见统计量)作检验;在多元分析中则用T2统计量,
公式
,其中,
公式
公式
公式
,
公式
公式
·
,T2的分布称为T2分布。这是H.霍特林在1936年提出来的。
在上述问题中的多元与一元相应的统计量是类似的,但并非都是如此。例如,要检验k个正态总体的均值是否相等,在一元统计中是导致F统计量,但在多元分析中可导出许多统计量,最著名
的有威尔克斯
Λ统计量和最大相对特征根统计量。研究这些统计量的精确分布和优良性是近几十年来多元统计分析的重要理论课题。
多元统计分析有狭义与广义之分,当假定总体分布是多元正态分布时,称为狭义的,否则称为广义的。近年来,狭义多元分析的许多内容已被推广到更广的分布之中,特别是推广到一种称为椭球等高分布族之中。
按多元分析所处理的实际问题的性质分类,重要的有如下几种。
多重回归分析
简称回归分析。其特点是同时处理多个因变量。回归系数和常数的计算公式与通常的情况相仿,只是由于因变量不止一个,原来的每个回归系数在此都成为一个向量。因此,关于回归系数的检验要用T2统计量;对回归方程的显著性检验要用Λ统计量。
回归分析在地质勘探的应用中发展了一种特殊的形式,称为趋势面分析,它以各种元素的含量作为因变量,把它们对地理坐标进行回归(选用一次、二次或高次的多项式),回归方程称为趋势面,反映了含量的趋势。残差分析是趋势面分析的重点,找出正的残差异常大的点,在这些点附近,元素的含量特别高,这就有可能形成可采的矿位。这一方法在其他领域也有应用。 判别分析
由 k个不同总体的样本来构造判别函数,利用它来决定新的未知类别的样品属于哪一类,这是判别分析所处理的问题。它在医疗诊断、天气预报、图像识别等方面有广泛的应用。例如,为了判断某人是否有心脏病,从健康的人和有心脏病的人这两个总体中分别抽取样本,对每人各测两个指标X1和X2,点绘如图 。
判别分析图
可用直线A将平面分成g1和g2两部分,落在g1的绝大部分为健康者,落在g2的绝大部分为心脏病人,利用A的垂线方向l=(l1,l2)来建立判别函数
y=l1X1+l2X2,可以求得一常数с,使 yс等价于(X1,X2)落在g2。由此得判别规则:若,l1X1+l2X2
判,
.
即此人为健康者;若,l1X1+l2X2>C
判,
.
即此人为心脏病人;若,l1X1+l2X2=c则为待判。此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。但有时也用非线性判别函数,特别是二次判别函数。建立判别函数和判别规则有不少准则和方法,常用的有贝叶斯准则、费希尔准则、距离判别、回归方法和非参数方法等。 无论用哪一种准则或方法所建立的判别函数和判别规则,都可能产生错判,错判所占的比率用错判概率来度量。当总体间区别明显时,错判概率较小;否则错判概率较大。判别函数的选择直接影响到错判概率,故错判概率可用来比较不同方法的优劣。
变量(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变量。利用序贯分析的思想又产生了序贯判别分析。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什么性质的病等等。
聚类分析
又称数值分类。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类。例如,为了制定服装标准,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变量
(x1,x2,?,x10)进行分类。聚类分析就是解决上述两种分类问题。
设已知N个观测值X1,X2,?,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等)。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类。若要对 p个变量(即指标)进行分类,常定义一种“相似系数”来衡量变量之间的亲密程度,按各变量之间相似系数的大小可将变量进行分类。根据实际问题的需要和变量的类型,对距离和相似系数有不同的定义方法。
按距离或相似系数分类,有下列方法。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归并,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、?、N类,它是凝聚法的逆过程。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函数和规定的程序逐步调整,直至不能再调为止。
若观察值X1,X2,?,Xn之间的次序在分类时不允许打乱,则称为有序分类。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法。
聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型。
主成分分析
又称主分量分析,是将多个变量通过线性变换以选出较少个数重要变量的一种方法。设原来有p个变量x1,x2,?,xp,为了简化问题,选一个新变量z,
公式
,
要求z尽可能多地反映p个变量的信息,以此来选择l1,l2,?,lp,当l1,l2,?,lp选定后,称z为x1,x2,?,xp的主成分(或主分量)。有时仅一个主成分不足以代表原来的p个变量,可用q(
公式
的约束下,选择l1,l2,?,lp使z的方差达到最大。
在根据样本进行主成分分析时又可分为R型分析与Q型分析。前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理,其目的是寻找出有代表性的“典型”样品,这种方法在地质结构的分析中常使用。 对应分析
这是70年代地质学家提出的方法。对非负值指标的样本资料矩阵作适当的处理后,同时进行R型与Q型的主成分分析,将结果综合在图上进行解释,可以得到指标随时间、空间位置变化的规律。它的理论正在引起多方面的重视。
因子分析
它是由样本的资料将一组变量
公式
y2,??yp)
分解为一些公共因子f与特殊因子s的线性组合,即有常数矩阵A使у=Af+s。公共因子f 的客观内容有时是明确的,如在心理研究中,根据学生的测验成绩(指标)来分析他的反应快慢、理解深浅(公共因子);有时则是不明确的。为了寻求易于解释的公共因子,往往对因子轴进行旋转,旋转的方法有正交旋转,斜旋转,极大变差旋转等。
从样本协差阵或相关阵求公共因子的方法有广义最小二乘法、最大似然法与不加权的最小二乘法等。通常在应用中,最方便的是直接利用主成分分析所得的头几个主成分,它们往往是对各个指标影响都比较大的公共因子。
典型相关分析
它是寻求两组变量各自的线性函数中相关系数达到最大值的一对,这称为第一对典型变量,还可以求第二对,第三对,等等,这些成对的变量,彼此是不相关的。各对的相关系数称为典型相关系数。通过这些典型变量所代表的实际含意,可以找到这两组变量间的一些内在联系。典型相关分析虽然30年代已经出现,但至今未能广泛应用。
上述的各种方法可以看成广义多元分析的内容,在有些方法中,如加上正态性的假定,就可以讨论一些更深入的问题,例如线性模型中有关线性假设检验的问题,在正态的假定下,就有比较系统的结果。 多元分析也可按指标是离散的还是连续的来区分,离散值的多元分析实质上与列联表分析有很大部分是类似的,甚至是一样的。
非数量指标数量化的理论和方法也是广义多元分析的一个重要的研究课题。
因子分析法
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。