范文一:公因子方差
解释的总方差
初始特征值 提取平方和载入 旋转平方和载入 成份 合计 方差的 % 累积 % 合计 方差的 % 累积 % 合计 方差的 % 累积 % 1 9.121 82.916 82.916 9.121 82.916 82.916 9.061 82.376 82.376 2 1.382 12.563 95.478 1.382 12.563 95.478 1.441 13.102 95.478
3 .356 3.240 98.718
4 .141 1.282 100.000 5 8.666E-16 7.879E-15 100.000 6 3.199E-16 2.908E-15 100.000
7 -1.171E-17 -1.064E-16 100.000
8 -2.468E-17 -2.244E-16 100.000
9 -2.664E-16 -2.421E-15 100.000
10 -3.410E-16 -3.100E-15 100.000 11 -7.122E-16 -6.475E-15 100.000 提取方法:主成份分析。
运用SPSS19.0对原始变量进行因子分析,得到上表。表中内容包含11个变量初始特征值及方差贡献率、提取两个公共因子后的特征值及方差贡献率、旋转后的两个公共因子后的特征值及方差贡献率。第一成分的初始特征值为9.121,远远大于1;第二成分的初始特征值为1.382,大于1;从第三成分开始,其初始特征值均小于1,故因此选择两个公共因子便可以得到95.478%的累计贡献率,即表示两个公共因子可以解释约95%的总方差,结果理想。
公因子方差
初始 提取
X1 1.000 .843
X2 1.000 .969
X3 1.000 .922
X4 1.000 .894
X5 1.000 .956
X6 1.000 .985
X7 1.000 .993
X8 1.000 .997
X9 1.000 .989
X10 1.000 .997
X11 1.000 .958
提取方法:主成份分析。
从上表的结果可知,这11个变量的共性方差均大于0.5,且大部分都接近或者超过0.9,故表示提取的两个公因子能够很好地反映原始变量的主要信息。
上图的信息表达的内容和公因子方差表的内容一致,碎石图中明显发现第一个公因子和第二个公因子变化最大,其累计贡献率达到了95.48%。这就说明从11个变量提取的两个公因子可以表达足够的原始信息。
a成份矩阵
成份 1 2
X1 .895 -.205
X2 -.749 .638
X3 .791 -.545
X4 .779 .535
X5 .946 -.247
X6 .923 .366
X7 .997 -.001
X8 .997 .064
X9 .993 .062
X10 .929 .367
X11 .973 .109
提取方法 :主成份。
a. 已提取了 2 个成份。
上表表示用主成分的提取方法得到旋转前的的因子负荷矩阵,根据0.5的原则,因子1在11个变量都有很大的负荷,因此可以认为因子1反应的是总体城市化的综合情况。因子2在第二产业总产值占GDP比重X2、第三产业总产值占GDP比重X3、地方财政收入X4变量上有较大的负荷,因此可以说明因子2反映的是产业结构经济发展因子。
a旋转成份矩阵
成份 1 2 X1 .874 -.282 X2 -.691 .701 X3 .740 -.612 X4 .823 .465 X5 .921 -.329 X6 .951 .283 X7 .993 -.088 X8 .998 -.024 X9 .994 -.025 X10 .957 .285 X11 .978 .023 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的四分旋转法。
a. 旋转在 3 次迭代后收敛。
采用四次方最大旋转后,得到旋转后的因子负荷矩阵。同样根据0.5原则可知,因子
1可以支配这11个变量,反映的是总体情况。因子2可以支配第二产业总产值占GDP比重
X2、第三产业总产值占GDP比重X3,反映的是产业结构因子。这个与上面没有旋转的第
二公共因子包含的内容略有差别,这说明该旋转对因子负荷起到了明显的作用。
故可以得到旋转后的因子分析模型为:
=0.874-0.282 XFF112
=-0.691+0.701 XFF212
=0.74-0.612 XFF312
=0.823+0.465 XFF412
=0.921-0.329 XFF512
=0.951+0.283 XFF612
=0.993-0.088 XFF712
=0.998-0.024 XFF812
=0.994-0.025 XFF912
=0.957+0.285 XFF1012
=0.978+0.023 XFF1112
成份得分系数矩阵
成份 1 2 X1 .085 -.156
X2 -.041 .467 成份得分协方差矩阵 X3 .052 -.400
成份 1 2 X4 .119 .379
X5 .088 -.187 1 1.000 .000 X6 .124 .255 2 .000 1.000 X7 .109 -.010 提取方法 :主成份。 X8 .113 .036 旋转法 :具有 Kaiser 标准化的X9 .112 .035 四分旋转法。
X10 .125 .256 构成得分。
X11 .113 .069
提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的
四分旋转法。
构成得分。
采用回归法计算因子得分系数如上表所示,故可以得到因子得分函数为:
=0.085-0.041+0.052+0.119+0.088+0.124+0.109+0.113+0.112 FXXXXXXXXX1123456789
+0.125+0.113 XX1011
=-0.156+0.467-0.4+0.379-0.187+0.225-0.01+0.036+0.035 FXXXXXXXXX2123456789
+0.256+0.069 XX1011
根据上述得出的因子得分函数,并构造社会发展水平评估函数,由方差贡献率求城市化进程评估函数:Zi=82.916%F1+12.563%F2。
2006-2010 年黑龙江省城市化进程发展指数
年份 Zi F1 F2
2006 726.6603 798.7927 512.0857
2007 842.8866 948.2354 450.9095
2008 1073.235 1204.702 591.7711
2009 1440.589 1622.736 756.837
2010 1939.186 2179.87 1048.519
上表所计算出来的黑龙江省城市化进程发展指数的各个值仅代表了某一年的城市化发展水平,因此为了反映2006年到2010年的城市化发展进程,需要计算各个指数的增加值,逐期增加值=本期实际值-上期增加值。
黑龙江省城市化进程发展指数增加值
Zi增加F1增加F2增加年份 值 值 值
2007 116.2264 149.4427 -61.1762
2008 230.348 256.4662 140.8616
2009 367.3544 418.0341 165.0659
2010 498.5974 557.1341 291.6825
为了更详细的研究黑龙江省的城市化发展进程,现对上述表格中所隐含的信息做充
分的分析和探讨,以求充分的认识其发展趋势。
首先看城市化进程总指数的发展:
黑龙江省城市化进程总指数Z增加值
Zi增加值
600
500
400
300Zi增加值
200
100
0
年份200720082009
从上图中可以看出,黑龙江省城市化进程总指数增加值一直处于上升趋势,城市化进程稳定发展。究其主要原因,主要是在政府“振兴老工业基地”政策的大力扶植下,以及经济形势的逐渐好转,黑龙江省近年来的经济稳定快速的发展,这对推动黑龙江省的城市化进程有很大的作用。
黑龙江省城市化进程综合指数F1增加值
F1增加值
600
500
400
300F1增加值
200
100
0 年份200720082009黑龙江省城市化进程综合指数反映的是在11个指标中,用主成分的抽离方法得出的第一公共因子,具有综合反映总体的发展情况的作用,这与黑龙江省城市化进程总指数Z有略微的差别,但是究其本质,两者可认为一致。正如城市化进程总指数Z的增加值所反映的一样,上图中城市化进程综合指数增加值也是保持稳定增长,这说明近年
来黑龙江省城市化进程取得了良好的成绩,这与目前黑龙江的现状相吻合。
黑龙江省城市化进程产业结构指数F2增加值
F2增加值
350
300 250
200
150F2增加值 100 50
0
-50年份200720082009 -100
黑龙江省城市化进程产业结构指数F2包含的内容有两个:第二产业总产值占GDP比重X2、第三产业总产值占GDP比重X3。第二产业是指对初级产品进行再加工的部门,在我国包括工业(采掘业、制造业、电力、煤气及水的生产和供应业)和建筑业。第三产业是指在再生产过程中为生产和消费提供各种服务的部门,包括除第一和第二产业外的其他各行业。总所周知,黑龙江省最初以其丰富的石油资源以及工业基地闻名全国,之后,在此基础上再接再厉,逐渐突出本地特色优势,逐渐对旅游业越来越重视,并对黑龙江的经济占据重要地位。
如上图所示,2006年的城市化进程产业结构指数增加值处于负值,主要原因是第二产业与第三产业的总产值在GDP的比例中处于负增长。而在2007年开始,这种情况好转,并连续保持两年,在2009年增长较快,主要原因是因为黑龙江政府为促进经济的平稳较快发展,对经济结构做出一定程度的调整,促进了第二、三产业的经济发展,这对黑龙江省城市化进程起到了重要作用。
范文二:公因子方差
征值及方差贡献率、提取两个公共因子后的特征值及方差贡献率、旋转后的两个公共因子后的特征值及方差贡献率。第一成分的初始特征值为9.121,远远大于1;第二成分的初始特征值为1.382,大于1;从第三成分开始,其初始特征值均小于1,故因此选择两个公共因子便可以得到95.478%的累计贡献率,即表示两个公共因子可以解释约95%的总方差, 结果理想。
公因子方差
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
初始 提取 提取方法:主成份分析。
从上表的结果可知,这11个变量的共性方差均大于0.5,且大部分都接近或者超过0.9,故表示提取的两个公因子能够很好地反映原始变量的主要信息。
子和第二个公因子变化最大,其累计贡献率达到了95.48%。这就说明从11个变量提取的两个公因子可以表达足够的原始信息。
成份矩阵
a
1
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
成份
2 提取方法 :主成份。 a. 已提取了 2 个成份。
上表表示用主成分的提取方法得到旋转前的的因子负荷矩阵,根据0.5的原则,因子1在11个变量都有很大的负荷,因此可以认为因子1反应的是总体城市化的综合情况。因子2在第二产业总产值占GDP 比重X2、第三产业总产值占GDP 比重X3、地方财政收入X4变量上有较大的负荷,因此可以说明因子2反映的是产业结构经济发展因子。
旋转成份矩阵
a
1
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
成份
2 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的四分旋转法。
a. 旋转在 3 次迭代后收敛。
采用四次方最大旋转后,得到旋转后的因子负荷矩阵。同样根据0.5原则可知,因子1可以支配这11个变量,反映的是总体情况。因子2可以支配第二产业总产值占GDP 比重X2、第三产业总产值占GDP 比重X3,反映的是产业结构因子。这个与上面没有旋转的第二公共因子包含的内容略有差别,这说明该旋转对因子负荷起到了明显的作用。 故可以得到旋转后的因子分析模型为: X 1=0.874F 1-0.282F 2
X 2=-0.691F 1+0.701F 2 X 3=0.74F 1-0.612F 2 X 4=0.823F 1+0.465F 2 X 5=0.921F 1-0.329F 2 X 6=0.951F 1+0.283F 2 X 7=0.993F 1-0.088F 2 X 8=0.998F 1-0.024F 2 X 9=0.994F 1-0.025F 2 X 10=0.957F 1+0.285F 2 X 11=0.978F 1+0.023F 2
成份得分系数矩阵
1
X1
成份
2
X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
成份 1 2
成份得分协方差矩阵
1 2 提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的四分旋转法。 构成得分。
提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的四分旋转法。 构成得分。
采用回归法计算因子得分系数如上表所示,故可以得到因子得分函数为: F 1=0.085X 1-0.041X 2+0.052X 3+0.119X 4+0.088X 5+0.124X 6+0.109X 7+0.113X 8+0.112X 9
+0.125X 10+0.113X 11
F 2=-0.156X 1+0.467X 2-0.4X 3+0.379X 4-0.187X 5+0.225X 6-0.01X 7+0.036X 8+0.035X 9
+0.256X 10+0.069X 11
根据上述得出的因子得分函数,并构造社会发展水平评估函数,由方差贡献率求城市化进程评估函数:Zi=82.916%F1+12.563%F2。
化发展水平,因此为了反映2006年到2010年的城市化发展进程,需要计算各个指数的增加值,逐期增加值=本期实际值-上期增加值。
黑龙江省城市化进程发展指数增加值
分的分析和探讨,以求充分的认识其发展趋势。
首先看城市化进程总指数的发展:
黑龙江省城市化进程总指数Z 增加值
从上图中可以看出,黑龙江省城市化进程总指数增加值一直处于上升趋势,城市化进程稳定发展。究其主要原因,主要是在政府“振兴老工业基地”政策的大力扶植下,以及经济形势的逐渐好转,黑龙江省近年来的经济稳定快速的发展,这对推动黑龙江省的城市化进程有很大的作用。
黑龙江省城市化进程综合指数F1增加值
的第一公共因子,具有综合反映总体的发展情况的作用,这与黑龙江省城市化进程总指数Z 有略微的差别,但是究其本质,两者可认为一致。正如城市化进程总指数Z 的增加值所反映的一样,上图中城市化进程综合指数增加值也是保持稳定增长,这说明近年
来黑龙江省城市化进程取得了良好的成绩,这与目前黑龙江的现状相吻合。
黑龙江省城市化进程产业结构指数F2增加值
黑龙江省城市化进程产业结构指数F2包含的内容有两个:第二产业总产值占GDP 比重X2、第三产业总产值占GDP 比重X3。第二产业是指对初级产品进行再加工的部门,在我国包括工业(采掘业、制造业、电力、煤气及水的生产和供应业) 和建筑业。第三产业是指在再生产过程中为生产和消费提供各种服务的部门,包括除第一和第二产业外的其他各行业。总所周知,黑龙江省最初以其丰富的石油资源以及工业基地闻名全国,之后,在此基础上再接再厉,逐渐突出本地特色优势,逐渐对旅游业越来越重视,并对黑龙江的经济占据重要地位。
如上图所示,2006年的城市化进程产业结构指数增加值处于负值,主要原因是第二产业与第三产业的总产值在GDP 的比例中处于负增长。而在2007年开始,这种情况好转,并连续保持两年,在2009年增长较快,主要原因是因为黑龙江政府为促进经济的平稳较快发展,对经济结构做出一定程度的调整,促进了第二、三产业的经济发展,这对黑龙江省城市化进程起到了重要作用。
范文三:单因子方差分析
在实际工作中我们经常碰到多个总体均值的比较问题,处理这类问题通常采用方差分
析,这里我们以实例为例介绍单因子方差分析。在1990 年秋对“亚运会期间收看电视的时间”调查结果如下表所示。
问:收看电视的时间比平日减少了(第一组)、与平日无增减(第二组)、比平日增加
了(第三组)的三组居民在“对亚运会的总态度得分”上有没有显著的差异?即要检验从“态
度”上看,这三组居民的样本是取自同一总体还是取自不同的总体? 在SPSS 中进行方差分析的步骤如下:
(1)定义“居民对亚运会的总态度得分”变量为X(数值型),定义组类变量为G(数
值型),G=1、2、3 表示第一组、第二组、第三组。然后录入相应数据,如下图所示,即
数据文件“单因素方差分析数据.sav”
(2)选择[Analyze]=>[Compare Means]=>[One-Way ANOVA...],打开[One-Way ANOVA]主对话框。
(3)从主对话框左侧的变量列表中选定X,单击按钮使之进入[Dependent List]框,再选定变量G,单击按钮使之进入[Factor]框。
(4) 单击Options,打开Options对话框中选择相应的选项
(5) 单击主对话框的ok,得到如下结果,可见收看电视时间不同的三个组其对亚运会的态度
是属于三个不同的总体:
范文四:双因子方差分析
2 双因子方差分析
2.1 双因子试验
当试验条件中涉及到两个因子时,就称为双因子试验。设A为一个因子,有I个水平:Ai, i=1,L,I;B为另一个因子,有J个水平:Bj, j=1,L,J。在设计试验方案时,一个重要问题是如何将两个因子的水平搭配起来。首先,可以考虑每个因子(A或B)的不同水平对试验结果分别会有影响。其次,两个因子不同的水平组合会有特殊的影响(并不是两个因子水平分别影响的简单叠加)。在这种情况下,为对各种可能的结果作全面考察,应该对两个因子所有可能的水平组合作试验。这样的试验就是双因子交叉分组试验。交叉分组试验是最常见的一种双因子试验。
将A因子的任一水平Ai与B因子的任一水平Bj搭配,则总共有IJ种组合:
(Ai,Bj), i=1,L,I; j=1,L,J.
在所有这IJ种组合上至少各作一次试验。例如,假定要在一些试验小区内试验三个小麦品种(分别记为A1、A2和A3)和两种肥料(分别记为B1、B2),在同一个小区上只种一个品种,同时只施一种肥料。这样,“品种”和“肥料”就构成两个因子,前者有三个水平,后者有两个水平。这两个因子的所有可能的水平组合共有3×2=6种:(A1,B1), (A1,B2), (A2,B1), (A2,B2), (A3,B1), (A3,B2)。如果在每种水平组合上作相同次数的试验(run),则整个试验方案称为是“均衡的”。与单因子试验的情况不同,在双因子交叉分组试验中,若试验方案不均衡,则方差分析会变得比较困难,我们在以后的章节中再来讨论这个问题。对于均衡的试验,为保证能分析随机误差,在每个水平组合上应作多于一次的试验,称为“有重复”的。如果在每个水平组合上只作一次的试验,则称为“无重复”的。对于无重复的交叉分组试验,只有在模型简化之后,才能留有“自由度”来分析误差。另一种双因子试验的水平组合方式是“嵌套分组”,有时也会遇到。假定因子A和因子B 如上所述,且I≤J,可以将因子B的水平“嵌套”到因子A的水平中去:将因子B的J个水平分成I组,因子A的每个水平只和因子B的一组水平搭配。例如,假定有三种类型的机器,每类4台。要通过试验来比较不同类型机器的性能的优劣,安排12个工人,每人在试验中操作一台机器。这里机器的类型是一个(主要的)因子,有三个水平。假定工人的技术水平(或熟练程度)有差别,则工人是另一个(次要的)因子,有12个水平(工人)。这12个水平分成3组,每组4个水平。机器的每个水平只和工人中的一组进行搭配。这是一个“嵌套分组”的水平组合模式。嵌套分组的试验在实际中较为少见。
2.2 双因子均衡有重复试验的方差分析
设A为一个因子,有I个水平:Ai, i=1,L,I;B为另一个因子,有J个水平:Bj, j=1,L,J。将A因子的任一水平Ai与B因子的任一水平Bj搭配,则总共有IJ种组合:
(Ai,Bj), i=1,L,I; j=1,L,J.
在所有这IJ种组合上各作K次试验,当K>1时,就是均衡有重复试验。设在水平组合(Ai,Bj)下所得到的响应变量观测值记为
yijk,k=1,L,K,i=1,L,I,j=1,L,J
这些观测数据可以列入表2.2.1中。表2.2.1 双因子交叉分组试验数据表
在双因子试验中得到的数据称为“按两种方式”(two-way)分组的数据。对这样的数据,最一般的假定是:在同一水平组合下的数据可以看成是取自同一总体的简单样本,相当于在一个理论均值上加上独立同分布的随机误差;而不同水平组合下的数据的理论均值是不同的。因此可以建立如下的模型:
yijk=μij+eijk, k=1,L,K;i=1,L,I;j=1,L,J. (2.2.1)
其中eijk, k=1,L,K;i=1,L,I;j=1,L,J为独立的随机误差,服从相同的正态分布
N(0,σ2)。在模型(2.2.1)中,两个因子不同水平的组合对响应变量的影响的差异表
现在分布的理论均值μij之间的差异上。为了更清楚地看清μij之间差异的含义,我们将它们作变换,重新表为
μij=μ+αi+βj+γij, (2.2.2)
在上述表达式中,μ表示响应变量y在“标准”状态下的理论均值,称为“总均值”(grand mean),αi表示A因子的第i水平对y的单独效果,称为A因子的“主效应”(main effect),βj表示B因子的第j水平对y的单独效果,称为B因子的主效应,γij表示A因子的第i水平和B因子的第j水平在主效应之外,对y所产生的额外的联合效果,称为“交互效应”(intersection)。这样,利用(2.2.2)的形式,我们可以将因子对响应变量y的各种影响表示得很清楚。问题是,在(2.2.2)中的参数共有1+I+J+IJ=(I+1)(J+1)个,已经超出原来参数μij的个数(IJ)。为方便分析起见,我们对因子各种效应的参数施加以下约束: ∑αi=0,
i=1I
∑β
j=1Ii=1
J
j
=0, (2.2.3)
J
∑γij=0, j=1,L,J; ∑γij=0, i=1,L,I
j=1
这些约束的实际含义是很清楚的。以第一个约束为例,它的含义是:A因子的主效应有正有负,但从总体上看是正负相抵的。若某个αi为正,则表明A因子的第i个水平对响应变量的影响为正效应;反之,若αi为负,则表明A因子的第i个水平对响应变量的影响为负效应。对其它约束也有相同解释。这里需要说明:(2.2.3)的约束只有在均衡的试验中才是有效的。在(2.2.3)中共有I+J+2个约束,但是在后面的I+J个约束中,由任意I+J?1个可以推出另一个,因此实际上只有I+J+1个独立的约束。这样独立参数的个数仍然是IJ个((I+1)(J+1)?(I+J+1)= IJ)。
在双因子试验的模型中,我们所关心的是:1) A因子的主效应是否显著。对此可以检验假设:
H0: α1=α2=L,=αI=0 (2.2.4)
2) B因子的主效应是否显著。对此可以检验假设:
H0: β1=β2=L,=βJ=0 (2.2.5)
3) AB因子的交互效应是否显著。这时我们检验假设:
H0: γ11=γ12=L,=γIJ=0 (2.2.6)
双因子方差分析主要解决对上述三个假设的检验问题。对上述假设的检验方法与在单因子试验数据的方差分析中所采用的方法类似,就是将数据的总平方和分成若干平方和,其中一个表示随机误差的影响,其它的平方和,有的表示主效应的影响,有的表示交互效应的影响,然后用适当的F统计量进行检验。我们首先来给出参数的估计。记
1ij?=
K
1i??=
IK
∑y
k=1
K
ijk
,
∑∑y
i=1k=1
IK
ijk
1=I
K
∑y
i=1
I
ij?
1
, ?j?=
JK
∑∑y
j=1k=1
JK
ijk
1=J
∑y
j=1J
J
ij?
,
1???=
IJK
∑∑∑y
i=1j=1k=1
IJ
ijk
1=IJ
∑∑y
i=1j=1
IJ
ij?
1=I
∑y
i=1
I
i??
1,=J
∑y
j=1
?j?
它们分别是:水平组合上的样本均值(ij?)、单个因子水平上的数据平均值(i??和?j?)以及数据的总平均值(???)。根据模型(2.2.1),在同一水平组合上的试验数据可以看成是来自同一总体的简单样本,因此ij?为μij的估计:
?μij=ij?, i=1,L,I; j=1,L,J (2.2.7)
利用约束(2.2.3),对(2.2.2)式两端关于下标(i,j,k)求和,得到总均值μ的估计为
1
μ?=
IJ
∑∑μ?=ij
i=1j=1
IJ
???
(2.2.8)
固定i,对(2.2.2)式两端关于下标(j,k)求和,并根据约束(2.2.3),得到A因子的第i个主效应αi的估计为
1α?=i
J
?-μ?=∑μ
ijj=1J
i??
-??? (2.2.9)
类似地,固定j,对(2.2.2)式两端关于下标(i,k)求和,并根据约束(2.2.3),可以得到B因子的第j个主效应βj的估计为
?=1βj
I
?=∑μ?-μ
iji=1I
?j?
-??? (2.2.10)
最后,固定(i,j),对(2.2.2)式两端关于下标k求和,并根据约束(2.2.3),可以得到
AB因子的第(i,j)交互效应γij的估计为
???γ?-α?ij=μij-μi-βj=ij?-i??-?j?+??? (2.2.11)
不难验证,这些参数的估计也满足约束(2.2.3)。为表示数据的总变化、由主效
应和交互效应引起的变化、以及由随机误差引起的变化,我们定义以下的平方和:
总平方和: SST=∑(yijk????)2
i,j,k
2
A因子主效应平方和:SSA=JK∑α?i
i
2?B因子主效应平方和:SSB=IK∑βj (2.2.12)
j
2
交互效应平方和: SSAB=K∑γ?ij
ij
随机误差平方和: SSE=∑(yijk?ij?)2
i,j,k
由上述平方和的定义不难解释它们的含义。需要指出,在计算平方和时,不要忘记前面的系数。此系数与相应的水平或水平组合上的试验次数有关。对每个水平组合,重复试验次数为K,因此在SSAB的定义中前面有系数K。对于A因子的每个水平,在其上的试验次数为JK(对应B因子的J个水平各重复K次),因此在SSAB的定义中前面有系数JK,等等。我们不难对上述的平方和给出解释,并计算自由度。首先看总平方和SST,它刻划合样本对于样本总均值???的总离散程度,共有N=IJK个平方项,满足一个约束条件:
∑∑∑(y
i
j
k
ijk
????)=0
因此,SST的自由度,即SST中独立平方项的个数为
fSST=N?1=IJK?1
(2.2.13)
2
?对SSA,由(2.2.9), 有SSA =JK∑iα?i, 其中αi为αi的无偏估计, 从而SSA可
以解释为A因子主效应的总体效果。SSA中有I个平方项,满足一个约束条件:
?∑iαi=0,因此SSA的自由度为
fSSA=I?1
(2.2.14)
2?定义SSA的均方为MSSA=SSA/(I-1)。类似地,由(2.2.10), SSB =IK∑jβj, 其中
∑
?为β的无偏估计。因此SSB可以解释为B因子主效应的总体效果。由于βjj
?=0,因此SSB的自由度为β
j
j
fSSB=J?1
(2.2.15)
2SSB的均方为MSSB=SSB/(J-1)。对SSAB,由(2.2.11), SSAB=K∑i∑jγ?ij, 其中
γ?ij 为γij的无偏估计.因此SSAB代表交互效应的总效果。在SSAB中共有IJ个平方
?项,它们之间满足约束条件:∑iγ?ij=0, ∑jγij=0. 这I+J个约束中,只有I+J-1个
是独立的,因此SSAB的自由度为
fSSAB=(I?1)(J?1)
最后再来看误差平方和SSE,记
????e?-αijk=yijk?ij??i????j?+???=yijk-μi-βj-γij,
?可以将eijk看成是误差项eijk的“估计”,因此SSE可以看成是随机误差变化的总度
(2.2.16)
量。在SSE中共有$个平方项,满足下列IJ个约束条件:
∑
因此SSE的自由度为
k
eijk=0, i=1,… ,I, j=1,… ,J.
fSSE=IJK?IJ=IJ(K?1)
(2.2.17)
SSE的均方为MSSE=SSE/[IJ(K-1)]。对上面的平方和,如同在单因子方差分析中一样,在双因子模型下也有平方和分解公式:
SST=SSA+SSB+SSAB+SSE
(2.2.18)
利用类似于在单因子方差分析中所采用的方法,可以证明上述的公式。推导的过程虽然有些繁琐,但并不难。我们把它留给读者作为练习。由(2.2.13)---(2.2.17),对于自由度也有相同的分解公式:
fSST= fSSA + fSSB + fSSAB + fSSE
各平方和的期望为:
E(SSA)=(I-1) σ2 +JK∑iαi2,E(SSB)=(J-1) σ2 +IK∑β2j,
j
2E(SSAB)=(I-1)(J-1) σ2 +K∑γij,
ij
(2.2.19)
E(SSE)=IJ(K-1) σ2.
关于这些平方和的分布我们有下面的定理。定理2.2.1
(1) SSA,SSB,SSAB与SSE相互独立;(2) SSE/σ2服从χ2(IJ(K?1))分布;
(3) 当假设(2.2.4)成立时,SSA/σ2服从χ2(I?1)分布;(4) 当假设(2.2.5)成立时,SSB/σ2服从χ2(J?1)分布;(5) 当假设(2.2.6)成立时,SSAB/σ2服从χ2(I?1)(J?1)分布。
如果要检验A因子主效应的影响是否显著,即检验假设(4.2.4),则可以采用以下的检验统计量:
FA=
由定理 2.2.1,
当假设(2.2.4)成立时,FA服从F(I-1, IJ(K-1))分布.
(2.2.21)
MSSASSA/(I?1)
=
MSSESSE/[IJ(K?1)]
(2.2.20)
计算p=P(F(I-1, IJ(K-1))> FA)。对指定的水平α,当p
类似地,如果要检验B因子主效应的效果,即检验假设(2.2.5),则可以采用以下的检验统计量:
FB=
由定理 2.2.1,
当假设(2.2.5)成立时,FB服从F(J-1, IJ(K-1))分布.
(2.2.23)
MSSBSSB/(J?1)
=
MSSESSE/[IJ(K?1)]
(2.2.22)
计算p=P(F(J-1, IJ(K-1))> FB)。对指定的水平α,当p
如果要检验交互效应的效果,即检验假设(2.2.6),则可以采用以下的检验统计量:
FAB=
由定理 2.2.1,
当假设(2.2.6)成立时,FAB服从F((I-1)(J-1), IJ(K-1))分布.
(2.2.25)
MSSABSSAB/[(I?1)(J?1)]
=
MSSESSE/[IJ(K?1)]
(2.2.24)
计算p=P(F((I-1)(J-1), IJ(K-1))> FAB)。对指定的水平α,当p
为AB因子的交互效应之间有显著差别;否则就接受假设(2.2.6),即认为AB因子的交互效应效应之间没有显著差别。
在实际进行双因子方差分析时,通常将有关的统计量连同分析结果列在一张表中,以达到一目了然的目的。
例2.2.1 设为比较三种松树在四个不同的地区的生长情况有无差别,在每个地区对每种松树随机地选取五株,测量它们的胸径,得到的数据列于表4.2.2。
表2.2.2 松树数据
地区
松树种类
123
123,15,26,13,2128,22,25,19,2618,10,12,22,13
225,20,21,16,1830,26,26,20,2815,21,22,14,12
321,17,16,24,2719,24,19,25,2923,25,19,13,22
414,17,19,20,2417,21,18,26,2318,12,23,22,19
这是一批等重复的两种方式分组数据,记树种因子为A,地区因子为B,则A因子有3个水平,B因子有4个水平,总共有12个水平组合,每个组合(单元)有5个重复观测。假定树的胸径为度量树的生长情况是否良好的数值指标,我们的目标是:由以上数据来判断不同树种及不同地区对松树的生长情况是否有影响(好或坏)?这里要考虑的影响有三种:树种的单独影响(A因子主效应),地区的单独影响(B因子主效应),以及不同树种在不同地区生长所产生的交互影响(AB因子的交互效应)。这是一个典型的等重复双因子方差分析模型。用SAS软件中的PROC ANOVA程序分析此数据,输出各单元均值和因子水平均值及方差分析的结果分别列于表4.2.3, 4.2.4。
表2.2.3 松树数据的均值单元均值A1均值A2A3列均值
B119.624.015.019.53
B220.026.016.820.93
B321.023.220.421.53
B418.821.018.419.40
行均值19.8523.5517.6520.35
由上面的方差分析结果,可以看出: A因子主效应是显著的,或者说松树的不同种类对树的胸径有显著影响; 而B因子主效应和AB因子交互效应都不显著.
范文五:单因子方差分析
单因子方差分析 摘要单因子方差分析 ANOVA 检验“多个总体的均值相等”这一假设。此方法是双样本 t 检验的扩展形式,尤其适用于假定总体方差相等的情况。单因子方差分析具有以下要求:从取样单位获得响应或测量数据。系统地更改了的因子或离散变量 。为因子变量所选的各种值称为因子水平。分析中每个因子水平都对应一个较大的总体及其均值。样本均值是对 整个总体水平均值的估计值。单因子方差分析可用于检验水平均值之间在统计意义上是否有显著差异。检验的原假设是所有总体均值(水平均值)都相同。备择假设是有一个或多个总体的均值异于其他总体。除了帮助评估是否所有水平均值都相同之外,Minitab 还提供输出以帮助确定存在差异时哪些水平均值不同。 数据说明调查员比较了四种不同配方的油漆的硬度。将每种油漆配方取六份样品涂到一小块金属上,然后待其凝固,测量其硬度。此外,还记录每份样品的凝固温度以及涂油漆的人(操作员)的编号。数据: 油漆硬度.MTW (在样本数据文件夹中)单因子方差分析:主题 摘要方差分析表 方差分析表统计量单个统计量和置信区间 单个统计量 单个置信区间多重比较 Tukey 法 Fisher 最低显著性差异 LSD Dunnett 与对照的比较 许氏与最佳值的多重比较 MCB图形 单值图 数据的箱线图 残差的直方图 残差的正态概率图 残差与拟合值 残差与顺序 残差与变量 四合一残差图 单因子方差分析 方差分析表 方差分析表统计量方差分析表中最重要的统计量是 p 值 P、S、R 和调整的 R 值。这些值可以共同说明水平均值之间是否有显著差异以及模型对数据的拟合优度。p 值如果 P 小于或等于已选的 水平 ,则一个或多个均值有显著差异。如果 P 大于已选的 水平,则均值之间没有显著差异。如果方差分析得到的结果表明有显著差异,则可以查看单个统计量和置信区间以进一步了解这些差异。S、R 和调整的 R 是模型对数据的拟合优度的度量。这些值有助于您选择具有最佳拟合的模型。S 以响应变量的单位进行度量,它表示数据值与拟合值得标准距离。对于给定研究,模型预测响应的效果越好,S 越小。R (R 平方)描述在观测的响应值中由预测变量 解释的变异量。R 始终随预测变量的增加而增大。例如,最佳的五预测变量模型的 R 始终比最佳的四预测变量模型的高。因此,比较相同大小的模型时 R 最有效。调整的 R 表示已根据模型中的项数调整的修正 R 。如果包括了不必要的项,R 会人为地变得很高。与 R 不同,调整的 R 在您向模型中添加项时可能变小。使用调整的 R 比较预测变量数不同的各个模型。 输出示例来源自由度SSMSFP油漆
3281.793.96.020.004误差20312.115.6合计23593.8S3.950R-Sq47.44R-Sq(调整)39.56 解释油漆硬度方差分析得到的 p 值是 0.004。因此,假设选择常用的 水平 0.05 进行检验,则将断定油漆配方之间的硬度存在显著差异。对于油漆数据,S 为 3.950,R 为 47.44,调整的 R 为 39.56。如果要比较不同的油漆硬度模型,则通常要查找可使 S 最小化并使两个 R 值最大化的模型。 单因子方差分析 单个统计量和置信区间 单个统计量使用单个统计量的表评定数据的以下属性:N。因子每个水平所包括的观测值数。均值。每个水平观测值的均值。这些样本均值是对每个水平总体均值的估计值。标准差。每个水平的样本标准差。方差分析假定所有水平的总体标准差相等。因此,如果样本标准差差异很大,则可能需要使用等方差检验命令来检验数据的方差相等性。合并标准差。合并标准差是对所有水平公共标准差的估计值。 输出示例均值(基于合并标准差)的单组95置信区间水平N均值标准差------------------------------------混料1614.7333.363-----------混料268.5675.500------------
混料3612.9833.730------------混料
4618.0672.636------------------------------------------------5.010.015.020.0合并标准差3.950 解释油漆硬度分析的结果表明:配方 2 的硬度均值最低 8.567,配方 4 的最高 18.067。不同配方的标准差之间的差异还不足以引起关注。合并标准差为 3.950。 单因子方差分析 单个统计量和置信区间 单个置信区间Minitab 为因子的每个水平都提供 95 的置信区间。当方差分析表中的 p 值 表明因子水平均值之间有差异时,可以使用单个置信区间的表来研究差异:每个星号都表示样本均值。每对圆括号都表示总体均值的 95 的置信区间。每个水平的总体均值位于相应区间内的可信度为 95。如果两个均值的区间不重叠,则表明总体均值不同。但应该谨慎解释这些区间,因为进行多重比较时类型 I 错误 的比率会增加。因此,进行多重比较时应该使用四种可用方法之一来控制类型 I 错误的比率。 输出示例均值(基于合并标准差)的单组95置信区间水平N均值标准差------------------------------------混料1614.7333.363-----------混料268.5675.500------------混料3612.9833.730------------混料4618.0672.636------------------------------------------------5.010.015.020.0合并标准差3.950 解释在油漆硬度的结果中,配方 2 和配方 4 均值的区间不重叠。这表明这些水平的总体均值不同。 单因子方差分析 多重比较 Tukey 法Tukey 法使用全族误差率 (通常称为全族范围误差率)比较每对因子水平的均值以控制类型 I 错误 的比率。全族误差率是对整个一组比较生成一个或多个类型 I 错误的概率。Tukey 法以所选的全族误差率为基础调整单个置信水平 。结果显示为一个分组表和均值对之间差异的一组同时置信区间 。使用汇总格式的分组信息表显示没有显著差异的各组因子水平均值。如果某个水平均值不在组中,则其均值与该组存在显著差异。分组信息表显示以下信息: 方法–用于构造从中生成分组表的置信区间系列的多重比较方法。 比较项–用于比较一个因子的各个水平的每个分组信息表。 N–各因子水平的样本数量。 均值–按降序排序的最小二乘均值 。 分组–包含用于分组因子水平的字母列。共享同一个字母的水平并不存在显著差异。相反,如果它们并不共享一个字母,水平均值就会存在显著差 异。使用置信区间来确定两个均值之间差异的可能范围:如果区间不包含 0,则相应均值之间在统计意义上有显著差异。如果区间包含 0,则均值之间在统计意义上无显著差异。 输出示例使用Tukey法对信息进行分组油漆N均值分组混料4618.067A混料1614.733AB混料3612.983AB混料268.567B不共享字母的均值之间具有显著差异。Tukey95整体置信区间油漆水平间的所有配对比较单组置信水平98.89油漆混料1减自:油漆下限中心上限------------------------------------混料2-12.553-6.1670.219--------------混料3-8.136-1.7504.636--------------混料4-3.0533.3339.719---------------------------------------------------16.0-8.00.08.0油漆混料2减自:油漆下限中心上限------------------------------------混料
3-1.9694.41710.803--------------混料
43.1149.50015.886---------------------------------------------------16.0-8.00.08.0油漆混料3减自:油漆下限中心上限------------------------------------混料
4-1.3035.08311.469---------------------------------------------------16.0-8.00.08.0 解释油漆硬度数据的分组信息显示组 A 包含混料 1、3 和 4,而组 B 包含混料 1、2 和 3。这两个组都包含混料 1 和 3。组内的因子水平之间并不存在显著差异。因为混料 2 和 4 并不共享同一个字母,混料 4 具有一个比混料 2 显著高很多的均值。置信区
间显示所有均值差异的可能范围:配方 2 和配方 4 的均值之间差异的置信区间为 3.11415.886。此范围不包括 0,表明这些均值之间差异显著。其余均值对的置信区间都包括 0,表明这些均值之间差异不显著。 单因子方差分析 多重比较 Fisher 最低显著性差异 LSDFisher LSD 法使用所选的个别误差率 比较每对因子水平的均值。请注意,全族误差率 (整个一组比较中生成一个或多个类型 I 错误 的概率)将高于每个单个比较的误差率。结果显示为一个分组表和均值对之间差异的一组置信区间。使用汇总格式的分组信息表显示没有显著差异的各组因子水平均值。如果某个水平均值不在组中,则其均值与该组存在显著差异。分组信息表显示以下信息: 方法–用于构造从中生成分组表的置信区间系列的多重比较方法。 比较项–用于比较一个因子的各个水平的每个分组信息表。 N–各因子水平的样本数量。 均值–按降序排序的最小二乘均值 。 分组–包含用于分组因子水平的字母列。共享同一个字母的水平并不存在显著差异。相反,如果它们并不共享一个字母,水平均值就会存在显著差 异。使用置信区间来确定两个均值之间差异的可能范围:如果区间不包含 0,则相应均值之间在统计意义上有显著差异。如果区间包含 0,则均值之间在统计意义上无显著差异。 输出示例使用Fisher方法对信息进行分组油漆N均值分组混料4618.067A混料1614.733AB混料3612.983BC混料268.567C不共享字母的均值之间具有显著差异。Fisher95两水平差值置信区间油漆水平间的所有配对比较同时置信水平80.83油漆混料1减自:油漆下限中心上限------------------------------------混料2-10.924-6.167-1.409----------混料3-6.507-1.7503.007----------混料
4-1.4243.3338.091-----------------------------------------------8.00.08.016.0油漆混料2减自:油漆下限中心上限------------------------------------混料3-0.3414.4179.174---------混料44.7439.50014.257-----------------------------------------------8.00.08.016.0油漆混料3减自:油漆下限中心上限------------------------------------混料
40.3265.0839.841-----------------------------------------------8.00.08.016.0 解释油漆硬度数据的分组信息显示组 A 包含混料 1 和 4;组 B 包含混料 1 和 3;而组 C 包含混料 2 和 3。混料 1 和 3 分别位于两个组中。组内的因子水平之间并不存在显著差异。因为下列因子水平组合不共享同一个字母,所以它们的均值存在显著差异:混料 1 和 2混料 2 和 4 混料 3 和 4置信区间显示所有均值差异的可能范围:配方 1 和配方 2 的均值之间差异的置信区间为 10.9241.409。此范围不包括 0,表明这些均值之间差异显著。类似地,配方 2 和配方 4 之间差异的置信区间 4.74314.257 以及配方 3 和配方 4 之间差异的置信区间 0.3269.841 也不包括 0,表明这些差异也显著。其余均值对的置信区间都包括 0,表明这些均?抵洳钜觳幌灾单因子方差分析 多重比较 Dunnett 与控制的比较Dunnett 法将每个水平的均值与对照水平的均值进行比较。对照水平通常是要将所有其他水平与之进行比较的标准。此方法使用全族误差率 (通常称为全族范围误差率)来控制类型 I 错误 的比率。全族误差率是对整个一组比较生成一个或多个类型 I 错误的概率。Dunnett 法以所选的全族误差率为基础来调整单个比较的误差率(个别误差率 )。结果显示为一个分组表和一组对照水平的均值和其他因子水平均值之间差异的置信区间。使用汇总格式的分组信息表显示没有显著差异的各组因子水平均值。如果某个水平均值不在组中,则其均值与该组存在显著差异。分组信息表显示以下信息: 方法–用于构造从中生成分组表的置信区间系列的多重比较方法。 比较项–用于比较一个因
子的各个水平的每个分组信息表。 N–各因子水平的样本数量。 均值–按降序排序的最小二乘均值 。 分组–包含用于分组因子水平的字母列。共享同一个字母的水平并不存在显著差异。相反,如果它们并不共享一个字母,水平均值就会存在显著差 异。使用置信区间来确定两个均值之间差异的可能范围:如果区间不包含 0,则相应均值之间在统计意义上有显著差异。如果区间包含 0,则均值之间在统计意义上无显著差异。 输出示例使用Dunnett方法对信息进行分组水平N均值分组混料1(控制)614.733A混料4618.067A混料3612.983A混料268.567没有标明字母A的均值与控制水均值的差异显著。Dunnett与对照的比较全族误差率0.05个别误差率0.0195临界值2.54对照油漆的水平混料1处理均值减对照均值的区间水平下限中心上限------------------------------------混料2-11.960-6.167-0.373-----------------混料3-7.544-1.7504.044------------------混料
4-2.4603.3339.127------------------------------------------------------12.0-6.00.06.0 解释油漆硬度数据的分组信息显示只有混料 2 不属于组 A,因此它与控制水平之间存在显著差异。混料 1、3 和 4 均生成相等的油漆硬度,而混料 2 则显著较软。对照水平(配方 1)和配方 2 的均值之间差异的置信区间为 11.9600.373。此范围不包括 0,表明这些均值之间差异显著。其余均值对的置信区间都包括 0,表明这些均值之间差异不显著。 单因子方差分析 多重比较 许氏与最佳值的多重比较 MCB许氏法将每个因子水平的均值与其余因子水平的最佳均值进行比较。必须指定将最小还是最大的均值视为最佳。此方法使用全族误差率 (通常称为全族范围误差率)来控制类型 I 错误 的比率。全族误差率是对整个一组比较生成一个或多个类型 I 错误的概率。使用此方法前必须设置全族误差率。结果显示为均值对之间差异的一组同时置信区间 。未显示许氏与最佳值的多重比较的分组信息表。使用置信区间来确定均值是否有差异:如果区间的终点为 0,则相应均值之间在统计意义上有显著差异。如果区间的终点不为 0,则均值之间的差异在统计意义上不显著。 输出示例许氏MCB(与最佳值的多重比较)全族误差率0.05临界值2.19各水平均值减最大值水平均值区间水平下限中心上限------------------------------------混料1-8.333-3.3331.667---------------
混料2-14.500-9.5000.000----------------------混料3-10.083-5.0830.000---------------混料4-1.6673.3338.333----------------------------------------------------12.0-6.00.06.0 解释对于油漆硬度分析,将最大均值指定为最佳。因此,配方 1 的均值 14.733、配方 2 的均值 8.567 和配方 3 的均值 12.983 都与配方 418.067 的均值进行比较,因为后者是最大(最佳)均值。配方 4 本身的均值与配方 1 的均值进行比较,因为后者是其余三个均值中最大的。结果表明:配方 4 的均值与配方 2 的均值之间差异的置信区间 14.5000.000 以及与配方 3 的均值之间差异的置信区间 10.0830.000 都以 0 为终点,表明这些差异显著。其余两个区间的终点不为 0,表明差异不显著。 单因子方差分析 图形 单值图单值图对每个因子水平数据的以下属性进行图解:离差。每个点都表示在样本中观测到的值。均值。每个点上的蓝色符号表示样本的均值。 输出示例 解释油漆硬度数据的单值图显示:一般情况下配方 4 的硬度值最高。所有四个水平中数据的展开程度(离差)几乎都相同。任何点与其余点相比都不异常大或异常小(异常值 )。 单因子方差分析 图形 数据的箱线图箱线图对每个水平数据的以下属性进行图解:形状。箱表示数据的中间 50 部分。贯穿箱的线表示中位数 。从箱伸出的线(须)表示数据的最上面 25 和最下面 25 的部分(不包括
异常值 )。异常值用星号 表示。均值。每个图上的符号表示样本的均值。注意 数据集中有许多观测值时,箱线图将是最佳选择。 输出示例 解释油漆硬度数据的箱线图对以下情况进行图解:配方 4 的硬度值、均值和中位数均为最大。配方 2 的硬度值、均值和中位数均为最小。配方 2 数据的中间一半展开的程度很大,如大箱所示。配方 2 的值的整体范围最大,如细丝的末端所示。任何水平的数据中都没有异常值(星号)。此例中,每个水平只有六个观测值,因此单值图可能比箱线图更合适。 单因子方差分析 图形 残差的直方图残差 的直方图显示所有观测值的残差分布。使用直方图作为研究工具来了解数据的以下特征:典型值、波动或变异以及形状数据中的异常值残差的直方图应该为钟形。使用此图查找以下信息:此图形趋势... 表明...长尾 偏度远离其他条形的条形 异常值由于直方图的外观会根据用于对数据进行分组的区间数而更改,因此请使用正态概率图和拟合优度检验来评定残差是否为正态。 输出示例 解释对于油漆硬度数据,没有证据表明存在偏度或异常值。 单因子方差分析 图形 残差的正态概率图此图形图示当分布为正态时的残差 及其期望值。根据分析得出的残差应该是正态 分布的。实际上,对于平衡 或接近平衡的设计,或者对于具有大量观测值的数据,略微偏离正态性不会严重影响结果。残差的正态概率图应该大致为一条直线。使用此图查找以下信息:此图形趋势... 表明...非直线 非正态性尾部为曲线 偏度远离直线的点 异常值斜率不断变化 未确定的变量如果数据的观测值不足 50 个,则即使残差是正态分布的,图也可能在尾部显示弯曲。随着观测值数的减少,概率图甚至可能会显示更大的变异和非线性。使用正态概率图和拟合优度检验来评定小数据集中残差的正态性。 输出示例 解释对于油漆硬度数据,残差显示为直线。没有证据表明存在非正态性、偏度、异常值或未确定的变量。 单因子方差分析 图形 残差与拟合值此图形图示残差 与拟合值 。残差应该在 0 附近随机分散。使用此图查找以下信息:此图形趋势... 表明...残差相对拟合值呈扇形或不均匀分 异方差散曲线 缺少高次项远离 0 的点 异常值 输出示例 解释从此图中可以看出,残差随机分散在 0 附近。没有证据表明存在异方差、缺项或异常值。 单因子方差分析 图形 残差与顺序此图形以相应观测值的顺序图示残差 。观测值的顺序可能影响结果时此图会很有用,以时间顺序或以某些其他顺序(如地理区域)采集数据时可能影响结果。此图在运行未被随机化的设计试验中尤其有帮助。图中的残差应该在中心线附近随机波动。检查此图以查看相邻误差项之间是否存在任何相关性。残差之间的相关性可以表示为:残差中的上升或下降趋势相邻残差的符号快速变化 输出示例 解释对于油漆硬度数据,残差随机分散在 0 附近。没有证据表明误差项彼此相关。 单因子方差分析 图形 残差与变量此图形图示残差 与其他变量。残差应该在中心线附近随机波动。如果变量已经包括在模型中,则请使用此图确定是否应该添加该变量的高次项。如果变量尚未包含在模型中,则请使用此图确定变量是否系统地影响响应。使用此图查找以下信息:此图形趋势... 表明...残差排列成图形趋势 变量正在系统地影响响应点的排列有弯曲 应该在模型中包括变量的高次项 输出示例 解释对于油漆硬度数据,残差随机分散在 0 附近。没有证据表明残差中存在模式或数据中存在弯曲。此图表明样本凝固的温度似乎没有对响应产生系统化影响。 单因子方差分析 图形 四合一残差图四合一残差图在一个图形窗口中同时显示四种不同的残差图。此布局有助于比较这些图以确定模型是否符合分析的假设。此图形中的残差图包括:直方图 表明数据是否偏斜或数据中是否存在
异常值正态概率图 表明数据是否为正态分布的、其他变量是否影响响应或数据中是否存在异常值残差与拟合值 表明方差是否恒定、是否存在非线性关系或数据中是否存在异常值残差与数据顺序 表明数据中是否存在因时间或数据采集顺序而产生的系统化影响 输出示例 解释要查看四合一图中每个.