范文一:袁卫统计学(第二版)答案
第 2章 统计数据的描述
练习:
2.1 为评价家电行业售后服务的质量, 随机抽取了由 100家庭构成的 一个样本。服务质量的等级分别表示为:A. 好; B. 较好; C. 一般; D. 差; E. 较差。调查结果如下:
D A C B C D E C E E
A D B C C A E D C B
B A C D E A B D D C
C B C E D B C C B C
D A C B C D E C E B
B E C C A D C B A E
B A C D E A B D D C
A D B C C A E D C B
C B C E D B C C B C
(1) 指出上面的数据属于什么类型;
(2) 用 Excel 制作一张频数分布表;
(3) 绘制一张条形图,反映评价等级的分布。
2.2 某行业管理局所属 40个企业 2002年的产品销售收入数据如下 (单位:万元):
2 4 9 6 0 3 7 4
10 5 11
9
11
4
11
5
87 10
3
11
8
14
2
13 5 12 5
11 7 10
8
10
5
11
10
7
13
7
12
13
6
11 7 10 8
97 88 12 3 11
5
11
9
13
8
11
2
14
6
11 3 12 6
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出 累积频数和累积频率;
(2)如果按规定:销售收入在 125万元以上为先进企业, 115万~ 125万元为良好企业, 105万~115万元为一般企业, 105万元以下 为落后企业,按先进企业、良好企业、一般企业、落后企业进行分 组。
2.3 某百货公司连续 40天的商品销售额如下(单位:万元): 46 36 45 37 37 36 45 43 33 44
35 28 46 34 30 37 44 26 38 44
42 36 37 37 49 39 42 32 36 35
根据上面的数据进行适当的分组, 编制频数分布表, 并绘制直方 图。
2.4 为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取 100只进行测试,所得结果如下:
700 716 728 719 685 709 691 684 705 718 706 715 712 722 691 708 690 692 707 701 708 729 694 681 695 685 706 661 735 665 668 710 693 697 674 658 698 666 696 698 706 692 691 747 699 682 698 700 710 722 694 690 736 689 696 651 673 749 708 727 688 689 683 685 702 741 698 713 676 702 701 671 718 707 683 717 733 712 683 692 693 697 664 681 721 720 677 679 695 691 713 699 725 726 704 729 703 696 717 688
(1)利用计算机对上面的数据进行排序;
(2)以组距为 10进行等距分组, 整理成频数分布表, 并绘制直方图;
(3)绘制茎叶图,并与直方图作比较。
2.5 下面是北方某城市 1~2月份各天气温的记录数据:
-14 -18 -15 -9 -6 -1 0 5 -4 -9 -3
-6 -8 -12 -16 -19 -15 -22 -25 -24 -19 -21
-8 -6 -15 -11 -12 -19 -25 -24 -18 -17 -24
-14 -22 -13 -9 -6 0 -1 5 -4 -9 -3
-3 2 -4 -4 -16 -1 7 5 -6 -5
(1) 指出上面的数据属于什么类型 ;
(2) 对上面的数据进行适当的分组;
(3) 绘制直方图,说明该城市气温分布的特点。
2.6 下面是某考试管理中心对 2002年参加成人自学考试的 12000名 学生的年龄分组数据:
(2) 从直方图分析成人自学考试人员年龄分布的特点。
2.7 下面是 A 、 B 两个班学生的数学考试成绩数据:
A 班:
44 57 59 60 61 61 62 63 63 65
66 66 67 69 70 70 71 72 73 73
73 74 74 74 75 75 75 75 75 76
76 77 77 77 78 78 79 80 80 82
85 85 86 86 90 92 92 92 93 96 B 班: 55 56 56 57 57 57 58 59 60 61
61 62 63 64 66 68 68 70 70 71
71 73 74 74 79 81 82 83 83 84
85 90 91 91 94 95 96
100 100 100
(1) 将两个班的考试成绩用一个公共的茎制成茎叶图;
(2) 比较两个班考试成绩分布的特点。
2.8 1997年我国几个主要城市各月份的平均相对湿度数据如下表, 试
绘制箱线图,并分析各城市平均相对湿度的分布特征。
10页。
2.9 某百货公司 6月份各天的销售额数据如下(单位:万元):
257 276 297 252 238 310 240 236 265 27
8
271 292 261 281 301 274 267 280 291 25
8
272 284 268 303 273 263 322 249 269 29
5
(1)计算该百货公司日销售额的均值、中位数和四分位数;
(2)计算日销售额的标准差。
2.10 甲乙两个企业生产三种产品的单位成本和总成本资料如下:
2.11 在某地区抽取的 120家企业按利润额进行分组,结果如下:按利润额分组(万
元)
企业数(个)
200~300
300~400 30
400~500 42
500~600 18
600以上 11
合计
计算 120家企业利润额的均值和标准差。
2.12 为研究少年儿童的成长发育状况,某研究所的一位调查人员在 某城市抽取 100名 7~17岁的少年儿童作为样本,另一位调查人 员则抽取了 1000名 7~17岁的少年儿童作为样本。请回答下面的 问题,并解释其原因。
(1)哪一位调查研究人员在其所抽取的样本中得到的少年儿童 的平均身高较大?或者这两组样本的平均身高相同?
(2)哪一位调查研究人员在其所抽取的样本中得到的少年儿童 身高的标准差较大?或者这两组样本的标准差相同?
(3)哪一位调查研究人员有可能得到这 1100名少年儿童的最高者或 最低者?或者对两位调查研究人员来说,这种机会是相同的? 2.13 一项关于大学生体重状况的研究发现,男生的平均体重为 60公斤,标准差为 5公斤;女生的平均体重为 50公斤,标准差为 5公斤。请回答下面的问题:
(1)是男生的体重差异大还是女生的体重差异大?为什么?
(2) 以磅为单位 (1公斤=2.2磅) , 求体重的平均数和标准差。
(3) 粗略地估计一下, 男生中有百分之几的人体重在 55公斤到 65公斤之间?
(4) 粗略地估计一下, 女生中有百分之几的人体重在 40公斤到 60公斤之间?
2.14 对 10名成年人和 10名幼儿的身高(厘米)进行抽样调查,结 果如下:
成 年
组 6 9 2 7 0 0 2 4 8 3
幼 儿
组
68 69 68 70 71 73 72 73 74 75
(1)要比较成年组和幼儿组的身高差异,你会采用什么样的指 标测度值?为什么?
(2)比较分析哪一组的身高差异大?
2.15 一种产品需要人工组装,现有三种可供选择的组装方法。 为检 验哪种方法更好, 随机抽取 15个工人, 让他们分别用三种方法组 装。 下面是 15个工人分别用三种方法在相同的时间内组装的产品 数量(单位:个):
方法 A 方法 B 方法 C
167 130 126
168 129 126
165 130 127
170 131 126
165 130 128
164 129 127
168 127 126
164 128 127
162 128 127
163 127 125
166 128 126
167 128 116
166 125 126
165 132 125
(1) 你准备采用什么方法来评价组装方法的优劣?
(2) 如果让你选择一种方法,你会作出怎样的选择?试说明理 由。
2.16 在金融证券领域,一项投资的的预期收益率的变化通常用该项 投资的风险来衡量。预期收益率的变化越小,投资风险越低,预 期收益率的变化越大,投资风险就越高。下面的两个直方图,分 别反映了 200种商业类股票和 200种高科技类股票的收益率分布。 在股票市场上, 高收益率往往伴随着高风险。 但投资于哪类股票, 往往与投资者的类型有一定关系。
(1)你认为该用什么样的统计测度值来反映投资的风险?
(2) 如果选择风险小的股票进行投资, 应该选择商业类股票还是 高科技类股票?
(3)如果你进行股票投资,你会选择商业类股票还是高科技类股 票?
-30 0 30 60 -30 0 30 60
收 益 率 收 益 率
(a)商业类股票 (b) 高科技 类股票
2.17 下图给出了 2000年美国人口年龄的金字塔, 其绘制方法及其数 字说明与【例 2.10】相同,试对该图反映的人口、政治、社会、 经济状况进行分析。
答案
2.1 (1) 属于顺序数据。
(2) 频数分布表如下:
服务质量等级评价的频数分布
服务质量等
级 家庭数(频率)
频率 %
A 14 14
B 21 21
C 32 32
D 18 18
E 15 15
合计 100 100
(3)条形图(略)
2.2 (1)频数分布表如下:
按销售收入分组 (万
元)
企业数 (个) 频率(%)
先进企业 良好企业 一般企业 落后企业 11
11
9
9
27.5 27.5 22.5 22.5
合计 40 100.0 2.3 频数分布表如下:
某百货公司日商品销售额分组表 按销售额分组(万
元)
频数(天) 频率(%)
25~30 30~35 35~40 40~45 45~50
4
6
15
9
6
10.0 15.0 37.5 22.5 15.0
合计 40 100.0 直方图(略)。
2.4 (1)排序略。
(2)频数分布表如下:
100只灯泡使用寿命非频数分布
按使用寿命分组(小 时) 灯泡个数
(只)
频率(%)
660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计 100100直方图(略)。
(3)茎叶图如下:
2.5
(2)分组结果如下:
分组 天数(天) -20~-15 8
-15~-10 10
-10~-5 13
-5~0 12
0~5 4
5~10 7
合计 60
(3)直方图(略)。
2.6 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
成绩的分布比 A 班分散,
且平均成绩较 A 班低。
2.8 箱线图如下:(特征请读者自己分析)
2.9 (1) =274.1(万元) ; Me =272.5 ; Q L =260.25; Q U =291.25。 (2) (万元)。
2.10 (1)甲企业平均成本=19.41(元),乙企业平均成本=18.29 (元);原因:尽管两个企业的单位成本相同,但单位成本较低的产 品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 2.11 均值 =426.67(万元);标准差 =116.48(万元)。
2.12 (1)(2)两位调查人员所得到的平均身高和标准差应该差不 多相同,因为均值和标准差的大小基本上不受样本大小的影响。 (3)具有较大样本的调查人员有更大的机会取到最高或最低者, 因为样本越大,变化的范围就可能越大。
2.13 (1)女生的体重差异大,因为女生其中的离散系数为 0.1大于 男生体重的离散系数 0.08。
(2) 男生:均值 =27.27(磅) , 标准差 =2.27(磅) ; 女生:均值 =22.73(磅) , 标准差 =2.27(磅) ;
(3) 68%;
(4) 95%。
2.14 (1)离散系数,因为它消除了不同组数据水平高地的影响。 (2)成年组身高的离散系数:Vx=4.2/172.1=0.024;
幼儿组身高的离散系数:Vx=2.3/71.3=0.032;
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明 幼儿组身高的离散程度相对较大。
2.15 表给出了一些主要描述统计量,请读者自己分析。
2.16 (1)方差或标准差;(2)商业类股票;(3)(略)。 2.17 (略)。
第 3章 概率与概率分布
练习:
3.1 某技术小组有 12人,他们的性别和职称如下,现要产生一名幸 运者。 试求这位幸运者分别是以下几种可能的概率:(1) 女性; (2) 工程师; (3)女工程师, (4)女性或工程师。并说明几个计算结果 之间有何关系?
3.2 某种零件加工必须依次经过三道工序,从已往大量的生产记录 得知,第一、二、三道工序的次品率分别为 0.2, 0.1, 0.1,并且每 道工序是否产生次品与其它工序无关。试求这种零件的次品率。 3.3 已知参加某项考试的全部人员合格的占 80%, 在合格人员中成 绩优秀只占 15%。试求任一参考人员成绩优秀的概率。
3.4某项飞碟射击比赛规定一个碟靶有两次命中机会 (即允许在第一 次脱靶后进行第二次射击)。某射击选手第一发命中的可能性是 80%,第二发命中的可能性为 50%。求该选手两发都脱靶的概率。 3.5 已知某地区男子寿命超过 55岁的概率为 84%, 超过 70岁以上 的概率为 63%。试求任一刚过 55岁生日的男子将会活到 70岁以上 的概率为多少?
3.6某企业决策人考虑是否采用一种新的生产管理流程。 据对同行的 调查得知,采用新生产管理流程后产品优质率达 95%的占四成,优
质率维持在原来水平(即 80%)的占六成。该企业利用新的生产管 理流程进行一次试验, 所生产 5件产品全部达到优质。 问该企业决策 者会倾向于如何决策?
3.7某公司从甲、乙、丙三个企业采购了同一种产品,采购数量分别 占总采购量的 25%、 30%和 45%。这三个企业产品的次品率分别为 4%、 5%、 3%。如果从这些产品中随机抽出一件,试问:(1)抽出 次品的概率是多少?(2)若发现抽出的产品是次品,问该产品来自 丙厂的概率是多少?
3.8某人在每天上班途中要经过 3个设有红绿灯的十字路口。 设每个 路口遇到红灯的事件是相互独立的, 且红灯持续 24秒而绿灯持续 36秒。 试求他途中遇到红灯的次数的概率分布及其期望值和方差、 标准 差。
3.9 一家人寿保险公司某险种的投保人数有 20000人, 据测算被保险 人一年中的死亡率为万分之 5。保险费每人 50元。若一年中死亡, 则保险公司赔付保险金额 50000元。 试求未来一年该保险公司将在该 项保险中(这里不考虑保险公司的其它费用):
(1)至少获利 50万元的概率;
(2)亏本的概率;
(3)支付保险金额的均值和标准差。
3.10 对上述练习题 3.09的资料,试问:
(1)可否利用泊松分布来近似计算?
(2)可否利用正态分布来近似计算?
(3)假如投保人只有 5000人,可利用哪种分布来近似计算? 3.11某企业生产的某种电池寿命近似服从正态分布,且均值为 200小时,标准差为 30小时。若规定寿命低于 150小时为不合格品。试 求该企业生产的电池的:(1)合格率是多少?(2)电池寿命在 200左右多大的范围内的概率不小于 0.9。
3.12某商场某销售区域有 6种商品。假如每 1小时内每种商品需要 12分钟时间的咨询服务,而且每种商品是否需要咨询服务是相互独 立的。 求:(1) 在同一时刻需用咨询的商品种数的最可能值是多少?
(2)若该销售区域仅配有 2名服务员,则因服务员不足而不能提供 咨询服务的概率是多少?
答案:
3.1设 A =女性, B =工程师, AB =女工程师, A+B=女性或工程师
(1) P(A)=4/12=1/3
(2) P(B)=4/12=1/3
(3) P(AB)=2/12=1/6
(4) P(A+B)=P(A)+P(B)-P(AB)=1/3+1/3-1/6=1/2
3.2求这种零件的次品率,等于计算“任取一个零件为次品”(记为 A )的概率 。
考虑逆事件 “任取一个零件为正品”,表示通过三道工序都合 格。据题意,有:
于是
3.3设 A 表示“合格”, B 表示“优秀”。由于 B =AB ,于是 =0.8×0.15=0.12
3.4 设 A =第 1发命中。 B =命中碟靶。求命中概率是一个全概率的 计算问题。再利用对立事件的概率即可求得脱靶的概率。
=0.8×1+0.2×0.5=0.9
脱靶的概率=1-0.9=0.1
或(解法二) :P (脱靶 ) =P (第 1次脱靶 )×P(第 2次脱靶 ) =0.2×0.5 =0.1
3.5 设 A =活到 55岁, B =活到 70岁。所求概率为:
3.6这是一个计算后验概率的问题。
设 A =优质率达 95%, =优质率为 80%, B =试验所生产的 5件全部优质。
P(A)=0.4, P () =0.6, P (B|A)=0.955, P(B|)=0.85, 所求概率为:决策者会倾向于采用新的生产管理流程。
3.7 令 A 1、 A 2、 A 3分别代表从甲、乙、丙企业采购产品, B 表示次 品。由题意得:P (A 1) =0.25, P (A 2) =0.30, P (A 3) =0.45; P (B |A 1) = 0.04, P (B |A 2) =0.05, P (B |A 3) =0.03;因此,所求概率分别为:
(1)
=0.25×0.04+0.30×0.05+0.45×0.03=0.0385
(2)
3.8据题意,在每个路口遇到红灯的概率是 p =24/(24+36)=0.4。 设途中遇到红灯的次数=X ,因此, X ~B (3, 0.4) 。其概率分布 如下表:
(次) 3.9 设被保险人死亡数=X , X ~B (20000, 0.0005) 。
(1)收入=20000×50(元) =100万元。要获利至少 50万元,则 赔付保险金额应该不超过 50万元, 等价于被保险人死亡数不超过 10人。所求概率为:P(X ≤ 10) =0.58304。
(2) 当被保险人死亡数超过 20人时, 保险公司就要亏本。 所求概率 为:
P(X >20)=1-P(X ≤20) =1-0.99842=0.00158
(3)支付保险金额的均值=50000×E (X )
=50000×20000×0.0005(元)=50(万元)
支付保险金额的标准差=50000×σ(X )
=50000×(20000×0.0005×0.9995) 1/2=158074(元)
3.10 (1)可以。当 n 很大而 p 很小时,二项分布可以利用泊松分布 来近似计算。本例中, λ= np =20000×0.0005=10,即有 X ~P (10)。计 算结果与二项分布所得结果几乎完全一致。
(2)也可以。尽管 p 很小,但由于 n 非常大, np 和 np(1-p)都大 于 5,二项分布也可以利用正态分布来近似计算。
本 例 中 , np =20000×0.0005=10, np (1-p )=20000×0.0005×(1-0.0005)=9.995,
即有 X ~N (10,9.995)。相应的概率为:
P (X ≤ 10.5) =0.51995, P(X≤ 20.5) =0.853262。
可见误差比较大(这是由于 P 太小,二项分布偏斜太严重)。 【注】由于二项分布是离散型分布,而正态分布是连续性分布, 所以, 用正态分布来近似计算二项分布的概率时, 通常在二项分布的 变量值基础上加减 0.5作为正态分布对应的区间点, 这就是所谓的 “连 续性校正”。
(3)由于 p =0.0005,假如 n =5000,则 np =2.5<5,二项分布呈 明显的偏态,="" 用正态分布来计算就会出现非常大的误差。="" 此时宜用泊="">5,二项分布呈>
3.11(1)=0.04779
合格率为 1-0.04779=0.95221或 95.221%。
(2) 设所求值为 K ,满足电池寿命在 200±K 小时范围内的概率不 小于 0.9,即有:
即:, K /30≥ 1.64485, 故 K ≥ 49.3456。
3.12设 X =同一时刻需用咨询服务的商品种数,由题意有 X ~ B(6,0.2)
(1) X 的最可能值为:X 0=[(n+1)p]=[7×0.2]=1 (取 整数)
(2)
=1-0.9011=0.0989
第 4章 抽样与抽样分布
练习:
4.1 一个具有 个观察值的随机样本抽自于均值等于 20、 标准差 等于 16的总体。
⑴ 给出 的抽样分布(重复抽样)的均值和标准差
⑵ 描述 的抽样分布的形状。你的回答依赖于样本容量吗? ⑶ 计算标准正态 统计量对应于 的值。
⑷ 计算标准正态 统计量对应于 的值。
4.2 参考练习 4.1求概率。
⑴ <16; ⑵="">23; ⑶ >25; ⑷ . 落在 16和 22之间; ⑸ <14。 4.3="" 一个具有="" 个观察值的随机样本选自于="" 、="" 的总="">14。>
4.4 一个具有 个观察值的随机样本选自于 和 的总 体。
⑴ 你预计 的最大值和最小值是什么?
⑵ 你认为 至多偏离 多么远?
⑶ 为了回答 b 你必须要知道 吗?请解释。
4.5 考虑一个包含 的值等于 0, 1, 2, … , 97, 98, 99的总体。假 设 的取值的可能性是相同的。 则运用计算机对下面的每一个 值 产生 500个随机样本,并对于每一个样本计算 。对于每一个样 本容量, 构造 的 500个值的相对频率直方图。 当 值增加时在直 方 图 上 会 发 生 什 么 变 化 ? 存 在 什 么 相 似 性 ? 这 里 和 。
4.6 美国汽车联合会 (AAA ) 是一个拥有 90个俱乐部的非营利联盟, 它对其成员提供旅行、金融、保险以及与汽车相关的各项服务。 1999年 5月, AAA 通过对会员调查得知一个 4口之家出游中平 均每日餐饮和住宿费用大约是 213美元 (《旅行新闻》 Travel News, 1999年 5月 11日)。假设这个花费的标准差是 15美元,并且 AAA 所报道的平均每日消费是总体均值。又假设选取 49个 4口 之家,并对其在 1999年 6月期间的旅行费用进行记录。
⑴ 描述 (样本家庭平均每日餐饮和住宿的消费)的抽样分布。 特别说明 服从怎样的分布以及 的均值和方差是什么?证明 你的回答;
⑵ 对于样本家庭来说平均每日消费大于 213美元的概率是什 么?大于 217美元的概率呢?在 209美元和 217美元之间的概 率呢?
4.7 技术人员对奶粉装袋过程进行了质量检验。每袋的平均重量标 准为 克、标准差为 克。监控这一过程的技术人者每 天随机地抽取 36袋,并对每袋重量进行测量。现考虑这 36袋奶 粉所组成样本的平均重量 。
(1) 描述 的抽样分布, 并给出 和 的值, 以及概率分布的形 状;
(3) 假设某一天技术人员观察到 , 这是否意味着装袋过 程出现问题了呢,为什么?
4.8 在本章的统计实践中, 某投资者考虑将 1000美元投资于 种 不同的股票。每一种股票月收益率的均值为 ,标准差 。对于这五种股票的投资组合,投资者每月的收益率是
。投资者的每月收益率的方差是 ,它是投 资者所面临风险的一个度量。
⑴ 假如投资者将 1000美元仅投资于这 5种股票的其中 3种,则 这个投资者所面对的风险将会增加还是减少?请解释;
⑵ 假设将 1000美元投资在另外 10种收益率与上述的完全一样的 股票,试度量其风险,并与只投资 5种股票的情形进行比较。 4.9 某制造商为击剑运动员生产安全夹克,这些夹克是以剑锋刺入 其中时所需的最小力量(以牛顿为单位)来定级的。如果生产工 艺操作正确,则他生产的夹克级别应平均 840牛顿,标准差 15牛顿。国际击剑管理组织(FIE )希望这些夹克的最低级别不小 于 800牛顿。为了检查其生产过程是否正常,某检验人员从生产 过程中抽取了 50个夹克作为一个随机样本进行定级,并计算 , 即该样本中夹克级别的均值。 她假设这个过程的标准差是固定的, 但是担心级别均值可能已经发生变化。
⑴ 如果该生产过程仍旧正常,则 的样本分布为何?
⑵ 假设这个检验人员所抽取样本的级别均值为 830牛顿, 则如果 生产过程正常的话,样本均值 ≤ 830牛顿的概率是多少? ⑶ 在检验人员假定生产过程的标准差固定不变时, 你对 b 部分有 关当前生产过程的现状有何看法(即夹克级别均值是否仍为 840牛顿)?
⑷ 现在假设该生产过程的均值没有变化,但是过程的标准差从 15牛顿增加到了 45牛顿。 在这种情况下 的抽样分布是什么? 当 具有这种分布时,则 ≤ 830牛顿的概率是多少?
4.10 在任何生产过程中,产品质量的波动都是不可避免的。产品质 量的变化可被分成两类:由于特殊原因所引起的变化(例如,某 一特定的机器),以及由于共同的原因所引起的变化(例如,产 品的设计很差)。
一个去除了质量变化的所有特殊原因的生产过程被称为是 稳 定的 或者是 在统计控制中的 。剩余的变化只是简单的随机变化。 假如随机变化太大,则管理部门不能接受,但只要消除变化的共 同原因,便可减少变化(Deming,1982,1986;De Vor, Chang, 和 Sutherland,1992)。
通常的做法是将产品质量的特征绘制到控制图上, 然后观察这 些数值随时间如何变动。例如,为了控制肥皂中碱的数量,可以
每小时从生产线中随机地抽选 块试验肥皂作为样本,并测量 其碱的数量,不同时间的样本含碱量的均值 描绘在下图中。假 设这个过程是在统计控制中的, 则 的分布将具有过程的均值 ,
标准差具有过程的标准差除以样本容量的平方根, 。下 面的控制图中水平线表示过程均值,两条线称为控制极限度,位 于 的上下 3的位置。 假如 落在界限的外面, 则有充分的理由 说明目前存在变化的特殊原因,这个过程一定是失控的。
当生产过程是在统计控制中时, 肥皂试验样本中碱的百分比 将服从 和 的近似的正态分布。
⑴ 假设 则上下控制极限应距离 多么远?
⑵ 假如这个过程是在控制中, 则 落在控制极限之外的概率是多 少?
⑶ 假设抽取样本之前, 过程均值移动到 , 则由样本得出这 个过程失控的(正确的)结论的概率是多少?
4.11 参考练习 4.10。 肥皂公司决定设置比练习 4.10中所述的 这一 限度更为严格的控制极限。特别地,当加工过程在控制中时,公 司愿意接受 落在控制极限外面的概率是 0.10。
⑴ 若公司仍想将控制极限度设在与均值的上下距离相等之处, 并 且仍计划在每小时的样本中使用 个观察值, 则控制极限应 该设定在哪里?
⑵ 假设 a 部分中的控制极限已付诸实施, 但是公司不知道, 现 在是 3%(而不是 2%)。若 ,则 落在控制极限外面的 概率是多少?若 呢?
4.12 参考练习 4.11。为了改进控制图的敏感性,有时将警戒线与控 制极限一起画在图上。警戒限一般被设定为 。假如有两 个连续的数据点落在警戒限之外,则这个过程一定是失控的(蒙 哥马利, 1991年)。
⑴ 假设肥皂加工过程是在控制中(即,它遵循 和 的 正态分布),则 的下一个值落在警戒限之外的概率是什么? ⑵ 假设肥皂加工过程是在控制中, 则你预料到画在控制图上的 的这 40个值中有多少个点落在上控制极限以上?
⑶ 假设肥皂加工过程是在控制中, 则 的两个未来数值落在下警 戒线以下的概率是多少?
答案
4.1 ⑴ 20, 2; ⑵ 近似正态; ⑶ -2.25; ⑷ 1.50。 4.2 ⑴ 0.0228; ⑵ 0.0668; ⑶ 0.0062; ⑷ 0.8185; ⑸ 0.0013。
4.3 ⑴ 0.8944; ⑵ 0.0228; ⑶ 0.1292; ⑷ 0.9699。 4.4 ⑴ 101, 99 ⑵ 1 ; ⑶ 不必。
4.5 趋向正态。
4.6 ⑴ 正态分布 , 213, 4.5918; ⑵ 0.5, 0.031, 0.938。 4.7 ⑴ 406, 1.68, 正态分布; ⑵ 0.001; ⑶是,因为小概率 出现了。
4.8 ⑴ 增加; ⑵ 减少。
4.9 ⑴ 正态; ⑵ 约等于 0; ⑶ 不正常; ⑷ 正态 , 0.06。 4.10 ⑴ 0.015; ⑵ 0.0026; ⑶ 0.1587。
4.11 ⑴ (0.012, 0.028) ; ⑵ 0.6553, 0.7278。
4.12 ⑴ 0.05; ⑵ 1 ; ⑶ 0.000625。
第 5章 参数估计
练习:
5.1 从一个标准差为 5的总体中抽出一个容量为 40的样本,样本均 值为 25。
(1) 样本均值的抽样标准差 等于多少?
(2) 在 95%的置信水平下,允许误差是多少?
5.1 某快餐店想要估计每位顾客午餐的平均花费金额, 在为期 3周的 时间里选取 49名顾客组成了一个简单随机样本。
(1) 假定总体标准差为 15元,求样本均值的抽样标准误差;
(2) 在 95%的置信水平下,求允许误差;
(3) 如果样本均值为 120元,求总体均值 95%的置信区间。 5.2 某大学为了解学生每天上网的时间,在全校 7500名学生中采取 不重复抽样方法随机抽取 36人, 调查他们每天上网的时间, 得到 下面的数据(单位:小时):
4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3
2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5
4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5
求该校大学生平均上网时间的置信区间,置信水平分别为 90%、 95%和 99%。
5.3 从一个正态总体中随机抽取容量为 8 的样本, 各样本值分别为: 10,8,12,15,6,13,5,11。求总体均值 95%的置信区间。
5.4 某居民小区为研究职工上班从家里到单位的距离,抽取了由 16个人组成的一个随机样本,他们到单位的距离(公里)分别是: 10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2
求职工上班从家里到单位平均距离 95%的置信区间。
5.5 在一项家电市场调查中, 随机抽取了 200个居民户, 调查他们是 否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占 23%。求总体比率的置信区间,置信水平分别为 90%和 95%。 5.6 某居民小区共有居民 500户, 小区管理者准备采取一向新的供水 设施,想了解居民是否赞成。采取重复抽样方法随机抽取了 50户,其中有 32户赞成, 18户反对。
(1) 求总体中赞成该项改革的户数比率的置信区间,置信水平 为 95%;
(2) 如果小区管理者预计赞成的比率能达到 80%,应抽取多少 户进行调查?
5.7 从两个正态总体中分别抽取两个独立的随机样本, 它们的均值和 标准差如下表:
来自总体 1的样本 来自总体 2的样本
(1) 求 90%的置信区间;
(2) 求 95%的置信区间。
5.8 从两个正态总体中分别抽取两个独立的随机样本, 它们的均值和 标准差如下表:
来自总体 1的样本 来自总体 2的样本
(1) 设 ,求 95%的置信区间;
(2) 设 , ,求 95%的置信区间;
(3) 设 , ,求 95%的置信区间;
(4) 设 , ,求 95%的置信区间;
(5) 设 , ,求 95%的置信区间。 5.9 下表是由 4对观察值组成的随机样本:
配对号 来自总体 A 的样 来自总体 B 的样
本 本
2 5 7
3 10 6
4 8 5
(1) 计算 A 与 B 各对观察值之差, 再利用得出的差值计算 和 ;
(2) 设 和 分别为总体 A 和总体 B 的均值,构造
95%的置信区间。
5.10 从两个总体中各抽取一个 的独立随机样本,来自总 体 1的样本比率为 ,来自总体 2的样本比率为 。
(1) 构造 90%的置信区间;
(2) 构造 95%的置信区间。
5.11 生产工序的方差是共需质量的一个重要度量。当方差较大时, 需要对共需进行改进以减小方差。下面是两部机器生产的袋茶重 量(克)的数据:
构造两个总体方差比 95%的置信区间。
5.12 根据以往的生产数据, 某种产品的废品率为 2%。 如果要求 95%的置信区间,若要求允许误差不超过 4%,应抽取多大的样本? 5.13 某超市想要估计每个顾客平均每次购物花费的金额。根据过去 的经验,标准差大约为 120元,现要求以 95%的置信水平估计每 个购物金额的置信区间, 并要求允许误差不超过 20元, 应抽取多 少个顾客作为样本?
5.14 假定两个总体的标准差分别为:, ,若要求误差 范围不超过 5,相应的置信水平为 95%,假定 ,估计两个 总体均值之差 时所需的样本容量为多大?
5.15 假定 ,允许误差 ,相应的置信水平为 95%,估计 两个总体比率之差 时所需的样本容量为多大?
答案
5.1 (1) ;(2) E =1.55。
5.2 (1) ;(2) E =4.2;(3)(115.8,124.2)。
5.3 (2.88,3.76); (2.80,3.84); (2.63,4.01)。
5.4 (7.1,12.9)。
5.5 (7.18,11.57)。
5.6 (18.11%,27.89%);(17.17%,22.835)。
5.7 (1)(51.37%,76.63%);(2) 36。
5.8 (1.86,17.74);(0.19,19.41)。
5.9 (1) 2±1.176; (2) 2±3.986; (3) 2±3.986; (4) 2±3.587; (5) 2±3.364。
5.10 (1) , ;(2) 1.75±4.27。
5.11 (1) 10%±6.98%;(2) 10%±8.32%。
5.12 (4.06,14.35)。
5.13 48。
5.14 139。
5.15 57。
5.16 769。
第 6章 假设检验
练习:
5.16 某乐器厂以往生产的乐器采用的是一种镍合金弦线,这种弦线 的平均抗拉强度不超过 1035Mpa , 现产品开发小组研究了一种新 型弦线, 他们认为其抗拉强度得到了提高并想寻找证据予以支持。 在对研究小组开发的产品进行检验时,应该采取以下哪种形式的 假设?为什么?
5.17 研究人员发现,当禽类被拘禁在一个很小的空间内时,就会发 生同类相残的现象。一名孵化并出售小鸡的商人想检验某一品种 的小鸡因为同类相残而导致的死亡率是否小于 0.04。试帮助这位 商人定义检验参数并建立适当的原假设和备择假设。
5.18 一条产品生产线用于生产玻璃纸,正常状态下要求玻璃纸的横 向延伸率为 65,质量控制监督人员需要定期进行抽检,如果证实 玻璃纸的横向延伸率不符合规格, 该生产线就必须立即停产调整。
监控人员应该怎样提出原假设和备择假设,来达到判断该生产线 是否运转正常的目的?
5.19 一家大型超市连锁店上个月接到许多消费者投诉某种品牌炸土 豆片中 60克一袋的那种土豆片的重量不符。 店方猜想引起这些投 诉的原因是运输过程中沉积在食品袋底部的土豆片碎屑,但为了 使顾客们对花钱买到的土豆片感到物有所值,店方仍然决定对来 自于一家最大的供应商的下一批袋装炸土豆片的平均重量 (克) 进行检验,假设陈述如下:
如果有证据可以拒绝原假设,店方就拒收这批炸土豆片并向供应 商提出投诉。
(1)与这一假设检验问题相关联的第一类错误是什么?
(2)与这一假设检验问题相关联的第二类错误是什么?
(3) 你认为连锁店的顾客们会将哪类错误看得较为严重?而供应 商会将哪类错误看得较为严重?
5.20 某种纤维原有的平均强度不超过 6克,现希望通过改进工艺来 提高其平均强度。 研究人员测得了 100个关于新纤维的强度数据, 发现其均值为 6.35。假定纤维强度的标准差仍保持为 1.19不变, 在 5%的显著性水平下对该问题进行假设检验。
(1) 选择检验统计量并说明其抽样分布是什么样的?
(2) 检验的拒绝规则是什么?
(3) 计算检验统计量的值,你的结论是什么?
5.21 一项调查显示, 每天每个家庭看电视的平均时间为 7.25个小时, 假定该调查中包括了 200个家庭,且样本标准差为平均每天 2.5个小时。据报道, 10年前每天每个家庭看电视的平均时间是 6.70个小时, 取显著性水平 =0.01, 这个调查是否提供了证据支持你 认为“如今每个家庭每天收看电视的平均时间增加了”?
5.22 经验表明,一个矩形的宽与长之比等于 0.618的时候会给人们 比较良好的感觉。某工艺品工厂生产的矩形工艺品框架的宽与长 要求也按这一比率设计,假定其总体服从正态分布,现随机抽取 了 20个框架测得比值分别为:
0.699 0.749 0.654 0.670 0.612
0.672 0.615 0.606 0.690 0.628
0.668 0.611 0.606 0.609 0.601
0.553 0.570 0.844 0.576 0.933
在显著性水平 =0.05时能否认为该厂生产的工艺品框架宽与 长的平均比率为 0.618?
5.23 一个著名的医生声称有 75%的女性所穿鞋子过小, 一个研究组 织对 356名女性进行了研究,发现其中有 313名妇女所穿鞋子的 号码至少小一号。取 =0.01,检验如下的假设:
对这个医生的论断你有什么看法?
5.24 一个视频录像设备(VCR )的平均使用寿命为 6年,标准差为 0.75年, 而抽选了由 30台电视组成的一个随机样本表明, 电视使 用寿命的样本方差为 2年。试构造一个假设检验,能够帮助判定 电视的使用寿命的方差是否显著大于视频录像设备的使用寿命的 标准差。并在 =0.05的显著性水平下做出结论。
5.25 某生产线是按照两种操作平均装配时间之差为 5分钟而设计 的,两种装配操作的独立样本产生如下资料:
操作 A 操作 B
=100 =50
=14.8分钟 =10.4分钟
=0.8分钟 =0.6分钟
对 =0.02,检验平均装配时间之差是否等于 5分钟。
5.26 某市场研究机构用一组被调查者样本来给某特定商品的潜在购 买力打分。样本中每个人都分别在看过该产品的新的电视广告之 前与之后打分。潜在购买力的分值为 0~10分,分值越高表示潜 在购买力越高。原假设认为“看后” 平均得分小于或等于“看前” 平均得分,拒绝该假设就表明广告提高了平均潜在购买力得分。 对 =0.05的显著性水平,用下列数据检验该假设,并对该广告 给予评价。
册子由旅游管理当局向有需要的旅游者免费提供。有人曾进行过 一项研究,内容是调查信息的追求者(即需要旅游手册者)与非 追求者之间在种种旅游消费方面的差别。两个独立随机样本分别 由 288名信息追求者和 367名非信息追求者组成。对样本成员就 他们最近一次离家两天或两天以上的愉快旅行或度假提出若干问 题。问题之一是:“你这次度假是积极的(即主要包括一些富有 挑战性的事件或教育活动),还是消极的(即主要是休息和放 松)?”每个样本中消极休假的人数列于下表,试问:这些数据
是否提供了充分证据,说明信息追求者消极度假的可能性比非信 息追求者小?显著性水平 =0.10。
信息追求者 非信息追求者
被调查人数
消极度假人数 197 301
5.28 生产工序中的方差是工序质量的一个重要测度,通常较大的方 差就意味着要通过寻找减小工序方差的途径来改进工序。某杂志 上刊载了关于两部机器生产的袋茶重量的数据 (单位为克) 如下, 请进行检验以确定这两部机器生产的袋茶重量的方差是否存在显 著差异。取 =0.05。
机器
1
2.95 3.45 3.50 3.75 3.48 3.26 3.33 3.20
3.16 3.20 3.22 3.38 3.90 3.36 3.25 3.28 3.20 3.22 2.98 3.45 3.70 3.34 3.18 3.35 3.12
机器
2
3.38 3.34 3.35 3.19 3.35 3.05 3.36 3.28 3.30 3.28 3.30 3.20 3.16 3.33
5.29 为比较新旧两种肥料对产量的影响, 一边决定是否采用新肥料。 研究者选择了面积相等、 土壤等条件相同的 40块田地, 分别施用 新旧两种肥料,得到的产量数据如下:
(1)新肥料获得的平均产量是否显著地高于旧肥料?假定条件 为:
a) 两种肥料产量的方差未但相等,即 ;
b) 两种肥料产量的方差未且不相等,即 。
⑵ 两种肥料产量的方差是否有显著差异?
答案
6.1 研究者想要寻找证据予以支持的假设是 “新型弦线的平均抗拉强 度 相 对 于 以 前 提 高 了 ” , 所 以 原 假 设 与 备 择 假 设 应 为 :
6.2
=“某一品种的小鸡因为同类相残而导致的死亡率”,
6.3
, 。
6.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的 确大于等于 60克,但检验结果却提供证据支持店方倾向于认为 其重量少于 60克;
(2) 第二类错误是该供应商提供的这批炸土豆片的平均重量其实 少于 60克,但检验结果却没有提供足够的证据支持店方发现这 一点,从而拒收这批产品;
(3) 连锁店的顾客们自然看重第二类错误, 而供应商更看重第一 类错误。
6.5 (1)检验统计量 ,在大样本情形下近似服从标准正 态分布;
(2)如果 ,就拒绝 ;
(3)检验统计量 =2.94>1.645,所以应该拒绝 。
6.6
=3.11,拒绝 。
6.7
=1.93,不拒绝 。
6.8
=7.48,拒绝 。
6.9
=206.22,拒绝 。
6.10
=-5.145,拒绝 。
6.11
=1.36,不拒绝 。
6.12
=-4.05,拒绝 。
6.13
=8.28,拒绝 。
6.14 (1)检验结果如下:
t -检验 : 双样本等方差假设
变量 1 变量 2
平均 100.7 109.9
方差 24.11578947 33.3578947 4
观测值 20 20 合并方差 28.73684211
假设平均差 0
df 38
t Stat -5.42710602
9
P (T ≤ t ) 单
尾 1.73712E-06
t 单尾临界 1.685953066
P (T ≤ t ) 双
尾 3.47424E-06
t 双尾临界 2.024394234
t -检验 : 双样本异方差假设
变量 1 变量 2 平均 100.7 109.9
方差 24.11578947 33.3578947 4
观测值 20 20 假设平均差 0
df 37
t Stat -5.42710602 9
P (T ≤ t ) 单
尾 1.87355E-06
t 单尾临界 1.687094482
P (T ≤ t ) 双
尾 3.74709E-06
t 双尾临界 2.026190487
(2)方差检验结果如下:
F -检验 双样本方差分析
变量 1 变量 2 平均 100.7 109.9 方差 24.11578947 33.35789474 观测值 20 20 df 19 19 F 0.722940991
P (F ≤ f ) 单
尾 0.243109655
F 单尾临界 0.395811384
第 7章 方差分析与试验设计
练习:
7.1 从三个总体中各抽取容量不同的样本数据, 得到如下资料。 检验 3个总体的均值之间是否有显著差异?()
样本 1 样本 2 样本 3
148 161 154 169 142
156
149
158 180
7.2 某家电制造公司准备购进一批 5电池,现有 A 、 B 、 C 三个电池生 产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机 抽取 5只电池,经试验得其寿命(小时)数据如下:
()如果有差异,用 LSD 方法检验哪些企业之间有差异? 7.3 某企业准备用三种方法组装一种新的产品, 为确定哪种方法每小时 生产的产品数量最多, 随机抽取了 30名工人, 并指定每个人使用其 中的一种方法。通过对每个工人生产的产品数进行方差分析得到下 面的结果:
(2) 若显著性水平 ,检验三种方法组装的产品数量之间是 否有显著差异?
7.4 有 5种不同品种的种子和 4种不同的施肥方案,在 20快同样面积 的土地上,分别采用 5种种子和 4种施肥方案搭配进行试验,取得 的收获量数据如下表:
肥方案对收获量的影响是否有显著差异?()
7.5 为研究食品的包装和销售地区对其销售量是否有影响,
在某周的三 个不同地区中用三种不同包装方法进行销售,获得的销售量数据如 下:
检验不同的地区和不同的包装方法对该食品的销售量是否有显著 影响?()
7.6 为检验广告媒体和广告方案对产品销售量的影响, 一家营销公司做 了一项试验,考察三种广告方案和两种广告媒体,获得的销售量数 据如下:
著?()
答案
7.1 (或
) , 不能拒绝原假
设。
7.2
(或
) ,拒绝原假
设。 ,拒绝原假设; ,不能拒绝原假设;
,拒绝原假设。
7.3
(或 ) ,不能拒绝
原假设。
7.4 有 5种不同品种的种子和 4种不同的施肥方案,在 20快同样面积
的土地上,分别采用 5种种子和 4种施肥方案搭配进行试验,取得 的收获量数据如下表:
(或
) ,拒绝原假 设。
(或
) ,拒绝原 假设。
7.5 (或 ) ,不能拒绝原假
设。 (或 ) ,不能
拒绝原假设。 7.6 (或 ) ,拒绝原假设。
(或 ) , 不能拒绝原
假设。 (或
) ,不能拒绝 原假设。
第 8章 相关与回归分析
练习:
8.1 表中是道琼斯工业指数(DJIA )和标准普尔 500种股票指数
计算两种指数收益率的相关系数,分析其相关程度, 以 0.05的显 著性水平检验相关系数的显著性。
8.2利用【例 8-3】的表 8.3中提供的各省市人均 GDP 和第一产 业中就业比例的数据 , 试分析各省市人均 GDP 与第一产业就业比例 的相关性,并对其显著性作统计检验。
根据上表资料:
(1)建立每股账面价值和当年红利的回归方程;
(2)解释回归系数的经济意义;
(3) 若序号为 6的公司的股票每股账面价值增加 1元, 估计当年 红利可能为多少?
8.4美国各航空公司业绩的统计数据公布在 《华尔街日报 1999年年 鉴》(The Wall Street Journal Almanac 1999)上。航班正点到达的 比率和每 10万名乘客投诉的次数的数据如下:
(2)根据散点图。表明二变量之间存在什么关系?
(3)求出描述投诉率是如何依赖航班按时到达正点率的估计的回 归方程;
(4)对估计的回归方程的斜率作出解释;
(5)如果航班按时到达的正点率为 80%,估计每 10万名乘客投诉 的次数是多少?
8.5 表中是 1992年亚洲各国人均寿命()、按购买力平价计算 的人均 GDP ()、成人识字率()、一岁儿童疫苗接种率() 的数据
(1)用多元回归的方法分析各国人均寿命与人均 GDP 、成人识字 率、一岁儿童疫苗接种率的关系;
(2)对所建立的回归模型进行检验。
8.6表中给出 对 和 回归的结果:
离差来源 平方和() 自由度() 平 方和的均值()
来自回归() 65965
来自残差()
总离差() 66042 14
(1) 该回归分析中样本容量是多少?
(2) 计算 ;
(3)
和 的自由度是多少? (4) 计算可决系数和修正的可决系数;
(5) 怎样检验 和 对 是否有显著影响?根据以上信息能否确
定 和 各自对 的贡献为多少?
8.7 在计算一元线性回归方程时,已得到以下结果:
试根据此结果,填写下表的空格:
(2) 检验参数的显著性;
(3) 检验整个回归方程的显著性;
(4) 计算总成本对产量的非线性相关指数; (5) 评价此回归分析存在什么不足。
8.9 研究青春发育与远视率(对数视力)的变化关系,测得结果 如下表:
试建立曲线回归方程
答案
8.1(1)利用 Excel 计算结果可知 , 相关系数为 ,说明相 关程度较高。
(2)计算 t 统计量
给定显著性水平 =0.05, 查 t 分布表得自由度 n -2=10-2=8的临界 值 为 2.306,
显然 ,表明相关系数 r 在统计上是显著的。
8.2 利用 Excel 中的 ” 数据分析 ” 计算各省市人均 GDP 和第一产业中 就业比例的相关系数为 :-0.34239,这说明人均 GDP 与第一产业中就 业比例是负相关,但相关系数只有 -0.34239,表明二者负相关程度并 不大。
相关系数检验:
在总体相关系数 的原假设下,计算 t 统计量:
查 t 分布表,自由度为 31-2=29,当显著性水平取 时, =2.045;当显著性水平取 时, =1.699。
由于计算的 t 统计量的绝对值 1.9624小于 =2.045,所以在 的显著性水平下, 不能拒绝相关系数 的原假设。 即是说, 在 的显著性水平下不能认为人均 GDP 与第一产业中就业比例 有显著的线性相关性。
但是计算的 t 统计量的绝对值 1.9624大于 =1.699,所以在 的显著性水平下 , 可以拒绝相关系数 的原假设。即在 的显著性水平下, 可以认为人均 GDP 与第一产业中就业比例有 一定的线性相关性。
8.3 设当年红利为 Y ,每股账面价值为 X
建立回归方程
估计参数为
参数的经济意义是每股账面价值增加 1元时, 当年红利将平均增 加 0.072876元。
序号 6的公司每股账面价值为 19.25元, 增加 1元后为 20.25元, 当年红利可能为:
(元 )
8.4 (1)数据散点图如下:
(2) 根据散点图可以看出, 随着航班正点率的提高, 投诉率呈现 出下降的趋势,两者之间存在着一定的负相关关系。
(3)设投诉率为 Y ,航班正点率为 X
建立回归方程
估计参数为
(4) 参数的经济意义是航班正点率每提高一个百分点, 相应的投 诉率(次 /10万名乘客)下降 0.07。
(5)航班按时到达的正点率为 80%,估计每 10万名乘客投诉的 次数可能为:
(次 /10万)
8.5 由 Excel 回归输出的结果可以看出:
(1)回归结果为
(2) 由 Excel 的计算结果已知:对应的 t 统计量分别为 0.51206、 4.853871、 4.222811、 3.663731 , 其绝对值均大于临界值 , 所以各个自变量都对 Y 有明显影响。
由 F=58.20479, 大于临界值 ,说明模型在整体 上是显著的。
8.6 (1)该回归分析中样本容量是 14+1=15;
(2)计算 RSS =66042-65965=77;
ESS 的自由度为 k-1=2, RSS 的自由度 n -k =15-3=12; (3)计算:可决系数
修正的可决系数
(4)检验 X 2和 X 3对 Y 是否有显著影响
(5) F 统计量远比 F 临界值大,说明 X 2和 X 3联合起来对 Y 有显 著影响,但并不能确定 X 2和 X 3各自对 Y 的贡献为多少。
8.7
8.8(1)用 Excel 输入 Y 和 X 数据,生成 和 的数据,用 Y 对 X 、 、 回归,估计参数结果为
t =(-1.9213) (2.462897) (-2.55934) (3.118062)
(2) 检验 参数 的 显著 性:当取 时 , 查 t 分 布表 得
,与 t 统计量对比,除了截距项外,各回归系数 对应的 t 统计量的绝对值均大于临界值,表明在这样的显著性水 平下,回归系数显著不为 0。
(3) 检 验 整 个 回 归 方 程 的 显 著 性 :模 型 的 , ,说明可决系数较高,对样本数据拟合 较好。由于 F =98.60668,而当取 时,查 F 分布表得
, 因 为 F =98.60668>4.07, 应 拒 绝 ,说明 X 、 、 联合起来对 Y 确有显著影响。 (4)计算总成本对产量的非线性相关系数:因为 因 此总成本对产量的非线性相关系数为 或 R =0.9867466 (5)评价:虽然经 t 检验各个系数均是显著的,但与临界值都十 分接近, 说明 t 检验只是勉强通过, 其把握并不大。 如果取 , 则查 t 分布表得 ,这时各个参数对应的 t 统计量
的绝对值均小于临界值,则在 的显著性水平下都应接受 的原假设。
8.9 利用 Excel 输入 X 、 y 数据,用 y 对 X 回归,估计参数结果为 t 值 =(9.46)(-6.515)
整理后得到:
第 9章 时间序列分析
练习:
9.1 某汽车制造厂 2003年产量为 30万辆。
(1)若规定 2004— 2006年年递增率不低于 6%,其后年递增率不低 于 5%, 2008年该厂汽车产量将达到多少?
(2)若规定 2013年汽车产量在 2003年的基础上翻一番,而 2004年的增长速度可望达到 7.8%, 问以后 9年应以怎样的速度增长才 能达到预定目标?
(3)若规定 2013年汽车产量在 2003年的基础上翻一番,并要求每 年保持 7.4%的增长速度,问能提前多少时间达到预定目标? 9.2 某地区社会商品零售额 1988— 1992年期间(1987年为基期) 每年平均增长 10%, 1993— 1997年期间每年平均增长 8.2%, 1998— 2003年期间每年平均增长 6.8%。问 2003年与 1987年相比该地区社 会商品零售额共增长多少?年平均增长速度是多少?若 1997年社会 商品零售额为 30亿元,按此平均增长速度, 2004年的社会商品零售 额应为多少?
9.3某地区国内生产总值在 1991— 1993年平均每年递增 12%, 1994--1997年平均每年递增 10%, 1998--2000年平均每年递增 8%。试计算:
(1)该地区国内生产总值在这 10年间的发展总速度和平均增长 速度;
(2)若 2000年的国内生产总值为 500亿元,以后平均每年增长 6%,到 2002年可达多少 ?
(3)若 2002年的国内生产总值的计划任务为 570亿元, 一季度 的季节比率为 105%,则 2002年一季度的计划任务应为多少?
9.4 某公司近 10年间股票的每股收益如下(单位:元): 0.64, 0.73, 0.94, 1.14, 1.33, 1.53, 1.67, 1.68, 2.10, 2.50
(1)分别用移动平均法和趋势方程预测该公司下一年的收益;
(2) 通过时间序列的数据和发展趋势判断, 是否是该公司应选择 的合适投资方向?
(2)拟合线性模型测定长期趋势;
(3)预测 2004年各季度鲜蛋销售量。
9.6某地区 2000— 2003年各月度工业增加值的数据如下 (单位 :亿 元 )
(2)用移动平均法分析其长期趋势。
9.7运用练习题 9.7中国各月工业总产值的数据,作以下分析:
(1)分析其长期趋势 ;
(2)剔除长期趋势后分析其季节变动情况, 并与练习题 9.7的分析 结果对比说明有何不同、为什么?
(3)分析是否存在循环变动。
答案
9.1 (1) 30××= 30×1.3131 = 39.393(万辆)
(2)
(3)设按 7.4%的增长速度 n 年可翻一番
则有
所以 n = log2 / log1.074 = 9.71(年)
故能提前 0.29年达到翻一番的预定目标。
9.2 (1)以 1987年为基期, 2003年与 1987年相比该地区社会商 品零售额共增长:
(2)年平均增长速度为
=0.0833=8.33%
(3) 2004年的社会商品零售额应为
(亿元)
9.3 (1)发展总速度
平均增长速度 =
(2) (亿元)
(3)平均数 (亿元),
2002年一季度的计划任务:(亿
元)。
9.4 (1)用每股收益与年份序号回归得 。预测下一年 (第 11年 ) 的每股收益为 元
(2)时间数列数据表明该公司股票收益逐年增加, 趋势方程也表明 平均每年增长 0.193元。是一个较为适合的投资方向。
9.5 (1) 移动平均法消除季节变动计算表
(2)
上表中,其趋势拟合为直线方程 。
根据上表计算的季节比率,按照公式 计算可得: 2004年第一季度预测值:
2004年第二季度预测值:
2004年第三季度预测值:
2004年第四季度预测值:
平均法计算季节比率表:
9.7 (1)采用线性趋势方程法:剔除其长期趋 势。
趋势分析法剔除长期趋势表
剔除长期趋势后分析其季节变动情况表
(3)运用分解法可得到循环因素如下图:
第 10章 统 计 指 数
练习:
⑵ 再用帕氏公式编制四种蔬菜的销售量总指数和价格总指 数;
⑶ 比较两种公式编制出来的销售量总指数和价格总指数的 差异。
10.2 依据上题的资料,试分别采用埃奇沃斯公式、理想公式和 鲍莱公式编制销售量指数; 然后, 与拉氏指数和帕氏指数的结果进行 比较,看看它们之间有什么关系。
10.3 某企业共生产三种不同的产品,有关的产量、成本和销售 价格资料如下表所示:
业的帕氏产量指数;
⑵ 试比较说明:两种产量指数具有何种不同的经济分析意 义?
10.4
数;
⑵ 用计算期加权的调和平均指数公式编制四种蔬菜的价格总 指数;
⑶ 再用基期加权的几何平均指数公式编制四种蔬菜的价格总 指数;
⑷ 比较三种公式编制出来的销售价格总指数的差异。
10.5 利用第 18题的资料和计算结果,试建立适当的指数体系, 并就蔬菜销售额的变动进行因素分析。
10.6 已知某地区 1997年的农副产品收购总额为 360亿元, 1998年比上年的收购总额增长 12%, 农副产品收购价格总指数为 105%。 试考虑, 1998年与 1997年对比:
⑴ 农民因交售农副产品共增加多少收入?
⑵ 农副产品收购量增加了百分之几?农民因此增加了多少收 入?
⑶ 由于农副产品收购价格提高 5%, 农民又增加了多少收入?
⑷ 验证以上三方面的分析结论能否保持协调一致。
10.7 给出某城市三个市场上有关同一种商品的销售资料如下 表:
数和结构变动影响指数;
⑵ 建立指数体系, 从相对数的角度进行总平均价格变动的因 素分析;
⑶ 进一步地, 综合分析销售总量变动和平均价格变动对该种 商品销售总额的影响。
10.8 下表是某工业管理局所属五个企业的各项经济效益指标资 料:
试运用 “标准比值法” 计算各企业的工业经济效益综合指数, 并按综 合效益的好坏对其进行排序。
10.9 依据上题的有关资料,试运用“改进的功效系数法”计算 各企业的工业经济效益综合指数,并按综合效益的好坏对其进行排 序。 比较上面两种方法给出的综合评价结果的差异, 并就产生这种差 异的原因进行深入分析,借以加深对有关综合评价方法的认识。
答案:,
10.8 依据有关公式列表计算各企业的工业经济效益综合指数如下:各企业经济效益综合指数一览表 (标准比值法 )
10.9
表:
各企业经济效益综合指数一览表 (改进的功效系数法 )
综合经济效益排名不同。原因在于两种方法的对比标准不同 (以下具 体说明 ) 。
第 12章 国民经济统计基础知识
练习:
12.1请根据下列资料,试用生产法、分配法和使用法计算 GDP , 并计算国内生产净值、 国民总收入、 国民可支配总收入、 国民可支配 净收入、消费率、储蓄率和投资率。
(1) 生产和消耗 单位:10亿元
范文二:应用统计学(第二版)(参考答案)第6章习题答案
第6章 习题答案
一、思考题(略)
二、选择题
1.D;
2.A ;
3.C ;
4.C ;
5.B;
6.C ;
7.A ;
8.C ;
9.A;
10.C;
11.B;
12.AB ;
13.ABCD ;
14.ACE ;
15.D.
三、计算题
1.(1
)检验统计量z?
(2)检验的拒绝规则是:若z?z??1.645,则拒绝原假设H0:??6g (3)z?2.94,拒绝原假设,即认为改进工艺后纤维的平均强度有显著提高。 2. 不在质量控制状态。 3. 不拒绝H0,外商应该接受该批皮鞋。 4. t?1.668??t???1.833,不拒绝H0,样本证据不足以推翻“该广告不真实”。
5. z?4.8837?z0.025?1.96,拒绝H0,可以认为两厂生产的平均抗压强度有显著差异。
6. z??5.145??z?/2??2.326,拒绝H0,有理由认为两种操作平均装配时间之差不等于5分钟。
四、案例分析(略)
范文三:统计学(第二版)
《统计学第2版》2012年7月课程考试考前练习题
一、单项选择题
1.人口数与出生人数,( A )。
A.前者是时点指标而后者是时期指标 B.前者是时期指标而后者是时点指标 C.两者都是时期指标 D.两者都是时点指标
2.对列名水平进行分析的统计量主要是( D )。 A.频数 B.频率 C.中位数 D.A且B
3.指数按其采用的基期不同,可分为( D )。 A.个体指数和总指数
B.数量指标指数和质量指标指数 C.简单指数和加权指数 D.定基指数和环比指数
4.通常情况下,价格(或物量)指数如按派氏公式编制,其指数值会( A )。 A.偏小 B.偏大
C.偏大偏小不能确定 D.公式的选择没有影响
5.测度数据集中趋势的统计指标有( D )。 A.方差 B.极差 C.平均差 D.众数
6.若假设形式为H0:μ≥μ0,H1:μ<μ0,当随机抽取一个样本,其均值大于μ0,则( d="" a.肯定不拒绝原假设,但有可能犯第ⅰ类错误="" b.有可能不拒绝原假设,但有可能犯第ⅰ类错误="" c.有可能不拒绝原假设,但有可能犯第ⅱ类错误="">μ0,当随机抽取一个样本,其均值大于μ0,则(>
7.某地99年GDP为2 139亿元,若按年均增长9%的速度发展,GDP翻一番所需时间是( B )。 A.11.11年以后 B.8.04年以后 C.11.11年以内 D.8.04年以内
8.假定总体服从正态分布,下列适用t检验统计量的场合是( C )。 A.样本为大样本,且总体方差已知 B.样本为小样本,且总体方差已知 C.样本为小样本,且总体方差未知
。 )
D.样本为大样本,且总体方差未知 9.所谓β错误指的是( A )。
A.原假设为假,接受原假设 B.原假设为假,接受替换假设 C.原假设为真,拒绝替换假设 D.原假设为真,拒绝原假设 10.下列说法正确的是( A )。
A.异众比率的作用是衡量众数对一组数据的代表程度 B.异众比率越大,则众数的代表性越好 C.异众比率不宜用来比较不同总体 D.定类尺度数据不能计算异众比率
11.抛掷一枚均匀的硬币,出现正面的概率是( C )。 A.0 B.0.1 C.0.5 D.1
12.对于线性回归模型Yi=β0+β1X1i+β2X2i+ui估计参数后形成的方差分析表如下:
则该回归方程的判定系数为( C )。 A.0.1667 B.0.4167 C.0.8333 D.0.9843
13.下面哪一个符合概率分布的要求( A )。 A. B. C.
P{X=x}=P{X=x}=P{X=x}=
x
6x4x3
(x=1,2,3)(x=1,2,3)
(x=-1,1,3)
x2
P{X=x}=
8 D.
14.在双侧检验中,如果将两侧的面积之和定义为P值,则对于给定的显著性水平α,拒绝原假设的条件是( D )。 A. B.
(x=-1,1,3)
P=αP<>
C.
P>
D.P<>
15.当正态总体的方差未知时,且为小样本条件下,估计总体均值使用的分布是( B )。 A.正态分布 B.t分布 C.χ分布 D.F分布
16.设因素的水平个数为k,全部观测值的个数为n,组内平方和的自由度为( B )。 A.k B.k-1 C.n-k D.n-1
17.当置信水平一定时,置信区间的宽度( A )。 A.随着样本容量的增大而减小 B.随着样本容量的增大而增大 C.与样本容量的大小无关
D.与样本容量的平方根成正比
18.一项关于大学生体重的调查显示,男生的平均体重为60公斤,标准差为5公斤;女生的平均体重为50公斤,标准差为5公斤。据此数据可以推断( A )。 A.女生体重的差异较大 B.男生体重的差异较大
C.男生和女生的体重差异相同 D.无法判断 19.总体均值的置信区间等于样本均值加减边际误差,其中的边际误差等于所要求置信水平的临界值乘以( A )。
A.样本均值的抽样标准差 B.样本标准差 C.样本方差 D.总体标准差
20.在方差分析中,如果拒绝原假设,则意味着( A )。 A.所检验的各总体均值之间不全相等 B.所检验的各总体均值之间全不相等 C.所检验的各样本均值之间不全相等 D.所检验的各样本均值之间全不相等
21.若两个变量的相关系数为0,则下列说法正确的是( B )。 A.两个变量没有相关关系只有函数关系 B.两个变量还可能有非线性关系 C.两个变量还可能有线性关系 D.两个变量没有任何关系
22.每次试验成功的概率为p,0<><1,则在3次独立的重复试验中,至少失败一次的概率为( b="">1,则在3次独立的重复试验中,至少失败一次的概率为(>
2
A.3(1-p) B.3(1-p)p C.1-p D.(1-p)
33
2
23.指数按其考察对象的范围不同,可分为( A )。 A.个体指数和总指数
B.数量指标指数和质量指标指数 C.简单指数和加权指数 D.定基指数和环比指数
24.对某地区人口按年龄分组如下:4岁以下、4~8岁、……、65~79岁、80~89岁、90~99岁、100岁以上。第一组与最后一组的组中值分别为( C )。 A.1.5岁和104.5岁 B.2岁和104.5岁 C.2岁和105岁 D.1.5岁和105岁
25.必然会发生的事件发生的概率是( D )。 A.0 B.0.1 C.0.5 D.1
26.变量值减去均值后再除以标准差可得到( C )。 A.偏态系数 B.峰度系数 C.标准得分 D.平均差
27.设连续型随机变量X的分布函数是F(X),密度函数是p(x),则对于任意实数α,有
P(X=α)=
( C )。
A.F(X) B.p(x) C.0
D.以上都不对
二、填空题
1. 重叠组限对于越大越好的变量按"_____"的原则归组,而对于越小越好的变量则应按照"_____"的原则归组。 解答:
上限不包括在内;下限不包括在内
2. 加权平均指数是以某一时期的_____为权数对_____加权平均计算出来的。 解答:
总量;个体指数
3. 抽样误差是由于抽样的随机性引起的样本结果与_____之间的误差。 解答: 总体真值
4. 在方差分析中,所要检验的对象称为因子,因子的不同表现称为_____。 解答:
处理或者水平
5. 影响次数分布的要素可分为_____、_____、_____和_____。 解答:
组数;组距;组限;组中值
6. 在无交互作用的双因素方差分析中,总离差平方和SST可以分解为SSA、_____和_____三项。 解答:
SSB,SSE
7. 正态分布的概率密度函数曲线为一对称钟形曲线,曲线的中心由_____决定,曲线的陡峭程度由_____决定。 解答:
均值(μ);方差σ
()或者标准差(σ)
2
8. 在线性回归分析中,只涉及一个自变量的回归称作_____;涉及多个自变量的回归称作_____。 解答:
一元线性回归;多元线性回归
9. 某地区1990年的发电能力为90万千瓦,要求到本世纪末发电能力翻4番,则到2000年的发电能力为_____万千瓦。 解答:
1440
10. 数据的误差包括:_____、_____、_____。 解答:
抽样误差、未响应误差、响应误差
11. 检验一个正态总体的方差时所使用的分布是_____。 解答:
2分布
12. 描述数据的离散趋势的统计量主要有异众比率、极差、四分位差、平均差、_____、标准差、_____。 解答:
方差、离散系数
三、简答题
1. 统计数据可以划分为哪几种类型?分别举例说明。 解答:
统计数据按照所采用计量尺度的不同可划分为三种类型。一种是数值型数据,是指用数字尺度测量的观察值。例如,每天进出海关的旅游人数,某地流动人口的数量等。数值型数据的表现就是具体的数值,统计处理中的大多数都是数值型数据;另一种是分类型数据,是指对数字进行分类的结果,例如人口按性别分为男、女两类,受教育程度也可以按不同类别来区分;再一种是顺序型数据,是指数据不仅是分类的,而且类别是有序的,例如满意度调查中的选项有"非常满意","比较满意","比较不满意","非常不满意",等。在这三类数据中,数值型数据由于说明了事物的数量特征,因此可归为定量数据,分类型数据和顺序型数据由于定义了事物所属的类别,说明了事物的品质特征,因而可统称为定性数据。
2. 为什么在点估计的基础上还要引进区间估计?区间估计中各相关要素的含义和作用是什么? 解答:
点估计的方法就是用一个确定的值去估计未知参数,表面看起来很精确,实际上把握程度不高。因为估计量是来自一个随机抽取的样本,总是带有随机性或偶然性,样本估计量θ
?
恰好等于θ的可能性是很小的;而且点估计并未给出估计精度和可信程度。但估计θ在某一小区间内,并给出估计的精度和可靠度,则把握程度就高多了。这种估计总体参数在某一区间内的方法称作区间估计。如果用数学语言来描述区间估计,则应该是这样的:设X1,X2, Xn是抽自密度为f(x,θ)的一个样本,对于给定的0<><>
P(θ≤θ≤θ)=1-α
,则称(θ、)为θ的置信度为1-α的置信区间,它表达了区间估计的准确
性或精确性;θ和θ均为样本估计量的函数,分别称作置信下限和置信上限;1-α称作置信度或信度或置信概率或置信水平或概率保证程度,它是区间估计可靠性的概率;α称为显著性水平,它表达了区间估计不可靠的概率。总之,区间估计可以克服点估计的不足,因而实际应用意义较大。
3. 试回答描述数据的集中趋势的统计量有哪些?并对这些统计量的特点加以比较。 解答:
常用的描述集中趋势的统计量主要有均值、中位数、众数。
(1)均值又分为算术平均数、调和平均数和几何平均数。未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数,称为简单算术平均数。根据分组整理的数据计算的算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。
(2)调和平均数也称倒数平均数或调和均值。调和平均数和算术平均数在本质上是一致的,实际应用时,当计算算术平均数其分子资料未知时,就采用加权算术平均数计算均值,分母资料未知时,就采用加权调和平均数计算均值。
(3)几何平均数也称几何均值,通常用来计算平均比率和平均速度。
(4)中位数是将变量取值按大小顺序排列后,处于中间位置的那个变量值。中位数很
好的代表了一组数据的中间位置,对极端值并不敏感。由于中位数只是数据中间位置的代表取值,因此中位数并没有利用数据的所有信息,其对原始数据信息的代表性不如均值。
(5)众数是指一组数据中出现次数最多的变量值。众数具有不唯一性。
均值、中位数、众数是描述数据集中趋势的主要统计量,它们按照不同的方法来确定,具有不同的特点和应用场合;但是,三者之间存在着一定的数量关系,这种数量关系取决于变量取值的频数分布状况。从分布的角度看,均值是一组数据全部数值的平均数,中位数是处于一组数据中间位置上的数值,众数始终是一组数据分布的最高峰值。对于具有单峰分布的大多数数据而言,均值、中位数、众数存在以下关系:
当变量取值的频数分布对称时,则均值与众数、中位数三者完全相等,即=Me=Mo; 当变量取值的频数分布呈现右偏时,三者之间的关系为>Me>Mo; 当变量取值的频数分布呈现左偏时,三者之间的关系为<><>
从上面的关系我们可以看出,当频数分布呈对称分布或近似对称分布时,以均值、中位数或众数来描述数据的集中趋势都比较理想;当频数分布呈偏态时,极端值会对均值产生较大影响,而对众数、中位数没有影响,此时,用众数、中位数来描述集中趋势比较好。 均值不适用于定性数据。均值的优点在于它对变量的每一个取值都加以利用;缺点在于其统计量的稳健性较差,即容易受到极端值的干扰。对于偏态分布的数据,均值的代表性较差。因此,当数据分布的偏斜程度很大时,可以考虑选择中位数或众数作为集中趋势的代表。
4. 简述应用方差分析的条件 解答:
应用方差分析要求符合两个条件:
(1)各个水平的观察数据,要能看作是从服从正态分布的总体中随机抽取的样本。 (2)各组观察数据是从具有相同方差的相互独立的总体中抽得的。
5. 假设检验依据的基本原理是什么? 解答:
假设检验依据的基本原理是小概率原理。所谓小概率原理是指,若一个事件发生的概率很小,在一次试验中就几乎是不可能发生的。根据这一原理,如果在试验中很小概率的事件发生了,我们就有理由怀疑原来的假设是否成立,从而拒绝原假设。
6. 时间序列的变动可分解为哪些成分?分别描述这些成分的特点。 解答:
时间序列的变动可分解为长期趋势(T)、季节变动(S)、循环变动(C)、不规则变动(I)四种成分。
(1)长期趋势。长期趋势是时间序列在较长时期内持续上升或下降的发展态势。这种趋势可以是线性的,也可以是非线性的。
(2)季节变动。季节波动是时间序列在一年内重复出现的周期性波动。季节波动中的"季节",不仅指一年中的四季,还可以指一年中任何一种周期,如月、周、日、时等。季节波动多是由于自然因素和生产或生活条件的影响引起的,其波动具有重复性。
(3)循环变动。循环变动是时间序列较长时间内(通常为一年以上)上下起伏的周期性波动。循环变动不同于长期趋势,它是一种涨落相间的交替波动;也不同于季节变动,它
的周期长短不一、幅度高低不同,不具有重复性。循环的周期长度不同,从几年到几十年不等。
(4)不规则变动。不规则变动包含时间序列中所有没有明显规律性的变动,它是时间序列剔除长期趋势、季节变动、循环变动后的偶然性波动,又称剩余变动或随机变动。不规则变动多是由随机事件或突发事件(如战争、自然灾害等)引起的。
四、计算题
1. 某班40名学生统计学考试成绩分别为:
66 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81
学校规定:60分以下为不及格,60-70为及格,70-80分为中,80-90分为良,90-100分为优 要求:(1)将该班学生分为不及格、及格、中、良、优五组,编制一张次数分配表。 (2)指出分组标志及类型;分组方法的类型;分析本班学生考试情况。
解答:
(1)"学生考试成绩"为连续变量,需采组距式分组,同时学生考试成绩变动均匀,故可用等距式分组来编制变量分配数列。
(2)分组标志为考试成绩,属于数量标志,简单分组;从分配数列中可看出,该班同学不及格人数和优秀生的人数都较少,分别为7.5%和10%。大部分同学成绩集中在70-90分之间,说明该班同学成绩总体良好。 考试成绩一般用正整数表示时,可视为离散变量也可用单项式分组,但本班学生成绩波动幅度大,单项式分组只能反映成绩分布的一般情况,而组距分组分配数列可以明显看出成绩分配比较集中的趋势,便于对学生成绩分配规律性的掌握。
2. 某商店两种商品的销售资料
要求:(1)计算两种商品销售额及销售额变动的绝对额;
(2)计算两种商品销售量总指数及由于销售量变影响销售额的绝对额; (3)计算两种商品销售价格总指数及由于价格变动影响销售额的绝对额。
解答:
∑p1q1=10?60+14?160=2840=129.09%
(1)∑p0q08?50+12?1502200 ∑q1p1-∑q0p0=2840-2200=640元
∑p0q1=8?60+12?160=2400=19.09%
22002200(2)∑p0q0
∑q1p0-∑q0p0=2400-2200=200元
∑p1q1=2840=118.33%
(3)∑p0q12400 ∑q1p1-∑q1p0=2840-2400=440
3. 某车间有20台机床,在给定的一天每一台机床不运行的概率都是0.05,机床之间相互独立。问在给定的一天内,至少有两台机床不运行的概率是多少?(结果保留三位小数) 解答:
设x表示在给定的一天内不运行的机床台数, 则X~B(n,p),n=20,p=0.05 解法一:
p(x≥2)=1-p(x<>
0119
=1-c20(0.05)0(0.95)20-c120(0.05)(0.95)
=1-0.3585-0.3774=0.264
解法二:
因为n=20,p=0.05,np=1≤5,可以用泊松分布近似计算二项分布
λ=np=1,则有: p(x=0)≈p(x=1)≈
λx
x!
e-λ=e
-λ
10-1
e=0.36790!
λx
x!
11-1
=e=0.36791!
则p(x≥2)=1-p(x<>
4. 有一个组织在其成员中提倡通过自修提高水平,目前正考虑帮助成员中还未曾高中毕业者通过自修达到高中毕业的水平。该组织的会长认为成员中未读完高中的人等于25%,并且想通过适当的假设检验来支持这一看法。他从该组织成员中抽选200人组成一个随机样本,发现其中有42人没有高中毕业。试问这些数据是否支持这个会长的看法?(α=0.05) 解答: 解:
?=p
42
=0.21200
p0=0.25
H0:p=0.25,H1:p≠0.25
Z=
?-p0pp0(1-p0)n
=-1.306
Za=±1.96
10
,故接受H0,可以认为调查结果支持了该会长的看法。 由于
5. 根据下表资料,计算众数和中位数
Z<>
解答:
次数最多的是168万人,众数所在组为15-30这一组,故XL=15,XU=30
?1=168-142=26人
,?2=168-96=72人,
Mo=15+
26
?15=18.98
26+72
或:
Mo=XU-
?168-96
?d=30-?15=18.98
?1+?2(168-142)+(168-96)=
中位数位置=
f
2
522
=2612,说明这个组距数列中的第262位所对应的人口年龄是中位数。
从累计(两种方法)人口数中可见,第261位被包括在第2组,即中位数在15~30组距内。
XL=15
,XU=30,Sm-1=142,Sm+1=212
∑f
Me=XL+
-Sm-1fm
?d=15+
261-142
?15=25.625168
或者:
f
Me=XU-
-Sm+1fm
?d=30-
261-212
?15=25.625168
6. 为了解某银行营业厅办理某业务的办事效率,调查人员观察了该银行营业厅办理该业务的柜台办理每笔业务的时间,随机记录了15名客户办理业务的时间,测得平均办理时间=12分钟,样本标准差s=4.1分钟,则:
11
(1)其95%的置信区间是多少?
(2)若样本量为40,而观测的数据不变,则95%的置信区间是多少?
解答: 解:
(1)根据已知,有:t0.025(14)=2.145,n=15,=12,s=4.1。置信区间为
±t0.025(14)
sn
=12±2.145?
4.1=[9.73,14.27]
(2)若样本量为n=40,则95%的置信区间为 ±zs?
4.1
0.025
n
=12±1.9640
=[10.73,13.27]
12
范文四:《统计学》课后答案(第二版_贾俊平版)
第1章 统计与统计数据
一、学习指导
统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。
二、主要术语
1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 描述统计:研究数据收集、处理和描述的统计学分支。
推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 分类数据:只能归于某一类别的非数字型数据。 顺序数据:只能归于某一有序类别的非数字型数据。 数值型数据:按数字尺度测量的观察值。 观测数据:通过调查或观测而收集到的数据。
实验数据:在实验中控制实验对象而收集到的数据。 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间上收集到的数据。
1
11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推
断总体特征的数据收集方法。
12. 普查:为特定目的而专门组织的全面调查。 13. 总体:包含所研究的全部个体(数据)的集合。 14. 样本:从总体中抽取的一部分元素的集合。
15. 样本容量:也称样本量,是构成样本的元素数目。 16. 参数:用来描述总体特征的概括性数字度量。 17. 统计量:用来描述样本特征的概括性数字度量。 18. 变量:说明现象某种特征的概念。 19. 分类变量:说明事物类别的一个名称。 20. 顺序变量:说明事物有序类别的一个名称。 21. 数值型变量:说明事物数字特征的一个名称。 22. 离散型变量:只能取可数值的变量。
23. 连续型变量:可以在一个或多个区间中取任何值的变量。
第2章 数据的图表展示
一、学习指导
数据的图表展示是应用统计的基本技能。本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题。本章各节的主要内容和学习
2
二、主要术语
24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
频数:落在某一特定类别(或组)中的数据个数。 频数分布:数据在各类别(或组)中的分配。
比例:一个样本(或总体)中各个部分的数据与全部数据之比。 比率:样本(或总体)中各不同类别数值之间的比值。
累积频数:将各有序类别或组的频数逐级累加起来得到的频数。
数据分组:根据统计研究的需要,将原始数据按照某种标准划分成不同的组别。 组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。 组距:一个组的上限与下限的差。
组中值:每一组的下限和上限之间的中点值,即组中值=(下限值+上限值)/2。 直方图:用矩形的宽度和高度(即面积)来表示频数分布的图形。 茎叶图:由“茎”和“叶”两部分组成的、反应原始数据分布的图形。 箱线图:由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的、反应原始数据分布的图形。
3
第3章 数据的概括性度量
一、学习指导
数据分布的特征可以从三个方面进行描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布偏斜程度和峰度。本章将从数据的不同类型出发,分别介绍集中趋势测度值的计算方法、特点及其应用场合。本章各节的主要内容和学习要点如下表所示。
4
二、主要术语和公式
(一)主要术语
1. 众数:一组数据中出现频数最多的变量值,用Mo表示。 2. 中位数:一组数据排序后处于中间位置上的变量值,用Me表示。 3. 四分位数:一组数据排序后处于25%和75%位置上的值。 4. 平均数:一组数据相加后除以数据的个数而得到的结果。 5. 几何平均数:n个变量值乘积的n次方根,用Gm表示。
6. 异众比率:非众数组的频数占总频数的比率。
7. 四分位差:也称为内距或四分间距,上四分位数与下四分位数之差。 8. 极差:也称全距,一组数据的最大值与最小值之差。
9. 平均差:也称平均绝对离差,各变量值与其平均数离差绝对值的平均数。 10. 方差:各变量值与其平均数离差平方的平均数。 11. 标准差:方差的平方根。
12. 标准分数:变量值与其平均数的离差除以标准差后的值。
13. 离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比。 14. 偏态:数据分布的不对称性。
15. 偏态系数:对数据分布不对称性的度量值。 16. 峰态:数据分布的平峰或尖峰程度。 17. 峰态系数:对数据分布峰态的度量值。
(二)主要公式
5
6
第4章 抽样与参数估计
一、学习指导
参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根
据样本统计量来推断我们所关心的总体参数。本章首先介绍抽样分布的有关知识,然后讨论参数估计的一般问题,最后介绍一个总体参数估计的基本方法和参 7
二、主要术语和公式
(一)主要术语
36. 简单随机抽样:也称纯随机抽样,它是从含有N个元素的总体中,抽取n个
元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中。 37. 简单随机样本:从含有N个元素的总体中,抽取n个元素作为样本,使得总
8
体中每一个样本量为n的样本都有相同的机会(概率)被抽中。
38. 重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二
个元素,直至抽取n个元素为止。
39. 不重复抽样:一个元素被抽中后不再放回总体,而是从所剩元素中抽取第二
个元素,直到抽取n个元素为止。
40. 分层抽样:也称分类抽样,它是在抽样之前先将总体的元素划分为若干层
(类),然后从各个层中抽取一定数量的元素组成一个样本。
41. 系统抽样:也称等距抽样或机械抽样,它是先将总体中的各元素按某种顺序
排列,并按某种规则确定一个随机起点;然后,每隔一定的间隔抽取一个元素,直至抽取n个元素形成一个样本。 42. 整群抽样:先将总体划分成若干群,然后以群作为抽样单位从中抽取部分群,
随后再对抽中的各个群中所包含的所有元素进行观察。
43. 抽样分布:在重复选取样本量为n的样本时,由样本统计量的所有可能取值
形成的相对频数分布。
44. 样本均值的抽样分布:在重复选取样本量为n的样本时,由样本均值的所有
可能取值形成的相对频数分布。
45. 样本比例抽样分布:在重复选取样本量为n的样本时,由样本比例的所有可
能取值形成的相对频数分布。
46. 标准误差:也称为标准误,它是样本统计量的抽样分布的标准差。
47. 估计标准误差:若计算标准误时所涉及的总体参数未知,可用样本统计量代
替计算的标准误。 48. 估计量:用来估计总体参数的统计量的名称,用符号??表示。 49. 估计值:用来估计总体参数时计算出来的估计量的具体数值。 50. 点估计:用样本统计量??的某个取值直接作为总体参数?的估计值。 51. 区间估计:在点估计的基础上,给出总体参数估计的一个范围。 52. 臵信区间:由样本统计量所构造的总体参数的估计区间。
53. 臵信水平:也称为臵信系数,它是将构造臵信区间的步骤重复多次后,臵信
区间中包含总体参数真值的次数所占的比率。
9
第5章 假设检验
一、学习指导
假设检验是推断统计的另一项重要内容,它是利用样本信息判断假设是否成立的一种统计方法。本章首先介绍有关假设检验的一些基本问题,然后介绍一个总体参数的检验方法。本章各节的主要内容和学习要点如下表所。
10
二、主要术语和公式
(一)主要术语
18. 假设:对总体参数的具体数值所做的陈述。
19. 假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。 20. 备择假设:也称研究假设,是研究者想收集证据予以支持的假设,用H1或Ha表示。 21. 原假设:也称零假设,是研究者想收集证据予以反对的假设,用H0表示。
22. 单侧检验:也称单尾检验,是指备择假设具有特定的方向性,并含有符号“>”或“
的假设检验。
23. 双侧检验:也称双尾检验,是指备择假设没有特定的方向性,并含有符号“?”的假设
检验。
24. 第Ⅰ类错误:当原假设为正确时拒绝原假设,犯第Ⅰ类错误的概率记为?。 25. 第Ⅱ类错误:当原假设为错误时没有拒绝原假设,犯第Ⅱ类错误的概率通常记为?。 26. 显著性水平:假设检验中发生第Ⅰ类错误的概率,记为?。 27. 检验统计量:根据样本观测结果计算得到的,并据以对原假设和备择假设做出决策的某
个样本统计量。
28. 拒绝域:能够拒绝原假设的检验统计量的所有可能取值的集合。 29. 临界值:根据给定的显著性水平确定的拒绝域的边界值。
30. P值:也称观察到的显著性水平,如果原假设H0是正确的,那么所得的样本结果出现
实际观测结果那么极端的概率。
(二)主要公式
11
第6章 方差分析
一、学习指导
本章主要介绍检验多个总体均值是否相等的一种统计方法,即方差分析。它是通过对各观察数据误差来源的分析来判断多个总体均值是否相等。本章首先介
绍方差分析中的一些基本问题,包括方差分析中的一些术语、方差分析的基本思想和基本假设,然后介绍单因素方差分析方法,最后介绍方差分析中的多重比较。 12
二、主要术语和公式
(一)主要术语
31. 方差分析( ANOVA):检验多个总体均值是否相等的统计方法。 32. 因素:也称因子,是方差分析中所要检验的对象。 33. 水平:也称处理,是因素的不同表现。 34. 组内误差:来自水平内部的数据误差。 35. 组间误差:来自不同水平之间的数据误差。
36. 总平方和:反映全部数据误差大小的平方和,记为SST。 37. 组内平方和:反映组内误差大小的平方和,记为SSE。 38. 组间平方和:反映组间误差大小的平方和,记为SSA。 39. 单因素方差分析:只涉及一个分类型自变量的方差分析。 40. 组内方差:组内平方和除以相应的自由度。 41. 组间方差:组间平方和除以相应的自由度。
13
第7章 相关与回归分析
一、学习指导
相关与回归是研究变量之间关系的统计方法,该方法广泛应用于自然科学和社会科学的各个领域。本章首先介绍相关分析方法,然后介绍一元线性回归和多元线性回归分析方法。本章各节的主要内容和学习要点如下表所示。
14
二、主要术语和公式
(一)主要术语
42. 相关关系:变量之间存在的不确定的数量关系。 43. 相关系数:也称Pearson相关系数,是根据样本数据计算的度量两个变量之间线性关系
强度的统计量。
44. 因变量:被预测或被解释的变量,用y表示。
45. 自变量:用来预测或用来解释因变量的一个或多个变量,用x表示。 46. 回归模型:描述因变量y如何依赖于自变量x和误差项?的方程。 47. 回归方程:描述因变量y的期望值如何依赖于自变量x的方程。 48. 估计的回归方程:根据样本数据求出的回归方程的估计。
?i之间的离差平方和达49. 最小二乘法:也称最小平方法,使因变量的观察值yi与估计值y
?和??的方法。 到最小来求得?10
15
50. 判定系数:回归平方和占总平方和的比例,记为R。
51. 估计量的标准误差:均方残差(MSE)的平方根,用se来表示。
52. y的平均值的点估计:利用估计的回归方程,对于x的一个特定值x0,求出y的平均
值的一个估计值E(y0)。
53. y的个别值的估计值:利用估计的回归方程,对于x的一个特定值x0,求出y的一个
2
?0。 个别值的估计值y
54. y的平均值的置信区间估计:对x的一个给定值x0,求出y的平均值的区间估计。 55. y的个别值的预测区间估计:对x的一个给定值x0,求出y的一个个别值的区间估计。 56. 多元线性回归模型:描述因变量y如何依赖于自变量x1,x2,?,xk和误差项?的方
程。
57. 多元线性回归方程:描述y的期望值如何依赖于x1,x2,?,xk的方程。
58. 估计的多元线性回归方程:根据样本数据得到的多元线性回归方程的估计。
59. 多重判定系数:在多元回归中,回归平方和占总平方和的比例。 60. 修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数,记为
2
。 Ra
(二)主要公式
16
第8章 时间序列分析和预测
一、学习指导
分析时间序列数据的主要目的是对未来的观测值进行预测。本章在给出时间序列概念及分类的基础上,首先介绍了时间序列的描述性分析方法,然后介绍了平稳序列和非平稳序列的一些简单预测方法。本章各节的主要内容和学习要点如下表所示。
17
二、主要术语和公式
(一)主要术语
61. 时间序列:同一现象在不同时间上的相继观察值排列而成的序列。 62. 平稳序列:基本上不存在趋势的序列。
63. 非平稳序列:包含趋势性、季节性或周期性的序列。 64. 趋势:也称长期趋势,是指时间序列在长时期内呈现出来的某种持续向上或持续下降的
变动。
65. 季节性:也称季节变动,是指时间序列在一年内重复出现的周期性波动。 66. 周期性:也称循环波动,是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡
18
67. 68. 69. 70. 71. 72. 73.
式变动。
随机性:也称不规则波动,是指时间序列中除去趋势、周期性和季节性之后的偶然性波动。 增长率:也称增长速度,是指时间序列中报告期观察值与基期观察值之比减1后的结果,用%表示。
平均增长率:也称平均发展速度,是指时间序列中各逐期环比值(也称环比发展速度)的几何平均数减1后的结果。
增长1%绝对值:增长率每增长一个百分点而增加的绝对数量。
简单平均法预测:根据过去已有的t期观察值通过简单平均来预测下一期的数值。 移动平均法预测:通过对时间序列逐期递移求得平均数作为预测值的一种预测方法。 指数平滑法预测:对过去的观察值加权平均进行预测的一种方法,该方法使得第t+1期的预测值等于t期的实际观察值与第t期指数预测值的加权平均值。
(二)主要公式
19
20
第9章 指数
一、学习指导
指数是应用于经济领域的一种特殊统计方法。本章首先介绍指数的概念和分类,然后介绍加权指数的编制方法,最后介绍实际中几种常用的价格指数。本章各节的主要内容和学习
二、主要术语和公式
(一)主要术语
74. 指数:测定多个项目在不同场合下综合变动的相对数。
75. 加权综合指数:通过加权来测定一组项目的综合变动状况的指数。
76. 加权平均指数:以某一时期的价值总量为权数对个体指数加权平均计算的指数。 77. 价值指数:由两个不同时期的价值总量对比形成的指数。
78. 指数体系:由价值指数及其若干个因素指数构成的数量关系式。 79. 零售价格指数:反映城乡商品零售价格变动趋势的一种经济指数。 80. 居民消费价格指数:反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格
的变动趋势和程度的一种相对数。
81. 生产价格指数:测量在初级市场上所售货物(即在非零售市场上首次购买某种商品时)
价格变动的一种价格指数。
82. 股票价格指数:是反映某一股票市场上多种股票价格变动趋势的一种相对数。
(二)主要公式
附录:教材各章习题答案
第1章 统计与统计数据
1.1 (1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)
分类数据。
1.2 (1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;
(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3 (1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。 1.4 (1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者
的月平均花费;(4)统计量;(5)推断统计方法。 1.5 (略)。 1.6 (略)。
第2章 数据的图表展示
(1) 属于顺序数据。
(2)频数分布表如下
(4)帕累托图(略)。 2.2 (1)频数分布表如下
2.32.1
直方图(略)。
2.5 (1)排序略。
(2)频数分布表如下
2.6
(3)食品重量的分布基本上是对称的。 2.7
2.8 (1)属于数值型数据。
2.9 (1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
布比A班分散,
且平均成绩较A班低。
2.11 (略)。 2.12 (略)。 2.13 (略)。 2.14 (略)。 2.15 箱线图如下:(特征请读者自己分析)
第3章 数据的概括性度量 3.1
(1)M0?10;Me?10;?9.6。
(2)QL?5.5;QU?12。 (3)s?4.2。
(4)左偏分布。 3.2
(1)M0?19;Me?23。
(2)QL?5.5;QU?12。 (3)?24;s?6.65。 (4)SK?1.08;K?0.77。 (5)略。 3.3 (1)略。
(2)?7;s?0.71。
(3)v1?0.102;v2?0.274。
(4)选方法一,因为离散程度小。 3.4 (1)=274.1(万元);Me=272.5 。
(2)QL=260.25;QU=291.25。 (3)s?21.17(万元)。 3.5 甲企业平均成本=19.41(元),乙企业平均成本=18.29(元);原
因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。 3.6
(1)=426.67(万元);s?116.48(万元)。
(2)SK?0.203;K??0.688。
3.7 (1)(2)两位调查人员所得到的平均身高和标准差应该差不多相
同,因为均值和标准差的大小基本上不受样本大小的影响。
(3)具有较大样本的调查人员有更大的机会取到最高或最低者,因为样本越大,变化的范围就可能越大。 3.8 (1)女生的体重差异大,因为女生其中的离散系数为0.1大于男生
体重的离散系数0.08。 (2) 男生:=27.27(磅),s?2.27(磅); 女生:=22.73(磅),s?2.27(磅); (3)68%;
(4)95%。 3.9
通过计算标准化值来判断,zA?1,zB?0.5,说明在A项测试中
该应试者比平均分数高
出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准化值高于B项测试,所以A项测试比较理想。 3.10 通过标准化值来判断,各天的标准化值如下表
日期 周一 周二 周三 周四 周五 周六 周日 标准化值Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0 周一和周六两天失去了控制。 3.11 (1)离散系数,因为它消除了不同组数据水平高地的影响。
4.2
?0.024; (2)成年组身高的离散系数:vs?
172.12.3
?0.032; 幼儿组身高的离散系数:vs?
71.3
由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。 3.12
3.13
第4章 抽样与参数估计
4.1 (1)200。(2)5。(3)正态分布。(4)?2(100?1)。 4.2 (1)32。(2)0.91。 4.3 0.79。
4.4 (1)25~N(17,22)。(2)100~N(17,1)。
4.5 (1)1.41。(2)1.41,1.41,1.34。 4.6 (1)0.4。(2)0.024 。(3)正态分布。 4.7 (1)0.050,0.035,0.022,016。(2)当样本量增大时,样本比例的标准
差越来越小。 4.8 (1)??2.14;(2)E=4.2;(3)(115.8,124.2)。
4.9 (87819,121301)。 4.10(1)81±1.97;(2)81±2.35;(3)81±3.10。 4.11(1)(24.11,25.89);(2)(113.17,126.03);(3)(3.136,3.702) 4.12(1)(8687,9113);(2)(8734,9066);(3)(8761,9039);(4)(8682,
9118)。
4.13(2.88,3.76);(2.80,3.84);(2.63,4.01)。 4.14(7.1,12.9)。 4.15(7.18,11.57)。 4.16(1)(148.9,150.1);(2)中心极限定理。 4.17(1)(100.9,123.7);(2)(0.017,0.183)。 4.18(15.63,16.55)。 4.19(10.36,16.76)。 4.20(1)(0.316,0.704);(2)(0.777,0.863);(3)(0.456,0.504)。 4.21(18.11%,27.89%);(17.17%,22.835)。 4.22167。
4.23(1)2522;(2)601;(3)268。 4.24(1)(51.37%,76.63%);(2)36。 4.25(1)(2.13,2.97);(2)(0.015,0.029);(3)(25.3,42.5)。 4.26(1)(0.33,0.87);(2)(1.25,3.33);(3)第一种排队方式更好。 4.27 48。 4.28 139。 第5章 假设检验
5.1 研究者想要寻找证据予以支持的假设是“新型弦线的平均抗拉强度相对于以
前提高了”,所以原假设与备择假设应为:H0:??1035,H1:??1035。 5.2 ?=“某一品种的小鸡因为同类相残而导致的死亡率”,H0:??0.04,
H1:??0.04。
5.3 H0:??65,H1:??65。
5.4 (1)第一类错误是该供应商提供的这批炸土豆片的平均重量的确大于等于
60克,但检验结果却提供证据支持店方倾向于认为其重量少于60克; (2)第二类错误是该供应商提供的这批炸土豆片的平均重量其实少于60克,但检验结果却没有提供足够的证据支持店方发现这一点,从而拒收这批产品;
(3)连锁店的顾客们自然看重第二类错误,而供应商更看重第一类错误。 5.5 (1)检验统计量z?
??s/n
,在大样本情形下近似服从标准正态分布;
(2)如果z?z0.05,就拒绝H0;
(3)检验统计量z=2.94>1.645,所以应该拒绝H0。 5.6 z=3.11,拒绝H0。 5.7 t?1.66,不拒绝H0。 5.8 z??2.39,拒绝H0。 5.9 t?1.04,不拒绝H0 5.10z?2.44,拒绝H0。 5.11z=1.93,不拒绝H0。 5.12z=7.48,拒绝H0。 5.13?2=206.22,拒绝H0。 5.14F?2.42,拒绝H0。 第6章 方差分析
6.1 F?4.6574?F0.01?8.0215(或P?value?0.0409???0.01),不能拒绝原假
设。
6.2 F?15.8234?F0.01?4.579(或P?value?0.00001???0.01),拒绝原假设。 6.3 F?10.0984?F0.01?5.4170(或P?value?0.000685???0.01),拒绝原假设。 6.4 F?11.7557?F0.05?3.6823(或P?value?0.000849???0.05),拒绝原假设。
6.5 F?17.0684?F0.05?3.8853(或P?value?0.0003???0.05),拒绝原假设。
A?B?44.4??14.4?LSD?5.85,拒绝原假设; A?C?44.4?42.6?1.8?LSD?5.85,不能拒绝原假设; B?C?30?42.6?12.6?LSD?5.85,拒绝原假设。
6.6
(或P?value?0.245946???0.05),不能拒绝原F?1.478?F0.05?3.554131假设。
第7章 相关与回归分析
7.1 (1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)r?0.920232。
(3)检验统计量t?14.4222?t??2.2281,拒绝原假设,相关系数显著。 7.2 (1)散点图(略)。 (2)r?0.8621。
?表示当x?0时y的期望值。 7.3 (1)?0
?表示x每变动一个单位y平均下降0.5个单位。 (2)?1(3)E(y)?7。 7.4 (1)R2?90%。
(2)se?1。 7.5 (1)散点图(略)。
(2)r?0.9489。
??0.00358表示运送距离每增加1??0.1181?0.00358x。回归系数?(3)y1
公里,运送时间平均增加0.00358天。
7.6 (1) 散点图(略)。二者之间为高度的正线性相关关系。
(2)r?0.998128,二者之间为高度的正线性相关关系。
??0.308683??734.6928?0.308683x。(3)估计的回归方程为:y回归系数?1
表示人均GDP每增加1元,人均消费水平平均增加0.308683元。 (4)判定系数R2?0.996259。表明在人均消费水平的变差中,有99.6259%
是由人均GDP决定的。
(5)检验统计量F?1331.692?F??6.61,拒绝原假设,线性关系显著。
?5000?734.6928?0.308683(6)y。 ?5000?2278.1078(元)
(7)臵信区间:[1990.749,2565.464];预测区间:[1580.463,2975.750]。 7.7 (1) 散点图(略),二者之间为负的线性相关关系。
???4.7表示航班??430.1892?4.7x。回归系数?(2)估计的回归方程为:y1
正点率每增加1%,顾客投诉次数平均下降4.7次。
(3)检验统计量t?4.959?t?2?2.3060(P-Value=0.001108
拒绝原假设,回归系数显著。
?80?430.1892?4.7?80?54.1892(次)(4)y。
(5)臵信区间:(37.660,70.619);预测区间:(7.572,100.707)。 7.8 Excel输出的结果如下(解释与分析请读者自己完成)
Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析
回归分析 残差 总计
Intercept X Variable 1
Coefficients
49.3177 0.2492
df
1 18 19
标准误差
3.8050 0.0448
0.7951 0.6322 0.6117 2.6858
20
SS 223.1403 129.8452 352.9855
t Stat 12.9612 5.5618
MS 223.1403 7.2136
P-value 0.0000 0.0000
F 30.9332
Lower 95%
41.3236 0.1551
Significance F 2.79889E-05
Upper 95%
57.3117 0.3434
7.9
??0.8660?86.60%。表明汽车销售量的变(2)R2?
SST1642866.67
差中有86.60%是由于广告费用的变动引起的。 (3)r?R2?0.8660?0.9306。
??1.420211??363.6891?1.420211(4)y表示广告费用每x。回归系数?1增加一个单位,销售量平均增加1.420211个单位。
(5)Significance F=2.17E-09
??13.6254?2.3029x;R2?93.74%;se?3.8092。 7.10 y
7.11 (1)27。 (2)4.41。
(3)拒绝H0。 (4)r??0.7746。 (5)拒绝H0。
7.12 (1)15.95?E(y)?18.05。
(2)14.651?y0?19.349。
???46.29?15.24x;441.555?E(y40)?685.045。 7.13 y
??25.03?0.0497x1?1.928x2;预测28.586。 7.14 y
7.15 (略)。
7.16 (1)显著。 (2)显著。 (3)显著。
??88.6377?1.6039x1。 7.17 (1)y
??83.2301?2.2902x1?1.3010x2。 (2)y
??1.6039表示电视广告费用每增(3)不相同。方程(1)中的回归系数?1加1万元,月销售额平均增加1.6039万元;方程(1)中的回归系数
??2.2902表示在报纸广告费用不变的条件下,电视广告费用每增加1万?1元,月销售额平均增加2.2902万元。
2
(4)R2?91.91%;Ra?88.66%。
(5)?1的P-Value=0.0007,?2的P-Value=0.0098,均小于??0.05,两个回归系数均显著。
???0.5910?22.3865x1?327.6717x2 7.18 (1)y
??22.3865表示降雨量每增加1毫mm,小麦收获量平均(2)回归系数?1??327.6717表示温度每增加10C,增加22.3865kg/hm2;回归系数?小麦收2获量平均增加327.6717kg/mh2。
(3)可能存在。
??148.7005?0.8147x1?0.8210x2?0.1350x3。 7.19 (1)y
2
(2)R2?89.75%;Ra?87.83%。
(3)Significance F=3.88E-08
P-Value=0.1311>??0.05,不显著;?2的
P-Value=0.0013??0.05,不显著。 第8章 时间序列分析和预测 8.1 (1)时间序列图(略)。 (2)13.55%。
(3)1232.90(亿元)。 8.2 (1)时间序列图(略)。
(2)1421.2(公斤/公顷)。
(3)??0.3时的预测值:F2001?1380.18,误差均方=291455; ??0.5时的预测值:F2001?1407.23,误差均方=239123。??0.5更合适。 8.3 (1)3期移动平均预测值=630.33(万元)。
(2)??0.3时的预测值:F19?567.95,误差均方=87514.7; ??0.4时的
预测值:F19?591.06,误差均方=62662.5;??0.5时的预测值:
F19?606.54,误差均方=50236。??0.5更合适
??239.73?21.9288 (3)趋势方程Yt。估计标准误差sY?31.6628。 t8.4 (1)趋势图(略)。
t??145.78?1.16077(2)趋势方程Y。2001年预测值=3336.89(亿元)。 t
8.5 (1)趋势图(略)。
??69.5202?13.9495t,2000年预测值=585.65(万吨) (2)线性趋势方程Y。 8.6 线
性
趋
势
:
??374.1613?0.6137Yt
;二次曲线:
??381.6442?1.8272Yt?0.0337t2
;三次曲线:
??372.5617?1.0030Yt?0.1601t2?0.0036t3。 8.7 (1)原煤产量趋势图(略)。
??4.5824?0.9674??11.28(亿吨)(2)趋势方程Y。 t?0.0309t2,预测值Yt2001
8.8 (1)图形(略)。
(2)移动平均法或指数平滑法。
(3)移动平均预测=72.49(万元);指数平滑法预测=72.5(万元)( ??0.4)。 8.9 (1)略。
??2043计算趋势:分离季节因素后的趋势方程为:Y.92?163.7064t。图形t
(略)
周期波动图(略)。 8.11各月季节指数如下
1月 2月 3月 0.6744 0.6699 0.7432 7月 8月 9月 0.7552 0.3449 0.9619 季节变动图(略)。
4月
0.7903 10月 1.1992 5月 0.8061 11月 1.8662 6月 0.8510 12月 2.3377
??119.159?0.42449计算趋势:分离季节因素后的趋势方程为:Yt。图形t
(略)。
周期波动图(略)。 随机波动图(略)。 第9章 指数
9.1 (1)v?110.80%。(2)Ip?122.46%。(3)Iq?90.48%。(4)13920元=26190元-12270元。 9.2 (1)111.72%。(2)111.60%。(3)100.10%。(4)15.3万元=15.1532
万元+0.1468万元。 9.3 (1)2.62%;8016元。(2)28.42%;124864元。(3)143.37%;132880
元。 9.4 (1)单位成本增长11.11%。(2)Ip?111.11%;Iq?90.91%。 9.5 结果如下表:
年份 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
缩减后的人均GDP
1584.9 1817.2 2149.4 2562.3 3161.2 4145.2 5148.7 5889.1 6357.9 6640.0 7049.8
9.6 Ip?98.52%,下跌1.48%。
范文五:统计学导论第二版-曾五一课后答案
统计学导论(第二版)
习题参考解答
第一章
一、判断题
1.答:错。统计学和数学具有不同的性质特点。数学撇开具体的对象,以最一般的形式研究数量的联系和空间形式;而统计学的数据则总是与客观的对象联系在一起。特别是统计学中的应用统计学与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论。
2.答:对。
3.答:错。实质性科学研究该领域现象的本质关系和变化规律;而统计学则是为研究认识这些关系和规律提供合适的方法,特别是数量分析的方法。
4.答:对。
5.答:错。描述统计不仅仅使用文字和图表来描述,更重要的是要利用有关统计指标反映客观事物的数量特征。
6.答:错。有限总体全部统计成本太高,经常采用抽样调查,因此也必须使用推断技术。 7.答:错。不少社会经济的统计问题属于无限总体。例如要研究消费者的消费倾向,消费者不仅包括现在的消费者而且还包括未来的消费者,因而实际上是一个无限总体。
8.答:对。
二、单项选择题
1. A; 2. A; 3.A; 4. B。 三、分析问答题
1.答:定类尺度的数学特征是“=”或“?”,所以只可用来分类,民族可以区分为汉、藏、回等,但没有顺序和优劣之分,所以是定类尺度数据。;定序尺度的数学特征是“>”或“
2.答:某学生的年龄和性别,分别为20和女,是数量标志和品质标志;而全校学生资料汇总以后,发现男生1056,女生802人,其中平均年龄、男生女生之比都是质量指标,而年龄合计是数量指标。数量指标是个绝对数指标,而质量指标是指相对指标和平均指标。品质标志是不能用数字表示的标志,数量标志是直接可以用数字表示的标志。
3.答:如考察全国居民人均住房情况,全国所有居民构成统计总体,每一户居民是总体单位,抽查其中5000户,这被调查的5000户居民构成样本。
第二章
一、单项选择题
1.C; 2.A;3.A。 二、多项选择题
1.A.B.C.D; 2.A.B.D; 3.A.B.C. 三、简答题
1.答:这种说法不对。从理论上分析,统计上的误差可分为登记性误差、代表性误差和推算误差。无论是全面调查还是抽样调查都会存在登记误差。而代表性误差和推算误差则是抽样调查所固有的。这样从表面来看,似乎全面调查的准确性一定会高于统计估算。但是,在全面调查的登记误差特别是其中的系统误差相当大,而抽样调查实现了科学化和规范化的场合,后者的误差也有可能小于前者。我国农产量调查中,利用抽样调查资料估算的粮食产量数字的可信程度大于全面报表的可信程度,就是一个很有说服力的事例。
2.答:统计报表的日常维持需要大量的人力、物力、财力;而且统计报表的统计指标、指标体系不容易调整,对现代社会经济调查来说很不合适。
3.答:这种分组方法不合适。统计分组应该遵循“互斥性原则”,本题所示的分组方式违反了“互斥性原则”,例如,一观众是少女,若按以上分组,她既可被分在女组,又可被分在少组。 四、计算题
(1)次(频)数分布和频率分布数列。
(2
1步中选定“无数据点平滑线散点图”类型,单击“完成”,即可绘制出累计曲线图。
(3)绘制直方图、折线图、曲线图和向上、向下累计图。 (4)
主要操作步骤:
①次数和频率分布数列输入到Excel。
②选定分布数列所在区域,并进入图表向导,在向导第1步中选定“簇状柱形图”类型,单击“完成”,即可绘制出次数和频率的柱形图。
③将频率柱形图绘制在次坐标轴上,并将其改成折线图。
主要操作步骤:在“直方图和折线图”基础上,将频率折线图改为“平滑线散点图”即可。
第三章
一、
单项选择题
1. D; 2.A; 3.B; 4.B; 5. A 6.C。
二、判断分析题
1.答:均值。呈右偏分布。由于存在极大值,使均值高于中位数和众数,而只有较少的数据高于均值。
2.任意一个变量数列都可以计算算术平均数和中位数,但可能无法计算众数,同样,算术平均数和中位数可以衡量变量集中趋势,但是众数有时则不能。因为有时有两个众数有时又没有众数。
3.答:可计算出总体标准差为10,总体方差为100,于是峰度系数K=34800/10000=3.48,可以认为总体呈现非正态分布。
34800
?3?0.48,属于尖顶分布。
?4(100?10%)4
4.答:股票A平均收益的标准差系数为2.71/5.63=0.48135,股票B平均收益的标准差
m4
峰度系数K??3?
系数为4.65/6.94=0.670029,股票C平均收益的标准差系数为9.07/8.23=1.102066
5.答:为了了解房屋价格变化的走势,宜选择住房价格的中位数来观察,因为均值受极端值影响;如果为了确定交易税率,估计相应税收总额,应利用均值,因为均值才能推算总体有关的总量。
6.答:(1)均值、中位数、众数分别增加200元;(2)不变;(3)不变;(4)不同
三、计算题
1.解:基期总平均成本=
600?1200?700?1800
=660
1200?1800
报告期总平均成本=
600?2400?700?1600
=640
2400?1600
总平均成本下降的原因是该公司产品的生产结构发生了变化,即成本较低的甲企业产量占比上升而成本较高的乙企业产量占比相应下降所致。
可得:
ni?1
3.解:根据总体方差的计算公式?2?
2
(xi?)?
n
?2甲?
11423.259311178.9821
?211.5418;?2乙??199.6247
5456
22904.193
?208.2199
110
全部学生成绩的方差?2全部?
??ini
i?1
k
k
2
?2?i?1k
?
?ni
211.5418?54?199.6247?56
?205.4749
110
??
B
2i?1
2
?(i?)ni
i?1
?ni
k
(72.7037?74.3909)2?54?(76.0179?74.3909)2?56
=2.745 ?
110
总体方差(208.2199)=组内方差平均数(205.4749)+组间方差(2.745) 4. 5.解: ?
收购总额
?
收购总量
i?1
?(Xifi)
k
k
(Xifi)i?1Xi?
?
12700?16640?8320
?1.6268(元)
12700166408320
??2.001.601.30
平均价格: 1.6267819
6.均值=164;标准差=4;总人数=1200
身高分布通常为钟形分布,按经验法则近似估计:
合计
1200
7.
解:用1代表“是”(即具有某种特征),0代表“非”(即不具有某种特征)。设总次数为N,1出现次数为N1,频率(N1/N)记为P。由加权公式来不难得出:是非变量的均值=P;方差=P(1-P);标准差=P(1?P)
第五章
一、
单项选择题
(1)BC;(3)A;(5)AC。 二、计算题 1.解:
样本平均数 X=425, Sn-1=72.049, S14=8.488
2
?2.1916 t0.05/2(15?1)?2.1448
?==t?/2(n-1)×2.1916=4.7005
S所求μ的置信区间为:425-4.70
样本平均数 X=12.09, Sn-1=0.005, S15=0.0707
2
S
15
t0.025=2.131
(12.09-0.038, 12.09+0.038)
3.解:n=600,p=0.1,n P=60≥5,可以认为n充分大,α=0.05,z??z0.025?1.96。
???0.0122
因此,一次投掷中发生1点的概率的置信区间为 0.1-0.024
5.解: 根据已知条件可以计算得:
?y?14820 ?y
ii?1
i?1
nn
2
i
?88586 0
11n
估计量??y??yi=*14820= 494(分钟)
30ni?1
估计量的估计方差
s2n1153752030
)=1743.1653 v(?)?v(y)?(1?)=**(1?
292200nN30
1n
其中 s?yi-y?n-1i?1
2
??
2
2n?1?2??yi-ny? ???n-1?i?1
?
=
1
*8858600?30*4942 30?11537520==53017.93, S=230.26
29
??
6.已知: N=400,n=80,p=0.1, ?=0.05, Z?/2=Z0.025=1.96 △x=1.96*sqrt(0.1*0.9/80)=0.0657, (0.043,0.1657) 7.解:
2(40)2(40)?0.975?24.433,?0.025?59.342,置信度为0.95的置信区间为:
?(n?1)S2(n?1)S2??40?12240?122?
,?(97.064,235.747) ?2n?1,2?=n?1??59.34224.433????2?1??2????
9.解:
2
1500?1.96?0.25?(1?0.25) n??2222
N?P?z?P1?P1500?0.05?1.96?0.25?(1?0.25)
Nz2P?1?P?
?241.695
应抽取242户进行调查。
第六章
一、
单项选择题
1(B) 2(B) 3(A) 4(D) 5(A) 二、问答题
1.答:双侧检验;检验统计量的样本值2.22;观察到的显著性水平0.0132;显著性水平为0.05时,z0.025?1.96,拒绝原假设;显著性水平为0.01时,z0.005?2.575,不能拒绝原假设。
2.答:不是。α大则β小,α小则β大,因为具有随机性,但其和并不一定为1。 3. 答:(1)拒绝域(??,?2.33];(2)样本均值为23,24,25.5时,犯第一类错误的概率都是0.01。 三、计算题
1.解:(1)提出假设:
H0 :μ=5 H1 :μ?5
(2)构造检验统计量并计算样本观测值
在H0 :μ=5成立条件下:
=4.8?5= -2.3570
0.6250
(3)确定临界值和拒绝域
Z0.025=1.96
1.96,??? ∴拒绝域为 ???,?1.96???
(4)做出检验决策
∵Z=2.3570> Z0.025=1.96
检验统计量的样本观测值落在拒绝域。
∴拒绝原假设H0,接受H1假设,认为生产控制水平不正常。 2.
3.解:α=0.05时 (1)提出假设:
H0 :μ=60 H1 :μ?60
(2)构造检验统计量并计算样本观测值
在H0 :μ=60成立条件下:
61.6?60=
14.4400
2
= 2.222
(3)确定临界值和拒绝域 Z0.025=1.96
1.96,??? ∴拒绝域为 ???,?1.96???
(4)做出检验决策
∵Z =2.222> Z0.025=1.96
检验统计量的样本观测值落在拒绝域。 ∴拒绝原假设H0,接受H1假设,认为该县六年级男生体重的数学期望不等于60公斤。 α=0.01时
(1)提出假设:
H0 :μ=60 H1 :μ?60
(2)构造检验统计量并计算样本观测值
在H0 :μ=60成立条件下:
61.6?60=
14.4400
2
= 2.222
(3)确定临界值和拒绝域
Z0.005=2.575
,??? ∴拒绝域为 ???,?2.575???2.575
(4)做出检验决策
∵Z =2.222
检验统计量的样本观测值落在接受域。
∴不能拒绝H0,即没有显著证据表明该县六年级男生体重的数学期望不等于60公
斤。
4.
5.解:(1)提出假设:
H0 :?=11% H1 :??11%
(2)构造检验统计量并计算样本观测值
在H0 :?=11%成立条件下:
样本比例p=6004900
?12.2%
=2.68
(3)确定临界值和拒绝域 Z0.025=1.96
1.96,??? ∴拒绝域为 ???,?1.96???
(4)做出检验决策
∵Z=2.68> Z0.025=1.96
检验统计量的样本观测值落在拒绝域。
∴拒绝原假设H0,接受H1假设,即能够推翻所作的猜测。 6.
7.解: (1)提出假设:
H0 :μ1=μ2 H1 :μ1?μ2
(2)构造检验统计量并计算样本观测值
在H0成立条件下: Z=
y1?y2ss?n1n2
21
22
=
67?622520
?200200
2
2
=2.209
(3)确定临界值和拒绝域
Z0.025=1.96
∴拒绝域为 ???,?1.96???1.96,???
(4)做出检验决策
∵Z=2.209> Z0.025=1.96
检验统计量的样本观测值落在拒绝域。
∴拒绝原假设H0,接受H1假设,即两地的教育水平有差异。
8. 9.解:(1)提出假设:
H0 :?1= ?2 H1 :?1? ?2
(2)构造检验统计量并计算样本观测值
在H0成立条件下:
p=(n1p1+n2p2)/(n1+n2)=(400*0.1+600*0.05)/(400+600)=0.07
0.05?0.1== -3.036
0.07*0.93(
11?)400600
(3)确定临界值和拒绝域
Z0.05=1.645
1.645,??? ∴拒绝域为???,?1.645???
(4)做出检验决策
∵Z=3.036>Z0.05=1.645
检验统计量的样本观测值落在拒绝域。
∴拒绝原假设H0,接受H1假设,即甲乙两地居民对该电视节目的偏好有差异。
10. 11.解:(一)
(1)提出假设:
H0 :μ1=μ2 H1 :μ1?μ2
(2)计算离差平方和
m=2 n1=26 n2=24 n=50 ?y1?=11122 ?y2?=10725 ?y??= 21847
222?y1?=4930980 ?y2?=5008425 ?y??=9939405
组间变差 SSR=
?niyi?-ny??
i?1
m
2
2
(=26*
111222107252218472
)+24*()-50*() 262450
=9550383.76-9545828.18
=4555.58
组内变差 SSE=
??y-?niyi?
2ij
i?1j?1
i?1
mnim
2
=9939405-9550383.76 =389021.24
(3)构造检验统计量并计算样本观测值
F=
SSR/(m?1)4555.58/(2?1)
==0.5621
SSE/(n?m)389021.24/(50?2)
(4)确定临界值和拒绝域
F0.05(1,48)=4.048
,??? ∴拒绝域为:?4.048
(5)做出检验决策
临界值规则:
∵F=0.5621
检验统计量的样本观测值落在接受域。
∴不能拒绝H0,即没有显著证据表明性别对成绩有影响。 P-值规则:
根据算得的检验统计量的样本值(F值)算出P-值=0.457075。由于P-值=0.457075>显著水平标准??0.05,所以不能拒绝H0,即没有得到足以表明性别对成绩有影响的显著证据。 (二)(1)提出假设:
H0 :μ1=μ2=μ3=μ4 H1 :μ1、μ2、μ3、μ4不全相等 (2)计算离差平方和
m=4 n1=11 n2=15 n3=12 n4=12 n=50 ?y1?=5492 ?y2?=6730
2
?y3?=5070 ?y4?=4555 ?y??= 21847 ?y1?=2763280 222?y22?=3098100 ?y3?=2237900 ?y4?=1840125 ?y??=9939405
组间变差 SSR=
?niyi?-ny??
i?1
m
2
2
549226730250702+12*45552-50*218472 =11*()()+15*()+12*()(5011151212
=9632609.568-9545828.18
=86781.388
组内变差
SSE=
??y-?niyi?=9939405-9632609.568=306795.432
2ij
i?1j?1
i?1
mnim
2
(3)构造检验统计量并计算样本观测值
F=
SSR/(m?1)86781.388/(4?1)
==4.3372
SSE/(n?m)306795.432/(50?4)
(4)确定临界值和拒绝域 F0.05(3,46)=2.816
∴拒绝域为:?2.816,???
(5)做出检验决策 临界值规则:
∵F=4.3372> F0.05(3,46)=2.816
检验统计量的样本观测值落在拒绝域。
∴拒绝原假设H0,接受H1假设,即父母文化程度对孩子的学习成绩有影响。 P-值规则:
根据算得的检验统计量的样本值(F值)算出P-值=0.008973。由于P-值=0.008973小于显著水平标准??0.05,所以拒绝H0,接受H1,即得到足以表明父母文化程度对孩子的学习成绩有影响的显著证据。
12.
第七章
一、选择题
1. B、C、D; 3. A、B、D 二、判断分析题
1.错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 3.对。因果关系的判断还有赖于实质性科学的理论分析。
5.对。总体回归函数中的回归系数是有待估计的参数,因而是常数,样本回归函数中的回归系数的估计量的取值随抽取的样本不同而变化,因此是随机变量。
7.错。由于各种原因,偏相关系数与单相关系数的符号有不一致的可能。 三、证明题
1. 证明:
?是现行无偏估计量。此处只要证明它在线形无偏估计量中具有最小教材中已经证明?
2
方差。
设?2?
~
~
E(?2)??atE(?1??2Xt?ut)??1?at??2?atXt??atE(ut)??2也即,作
t
?aY为?
tt
2
的任意线性无偏估计量。
为?2的任意线性无偏估计量,必须满足下列约束条件:
?a
?0;且?atXt?1
又因为varYt??2,所以:
~22
var(?2)?var?atYt??atvarYt??2?at
??2?[at?
2
Xt?Xt?2
?]
(Xt?)2(Xt?)2
2
Xt?22(Xt?)???[at?]??2(X?)[(Xt?)2]2 t
Xt?Xt??2?2?[at?][]22
(X?)(X?)tt
??2?[at?
Xt?]2??22
(Xt?)
2
1
(Xt?)2
分析此式:由于第二项?
1~
是常数,所以var(?2)只能通过第一项2
(Xt?)
?2?[at?
~var(?2)才可以取最小值,即:
~1?) minvar(?2)??2?var(?22
(X?)t
?是标准一元线性回归模型中总体回归系数?的最优线性无偏估计量。 所以,?22
四、计算题 1. 解:
Xt?Xt?2
的处理使之最小化。明显,只有当 时,]a?t22
(X?)(X?)tt
??(1)?2
.09(Y?Y)(X?X)?334229
?0.7863
425053.73(X?X)
t
t2
t
??????549.8?0.7863*647.88?40.3720 ?12
(2)r
2
?(Y?Y)(X?X)]
?
(X?X)(Y?Y)
[
t
t
2
t
2
t
2
334229.092
??0.999834 425053.73*262855.25
?et?(1?r2)?(Y?)2?43.6340
2
?2.0889 n?2
(3)H0:?2?0,H1:?2?0
Se?
?et
2
S???
2
Se
(X
?
2
t
?)2
?
2.0889
?0.003204
425053.73
t???
2
??2S??
0.7863
?245.4120
0.003204
t?/2(n?2)?t0.05(10)?2.228
t值远大于临界值2.228,故拒绝零假设,说明?2在5%的显著性水平下通过了显著性检验。
(4)Yf?40.3720?0.7863*800?669.41(万元)
Sef
(Xf?X)211(800?647.88)2
?S???2.1???2.1429
n12425053.73(Xt?X)2
Yf?t?/2(n?2)Sef?669.41?2.228*1.0667?669.41?2.3767 即有: 664.64?Yf?674.18
3.解:
(1)回归分析的Excel操作步骤为:
步骤一:首先对原先Excel数据表作适当修改,添加“滞后一期的消费”数据到表中。 步骤二:进行回归分析
选择“工具” →“数据分析” →“回归”,在该窗口中选定自变量和因变量的数据区域,最后点击“确定”完成操作:
得到回归方程为:
Ct?466.7965?0.4471Yt?0.2640Ct?1
(2)从回归分析的结果可知:
随机误差项的标准差估计值:S=442.2165
修正自由度的决定系数:Adjusted R Squares=0.9994 各回归系数的t统计量为:
t???3.3533;t???15.6603;t???4.9389
1
2
3
F统计量为16484.6,远远大于临界值3.52,说明整个方程非常显著。 (3)预测
使用Excel进行区间估计步骤如下: 步骤一:构造工作表
步骤二:为方便后续步骤书写公式,定义某些单元格区域的名称 步骤三:计算点预测值Cf
步骤四:计算t临界值
步骤五:计算预测估计误差的估计值Sef
步骤六:计算置信区间上下限
最终得出Cf的区间预测结果:56380.05?Cf?58662.33
第九章
一、选择题
1.C 3.B 5.C 二、判断分析题 1.正确; 3.正确。
5.错误。前10年的平均增长速度为7.177%,后4年的平均增长速度为8.775%。这14年间总的增长速度为180%(即2004年比1990年增长180%)。
三、计算题
1. 解:第一季度的月平均商品流转次数为:
第一季度的月平均销售额(2880?2170?2340)/32466.333
???1.61 第一季度的平均库存额1530(?1310?1510?)/(4?1)22
第一季度的平均商品流通费用率为:
第一季度的月平均流通费用(230?195?202)/3209
???8.48%
第一季度的月平均销售额(2880?2170?2340)/32466.3333.解:平均增长速度=.39?1?6.8078%,增长最快的是头两年。
7.解:对全社会固定资产投资额,二次曲线和指数曲线拟合的趋势方程和预测值(单位:亿元)分别为:
?t?2727.2?286.08t?147.69t2,R2=0.9806,2005年预测值=56081.60; y
2?t?2169.2e0.176t?2169.2(1.19244y)t,R=0.9664,2005年预测值=73287.57。
国有经济固定资产投资额,可用二次曲线和直线来拟合其长期趋势,趋势方程和预测值(单位:亿元)分别为:
?t?186.77?557.39t?30.075t2,R2=0.9792,2005年预测值=23364.57; y
?t??1918.5?1158.9t,R2=0.9638,2005年预测值=21259.50。 y
9.解:加权移动平均的预测值为:
9180?5?9570?4?10155?3?9810?2?9630?1?26?y?9530
5?4?3?2?1
二次指数平滑预测的结果为:
?26?a25?b25?1?9426.18?54.07?1?9372.1 y
一阶自回归模型预测的结果为:
?26?1517.2228?0.83754?9180?9205.84。 y
第十章
一、选择题
1.D; 3.A ; 5.B; 7.D; 9.C。 二、判断分析题
1.实际收入水平只提高了9.1%(=120%/110%-100%)。
3.不正确。对于总指数而言,只有当各期指数的权数固定不变时,定基指数才等于相应环比指数的连乘积。
5.同度量因素与指数化指标的乘积是一个同度量、可加总的总量。同度量因素具有权衡影响轻重的作用,故又称为权数。平均指数中的权数一般是基期和报告期总量(总值),或是固定的比重权数。
7.将各因素合理排序,才便于确定各个因素固定的时期;便于指标的合并与细分;也便于大家都按统一的方法进行分析,以保证分析结果的规范性和可比性。“连锁替代法”适用于按“先数量指标、后质量指标”的原则对各个因素进行合理排序的情况。
三、计算题
拉氏指数较大,帕氏指数较小,而理想指数和马埃指数都居中且二者很接近。
?q1p1185?110?22317
???103.75% 3. 解:Ip?
305.54?q1P1??p1/p01.100.951.02农产品收购价格提高使农民收入增加11.46 (=317-305.54) 万元。
5.解:已知各部门生产量增长率(从而可知类指数),可采用比重权数加权的算术平均指数公式计算工业生产指数,即:
1.08?30%?1.1?25%?1.14?18%?1.05?27%?108.77%。
7.解:先分别计算出基期总成本(?q0p0=342000)、报告期总成本(?q1p1=362100)和假定的总成本(?q1p0=360000)。
362100?q1p1
??105.88% 总成本指数:Iqp?
qp342000?00
总成本增加额:?q1p1??q0p0=362100-342000=20100(元)
360000?q1p0
??105.26% 产量指数:Iq?
qp342000?00
产量变动的影响额:?q1p0??q0p0=360000-342000=18000(元)
362100?q1p1
??100.58% 360000?q1p0
单位成本的影响额:?q1p1??q1p0=362100-360000=2100(元)
单位成本指数:Ip?
三者的相对数关系和绝对数关系分别为:
105.88%=105.26%×100.58%,20100=18000+2100(元)
计算结果表示:两种产品的总成本增加了5.88%,即增加了20100元。其中,由于产量增加而使总成本增加5.26%,即增加了18000元;由于单位成本提高而使总成本增加了0.58%,即增加了2100元。
9.解:先计算出基期总平均价格0=26.2(元),报告期总平均价格1=32.7692(元),
?x0f1
假定的总平均价格=28.3846(元)。再计算对总平均价格进行因素分析所需的三个指
?f1
数以及这三个指数分子分母的绝对数差额。详细计算过程和文字说明此不赘述。三者的相对数关系和绝对数关系分别为:125.07%=115.45%×108.34%,6.5692=4.3846+2.1846(元)。
产品质量变化体现在产品的等级结构变化方面,因此,根据结构影响指数可知,质量变
化使总平均价格上升8.34%,即提高了2.1846元,按报告期销售量计算,质量变化使总收入增加了28400(元),即:2.1846(元)×130(百件)=284 (百元)=28400(元)
第十一章
一、选择题 1.A.B.C.D。 3. B.C。 二、计算题
1.解:
(1)根据最大的最大收益值准则,应该选择方案一。 (2)根据最大的最小收益值准则,应该选择方案三。
(3)在市场需求大的情况下,采用方案一可获得最大收益,故有: maxQ(ai,?1)?400
i
在市场需求中的情况下,采用方案二可获得最大收益,故有: maxQ(ai,?2)?200
i
在市场需求小的情况下,采用方案三可获得最大收益,故有: maxQ(ai,?3)?0
i
根据后悔值计算公式rij?maxQ(ai,?j)?qij,可以求得其决策问题的后悔矩阵,如
i
下表:
根据最小的最大后悔值准则,应选择方案一。
E(Q(a1))?0.6?400?(1?0.6)?(?140)?184
(4) E(Q(a2))?0.6?200?(1?0.6)?(?20)?112
E(Q(a3))?0.6?0?(1?0.6)?0?0
由于在所有可选择的方案中,方案一的期望收益值最大,所以根据折中原则,应该选择方案一
E(Q(a1))?(400?100?140)?120
(5) E(Q(a2))?(200?200?20)?126.67
E(Q(a3))?(0?0?0)?0
因为方案二的期望收益值最大,所以按等可能性准则,应选择方案二。
3.解:设由于飞机自身结构有缺陷造成的航空事故为?1,由于其它原因造成的航空事故为?2,被判定属于结构缺陷造成的航空事故为ek,则根据已知的条件有:
P(?1)=0.35, P(?2)=0.65, P(ek/?1)=0.80, P(ek/?2)=0.30
当某次航空事故被判断为结构缺陷引起的事故时,该事故确实属于结构缺陷的概率为:
P(?1/ek)?
P(?1)?P(ek/?1)
?P(?
j?1
2
=
j)?P(ek/?j)
0.35?0.8
?0.589
0.35?0.8?0.65?0.3
5.解:决策树图 略。
(1) 根据现有信息,生产该品种的期望收益为41.5万元大于不生产的期望收益,因此可生产。
(2) 自行调查得出受欢迎结论的概率=0.65*0.7+0.35*0.30=0.56,
市场欢迎的后验概率=0.65*0.7/0.56=0.8125
期望收益值=(77*0.8125 -33*0.1875)0.56+(-3*0.44) =30.25万元 自行调查的可靠性不高,并要花费相应的费用,其后验分析最佳方案的期望收益值小于先验分析最佳方案的期望收益,所以不宜采用该方案。
(3) 委托调查得出受欢迎结论的概率=0.65*0.95 +0.35*0.05 =0.6825
市场欢迎的后验概率= 0.65*0.95 /0.6825=0.9744
期望收益=(75*0.9744 -35*0.0256)0.6825 +(-5*0.3175)=47.67万元 委托调查虽然要付出较高的费用,但比较可靠,其后验分析最佳方案的期望收益大于先验分析最佳方案的期望收益,所以应采用该方案。
第十二章
一、判断题 1.错;3.错;5.对 二、计算题
1. 解
将距离d排序,可知d34=0.11最小,d12=0.15次之,d57=0.20再次之(如此类推),又该题中项目的评价指标体系指标容量为4,所以可在指标3和指标4中选择一个指标,将它确定为第一个评价指标,又在指标1和指标2中选择一个指标,将它确定为第二个评价指标,在指标5和指标7之间选择一个指标,将它确定为第三个评价指标,确定指标6为第四个评价指标。该题的聚类图绘制如下:
3 4 1 2 5 7
指标
xi?xi(s)
3. 解:(1)功效系数法计算公式为:d?(h)?40?60
xi?xi(s)
*i
依据题中所给数据,用功效系数法对其进行同度量处理如下:
(2)题中所示5个指标中,每天污水处理量、BODS去除率、悬浮物去除率三项指标为正指标;处理1吨污水消耗空气量、去除1公斤BODS耗电量两项指标为逆指标。
根据相对化处理公式:正指标:xi??xi/x
m,逆指标:xi??xm/xi 依据题中所给数据,用相对化法对其进行同度量处理如下:
(3) 加权算术平均实际值得分=90.5
加权几何平均实际值得分≈89.72
(4)加权算术平均与最优值相对距离=0.07877
转载请注明出处范文大全网 » 袁卫统计学(第二版)答案
16;>