范文一:生物统计学第五版答案 生物统计学考试题及答案
重庆西南大学至学年度第
试题(A)
试题使用对象:级专业(本科) 命题人:考试用时分钟 答题方式采用: 闭卷
说明:1、答题请使用黑色或蓝色的钢笔、圆珠笔在答题纸上书写工整.
2、考生应在答题纸上答题,在此卷上答题作废.
一:判断题;(每小题1分,共10分 )
1、正确无效假设的错误为统计假设测验的第一类错误。
1
( )
2、标准差为5,B群体的标准差为12,B群体的变异一定大于A群体。( ) 3、一差异”是指仅允许处理不同,其它非处理因素都应保持不变。( ) 4、30位学生中有男生16位、女生14位,可推断该班男女生比例符合1?1
2
(已知?0.05,1?3.84)。 ( )
5、固定模型中所得的结论仅在于推断关于特定的处理,而随机模型中试验结论则将用于推断处理的总体。( )
6、率百分数资料进行方差分析前,应该对资料数据作反正弦转换。( ) 7、比较前,应该先作F测验。 ( )
8、验中,测验统计假设H0:???0 ,对HA:???0 时,显著水平为5%,则测验的
u?值为1.96( )
2
9、行回归系数假设测验后,若接受Ho:??0,则表明X、Y两变数无相关关系。( )
10、株高的平均数和标准差为?s?150?30(厘米),果穗长的平均数和标准差为?s?30?10(厘米),可认为该玉米的株高性状比果穗性状变异大。 ( )
二:选择题;(每小题2分,共10分 )
1分别从总体方差为4和12的总体中抽取容量为4的样本,样本平均数分别为3和2,在95%置信度下总体平均数差数的置信区间为( )。
A、[-9.32,11.32] B、[-4.16,6.16] C、[-1.58,3.58]
D、都不是
2、态分布不具有下列哪种特征( )。
A、左右对称 B、单峰分布 C、中间高、两头低 D、概率处处相等 3、一个单因素6个水平、3次重复的完全随机设计进行方差分析,若按最小显著差数法进行多重比较,比较所用的标准误及计算最小显著差数时查表的自由度分
3
别为( )。 A、
2MSe/6
, 3 B、
MSe/6
, 3 C、
2MSe/3
, 12 D、
MSe/3
, 12
4、已知x~N(μ,σ2),则x在区间[??,μ?1.96σ]的概率为( )。 A、0.025 B、0.975 C、0.95
D、0.05 5、方差分析时,进行数据转换的目的是( )。
4
A. 误差方差同质 B. 处理效应与环境效应线性可加 C. 误差方差具有正态性 D. A、B、C都对 三、简答题;(每小题6分,共30分 ) 1、方差分析有哪些步骤,
2、统计假设是,统计假设分类及含义, 3、卡方检验主要用于哪些方面, 4、显著性检验的基本步骤,
5、平均数有哪些,各用于什么情况, 四、计算题;(共,题、50分)
1、进行大豆等位酶Aph的电泳分析,193份野生大豆、223份栽培大豆等位基因型的次数列于下表。试分析大豆Aph等位酶的等位基因型频率是否因物种而不同。(
2
?2,0.05?5.99
,
2
5
?3,0.05?7.81
)(10分)
野生大豆和栽培大豆Aph等位酶的等位基因型次数分布
物 种
野生大豆 29 68 96 栽培大豆 G.max 22 199 2
2、用A、B两种类型的玻璃电极测量土壤的PH值,每种测4次,用A种玻璃电
2
极测得结果为:5.78、5.74、5.84、5.80,s1=0.001733;用B种玻璃电极测得
结果为:5.82、5.87、5.96、5.89,s22=0.003367,问两种电极测定的结果有无显著差异,(F0.05,3,3=9.28,F0.05,4,4=6.39,t,0.05,4=2.365, t0.05,3=3.182,t0.05,
6
6
=2.447)(10分)
3、一个容量为6的样本来自一个正态总体,知其平均数1?30和均方s12?40,
2
?45,测验一个容量为11的样本来自一个正态总体,得平均数2?22,均方s2
H0:?1??2?0。 ( u0.05 = 1.96, t15,0.05 = 2.131, t16,0.05 = 2.120)(15分)
4、有一个玉米杂交种密度试验,6个处理(1=2000株/亩,2=3000株/亩,3=4000株/亩(对照),4=5000株/亩,5=6000株/亩,6=7000株/亩),随机完全区组设计,三次重复,试对试验所获得小区产量结果进行以下分析。(15分) (1)完成下列方差分析表并解释结果。(每空0.7分,共7分)
7
(2)若进行LSD法多重比较,试计算平均数比较的标准误SE;(3分) (3)若本试验采用完全随机设计,则方差分析时误差项的自由度dfe= ,平方和SSe= ,而对处理效应测验的F值= 。(每空1分,共3分)
重庆西南大学至学年度第
生物统计学 试题(A)参考答案
一、判断题
1-5: ? × ? ? ? 6-10:× × × × ×
二、选择题
1-5:D D C B D 三、简答题
1、答:?、将样本数据总平方和与总自由度分解为各变异因素的平方和与自由度;
?、列方差分析表进行F检验,分析各变异因素在总变异中的重要程度; ?、若F检验显著,对各处理平均数进行多
8
重比较。
2、答:?、统计假设:是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设;
?、无效假设(零假设):是直接检验的假设,是对总体提出的一个假想目标,记为H0;
?、备择假设:是与无效假设相反的一种假设,即认为试验结果中的差异是由总体参数不同所引起的,即处理“有效”记为HA。
3、答:?、样本方差的同质性检验:就是要从各样本的方差来推断其总体方差是否相同;
?、适合性检验:比较观测值与理论值是否符合的假设检验;
?、独立性检验:是研究两个或两个以上因子彼此之间是相互独立还是相互影响的一类统计方法。
4、答:?、提出假设(H0、HA);
9
?、确定显著水平(记为α,常取α=0.05和α=0.01); ?、在H0正确的前提下计算统计分布的统计数或相应的概率值; ?、根据小概率原理,进行差异是否显著的推断,并得出结论。
5、答:?、算数平均数:用于具有N个观测值的有限总体,为最常用的平均数,用于多数情况;
?、中位数:用于极差较大的情况;
?、众数:用于某组数据中个别数据出现次数较多时;
?、几何平均数:用于计算比率或动态平均数,且仅用于有一定比例或近似比例的数据。 四、 计算题
百度搜索“就爱阅读”,专业资料、生活学习,尽在就爱阅读网92to.com,您的在线图书馆!
10
范文二:统计学第五版总结
第一章 绪论
1、 统计包含三种涵义
(1)统计工作:一种调查研究活动。资料搜集、整理和分析。 统计资料:即统计信息,工作成果。包括统计数据和分析报告。 统计学:研究如何搜集、整理、分析数据资料的一门方法论科学。 (2)统计资料:对现象的数量进行搜集、整理和分析的活动过程。 统计资料:通过统计实践活动取得的说明对象某种数量特征的数据 原始资料:直接从各调查单位搜集的用来反映个体特征的数据资料
次级资料:由原始资料加工得到的在一定程度上能反映总体特征的数据资料 (3)统计学:是研究总体一定条件下的数量特征及其规律性的方法论学科
统计学的性质:统计学是通用的方法论科学;统计学使用大量观察和归纳推理的方法,得出对事物总体的综合认识;统计学结合现象的“质”研究现象的“量”
特点:数量性(统计研究过程是从质和量的辩证统一中研究现象的数量特征,从数量上认识事物的性质和规律)、总体性(统计所研究的是由同类事物构成的群体现象的数量特征)、具体性、社会性 2、统计学的分类
理论统计学:研究的内容是统计的一般理论和方法,包括描述统计学、推断统计学
应用统计学:研究的内容是运用于某一特定领域的统计问题,国民经济统计学、社会统计学、人口统计学 3、统计研究方法
(1)方法论——大数定律 (2)统计研究的基本方法
大量观察法 :是指对所研究的事物的全部或足够数量进行观察的方法。它可以使影响个体的偶然因素相互抵消,显示出现象的一般特征。其数理依据是反映随机现象基本规律的大数定律。诸如,各种基本的、必要的统计报表、普查、重点调查和抽样调查等。
统计描述法 :指通过对客观实际的调查了解,并对搜集到的数据进行加工整理、综合分析,从而计算出各种能反映总体数量特征的综合指标,借以反映现象总体的总量规模、结构比例、速度快慢等实际状况。统计描述的内容包括统计分组法、综合指标法和统计模型法。
统计推断法:是以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理的方法。统计推断是逻辑归纳法在统计推理的应用,所以称为归纳推理的方法。统计推断是现代统计学的基本方法。 (3)统计活动过程
统计设计 :统计指标和指标体系的设计、统计分类分组的设计、统计表的设计、统计资料搜集方法的设计、统计工作各个部门和各个阶段的协调与联系、统计力量的组织与安排, 统计调查 :就是搜集统计资料的工作阶段。
统计整理 :对调查阶段搜集的原始资料,按照一定标志进行科学的分组和汇总,使之条理化、系统化。 统计分析 :对经整理后的各项综合指标进行分析计算,揭示被研究现象的比例关系和发展过程,阐明现象的变化趋势和规律性,通过分析研究作出科学的结论。 4:统计总体和总体单位
统计总体:由客观存在的、在同一性质基础上结合起来的许多个别单位所形成的集合 具有客观性、大量性、同质性、变异性、相对性等特点。
总体单位:指构成总体的个体即每一个单位。总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。
总体或总体单位的区分不是固定的,在一定条件下可以相互转化。 5、统计总体的种类
有限总体和无限总体,大总体和小总体,可加总体和不可加总体 6、标志:指总体单位所具有的属性和特征,标志的具体表现称为标志值
品质标志:是表明事物“质” 的特性的标志。如性别、民族
数量标志:是表明事物“量” 的特性的标志。如身高。其中,可变的数量标志又被叫作变量。
统计研究是从登记标志开始,并通过对标志的综合来反映总体的数量特征,因此标志是统计研究的起点。 7、总体单位标志:不变标志(标志表现无差别),决定总体的同质性
变异标志(标志表现有差别),决定总体的差异性,包括品质标志和数量标志 8、变量的种类:确定性变量(由确定性因素:明确的、可解释的、人为的或者受人控制的因素影响所形成,使变量按一定方向变动)、随机变量(由随机因素:不确定的、偶然的、非人为控制的、不可解释的因素所形成的变量);离散变量(只能取整数)、连续变量(可取小数) 9、统计指标:反映社会经济现象总体数量特征的概念及其具体数值
构成要素:时间限制、空间限制、计算方法、(指标名称、指标数值)、计量单位
性质:数量性(统计指标是数量范畴,“没有没有数量的指标”)、具体性(总体在具体时间、地点、条件下的数量特征,即统计指标“质的规定性”)、综合性(对总体数量特征的综合说明,是由个体数量综合而来的。 )
10、标志与指标的联系与区别:
联系:(1)一些数量标志汇总可以得到指标的数值(2)数量标志与指标之间存在变换关系。 区别:(1)标志是说明总体单位特征的,而指标是说明统计总体数量特征的;
(2)标志的具体表现,有的用数值有的用文字表示,而指标都是用数值表示的。 11:、统计指标的分类
(1)按表现形式、内容特征分类:总量指标(单一计量单位,绝对数,数量指标,按计量单位分为实物指标、价值指标、劳动指标)相对指标(无计量单位,相对数,质量指标)平均指标(双重计量单位,质量指标)
(2)按时间特征分类:时期指标(一段时期累计总量及据此计算的相对、平均指标)时点指标(瞬间的总量及据此计算的相对、平均指标)
12、统计指标体系:具有某种内在联系的一系列统计指标所构成的整体
如、存在确定的数量关系:产量× 价格=产值;存在某种共同性: 产销比率、盈利水平、劳动效率、偿债能力
指标体系的作用:全面、综合地对客观事物进行描述、分析。
第二章 统计调查与整理
13、统计调查就是按照统计任务的要求,运用科学的调查方法,有组织地向社会实际搜集资料的过程。 14、统计调查的基本要求:准确性、及时性。准确性要求和及时性要求是相互结合相互依存的,及时性在准确性要求的前提下才有意义,而准确性也不能损害及时性的要求 15、统计调查的设计(即统计调查方案) (1)确定调查的目的 —— 即为什么调查
(2)确定调查对象和调查单位 —— 即向谁做调查。调查对象就是我们需要进行研究的总体范围,即调查总体。它是由性质相同的许多调查单位所组成的。作为调查单位乃是进行登记的标志表现的直接承担者。 (3)拟订调查提纲和制定调查表 —— 即用什么方法调查。拟订调查项目时要注意几个原则:- 调查项目要少而精;- 调查项目含义要明确;- 尽可能做到各个调查项目之间有一定的联系。
调查表分为:一览表(把许多调查单位和相应的项目按次序登记在一张表格里。这便于汇总,但缺点是分不开,故调查深度不够;)单一表(将一个调查单位的项目登记在一份表或一种卡片上。这便于容纳较多的项目,且便于整理、分类,缺点是繁琐。)
(4)确定调查时间 —— 即在什么时间调查 。要区别调查时间和调查期限的不同:- 调查时间是指调查资料所属的时间(时点或时期);- 调查期限是指调查工作的起讫时间。 (5)制定调查的组织实施计划
16、统计调查的方法:直接观察法、报告法、采访法、网上调查法。另外,还有电话调查、座谈会、个别深度访谈等方法。
17、统计调查的组织(即调查的种类)——按调查的范围分,统计调查可以分为:全面调查和非全面调查;按登记事物的连续性分,统计调查可以分为:经常调查和一时调查;按组织形式分,统计调查可以分为:统计报表和专门调查。
18、统计报表分为:基本统计报表,专门统计报表。
按报送周期长短不同统计报表分为:定期报表(日报、旬报、月报、季报、半年报)、年报
专门调查:分为普查、重点调查、抽样调查、典型调查。普查为全面调查,后三者为非全面调查。 普查:专门组织的一次性调查,用来调查属于一定时点的社会现象的总量。例:每5年一次的经济普查 重点调查:对重点单位进行调查。重点单位指的是这些单位数占总体的很少部分,而研究的标志总量占绝大部分(或绝大比重)。
抽样调查:按随机原则从总体中抽取一部分单位进行调查。
典型调查:先对总体进行分析,然后选择有代表性的单位进行调查。例,选取部分企业进行调查,以了解企业股份制改革后的成果及问题。 19、统计分组
概念: 把同质总体中的具有不同特点的单位分开,从而正确地认识事物的本质及其规律性。 作用:类型分组——揭露社会经济现象的类型,反映各类型的特点。 结构分组——说明社会经济现象的内部结构。 分析分组——研究经济现象之间的依存关系。
选择分组标志的原则:根据研究问题的目的来选择;要选择最能反映被研究现象本质特征的标志;要结合现象所处的具体历史条件或经济条件来选择。 20、分组标志的种类
(1)按分组标志的特征不同分为 : 品质标志分组 —— 反映事物属性差异。
—简单分组,如人口按性别分组;- 复杂分组,亦称分类,如人口按职业分组。
数量标志分组 —— 反映事物数量差异。
- 单项式数量分组 —— 运用于变量变动幅度小、项目少的分组。
- 组距式分组 —— 运用于变量变动幅度大、项目多的分组。
(2)按总体所选择标志的个数分 : 简单分组 —— 按一个标志对总体进行分组
复合分组 —— 按两个或两个以上标志对同一总体进行分组
对社会经济现象需要从各方面进行观察和分析研究,需要采用一系列相互联系、相互补充的标志对现象进行多种分组,这些分组结合起来构成一个体系,叫做分组体系。 21、分配数列
概念:统计总体按照某一标志分组以后,用以反映总体各单位分配情况的统计数列,称分配数列,又可称次数分配,或次数分布。
种类:以分组标志特征不同分为——品质数列、变量数列
变量数列:(1)单项变量数列(单项数列)—— 按每个变量值分别列组编制数列,适用于不连续变量或变
量能以整数表示,其变动范围不大时。
组距变量数列(组距数列)—— 按组距分组编制数列。适用于连续变量或变量可用小数表示,其变动范围较大时。
(2)连续变量数列 —— 可有小数,采取组距式。
非连续变量数列 —— 整数,采取单项式或组距式 (例:一个地区的企业按职工人数分组)。 22、组距数列的编制
组限:组距两端的数值。分为上限和下限。
组距:某一组的上限和下限的距离,分等距和异距。组距=上限-下限,等距数列组距=全距R/组数 全距:分组数列中最大值的上限与最小值的下限之差。 组中值:组的上限和下限的中间值。
因数列两端组限形式不同分:开口式组距—最低组与最高组不封口;闭口式组距。 编制步骤:确定组距和组数;确定组限和组中值。 23、关于组限问题
对连续变量,组数也要连续。在登记次数时,习惯上遵守:上组限不在内——适用于越大越好的变量,如产值;下组限不在内——适用于越小越好的变量,如成本。 对不连续变量,组与组间是间断的。 关于组中值问题:
组的上限?组的下限闭口式分组的组中值求法: 组中值?
2
上限?下限
或?下限? 2
开口式分组的组中值求法: 缺下限的开口组的组中值?上限?
缺上限的开口组的组中值?下限?
1
邻组组距21
邻组组距2
24、次数分布的表示方法
表示法—— 即用统计表来表示次数分布。以下累计次数(上限)——即较小制累计。每一组的累计次数表示小于该组上限(变量)值的次数共有多少;以上累计次数(下限)——即较大制累计。每一组的累计次数表示大于该组下限(变量)值的次数共有多少。
图示法:用统计图来表示次数分布——直方图、折线图(在直方图的基础上连接各条形顶边的中点成折线图)、曲线图(组数趋向于无限多时折线图的极限描绘,是一种理论曲线) 25、次数分布的主要类型
一般次数分布呈正态分布曲线,或称正态曲线 :对称型;很多是偏态分布曲线,或称偏态曲线:右偏型(上偏型)、左偏型(下偏型);还有其他形态:U型分配曲线、J型分配曲线、双峰曲线 26、统计表的结构和内容
从形式上看:统计表由总标题、横行标题、纵栏标题、指标数值构成。
从内容上看:统计表由主词(说明总体或总体的分组)和宾词(用哪些指标数值来说明总体或总体的分组)两部分构成。
27、统计表的特点——开口式;上下有基线;编号:主词一般按A、B、C?,宾词按1、2、3?;有计量单位;表中不允许有空格:若不需要此资料则用“-”;暂缺某资料则用“??” 28、统计表的分类 简单表:总体未分组
分组表:总体按一个标志进行分组 复合表:总体按二个或二个以上标志进行复合分组
29、统计表的编制原则
. 总标题须简明扼要表达出全表的内容;
. 各标题要确切反映表的内容,且表格安排合理; . 指标数值要位数对齐,合计或总计一般放在表的尾部;
. 对指标内容作必要说明时,可加注在表的下方;
. 表的上下边线(基线)用粗实线或双线,表的两边是开口式; . 纵栏较多时编栏号,指标数值栏要注明计量单位和资料表示的时间。 总原则:合理、科学、实用、简练、美观。
第三章 综合指标
30、综合指标从它的作用和方法特点的角度可概括为三类:绝对指标、相对指标、平均指标 31、总量指标(绝对指标)
概念:总量指标是反映社会经济现象一定时间、地点、条件下总的规模、水平的统计指标。
总量指标表现形式是绝对数,也可表现为绝对差数。
作用:总量指标能反映一个国家的基本国情和国力,反映某部门、单位等人、财、物的基本数据;总量指标是进行决策和科学管理的依据之一 ;总量指标是计算相对指标和平均指标的基础。 32、 总量指标的分类
按其反映的内容不同可分为:总体单位总量 —— 说明总体的单位数数量。
标志总量—— 说明总体中某个标志值总和的量。
按其反映的时间状况不同可分为:时期指标 —— 反映现象在某一时期发展过程的总数量。(可连续计数,
与时间长短有关,是累计结果)
时点指标 —— 反映现象在某一时刻的状况。 (间断计数,与时间间隔无关,不能累计) 33、总量指标的计算
计算原则:现象的同类性;明确的统计含义;计量单位必须一致。 根据总量指标所反映的社会经济现象性质不同,计量单位分三种形式: (1) 实物单位:a.自然单位:辆、双、头、根、个?? b. 度量衡单位:吨、米、克、立方米?? c. 双重单位:公里/小时、人/平方公里?? d. 复合单位:吨公里、公斤米、千瓦小时??
对有些性质相同但规格或含量不同的产品总量的计算,要按折合标准实物量的方法计算。
(2) 价值单位(货币单位):货币单位有现行价格和不变价格之分。价值单位使不能直接相加的产品产量过渡到能够加总,用于综合说明具有不同使用价值的产品生产总量或商品销售量等的总规模、总水平。 (3) 劳动单位 :工时 —— 工人数和劳动时数的乘积;台时 —— 设备台数和开动时数的乘积。 由于具体条件不同,不同企业的劳动量指标不具有可比性,因此,劳动量指标只限于企业内部使用。 34、相对指标
概念:是两个有联系的绝对指标之比。
相对指标的数值有两种表现形式:有名数(人口密度:人/平方公里;平均每人分摊的粮食产量:千克/人 )
无名数(系数或倍数、成数、百分数、千分数)
35、相对指标的种类及其计算 (一) 计划完成相对指标
(1)、计算公式: 计划完成相对数?实际完成数?100%
计划数
根据绝对数、平均数、相对数来计算计划完成相对数 (2)长期计划的检查 水平法:
累计法:
五年计划完成程度?五年计划完成程度?
五年计划末年实际达到的水平五年计划中规定的末年水平
?100%
五年计划期间实际累计完成数
?100%
五年计划规定的累计数
(二) 结构相对指标 计算公式为:
(三) 比例相对指标 计算公式为:
总体中某部分数值
比例相对数?
总体中另一部分数值
总体某部分数值
?100%
总体全部数值
结构相对数?
常用的比例形式有两种:将作为比较基础的数值抽象化为1、10、100或1000,看被比较的数值是多少;首先将总体全部数值抽象化为100,求得各部分数值在总体中所占百分数,然后将各部分的百分数连比得比例相对数。
(四) 比较相对指标(类比相对指标) 计算公式为:
比较相对数?
某条件下的某类指标数值另一条件下的同类指标数值
?100%
计算比较相对数时,作为比较基数的分母可取不同的对象,一般有两种情况: ① 比较标准是一般对象,这时,分子与分母的位置可以互换。 如:
比较相对数?
甲地区(单位)某一现象的水平乙地区(单位)同类现象的水平
?100%
② 比较标准(基数)典型化,如:把企业的各项技术经济指标都和国家规定的质量水平比较,和同类企业
的先进水平比较,和国外先进水平比较等,这时,分子与分母的位置不能互换。 (五) 强度相对指标 计算公式为:
强度相对数?
某一总量指标数值
另一性质不同但有一定联系的总量指标数值
强度相对数的数值表示有两种方法:① 一般用复名数表示;② 也有少数用百分数或千分数表示。 有些强度相对数有正、逆两种计算方法。 (六) 动态相对指标 计算公式为:
动态相对数?
报告期水平基期水平
?100%
基期 —— 作为对比标准的时间;报告期—— 同基期比较的时期,也称计算期
36、正确运用相对指标的原则:注意二个对比指标的可比性;相对指标要和总量指标结合起来运用;多种相对数结合运用;在比较二个相对数时,是否适宜相除再求一个相对数,应视情况而定。若除出来有实际意义,则除;若不宜相除,只宜相减求差数,用百分点表示之。(百分点 —即百分比中相当于百分之一的单位)
37、平均指标的意义和作用
概念:平均指标是指在同质总体内将各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平。
特点:数量抽象性 集中趋势代表性
作用:比较作用(a. 同类现象在不同空间的对比。b. 同一总体在不同时间上的比较); - 利用平均指标可以分析现象之间的依存关系
- 利用平均指标可以进行数量上的推算,还可以作为论断事物的一种数量标准或参考 种类:数值平均数(算术平均数—位置平均数(众数—
;调和平均数—
X
h
;几何平均数—
X
G
)
M
o
,中位数—
M
e
)
38、算术平均数
算术平均数的基本公式:
简单算术平均数:
算术平均数?
总体标志总量
X?—— 各单位的标志值
n —— 总体单位数 —— 总和符号
加权算术平均数: 式中: —— 算术平均数 —— 各组数值 X?
?Xn
总体单位总数
式中: —— 算术平均数
?
?X?f
f —— 各组数值出现的次数(即权数) ?f
在掌握比重权数的情况下,可以直接利用权数系数来求加权算术平均数,其公式为: X
?
?Xf?f
??X?
f?f
加权算术平均数与简单算术平均数不同在于:加权算术平均数受变量值大小、次数多少的影响;而简单算术平均数只反映变量值大小这一因素的影响。 39、算术平均数的数学性质
① 各个变量值与算术平均数离差之和等于零 简单平均数:?
(X?X)?0 加权平均数:?(X?X)f?0
③ 各个变量值与算术平均数离差平方之和 等于最小值
简单平均数:?(X?X)?最小值
22
?(X?X)f?最小值 加权平均数:
40、算术平均数的特点
算术平均数适合用代数方法运算,因此运用比较广泛;易受极端变量值的影响,使 的代表性变小;受极大值的影响大于受极小值的影响;当组距数列为开口组时,由于组中点不易确定,使 的代表性也不很可靠。 X
41、调和平均数(又称“倒数平均数”)
调和平均数是各个变量值倒数的算术平均数的倒数。
计算方法: (1).先计算各个变量值的倒数,即1(2).计算上述各个变量值倒数的算术平均数,即
X
n
(3).再计算这种算术平均数的的倒数,就是调和平均数,即
?
n
1X
nXh?在加权的情况下:X 1
?
h
1X
?
??
1
ff
X
在社会经济统计学中经常用到的仅是一种特定权数的加权调和平均数。即有以下数学关系式成立:
X?
?
X
?Xf?f
?
??
Xf1XfmX
?
?m?
mX
?X
h
X
式中:m?Xf,f?
m是一种特定权数,它不是各组变量值出现的次数,而是各组标志值总量。 42、调和平均数的特点
如果数列中有一标志值等于零,则无法计算X X h;较之算术平均数,h受极端值的影响要小。
43、几何平均数(又称“对数平均数”) 简单几何平均数:
X
G
?
n
X1?X2?XnG
n
计算时要进行对数变换,即:加权几何平均数: X
G
lgX?
?lgX
n?X
XG?arc XG
?
f1?f2?L?式中:f为各变量值的次数或权数
将公式两边取对数,则为:
f1lgX1?f2lgX2?L?fnlgXn
? lgXG?
f1?f2?L?fn
X?arc(lgXG) G
44、几何平均数的特点
?
flgX
?
f
X如果数列中有一个标志值等于零或负值,就无法计算 ;受极端值的影响较 和 小;它适用于反映XhXG
特定现象的平均水平,即现象的总标志值是各单位标志值的连乘积。 45、众数 M0
概念:众数是在总体中出现次数最多的那个标志值
众数存在的条件:① 只有总体单位数比较多,而且又有明显的集中趋势时才存在众数。若有两个次数相等的众数,则称复众数。② 在单位数很少,或单位数虽多但无明显集中趋势时,计算众数是没有意义的。 46、众数的计算方法:① 根据单项数列确定众数;② 根据组距数列确定众数(由最多次数来确定众数所在组;利用比例插值法推算众数的近似值)
计算众数的近似值:下限公式: ? 上限公式:
47、众数的特点
众数是一个位置平均数,它只考虑总体分布中最频繁出现的变量值,而不受各单位标志值的影响,从而增强了对变量数列一般水平的代表性。不受极端值和开口组数列的影响。
众数是一个不容易确定的平均指标,当分布数列没有明显的集中趋势而趋均匀分布时,则 无众数可言;当变量数列是不等距分组时,众数的位置也不好确定。 48、中位数 Me
概念:将总体中各单位标志值按大小顺序排列,居于中间位置的那个标志值就是中位数。 中位数的计算方法:
① 由未分组资料确定中位数:
中位数的位置?
n?12
(n为总体单位数)
M
?XL?
M
?XU?
? ? ??
?d
? ??
?d
⑴ n为奇数时,则居于中间位置的那个标志值就是中位数。 ⑵ n为偶数时,则中间位置的两个标志值的算术平均数为中位数 ② 由单项数列确定中位数 ③ 由组距数列确定中位数: 下限公式(较小制累计时用):
上限公式(较大制累计时用):
?
Me?XL?
f
?Sm?
fm
?d
?Sm?
?
Me?XU?
f
fm
?d
49、中位数的特点
① 中位数不受极端值及开口组的影响,具有稳健性。 ② 各单位标志值与中位数离差的绝对值之和是个最小值。
即:
?
X?Me?min或
?
X?Mef?min
④ 对某些不具有数学特点或不能用数字测定的 现象,可用中位数求其一般水平。 50、各种平均数之间的相互关系
(一)
Xh?XG?X
即X?Me?M0
(1). 如果分布右偏,则 X?Me?M0
(二)当总体分布呈对称状态时,三者合而为一, 当总体分布呈非对称状态时,
(2). 如果分布左偏,则 X?Me?M0 所以:
(X?Mo)?0
则说明分布右偏(或上偏)
(X?Mo)?0(X?Mo)?0
M
? Me? X
则说明分布左偏(或下偏) 则说明分布对称
根据卡尔·皮尔逊经验公式,还可以推算出:
51、平均指标的运用原则:平均指标只能适用于同质总体;用组平均数补充说明总平均数;用分配数列补
充说明平均数。 52、标志变动度
概念: 标志变动度是指总体中各单位标志值差别大小的程度,又称离散程度或离中程度。
作用:① 标志变动度是评价平均数代表性的依据。② 标志变动度可用来反映社会生产和其他社会经济活动过程的均衡性或协调性,以及产品质量的稳定程度。
种类:即测定标志变动度的方法,主要有:全距、四分位差、平均差、标准差、离散系数等。 全 距R ;四分位差 Q.D. ;平 均 差 53、全距
A.D. ;标 准 差
S.D.(σ) ;离散系数
Vσ
Me? Mo? X X?
Me?Mo
全距是总体各单位标志值最大值和最小值之差,
即: R?Xmax-Xmin
全距的特点:① 优点: 计算方便,易于理解。② 缺点: 全距只考虑数列两端数值差异,它是测定标志变动度的一种粗略方法,不能全面反映总体各单位标志的变异程度。 54、四分位差
概念: 将总体各单位的标志值按大小顺序排列,然后将数列分为四等分,形成三个分割点(Q1、Q2、Q3),这三个分割点称为四分位数,(其中第二个四分位数Q2就是数列的中位数Me)。四分位差 Q.D.=Q3-Q1 计算:① 根据未分组资料求Q.D.
② 根据分组资料求Q.D.
Q1的位置?
n?14
,
Q3的位置?
3(n?1)
4
f, Q的位置?3?f1) Q1的位置?3 44
(n为变量值的项数)
2) 若单项数列,则Q1与Q3所在组的标志值就是Q1与Q3的数值; 若组距数列,确定了Q1与Q3所在组后,还要用以下公式求近似值:
Q1?L1?
?
4
f
?SQf1
3?f
1
?1
?d1 Q3?L3?
4
?SQf3
3
?1
?d3
四分位差的特点:① 四分位差不受两端各25%数值的影响,能对开口组数列的差异程度进行测定;② 用四分位差可以衡量中位数的代表性高低;③ 四分位差不反映所有标志值的差异程度,它所描述的只是次数分配中一半的离差,所以也是一个比较粗略的指标。 55、平均差
概念:平均差是数列中各单位标志值与平均数之间绝对离差的平均数。 其计算公式为:
(1) 未分组资料: A.D.?
??
X-XnX-Xf
(2) 分组资料: A.D.?
平均差的特点:① 平均差是根据全部标志值与平均数离差而计算出的变异指标,能全面反映标志值的差异程度;② 平均差计算有绝对值符号,不适合代数方法的56演算使其应用受到限制。 56、标准差
概念:标准差是离差平方平均数的平方根,故又称“均方差”。其意义与平均差基本相同。
57、交替标志的标准差
在社会经济统计中,有时把社会经济现象的总体单位,分为具有某种标志的单位和不具有这种标志的单位两组。
统计中,用“是”、“否”或“有”、“无”来表示的标志,称为交替标志,也称是非标志。 N: N1,N
N1是具有某种标志的单位数N1=P ;N2是不具有这种标志的单位数N2=1-P;具有某种标志——变量为1;不具有这种标志——变量为
?
f
?
?
??
??
d式中:A为数列中间组的组中值,d为该组组距
在组距数列中,结合算术平均数的简捷公式,可得标准差的简捷法公式如上:
58、标准差与全距、平均差的关系
① σ与R的关系:经验表明,当分布数列接近于正态分布时,R和σ之间存在以下经验公式——R为4至6个σ:;当标志值项数较少时,R≈4;当标志值项数较多时,R≈6σ
② σ与A.D.的关系:对同一资料,所求的平均差一般比标准差要小,即A.D.≤ σ 59、离散系数 Vσ
离散系数,是各种变异指标与平均数的比率。反映总体各单位标志值的相对离散程度,最常用的是标准差系数。 ?V
第四章 动态数列 60、动态数列
概念:动态数列又称时间数列。它是将某种统计指标,或在不同时间上的不同数值,按时间先后顺序排列起来,以便于研究其发展变化的水平和速度,并以此来预测未来的一种统计方法。
动态数列由两个基本要素构成:① 时间,即现象所属的时间;② 不同时间上的统计指标数值,即不同时间上该现象的发展水平。
动态数列按照所列入指标数值的不同可分为: 绝对数动态数列(时期数列、时点数列)、相对数动态数列、平均数动态数列
61:时期数列:在绝对动态数列中,如果各项指标都是反映某种现象在一段时期内发展过程的总量,这种绝对动态数列就称为时期数列。
时期数列特点:数列中各个指标值是可加的;数列中每个指标值的大小随着时期的长短而变动;数列中每个指标值通常是通过连续不断的登记而取得。
62、时点数列:在绝对动态数列中,如果各项指标都是反映现象在某一时间点(瞬间)上所处的数量水平,这种绝对动态数列就称为时点数列。
时点数列特点:数列中各个指标值是不能相加的;数列中每个指标值的大小与时间间隔的长短没有直接关系;数列中每个指标值通常是按期登记一次取得的。 63、动态数列的编制原则 基本原则:是遵守其可比性。
具体说有以下几点:注意时间的长短应统一;总体范围应该一致;指标的经济内容应该相同;指标的计算方法和计量单位应该一致。 64、动态数列的水平分析指标
属于现象发展的水平分析指标有:发展水平、平均发展水平、增长量、平均增长量。
发展水平:在动态数列中,每个绝对数指标数值叫做发展水平或动态数列水平。如果用a0,a1,a2,a3,??an,代表数列中各个发展水平,则其中a0即最初水平,an即最末水平。
平均发展水平:平均发展水平是对不同时期的发展水平求平均数,统计上又叫序时平均数。 65、序时平均数与一般平均数的异同点:
相同点:二者都是将现象的个别数量差异抽象化,概括地反映现象的一般水平。 不同点:计算方法不同;差异抽象化不同;序时平均数还可解决某些可比性问题。 66、序时平均数的计算方法 ㈠ 绝对数动态数列的序时平均数 时期数列的序时平均数
n
时期项数
式中: aa?
a1?a2?a3?L?an
n
?
标准差系数计算公式为:
?
X
?100%
?a
n
序时平均数
各时期发展水平
a1,a2,a3,Lan
时点数列的序时平均数
(1) 如果资料是连续时点资料,可分为二种情况:
对连续变动的连续时点数列(即未分组资料):对非连续变动的连续时点数列(即分组资料):对间隔相等的间断时点资料:
对间隔不等的间断时点资料:
㈡ 相对数动态数列的序时平均数
a?
a?
a?
?a
n
?aff
⑵ 如果资料是间断时点资料,也可分为二种情况:
上面计算过程概括为一
a1?a2
a?
a1
?2
?a2?a3
般公式:???
an?1?an
an
2n?1
?a2?a3???an?1?
n?1a2?a3
2
这种计算方法称为
a1?a2
2
f1?
"首末折半法"
f2?L?fi
an?1?an
2
fn?1
n?1
?
i?1
?a
由两个时期数列对比组成的相对数动态数列的序时平均数: 一般公式为: c?a???a
?bb?b
由两个时点数列对比组成的相对数动态数列的序时平均数: c?
n
ab
?
ab
?a ?a ?L?
an
n?
?
n?
ab
?a ?a ?L??b ?b ?L?
an
?b ?b ?L?
bn
bn
若为间隔不等的二个间断时点数列对比组成的相对数动态数列的序时平均数为:
a?a3a?ana1?a2
f1?2f2?L?n?1fn?1
ac??
b?b3b?bnb1?b2
bf1?2f2?L?n?1fn?1
222
若由二个连续时点数列对比组成的相对数动态数列的序时平均数:
连续变动时点: 用简单平均,即c?
a
ab
?
?a
b
af非连续变动时点:用加权平均,即 c??
bbf
由一个时期数列和一个时点数列对比组成的相对数动态数列的序时平均数:
一般公式为: c?
ab?
b12
?an
?b2?b3???
n?1
bn2
㈢ 平均数动态数列的序时平均数
c?
由序时平均数组成的平均数动态数列的序时平均数:
可见,当时期相等时,可直接用简单算术平均法计算。 67、增长量
概念:说明某种现象在一定时期内所增长的绝对数量。 增长量=报告期水平—基期水平
基期有两种:前一时期、某一固定时期。 增长量:累计增长量——
n
由一般平均数组成的平均数动态数列的序时平均: 以时间为权数:
全年平均每月产值
?
14?3?17?3?21?3?29?3
3?3?3?3
24312
?20.25(万元)
?a?b
?
若时期或间隔不等时,应使用加权算术平均法计算。
ai?a0逐期增长量——ai?ai?1
?(ai?ai?1)?an?a0
i?1
68、平均增长量
概念:说明社会现象在一段时期内平均每期增加的绝对数量。
逐期增长量之和累计增长量
平均增长量??
逐期增长量个数动态数列项数?1
69、动态数列的速度指标有:发展速度、增长速度、平均发展速度、平均增长速度 发展速度:反映社会经济现象发展程度的动态相对指标。
发展速度?
??
?
???可分为:?
ai?1a?i?1
环比发展速度? ai?1?
报告期水平
?100%
基期水平
a
定基发展速度naa0
aa0
推理:
aaa??a0a0ai?1
增长速度:反映社会经济现象增长程度的动态相对指标。
增长速度?发展速度 - 1 (100%)
无关系
增长量增长百分比
前一时期水平
100基期水平
100
?定基增长速度
?
?环比增长速度
增长1%的绝对值??
或
70、平均发展速度和平均增长速度
平均发展速度是各个环比发展速度的动态平均数(序时平均数),说明某种现象在一个较长时期中逐年平均发展变化的程度;
平均增长速度是各个环比增长速度的动态平均数,说明某种现象在一个较长时期中逐年平均增长变化的程度。
㈠ 平均发展速度
几何平均法,又称水平法:
X ?
n
?X
?
ana0
?
R
?
a1a0
?
a2a1
?
a3a2
??
anan?1
?
n
X1?X2?X3??Xn
方程法,又称累计法:
在实践中,如果长期计划按累计法制定,则要求用方程法计算平均发展速度。
n
a1?a2?a3???an??ai
i?1
n
?a0X?a0X
2
?a0X
3
???a0X
n
n
??ai
i?1
?X
n
?X
n?1
???X
2
?ai
?X?
i?1
解这样的高次方程,用查表法。
n
㈡ 平均增长速度
平均增长速度=平均发展速度-1 (100%)
平均发展速度大于“1”,平均增长速度就为正值,则称“平均递增速度”或“平均递增率”。 平均发展速度小于“1”,平均增长速度就为负值,则称“平均递减速度”或“平均递减率”。 71、长期趋势的测定与预测
长期趋势就是指某一现象在一个相当长的时期内持续发展变化的趋势。(向上或向下变化)
测定长期趋势的目的主要有三个:把握现象的趋势变化;从数量方面研究现象发展的规律性,探求合适趋势线;为测定季节变动的需要。
长期趋势的类型基本有二种:直线趋势;非直线趋势,即趋势曲线。
测定长期趋势常用的主要方法有:间隔扩大法(通过扩大时间间隔,编制成新的动态数列);移动平均法(趋势值项数=原数列项数-移动平均项数+1);最小平方法。 73、移动平均法
注1:若采用奇数项移动平均(如上例“三项”),则平均值是对准在奇项的居中时间处。一次可得趋势值;若采用偶数项移动平均,则平均值也居中,因未对准原来的时间,还要再计算一次平均数,故一般都用奇数项移动平均。
注2:修匀后的数列,较原数列项数少。(在进行统计分析时,若需要两端数据,则此法不宜使用) 注3:取几项进行移动平均为好,一般若现象有周期变动,则以周期为长度。例,季度资料
可四项移动平均;各年月资料,可十二项移动平均;五年一周期,可五项移动平均。移动平均法可消除周期变动。 74、最小平方法
即对原有动态数列配合一条适当的趋势线来进行修匀。这条趋势线可以是直线,也可以是曲线;这条趋势线必须满足最基本的要求。即:
㈠ 直线方程
2
?(y?yc)?min
y yc
实际值,即原数列值趋势值或理论值
当现象的发展,其逐期增长量大体上相等时。该方程的一般形式为: 方程组可简化为:
yc?a?bt
导出:
?
y?Na
?b?t
由联立方程也可直接推n?ty??t?y?
?b?nt2?(t)2?
???
?
?y?
a?y?bt??b??n?
?ty?t?tn
2
?ty
(?t?0)
?
?yn
(二)抛物线方程 当现象的发展, 其二级增长量大体 上相同时。
㈢ 指数曲线方程
该方程的一般形式为:
yc?a?bt?ct (a、b、c均为未定参数)同样用求偏导数的方法,导出以下联立方程组:??y?Na?b?t?c?t2 ?
2?3
??ty?a?t?b?t?c?t ?3224
ty?at?bt?ct ??????
2
当现象的发展,环比增长速度大体上相等时。
y?ab该方程的一般形式为:c
75、季节变动分析的意义
t先对上述方程两边各取对数:
lgyc?lga?tlgb
设Y?lgyc , A?lga , B?lgb则:Y?A?Bt
应用最小平方法求得的联立方程组为:???Y ?NA?B?t
?2???tY?A?t?B?t
测定季节变动的资料时间至少要有三 个周期以上,如季节资料,至少要有 12季,月度资料至少要有36个月等, 以避免资料太少而产生偶然性。 测定季节变动的方法有二种:
(同样设t,使?t?0)
按月平均法,不考虑长期趋势的影响(假定不存在长期趋势),直接利用原始动态数列来计算; 移动平均趋势剔除法,即考虑长期趋势的存在,剔除其影响后再进行计算,故常用此法。 76、按月平均法测定季节变动
也称按季平均法。若为月度资料就按月平均;若为季度资料则按季平均。
其步骤如下:列表,将各年同月(季)的数值列在同一栏内;将各年同月(季)数值加总,并求出月(季)平均数;将所有同月(季)数值加总,求出总的月(季)平均数;求季节比率(或季节指数)。
77、时间序列预测法是将历史资料和数据,按照时间顺序排列成一系列,根据时间序列所反映的经济现象
的发展过程、方向和趋势,将时间序列外推或延伸,以预测经济现象未来可能达到的水平。
78、时间序列又称动态序列,它是将某个经济变量的观测值,按时间先后顺序排列所形成的数列。时间可以是周、月、季度或年等。如商场计算销售额是按月排列数据,国家计算国民生产总值是按年度来排列数据的
时间序列预测法是世界各国普遍采用的经济预测的基本方法。
79、在时间序列中,数据的大小受到各种因素的影响,数据的变化趋势也就表现出各种性状,通常根据这些影响因素将数据的变化趋势分为四大类:长期趋势、季节变动、循环变动和不规则变动。对于前三种数据趋势预测问题,由于数据均呈现出某种规律性,因此我们能够将数据进行简化、分析,从而使预测成为可能;而不规则变动是指由某种偶然因素引起的突然变动,如战争的发生、政权的更迭、重大自然灾害的发生等,不规则变动没有周期性。 第五章 指数 80、统计指数
概念:广义指数是指同类事物变动程度的相对数,包括动态相对数、比较相对数、计划完成相对数,即所有的动态比较指标。
狭义指数是综合反映多种不同事物在不同时间上的总变动的特殊的相对数。即专门用来综合说明那些不能直接相加和对比的复杂社会经济现象的变动情况。
作用:综合反映多种不同事物的总的变动程度;测定复杂经济现象的总变动中,各个因素变化的影响;测定平均指标中各因素变动对平均指标变动的影响程度。 81、受多种因素影响的现象叫做复杂现象。
(1) 现象的总量是各因素的总和; (2) 现象的总量是若干因素的乘积。
82、在分组条件下,加权算术平均数的大小受到两因素的影响:一是现象水平的影响,二是现象内部结构的影响。我们可运用指数来分析这两个因素的变动对平均指标总变动的影响情况。 83、统计指数的种类
(1)个体指数和总指数——按其所反映现象的范围不同。 个体指数是反映个别社会经济现象变动的相对数。
总指数是说明社会经济现象总体变动的相对数。
用K表示。
两者联系:总指数是个体指数的平均数,是总体中各个个体指数的代表值。
K?
报告期水平
?100%
基期水平
在个体指数和总指数之间,还存在一种类指数(或称组指数),其实质与总指数相同,只是范围小些。 (2)环比指数和定基指数——按其所采用的基期不同 指数往往随着时间的推移而连续编制,从而形成指数数列。
在指数数列中,若各个指数都以报告期的前一期
P
作为基期, 例123,Ln 称为环比指数。
P0P1P2Pn?1
PPP
在指数数列中,若各个指数都以某一个固定时期
PPPP
作为基期, 例123,Ln 称为定基指数。
P0P0P0P0
(3)数量指标指数和质量指标指数——按其所反映的现象性质的不同
反映某一现象规模大小、数量多少,称数量指标,而表明这些指标变动程度的相对数是数量指数(简称),如,产品产量指数、商品销售量指数、职工人数指数等。
说明工作质量的好坏或事物质的属性,称质量指标,而表明这些指标变动程度的相对数,称质量指数(简称),如,产品成本指数、商品价格指数、劳动生产率指数等。 84、综合指数
“同度量因素”的概念:同度量因素有二个作用——① 同度量作用 ② 权数作用。 利用同度量因素计算的总指数称为综合指数。
综合指数是编制总指数的基本形式,用K表示。
85、拉氏指数和派氏指数
(1)拉氏指数公式:拉斯贝尔提出,在综合指数公式中,同度量因素宜固定于基期。 q1p0
K?
q
?qp
p1q0 称为拉氏质量指数公式
称为拉氏数量指数公式Kp?
?pq
(2)派氏指数:派许提出,在综合指数公式中,同度量因素宜固定在报告期。 ?q1p1pq
K?
q
?qp
称为派氏数量指数公式K?
p
11
1
?pq
称为派氏质量指数公式
1
86、如何编制综合指数?
数量指标综合指数的编制——其同度量因素往往取基期的质量指标
质量指标综合指数的编制——其同度量因素往往取报告期的数量指标
87、平均数指数——综合指数的变形
(1)加权调和平均数指数——通常用于编制质量指
pq?p0q1
p1
QKp?1, ?p0?p
p0K1?p1q1
?Kp?
1
pq?
K11
? 权数为原综合指数基本公式的分子K
p
?
? 我国现行农产品收购价格指数和集市贸易价格 指数就采用此公式
标综合指数。
(右边把综合价格指数公式变形为加权调和平均数指数的原则适用于一切综合指数) 例:
(2)加权算术平均数指数——通常用于编制数量指标综合指数
(右边把综合产量指数公式变形为加权算术平均数指数的原则适用于一切综合指数) 例:
qp?q0p0
q1
QKq?, ?q0?q
q0K1q1p0
?Kq?
1
qp?
K10 Kq?
pq?p0q1
p
QKp?, ?p1?Kp0
p0 Kp? ?Kp?
Kp0q1?p0q1
以综合产量指数为例:
qpKq?
?q0p0
q
QKq?1 ?q1?Kq0
q0?Kq?
Kqp
?q0p0
88、社会经济现象是错综复杂的,它往往受制于多个相互联系的因素影响,这种联系往往表现为一种连乘的关系。分析各构成因素变动对总体变动的影响方向和影响程度,这种方法,也称连乘因素分析法。 89、统计上把互相联系的指数所构成的体系,叫做指数体系——因素分析法的基础。 例:商品销售额指数=商品价格指数 × 商品销售量指数
生产费用支出额指数=单位成本指数 × 产品产量指数 利用指数体系,可进行指数因素之间的互相换算。 90、两因素现象的变动分析
?pq??pq??qp?pq?pq?qp
1
1
1
1
1
1
1
1
1
00
若引入“共变影响指数”,则:?pq??pq??qp??pq
?????1
1
1
1
1
11
若建立指数体系为:
?pq
?10
00
?
仍以上例数据为例,经计算后得相对数变动的关系式为:
?pq??pq?(?pq??pq)?(?qp??qp)
129.02%=110.19%?117.11%?99.98%
91、多因素现象的变动分析
1
1
1
多因素则包含二个以上的因素。实际中,采用“连锁替代法”。 例:总产值=工人人数 × 工人劳动生产率
A D C B
=工人人数 × 时劳动生产率 × 平均工作日长度× 平均工作月长度
A1B1C1D1A1B0C0D0A1B1C0D0A1B1C1D0A1B1C1D1
????
A0B0C0D0A0B0C0D0A1B0C0D0A1B1C0D0A1B1C1D0
92、平均指标指数的因素分析
从公式可看出,总平均数动态指标同时受各组平均水平X和
K 各组构成f变动的影响。这个平均数动态指标,称"可变X
?f
构成指数"。
?X0f1?X1f1
X1f1
?f?fX1f1
????X0?X0f0?X0f1?X0f0
?f0
?f1?f0
?Xf
1
1
Xf ?f
01
f?X1?
即
?X0??X0?
即
?X0?
f1?ff1?f1
f1?f1
f0?f0
称“结构影响指数”称“固定构成指数”
若建立指数体系:
?Xf?XfX?f?f??
X?Xf?Xf
?f?f
?Xf?Xf?Xf?Xf
X?X?(?)?(?)
?f?f?f?f
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
?X0f1
?f1?X0f0?f0
故:可变构成指数=固定构成指数?结构影响指数
93、两种指数体系:
?总量指标指数的因素分析
?
在解决社会现象总变动中
??
(即综合指数体系) 受数量指标变动和质量指标?
? 变动的影响大小;???
?平均指标指数的因素分析则是指质量指标(平均指标)??
(即平均指标指数体系) 在分组的条件下受各组水平?
? 和结构变动影响的程度大小。???
以工资总额变动为例:
?Xf首先,工资总额变动分解为: ?Xf
1
10
其次,将质量指标(平均工资)进一步分解为:?Xf?X0f0?X0f1
1. 结构影响指数01??
?f1?f0X0?f1
X?f?f
1. 数量指标(工人数)变动影响或
?fX?f
1
1
1
1
?X1f1?X0f1?X1f1
2. 固定构成指数?? X?fXff???X0f111 2. 质量指标(平均工资)变动影响或
01
X
X?f
1
94、常用的统计指数
(1)商品零售价格指数的编制方法如下: 1.选择恰当的调查地区和调查点2.选择代表商品和代表规格品3.搜集价格资料 4.确定权数5、计算平均价格6、编制价格指数
(2)居民消费价格指数简称CPI(consumer price index),用于反映居民家庭购买的消费品及服务价格水平的变动情况。 我国CPI的调查内容包括食品、烟酒及用品、衣着等八大类。
(3)股票价格指数一般采用与基期比较法,即将选样股票计算期的价格总和与基期的价格总和进行比较,反映各个时期价格水平的变动情况,简称股价指数。
选择权数的方法:一般方法是以采样股股票发行量为权数,以求得市价总值,报告期市价总值与基期市价总值之比即求得指数。 另一种方法是以采样股股票成交量为权数。
(4)道·琼斯股票价格指数又称道·琼斯股票价格平均指数,是世界上最有影响、使用最广的股价指数。香港恒生指数是香港股票市场上历史最悠久、影响最大的股票价格指数。上证综合指数是由上海证券交易所编制的综合指数类股票指数,简称上证综指,它是以1990年12月19日为基准日, 基准日指数定为100点,1991年7月15日正式开始发布。深证成指深证成份股指数是反映深圳证券交易所成份股价指数,简称深证成指,它是深圳证券交易所的主要股指之一。
第六章 抽样调查
95、抽样调查的意义:一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
抽样调查方法是市场经济国家在调查方法上的必然选择,和普查相比,具有准确度高、成本低、速度快、
应用面广等优点。 96、抽样调查的适用范围
实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;虽可进行全面调查观察,但比较困难或并不必要;对普查或全面调查统计资料的质量进行检查和修正;抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。 97、全及总体和抽样总体(总体和样本)
全及总体:所要调查观察的全部事物。总体单位数用N表示。 抽样总体:抽取出来调查观察的单位。抽样总体的单位数用n表示。 n ≥ 30 大样本 n
所谓推断,就是用抽样指标来推断全及指标。 一是用抽样平均数断全及平均数X,从而推断 总体标志总量
二是用抽样成数p推断全及成数P,从而推断总体 单位总量
在抽样调查中应用的总体指标和样本指标还有:
?
?方 ?
?标 ?
差:总体方差?、样本方差s
2
2
准差:总体标准差?、样本标准
差s
99、抽样框 ——即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。
样本数——指从总体中可能抽取的样本的数量。 样本容量——指一个样本所包括的单位数。 100、抽样调查的组织形式
(1)简单随机抽样(纯随机抽样):即从总体单位中不加任何分组、排队,完全随机地抽取调查单位。 随机抽选可有各种不同的具体做法,如:直接抽选法;抽签法;随机数码表法;
(2)类型抽样(分类抽样):先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,组成一个总的样本。
类型的划分:一是必须有清楚的划类界限;二是必须知道各类中的单位数目和比例; 三是分类型的数目不宜太多。
类型抽样的好处是:样本代表性高、抽样误差小、抽样调查成本较低。如果抽样误差的要求相同的话则抽样数目可以减少。
两种类型:等比例类型抽样(类型比例抽样);不等比例类型抽样(类型适宜抽样)。
(3)机械抽样(等距抽样):先将全及总体的所有单位按某一标志顺序排队,然后按相等的距离抽取样本单位。
排列次序用的标志有两种:选择标志与抽样调查所研究内容无关, 称无关标志排队(研究工人的平均收入水平时,按工号排队);选择标志与抽样调查所研究的内容有关, 称有关标志排队(研究工人的生活水平,按工人月工资额高低排队)。
机械抽样按样本单位抽选的方法不同,可分为三种:
A、随机起点等距抽样: B、半距起点等距抽样
C、对称等距抽样
机械抽样的好处:可以使抽样过程大大简化,减轻抽样的工作量;如果用有关标志排队,还可以缩小抽样误差,提高抽样推断效果。
机械抽样,实际上是一种特殊的类型抽样。因为,如果在类型抽样中,把总体划分为若干相等部分,每个部分只抽一个样本,在这种情况下,则类型抽样就成了机械抽样。 (4)整群抽样
即从全及总体中成群地抽取样本单位,对抽中的群内的所有单位都进行观察。
整群抽样的好处:组织工作比较简单方便,适用于一些特殊的研究对象。其不足之处是,一般比其它抽样方式的抽样误差大。 (5)多阶段抽样
即把抽样本单位的过程分为两个或几个阶段来进行。
(如果一次就直接抽选出具体样本单位,这叫单阶段抽样)具体讲: ①先抽大单位(可以用类型抽样或机械抽样), ②再在大单位中抽小单位(可用整群抽样或简单随机抽样),③小单位中再抽更小的单位;而不是一次就直接抽取基层的调查单位。 (6)重复抽样和不重复抽样
以上每一种组织方式又有不同的抽取样本方法(机械抽样和整群抽样没有重复抽样): 重复抽样:又称有放回抽样。不重复抽样:又称不放回抽样。 101、抽样误差
在统计调查中,调查资料与实际情况不一致,两者的偏离称为统计误差。
?登记误差?
?系统性误?
统计误差??
?代表性误差?
?随机误差?
??
差
?实际误差
?
?抽样平均误差
抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。
抽样误差就是指样本指标和总体指标之间数
x?X 、 p?P。
量上的差别,即
抽样误差的影响因素:1.全及总体标志变异程度。——正比关系2. 抽样单位数目的多少。——反比关系3. 不同的抽样方式。4. 不同的抽样组织形式。
抽样误差的作用:1. 在于说明样本指标的代表性大小。误差大,则样本指标代表性低;
误差小,则样本指标代表性高;误差等于0,则样本指标和总体指标一样大。2. 说明样本指标和总体指标相差的一般范围。 102、抽样平均误差
抽样平均误差实际上是样本指标的标准差。通常用μ表示。在N中抽出n样本,从排列组合中可以有各种各样的样本组: 如果是重复抽样:
(1)考虑顺序的重复抽样:B?N(样本种数)
50?312,500,000种
nN
n
5
(2)不考虑顺序的重复抽样:D?C
nN
n
N?n?1
⑴ 考虑顺序的不重复抽样:
⑵ 不考虑顺序的不重复抽样:
AN?N(N?1)(N?2
)?(N?n?1)?
n
N!(N?n)!
CN?
n
N n N?n
2
?(x?X)
抽样平均误差
(?x) ??
n250025
??10(元)
)
? ??
?
(n为样本配合总数的平均离差。
103、纯随机抽样的抽样平均误差 (一) 平均数的抽样平均误差 重复抽样:
抽样误差是所有可能出现的样本指标的标准差。它是由于抽样的随机性而产生的样本指标与总体指标之间
?x?或?
x?
取得σ的途径有:1.用过去全面调查或抽样调查的资料,若同时有n个σ的资料,应选用数值较大的那个;2. 用样本标准差S代替全及标准差σ;3. 在大规模调查前,先搞个小规模的试验性的调查来确定S,代替σ;4. 用估计的方法
不重复抽样:
(二) 成数的抽样平均误差
?
x
?
但实际中,?往往N很大,n很小,故改用
下列公式:
??
x
? 在重复抽样情况下: ??
p
已证明得:成数的方差为p(1-p)
104、类型抽样的抽样平均误差 在重复抽样情况下:
??
p
在不重复抽样情况下:
?x?
?in
?i?
?
?iNiN
在不重复抽样情况下: ?x?
在成数情况下:
重复抽样: ?p?
不重复抽样:?p?
105、机械抽样(等距抽样)的抽样平均误差 若按无关标志排队
公式用以上纯随机抽样的公式,一般采用 不重复抽样公式:
?x? ?p?
为简便起见,也可采用重复抽样公式。
若按有关标志排队 公式用类型抽样的公式:
106、整群抽样的抽样平均误差
? ?
x
??
p
整群抽样的抽样平均误差受三个因素影响:(1)抽出的群数(r)多少 (反比关系) (2)群间方差( ?) (正比关系)
2
计算方法如下:
(3)抽样方法
?
2x
?
i?1
?(xi?x)
r
r
r
2
2
xi为全及总体各群的平均数x为全及平均数
?
2x
?
i?1
?(xi?x)r
?r?(pi?p)
r
r
2
?或: xi为抽样各群的平均数
?
? x为抽样各群的总平均数?
pi为全及总体各群的成数p为全及总体的成数
????
r
2
?
2p
?
i?1
?
2p
?
i?1
?(pi?p)r
?r
?或:pi为抽样各群的成数?
??
? p为抽样各群的总成数 ?
整群抽样都采用不重复抽样。所以在计算抽样误差时要使用
R?rr
,当R的数目较大时,可用(1?)来代替。R?1R
?整群抽样的抽样平均误差计算公式为:
修正系数
?p?
??
107
以两阶段抽样为例
设总体分R组,每组包含Mi 个单位,若各组M相等,则N=RM
在抽样第一阶段,从R组中抽出r组;在抽样第二阶段,在中选的r组中随机抽选Mi个单位,若各组m相等,则n=rm
则:在重复抽样下 在不重复抽样下 ?x?
108、抽样平均误差的公式归纳如下:
?
r
2
?
?
2
?x?
?
2
rm
r
R?rR?1
)?
?
2
rm
(
M?mM?1
)
最基本的是:?
x
?
,?
p
?
(1)若为不重复抽样:乘以 (2)若为类型抽样:? (3)若为整群抽样:? N109、点估计和区间估计 (一)点估计:
n
2
n??
?1-?
N??
2
????
p?1-p?
2
???p?1-p?
2
????x
p?1-p?????p
2
???R???r
就是由样本指标直接代替全及指标,不考虑
任何抽样误差因素。即用x直接代表X,用p直接代表P。
只要在样本代表性大,且对全及指标精确性要求不高的情况下,可采用点估计法。如能满足无偏性、一致性、有效性三个准则,就会得到合理的估计。
(二)区间估计:是根据样本指标和抽样误差去推断全及指标的可能范围,它能说清楚估计的准确程度和把握程度。
*置信区间:根据中心极限定理,得知当n足够大时,抽样总体为正态分布,根据正态分布规律可知,样本指标是以一定的概率落在某一特定的区间内,统计上把这个给定的区间叫抽样极限误差,也称置信区间,即在概率F(t)的保证下:
抽样极限误差△=tμ,(t为概率度)
可见,抽样极限误差,即扩大或缩小了以后的抽样误差范围。
抽样误差范围的实际意义是要求被估计的全及指标 或P落在抽样指标一定范围内,即 X落在或 的范围内。
x??xp??p
110、全及平均数和全及成数的推断 在概率F(t)的保证下:
???X???
p???P?p??
即:全及平均数(成数)?抽样平均数(成数)?t?111、全及总体总量指标的推断
p
p
x
x
(一) 直接推断法: 抽样平均数(成数)×总体单位数=总体标志总量
(二) 修正系数法:就是用抽样所得的调查结果同有关资料对比的系数来修正全面统计资料时采用的一种方法。
112、影响必要抽样数目的因素
1. 总体各单位的标志变异程度,
3. 概率度t的数值(正比)4. 抽样方式和组织形式
即σ2或P(1?P)的大小(正比)
2. 允许误差?的大小(反比)113、必要抽样数目的计算公式 (一) 简单随机抽样
重复抽样: n?
t?
?2
2
2
不重复抽样:
t2P(1?P)Nt2?2
n? n?2
2
?N?t2?2?
Nt2P(1?P)
n?2
?N?t2P(1?P)
(二) 类型抽样 22
??? ; P(1-P)?P(1-P)
重复抽样: 不重复抽样:
n?
t??
2x
22
n?
tp(1?p)
?
2p
2
n?
t?N?xN?t?
2
2
2
22
n?
tp(1?p)N?pN?tp(1?p)
2
2
2
(三) 机械抽样
在有总体差异程度和比重的全面资料时,可采用类型抽样的公式;没有总体的全面资料时,可采用简单随机抽样的公式。
(四) 整群抽样 n?r ; N?R ; ?2??2 ; ?2??2
ppxx
114、假设检验的意义
不重复抽样: r? r?
Rt2?2
x
22
?2R?t?xx
所谓假设检验,就是对某一总体参数先作出假设的数值;然后搜集样本资料,用这些样本资料确定假设数值与样本数值之间的差异;最后,进一步判断两者差异是否显著,若两者差异很小,则假设的参数是可信的,作出“接受”的结论,若两者的差异很大,
2p
t?R?R?t?
2p
2
2
2p
则假设的参数准确的可能性很小,作出“拒绝”的结论。
115、假设检验的程序 (一)提出原假设和替代假
原假设(又称虚无假设)是接受检验的假设,记作H0;替代假设(又称备选假设)是当原假设被否定时的另一种可成立的假设,记作H1;H0与H1两者是对立的,如H0真实,则H1不真实;如H0不真实,则H1为真实。 H0和H1在统计学中称为统计假设。 例:关于总体平均数的假设有三种情况: (1) H0: μ=μ0; H1: μ≠μ0 (2) H0: μ≥μ0; H1: μμ0
以上三种类型,对第一种类型的检验,称双边检验,因为μ≠μ0,包含μ>μ类型的检验,称单边检验。 (二)选择显著性水平
当原假设H0为真时,却因为样本指标的差异而被否定,这种否定真实的原假设的概率就是显著性水平。用
α表示。例:α=0.05(即5%)或α=0.01(即1%)
和μ
在假设检验中,要分析样本数值与参数假设值之间的差异,若两者差异越小,假设值真实的可能性则越大;反之,假设值真实的可能性越小。因此,要分析两者差异是否显著,如两者差异是显著的,就要否定原假设,因此,假设检验又称显著性检验。 (三)选定检验统计量及其分布
检验总体平均值的统计量有:
????
Z?, t?
样本统计量-被假设参数
检验统计量?
统计量的标准
差
检验统计量的基本形式如下:
(四)计算检验统计量
在计算检验统计量时,要注意是双边检验还是单边检验。要根据显著性水平α的值确定统计量的否定域、接受域及临界值。
(五)根据样本指标计算的检验统计量的数值作出决策
如果检验统计量的数值落在否定域内(包括临界值),就说明原假设H0与样本描述的情况有显著差异,应该否定原假设;如果该数值落在接受域内,就说明原假设H0与样本描述的情况无显著差异,则应接受原假设。 116、假设检验的基本方法(介绍方差已知的总体平均数的假设检验) (一) 双边检验H0:μ=μ0;H1:μ≠μ
在假设的双边检验中,如果检验统计量的数值过大或过小,都将否定原假设。否定域位于正态分布曲线两边,在显著性水平?条件下,每个尾部的面积分别为?2
,临界值为Z?和?Z?。当检验统计量的数值Z?Z?时,就否定原假设H0;
2
2
2
Z?Z?时,认为差异不显著,就接受原假设,见图
:
2
(二) 单边检验
在单边检验中,如
H1:???0,则为左边检验;
如H
1:???0,则为右边检验,见下
图:
当??0.05时,Z??1.645, ?Z???1.645
,当单边检验时,取
2??0.1,
因为正态分布是双边的 再查得临界值
第七章 相关分析
Z??1.645, ?Z???1.645
117、相关关系的概念(注意相关关系与函数关系的区别)
(一) 函数关系:它反映着现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。
(二) 相关关系:它反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:1.现象之间确实存在数量上的依存关系,即某一社会经济现象变化要引起另一社会经济现象的变化;2.现象之间的这种依存关系是不严格的,即无法用数学公式表示。
在具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用X表示;发生对应变化的变量称因变量,一般用y表示。 118、相关关系的种类
(1) 按相关关系涉及的因素多少来分,可分为:单相关和复相关。 二因素之间的相关关系称单相关,即只涉及一个自变量和一个因变量。
三个或三个以上因素的相关关系称复相关,或多元相关,即涉及二个或二个以上的自变量和因变量。 在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为偏相关。
(2) 按相关关系的性质来分,可分为:正相关和负相关
正相关是指两相关现象变化的方向是一致的。负相关是指两相关现象变化的方向是相反的。 (3)按相关关系的形式来分,可分为:直线相关和曲线相关
直线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。
曲线相关是指两个相关现象之间,当自变量X的数值发生变动时,因变量y也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。
(4) 按相关程度分,可分为: 完全相关、不完全相关和不相关
完全相关就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。 不相关是指两现象之间在数量上的变化上各自独立,互不影响。
不完全相关就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关关系。 119、相关分析的主要任务,概括起来是两个方面:一方面,研究现象之间关系的密切程度,即相关分析;另一方面,研究自变量与因变量之间的变动关系,即回归分析。 120:相关分析的主要内容包括以下五个方面:
1. 判断社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点;2. 确定相关关系的密切程度;3. 测定两个变量之间的一般关系值;4. 测定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;5. 相关系数的显著性检验。 121、相关表和相关图
?简单相关表—根据总体单位的原始资料汇编的相关表 ?
?分组相关表—将原始资料进行分组而编制的相关表
?单变量分组表—按自变量分组
?
?双变量分组表—按自变量和因变量均分
组
相关图,也称散布图(或散点图)。 122、相关系数
相关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综合性指标。一般用符号r表示。r的测定方法:
1.积差法:
r? ???(x?)(y?)
2
xy
2xy
x
y
对r的解释如下:(即r的特点) (1) r取正值或负值决定于分子协方差; (2) r的绝对值,在0与1之间;
(3) r的绝对值大小,可说明现象之间相关关系的紧
?
?? ?rx
y
密程度。
一般标准如下:
r
0.3≤0.5≤
r
rr
2.简捷法 r?
≥0.8时,称高度相关;
n?xy?( ?x)( ?y)
n?x
2
?( ?x) n?y
2
2
?( ?y)
2
3.从单变量分组表计算相关系数
积差法:r?
简 捷法:r?
?xf?yf
其中: x?, y?
?f?f
?f?xyf
???xf???yf?
123、简单线性相关分析的特点
通过对r的计算方法的讨论,可看出二个明显特点:
1. 相关关系中,两个变量不必定出哪个是自变量,哪个是因变量,因此,相关的两个变量都是随机变量;2. 相关关系中只能计算出一个相关系数r。 124、回归分析
在回归分析中,两个变量之间的回归称为简单回归,两个以上变量之间的回归称为复回归。无论是简单回归还是复回归,数学模型均有线性(直线)回归和非线性(曲线)回归之分。 125、直线回归
(一) 简单直线回归分析
简单直线回归方程的一般形式为:yc=a+bx
yc ——因变量的估计值;x ——自变量;a ——回归直线在y轴上的截距;b ——回归直线的斜率,称回归系数,表明x每增加一个单位,因变量yc的平均变化值。 b>0,x与y为正相关;b
a、b的确定:在简单直线回归方程中,a、b为待定系数,常用最小平方法来确定,即∑(y-yc)2=最小值。 ??y?na?b?x ?xy?ax?bx2
????
n?xy??x?y?b??
n?x2?(?x)2?
即?
?y?x?a??b?nn?
简单直线回归方程建立的步骤为:① 确定自变量x和因变量y;② 计算x2、xy、Σx、Σy、Σx2、Σxy;③ 代入公式,先求b,再求a。
从单变量分组表配合回归直线: 简单直线回归分析的主要特点:
方法基本上与上述相同,只是在计算过程中要采用加权方法:y?a?bx
c
1.直线回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。 2.在两个现象互为根据的情况下,可以有两个回归方程:
??yf?a?f?b?xf
?
??xyf?a?xf?b?x
2
f
??f?xyf???xf???yf?b???f?xf???xf??
?yf?xf?
a?y?bx??b?
?f?f?
2
2
?
yc=a+bx 称y倚x回归直线 xc=c+dy 称x倚y回归直线
(二) 多元线性回归分析
多元线性回归分析可以看作是一元线性回归分析的扩展。现以二元线性回归模型进行回归分析,其方程式为:
上面的方法推广到多个自变量,回归方程为: yc?a?b1x1?b2x2?b3x3?L?bnxn
因有n?1个参数,应确定n?1个方程式
:
??y?na?b1?x1?b2?x2?L?bn?xn
2
??x1y?a?x1?b1?x1?b2?x1x2?L?bn?x1xn
?
126、曲线回归
拟合方法:统计上通常采用变量代换法把非线性形式转换为线性形式处理,使线性回归分析的方法也能适用于非线性回归问题的研究。 非线性回归按自变量的个数可分为一元非线性回归和多元非线性回归。
多元非线性回归的线性化方法原则相同。
127、估计标准误差的概念和作用
估计标准误差就是用来说明回归方程推算结果
?2
??x2y?a?x2?b1?x1x2?b2?x2?L?bn?x2xn ?
? M
??xy?a?x?b?xx?b?xx?L?b?x2
nn11n22nnn?
的准确程度的统计分析指标。以绝对值表示,其数值越小,说明推算结果的准确程度越高,回归直线的代表性也越大。
用Syx表示,也可用Sy表示。 128、估计标准误差的计算方法 1. 定义公式:
2. 简捷法公式:
Sy? Sy?
?(y?yc)
n?2
2
129、回归方差,即Sy2
r??Sy??
y
Sy和r的异同点:
相同点:都具有说明相关关系密切程度的作用; 不同点: (1)r越大越好,而Sy越小越好;
(2)r用相对数表现,密切程度的概念比较明确Sy用绝对数表现,关系密切的程度表示得不那么明显;
(3)r能说明正、负相关,Sy不能说明。 多元线性回归估计标准差的测定公式见教材351页。
范文三:统计学原理第五版
考试题型
1、 判断题(正确的打√;错误的打×。每小题1分,共10分)
2、 单项选择题(每小题1分,共15分)
3、 多项选择题(下列各题至少有两个或两个以上正确答案,多选、少选
或错选均不得分。每小题2分,共10分)
4、 简答题(每小题5分,共15分)
5、 计算题(共题, 50分)
一、各章复习内容
第一章
1、统计的产生和发展(相关人物)和统计的三个涵义
2、统计学研究对象及统计的5个特点
3、统计总体和总体单位
4、标志与指标及各自的分类
5、区分标志和标志表现
6、连续变量和离散变量
7、流量与存量
第二章
1、统计调查的含义及统计调查的基本要求
2、统计调查方案的有关内容
3、各种调查方式的特点、目的等
4、统计分组的含义、作用及分组要求
5、组距与组数及全距的关系
6、向上累计
7、向下累计
8、统计表的构成及种类
第三章
1、总量指标的含义
2、时期指标、时点指标的内涵及特点
3、各种相对指标的判别
4、计划完成程度的计算(尤其是计划指标用提高或降低百分数表示时)
5、受极端数值影响的是哪些平均指标,不受极端数值影响的是哪些平均指标,算术平均数的两个数学性质
6、变异指标的内涵及作用
7、标准差和标准差系数(包括对平均数代表性大小的判别)
第四章
1、时期数列和时点数列的概念及特点
2、序时平均数的计算;增长量、发展速度各自的两层数量关系
3、平均发展速度的计算方法,几何平均法的计算公式
4、长期趋势的测定方法,各种趋势方程拟合的条件
5、直线趋势方程参数a、b的求解方法
6、季节指数的相关问题
第五章
1、统计指数的含义、作用及主要分类
2、同度量因素的含义及如何确定同度量因素,
根据指数体系如何进行指数推算
3、指数因素分析(相对数形式及绝对数形式)
第六章
1、抽样调查的含义及特点
2、抽样的基本原则
3、重复抽样和不重复抽样下抽样误差的比较
4、抽样平均误差含义及其影响因素
5、抽样的组织形式
第七章
1、相关关系现函数关系的联系、区别
2、相关的种类
3、相关分析、回归分析各自的特点
4、相关系数的计算公式及相关系数的取值范围
5、回归方程与相关系数之间的关系
二、计算题方面的要求:
1、平均数、众数和中位数的计算,标准差、标准差系数的计算;
2、增长量、发展速度、增长速度及有关序时平均数的计算;
3、综合指数或平均指标指数的计算及因素分析;
4、置信区间估计包括样本平均数估计推算总体平均数,样本成数估计推算总体成数;样本必要单位数目的确定;
5、相关系数计算,回归方程的建立并估计因变量的数值,同时说明回归
系数的经济含义。
三、简答题要求:
1、什么是统计总体和总体单位?如何认识总体和总体单位的关系?
2、一个完整的统计调查方案包括哪些内容?
3、什么是变异指标?其作用是什么?
4、什么是综合指数?编制综合指数的原则是什么?
5、简述影响抽样误差大小的因素。
6、相关分析与回归分析有何区别?
范文四:统计学第五版
统计学
第一章
1、什么是统计学:收集、处理、分析、解释数据并从数据中得出结论的科学
2、分类数据:只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述
3、顺序数据:只能归于某一有序类别的非数字型数据.对事物类别顺序的测度,数据表现为类别,用文字来表述
4、数值型数据:按数字尺度测量的观察值.结果表现为具体的数值,对事物的精确测度 分类数据和顺序数据说明事物的品质特征——定性数据; 数值型数据是说明事物的数量特征——定量数据
5、截面数据:在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况
6、时间序列数据:在不同时间上收集到的数据,描述现象随时间变化的情况 7、总体:所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素
8、样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量
9、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值 10统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
第二章
1、概率抽样:也称随机抽样
2、特点:按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会被抽中
每个单位被抽中的概率是已知的,或是可以计算出来的
当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
3、常用的概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样
4、非概率抽样:相对于概率抽样而言抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,
采用某种方式从总体中抽出部分单位对其实施调查
5、常用的非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式
6、非抽样误差:相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值
之间的差异(存在于所有的调查之中,包括概率抽样,非概率抽样,全面性调查) 7、非抽样误差的类型:有抽样框误差、回答误差、无回答误差、调查员误差、测量误差
第三章
P43-50 3.2.1 分类数据的整理与图示
频数:落在各类别中的数据个数
频数分布表:把各个类别及落在其中的相应频数全部列出,用表格形式表现出来 比例:某一类别数据占全部数据的比值 百分比:将对比的基数作为100而计算的比值
比率:不同类别数值的比值
1、条形图:用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
2、帕雷托图:按各类别数据出现的频数多少排序后绘制的柱形图 ;主要用于展示分类数据的分布
3、饼图:也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占3600的相应比例确定
4、环形图:1、环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示 2、与饼图类似,但又有区别:a.饼图只能显示一个总体各部分所占的比例b.环形图则可以同时 绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环 3、用于结构比较研究
4、用于展示分类和顺序数据
P55-63 3.3.2 数值型数据的图示
1、分组数据—直方图:用于展示分组数据分布的一种图形;用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布);在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图
直方图与条形图的区别:
A.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 B.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,.其高度与宽度均有意义
C.直方图的各矩形通常是连续排列,条形图则是分开排列
D.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据
2、未分组数据—茎叶图:A用于显示未分组的原始数据的分布 B由“茎”和“叶”两部分构成,其图形是由数字组成的 C以该组数据的高位数值作树茎,低位数字作树叶 D树叶上只保留最后一位数字
E对于n(20? n ?300)个数据,茎叶图最大行数不超过 L = [ 10 × lg n ] F 茎叶图类似于横置的直方图,但又有区别
直方图可观察一组数据的分布状况,但没有给出具体的数值
茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数
3.箱线图未分组数据—箱线图:用于显示未分组的原始数据的分布 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成
绘制方法:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU);连接两个四分位数画出箱子,再将两个极值点与箱子相连接 未分组数据—单批数据箱线图:
未分组数据—多批数据箱线图:
4、时间序列数据—线图:表示时间序列数据趋势的图形;时间一般绘在横轴,数据绘在纵轴;图形的长宽比例大致为10 : 7;一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断
5、两个变量间的关系—二维散点图:展示两个变量之间的关系;用横轴代表变量x,纵轴代表变量y,每组数据(xi ,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图
6.三个变量间的关系—气泡图:显示三个变量之间的关系;图中数据点的大小依赖于第三个变量
7、多变量数据—雷达图:也称为蜘蛛图;显示多个变量的图示方法;在显示或对比各变量的数值总和时十分有用;假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比;可用于研究多个样本之间的相似程度
第四章
P81-82 4.1.4 众数、中位数和平均数的比较
1、众数、中位数和均值的关系
2、众数、中位数和均值的特点和应用
众数:不受极端值影响; 具有不唯一性; 数据分布偏斜程度较大时应用 中位数:不受极端值影 ;数据分布偏斜程度较大时应用
平均数:易受极端值影响;数学性质优良;数据对称分布或接近对称分布时应用
P84-88 4.2.3 数值型数据:方差和标准差
极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;易受极端值影响;未考虑数据的分布 计算公式为:R = max(xi) - min(xi)
平均差:各变量值与其均值离差绝对值的平均数;能全面反映一组数据的离散程度; 数学性质较差,实际中应用较少 计算公式为:
方差和标准差:数据离散程度的最常用测度值;反映了各变量值与均值的平均差异
根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
P89-90 4.2.4 相对离散程度:离散系数
1. 标准差与其相应的均值之比 2.、对数据相对离散程度的测度
3、消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为
第七章
P169-172 1. 两个总体均值之差的估计:独立样本 (提示EXCEL生成的分析表) P178-180 7.4 样本量的确定
第八章
P196-199 8.2.2 总体均值的检验
.大样本:使用z-统计量:
小样本,σ已知,使用z-统计量:
σ未知,使用t统计量:
P203-206 8.3.2 两个总体均值之差的检验
(提示EXCEL生成的分析表)
1.总体标准差已知:1)
假定条件
两个样本是独立的随机样本 两个总体都是正态分布
若不是正态分布, 可以用正态分布来近似(n1?30和 n2?30) (2)原假设:H0: u1- u2 =0;备择假设:H1: u1- u2 =/= 0 (3)检验统计量为:
第九章
P220 列联分析的作用
第十章
P235 方差分析的作用
P246 表10-4 方差分析表的一般形式 P251-260 10.3 双因素方差分析
(提示EXCEL生成的分析表
第十一章
P270-272 2.相关系数
1、度量变量之间关系强度的一个统计量
2、对两个变量之间线性相关强度的度量称为简单相关系数
3、若相关系数是根据总体全部数据计算的,称为总体相关系数,记为?
4、若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r。也称为线性相关系数 或
称为Pearson相关系数 样本相关系数的计算公式
:
性质1:r 的取值范围是 [-1,1] |r|=1,为完全相关 r =1,为完全正相关 r =-1,为完全负正相关
r = 0,不存在线性相关关系 -1?r
|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱 性质2:r具有对称性。
性质3:r数值大小与x和y原点及尺度无关,
性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着, r=0只表示两 个变量之间不存在线性相关关系,并不说明变量之间没有任何关系
性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系 相关系数的经验解释: |r|?0.8时,可视为两个变量之间高度相关 0.5?|r|
|r|
P286 11.2.5 回归分析结果的评价
1、所估计的回归系数的符号是否与理论或事先预期相一致
2、如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此
3、回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题
4、考察关于误差项?的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验时,都要求误差项?服从正态分布,否则,我们所用的检验程序将是无效的。?正态性的简单方法是画出残差的直方图或正态概率图
第十二章
P302-303 例12.1
P303-305 12.2 回归方程的拟合优度
P305-308 12.3 显著性检验
P308-311 12.4 多重共线性
多重共线性:回归模型中两个或两个以上的自变量彼此相关 多重共线性带来的问题有:
1、可能会使回归的结果造成混乱,甚至会把分析引入歧途
2、可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反 多重共线性的识别:1、检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验
通过自变量间的相关系数矩阵,若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性(一般说来,相关系数超过0.9将会存在共线性问题;相关系数在0.8以上可能有问题) 2、如果出现下列情况,暗示存在多重共线性 a.型中各对自变量之间显著相关。
b.当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 c.回归系数的正负号同预期的相反。 3、多重共线性(问题的处理)
a.将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关 b.如果要在模型中保留所有的自变量,则应 避免根据 t 统计量对单个参数进行检验
对因变量值的推断(估计或预测)的限定在自变量样本值的范围内 c.增大样本量,有时可以部分解决共线性问题。
d.采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。
e.从专业的角度加以判断,人为去除在专业上较次要的,或缺失值较多、测量误差较大的共线性因子。 f.进行主成分分析,用提取出的因子代替原变量进行回归分析。 g.进行岭回归分析,可以有效的解决多重共线性问题。
h.进行通经分析,采用结构方程,可以对应/自变量间复杂的关系加以精确刻画。
名词解释
6、残差;因变量的观测值yi与根据估计的回归方程求出的预测值yi之差,用e表示。对于第
i个观测值,残差为ei=yi-yi
7、多元回归模型:描述因变量 y 如何依赖于自变量 x1 , x2 ,?, xp 和误差项的方程。 一般形式: yii???0???1x1???2x2???????ppxxpi???ii0?1x1ii?2x2ii?pi?
8、独立样本:一个样本中的元素与另一个样本中的元素相互独立。
9、相关关系:变量间关系存在的一种不确定的数量关系,一个变量的取值不能由另一个变量唯一确定
10、置信水平:也称为置信度或置信系数,它是将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例
范文五:习题《卫生统计学》第五版(五年制预防医学用) - 湘雅生物医药统计中心
1.名词解释
1234()负担系数()总和生育率()生存率()潜在减寿年数
5, ()试比较发病率与患病率死亡率与病死率。
2Poisson、简述二项分布、分布、正态分布的区别与联系。
3、简述控制图的基本原理。
4?1.96、简述双侧正态分布资料的医学参考值范围为什么是均数倍标准差。
5、样本均数的抽样分布有何特点?
6、样本均数的标准误的意义是什么?与标准差有何区别和联系?
7t、与标准正态分布比较,分布的特点是什么?
895%99%、用同一份样本指标去估计总体参数的置信区间与置信区间,两者
比较,哪一个估计的精度好?为什么?
9、假设检验的理论依据是什么?
10、假设检验的两类错误之间的区别与联系是什么?
11t、检验的应用条件是什么?
12P、假设检验中值的意义是什么?
13、如何确定检验水准?
14、如何恰当地应用单侧与双侧检验?
15、什么情况下可以借用正态近似法估计总体概率的置信区间?
2χ16检验的用途。、简述
217、比较两个独立样本频数分布的 检验,和比较配对样本两个频数分布的
2 检验在设计方法、资料整理、假设检验等方面的差别是什么?
18、举例说明如果实验效应用等级资料表示,比较两组总体效应间差别是否有
2χ统计学意义为什么不能用检验?
19R×C、为什么有些四格表(或表)必须要计算确切概率?
20、实验研究和调查研究的根本区别是什么?
21、实验设计的三个基本原则是什么?
22、在临床试验中使用安慰剂的目的是什么?
23、随机化的目的是什么?
24、试验设计的基本要素包括哪些?
25、估计样本含量时,所定容许误差与样本量有何关系?
26、配对设计的目的是什么?
27、避免医生和病人对实验效应观察的偏性,设计时应注意什么?
28、为明确某新化妆品对皮肤有无损害作用,将12只大白兔的左背部涂抹该化
妆品,右侧涂生理盐水作为对照,72小时后观察皮肤反应。这属于什么对照?
29、琴纳用牛痘疫苗接种23人后再接种天花,结果无人患天花,而当时一般人
接触天花病人后,天花的发病率约90%。琴纳所用的属于什么对照?
30、为比较A、B两种减肥药对肥胖病人的减肥效果。将60名肥胖患者按性别相
同,体重相近配成30对。每对患者随机分配入A、B两药组,30天后比较A、B两
组患者体重的下降值(kg)。
(1)该实验属何种设计方案?
2
(2)变量或资料(体重下降值)属何种类型
(3)其结果可用何种统计分析方法进行分析
31、什么是析因设计?其主要特点是什么?
32、何为交叉设计?它有何优缺点?
33、方差分析的基本思想是什么?总离均差平方和以及总自由度怎样计算?34tANOVAt、两样本检验与完全随机设计资料的有何关系?配对样本检验与
ANOVA随机区组设计资料的又有何关系?
35、举例说明何谓交互效应?并绘制交互效应图。
36SNK?qDunnett?t、检验检验都可用于均数的多重比较,它们有何不同?37、数据变换在资料处理中的作用是什么?
38、秩和检验有哪些优缺点?
2χ39、两组或多组有序分类资料的比较,为什么宜用秩和检验而不用检验?40、调查研究与实验研究有何异同?二者能否同时使用或结合使用?41、究主要有哪些方法,各有何优缺点?
42、大多数的调查研究是抽样调查研究?比较常用的四种概率抽样方法。43、哪些情况下最适合于用小组调查法。
44、法的意义与思想是什么?直接法与间接法的主要区别是什么?
45、面一些说法是否正确,若不正确,提出正确者:
1 ()如果只需要比较各个年龄组的死亡率,可以不做标准化。
3
2 ()只有当要比较总体死亡情况,而且希望归因为人口分布不同之外的其它因素时,标准化才有意义。
3 ()虽然人口分布不同,但各个年龄组的死亡率相同或相差不大时没有必要做标准化。
4 ()不同比较组的人口分布不同,各年龄组的死亡率也不同,但有明显的交叉,此时不宜做标准化。
46logisticCox、简述线性回归、回归和回归的区别。
47CoxRR、简述回归中回归系数与相对危险度值的关系。
48、简述综合评价的一般步骤。
49Topsis、简述法的基本思想和步骤。
50、简述层次分析法的基本思想和步骤。
51Meta、何谓分析?
52.Meta、说明分析的用途。
53Meta、说明分析的两类统计模型。
54Meta、说明分析的基本步骤。
1.1985年某省农村120例6-7岁正常男童胸围(cm)测量结果如表所示。
120例6-7岁正常男童胸围(cm)测量结果
51.654.151.356.651.253.656.058.354.056.955.557.756.057.455.253.657.755.557.453.556.354.057.555.458.355.455.953.354.155.957.256.153.857.756.058.657.656.058.149.151.353.850.553.856.856.054.551.7
4
57.354.858.156.551.350.255.553.652.155.358.353.553.156.854.556.154.854.756.253.752.458.156.656.753.457.154.453.754.159.056.255.753.155.956.656.450.453.356.750.851.454.656.158.054.253.855.355.956.161.856.752.752.451.453.556.659.356.858.159.053.154.254.054.759.853.952.654.652.756.455.554.4
(1)试编制胸围数据的频数表,绘制直方图,概括其分布特征。
(2)用合适的统计量描述胸围数据的集中趋势、变异趋势。
(3)计算P、P、P。255075
2. 在某项治疗膀胱癌的研究中,细胞增殖抑制率(=(1-实验组A值/对照组A值)×100%))数据如表所示:
细胞增殖抑制率
分组细胞增殖抑制率(%)
第1天第3天第5天第7天
实验组13312354140
对照组10098162250
试依据上述数据绘制合适的统计图。(注:A值为上述研究中某实验指标)
3. 1998年国家第二次卫生服务调查资料显示,城市妇女分娩地点分布(%)为医院63.84,妇幼保健机构20.76,卫生院7.63,其他7.77;农村妇女相应为医院20.38,妇幼保健机构4.66,卫生院16.38,其他58.58。试用合适的统计图表达上述资料。
4.1985年我国北方某地区某医生记录10名儿童乳牙萌出月龄(月)数据
如下:
4, 6, 5.5, 8, 11, 10, 13, 11, 9, 8。试描述该10名儿童乳牙萌出的平均
时间。
5. 某卫生防疫站对30名麻疹易感儿童气溶胶免疫一个月后,测得其血凝抑制抗体滴度资料如下表。试计算其平均滴度。
抗体滴度1:81:161:321:641:1281:2561:512例数26510421
6. 某地通过卫生服务的基线调查得到下表的资料,试作如下分析:(1)计算全人口的性别比;(2)计算育龄妇女(15~49岁)占总人口的百分比;(2)计算总负担系数;(4)计算老年人口系数
5
某地人口构成情况
() (%) (%) () (%) (%) 年龄组岁男女年龄组岁男女
0~ 4.2 4.0 45~ 2.4 2.7
5~ 3.2 3.1 50~ 2.1 2.4
10~ 4.4 4.2 55~ 1.2 2.2
15~ 5.5 5.3 60~ 1.3 2.4
20~ 5.1 5.2 65~ 1.1 1.4
25~ 6.0 6.1 70~ 0.8 1.2
30~ 4.3 4.5 75~ 0.5 0.9
35~ 3.2 3.3 80~ 0.2 0.5
40~ 2.3 2.5 85~ 0.1 0.2
7.假定虚症患者中,气虚型占30%。现随机抽查30名虚症患者,求其中没有1名气虚型的概率;有4名气虚型的概率。
8.假定某批出厂半年的中药潮解率为6%。从中抽取20丸,求恰有1丸潮解的概率、不超过1丸潮解的概率和有1至3丸潮解的概率。
9.某溶液平均1毫升中含有大肠杆菌3个。摇匀后,随机抽取1毫升该溶液,内含大肠杆菌2个和低于2个的概率各是多少?
10.某人群中12岁男孩身高的分布近似于正态分布,均数为144.00cm,标准差为5.77cm。
(1)该人群中80%的12岁男孩身高集中在哪个范围?
(2)求该人群中12岁男孩身高的95%和99%参考值范围。
(3)求该人群中12岁男孩身高低于140cm的概率。
(4)求该人群中12岁男孩身高超过160cm的概率。
11.某地白血病的发病率为0.0001,现检查4万人,求没有发现白血病患
者的
概率和发现白血病患者不超过3人的概率。
12. 某车间经检测每升空气中平均约有37颗粉尘,请估计该车间每升空气中有大于50颗粉尘的概率。
13. 某研究表明新研制的一种安眠药比旧安眠药增加睡眠时间。某医师从已确诊的神经衰弱病人中随机抽取了两份样本, 一份样本是20例病人服用该种新药,计算得到平均睡眠时间为6.39小时, 标准差为2.24小时; 另一份样本是93例病人也服用该种新药,计算得到平均睡眠时间为6.45小时, 标准差为2.51小时。若睡眠时间服从正态分布,试分别估计这种新安眠药的平均睡眠时间的95%置信区间;并比较这两个区间有何不同,用哪一个估计总体参数更可
6
靠?
14. 为了解中年男性高血压患病情况,某研究单位在某市城区随机调查了45~54岁男性居民2660人,检查出高血压病人775人,试估计该市中年男子高血压患病1.大量研究显示汉族足月正常产男性新生儿临产前双顶径(BPD)均数为9.3cm。某医生记录了某山区12名汉族足月正常产男性新生儿临产前双顶径(BPD)资料如下:9.95 9.33 9.49 9.00 10.09 9.15 9.52 9.33 9.16 9.37 9.11 9.27。试问该地区男性新生儿临产前双顶径(BPD)的是否大于一般新生儿。
15.为探讨习惯性流产与ACA(抗心磷抗体)的lgG的关系,研究人员检测了33例不育症(流产史>2次)妇女ACA的lgG,得样本均数为1.36单位,标准差为0.25单位;同时检测了40例正常(有1胎正常足月产史)育龄妇女ACA的lgG,相应样本均数为0.73单位,标准差为0.06单位。习惯性流产者与正常妇女lgG水平是否不同?
16.两组十二指肠溃疡患者。其中A组20例,幽门螺杆菌(Hp)皆阳性。测
-9得其生长抑制素(SS)样本均数为260.20(wn/10),标准差为27.50
-9-9(wn/10);B组10例,Hp皆阴性。其SS样本均数为387.40(wn/10),标
-9准差为34.50(wn/10)。试问,Hp对生长抑制素含量有无影响?
17. 两组肿瘤患者,单纯放疗组(A)13 例,口服平消胶囊+放疗组(B)12 例,接受放疗前后,血清Sil-2R水平(U/ml)如表所示。试评价平消胶囊对接受放疗患者血清Sil-2R水平的影响?
两组肿瘤患者的血清Sil-2R水平
A组 No. 1 2 3 4 5 6 7
治疗前 1183.03 822.52 1294.00 852.50 568.89 532.12 896.36
治疗后 983.08 469.34 704.39 979.66 1040.33 895.93 612.27
No. 8 9 10 11 12 13
治疗前 530.46 808.22 375.44 1055.26 614.55 450.22
治疗后 616.70 870.14 1245.54 1753.67 1850.56 538.45
B组 No. 1 2 3 4 5 6 7
治疗前 992.85 767.33 645.85 709.54 995.41 1043.40 1022.76
治疗后 236.66 293.00 166.77 204.81 127.27 186.63 200.80
No. 8 9 10 11 12
治疗前 486.27 694.28 871.44 973.73 1063.76
治疗后 151.47 254.49 178.09 147.19 111.22
7
? 在探讨硫酸氧钒降糖作用的实验中,测得两组动物每日进食量如表6-6
所示。试问两组动物每日进食量是否相同?
两组动物每日进食量
糖尿病加钒组糖尿病组
26.4646.89
25.1947.21
28.7042.42
23.7047.70
24.4840.75
25.1941.03
28.0145.98
23.7043.46
26.1044.34
24.6245.32
19. 22~33岁单胎初孕妇女具有妊娠高危因素者123人随机分为两组。A组63人从孕28周起到分娩止每日口服含钙胶囊;B组60人同期口服安慰剂。结果A组出现妊高症6例,B组出现14例。试问,补钙对妊高症是否具有预防作用?
20. 在甲地区抽取10万人口回顾调查, 知1990~1993年因脑血管病死亡123人,在乙地区也抽取10万人口作回顾调查, 知同期因脑血管病死亡97人。两地区脑血管病死亡水平是否相同?
率的95%置信区间。
21.某医院收治186例重症乙型脑炎患者,随机分成两组,分别用同样的
方
剂治疗,但其中一组加一定量的人工牛黄,治疗结果如表所示。
加人工牛黄治疗乙型脑炎效果
治疗效果
疗 法治愈未愈合计
不加人工牛黄264571
加人工牛黄6847115
合计9492186
问加人工牛黄是否增加该方剂的疗效?
22.某研究人员观察了其他基本情况相似的60岁以上老人126名,其中患冠心
病的52名,未患冠心病的74名,询问他们食盐的情况,其结果见表
冠心病患病与食盐情况
8
冠心病食盐情况合计
超标未超标
有361652
无423274
合计7848126
问患冠心病和未患冠心病的老人食盐超标的概率是否不同?
23.为比较三种方剂治疗胃溃疡的效果,将200名患者随机分到三个治疗组,疗效见表,分析三个方剂的治疗效果有无差别?
三种方剂治疗胃溃疡的效果
治疗方法治疗效果合计
有效无效
甲方剂421860
乙方剂382765
丙方剂561975
合计13664200
24.为比较甲、乙两种方法的诊断效果,某研究人员随机抽查110名乳腺癌患者,同时用甲乙两种方法对各位患者进行检查,将检查结果整理成表的形式。问两种方法对乳腺癌的检出概率有无差别?
甲乙两种方法检查乳腺癌患者的情况
乙方法合计
甲方法检出未检出
检出42 850
未检出303060
合计7238110
25.将20只小白鼠分为实验组和对照组,实验人员闭着眼睛用手去鼠笼中随机抓小鼠,抓出10只小鼠作为实验组,剩余10只作为对照组。由于实验人员是闭着眼睛用手随机抓,故该分组为随机分组。你认为是否正确?为什么?
26.某医院为观察某新药治疗急性支气管炎的疗效,用氨苄青霉素作对照。病人入院时,体温在39oC以下分在治疗组,体温在39oC及以上分在对照组。结果新药疗效优于氨苄青霉素。你认为是否正确?为什么?
27.目前使用的狂犬疫苗浓缩苗经全程注射后有效率为88.37%,现推出一精制苗,根据文献,该苗在全程接种后必须提高8%以上才有推广价值。
(1)如果取α=0.05,1–β=0.80,单侧检验时,需要多大的样本含量才能实现研究目的?
(2)如果取1–β=0.90,又需要多大的样本含量?
(3)根据两个样本含量的比较,你得出什么结论?
28.为研究母乳喂养和人工喂养对婴儿血红蛋白的影响,根据文献,经母
9
乳喂养的婴儿42天血红蛋白均数为117.7g/l,人工喂养为103.3g/l,42天婴儿血红蛋白的总体标准差σ=10.2 g/l。α取单侧0.05,检验功效为0.80,每组例数相等,问每组需要多少病例才能发现差异?若母乳喂养组样本含量占整个样本含量的60%,则每组又各需多少病例?
29.探讨复方丹参注射液对?型糖尿病多发性末梢神经病变的治疗效果,以维生素B、B治疗为对照。根据有关文献的报道,对照组的总有效率为55.6%;l12
复方丹参注射液总有效率为88.2%。若取单侧α=0.05,β=0.10,两组病例数相同的情况下,各组需要多少病例才能发现有差别?
30.为研究铅作业与工人尿铅含量的关系,随机抽查了3种作业工人的尿铅结果如表所示。问3种作业工人的尿铅含量是否不同?
3种铅作业工人尿铅含量(mg/L)测定结果
铅作业组调离铅作业组非铅作业组
0.010.110.09
0.160.230.02
0.240.180.05
0.180.140.02
0.280.200.01
0.140.120.10
0.400.130.04
0.150.000.14
31.某医师为研究人体肾上腺皮质3β–HSD(羟基类固醇脱氢酶)活性在四个季节是否有差别,采用分光光度计随机测定了部分研究对象,其数据如表所示,请作统计分析。
四个季节人体肾上腺皮质3β–HSD活性
季节nSX
春季420.780.13
夏季400.690.22
秋季320.680.14
冬季360.580.20
32.利血平可以使小鼠脑中去甲肾上腺素(NE)等递质下降,现考察某种新药MWC是否具有对抗利血平使递质下降的作用,将24只小鼠随机等分为四组,并给予不同处理后,测定脑中NE的含量(ng/g湿组织),结果如表所示:
小鼠经不同处理后脑中NE的含量
10
蒸馏水组利血平组MWC组利血平+MWC组
630181715407
760103663397
687138638378
676141887363
892197625438
523193648412
问:(1)该资料属何种设计方案?
(2)该新药MWC是否具有对抗利血平使递质下降的作用?
33.为研究雌激素对子宫发育的作用,用四个种系的未成年雌性大白鼠各3只,每只按一定剂量注射雌激素,至一定时间取出子宫并称重,结果如表所示,试比较雌激素的作用在三种剂量间、四个种系大白鼠间是否不同。
未成年雌性大白鼠的子宫重量(mg)
种系雌激素剂量(μg/100g)
0.20.40.8
甲106116145
乙4268115
丙70111133
丁4268115
34.将10名中度甲状腺机能亢进病人随机分为两组,分别用地巴唑和地巴唑+普奈洛尔治疗,治疗前和治疗后4周的心率测量结果如表所示。试分析治疗方法的主效应、治疗时间的主效应以及两者的交互效应。
甲状腺机能亢进病人治疗前后的心率(次/分)
治疗方法受试对象编号治疗前治疗后4周
111591
212094
地巴唑312488
411682
511496
611783
地巴唑+711080
普奈洛尔811892
911985
1012284
36为研究克拉霉素的抑菌效果,某实验室对28个短小芽孢杆菌平板依据菌株的来源不同分成了7个区组,每组4个平板用随机的方式分配给标准药物高剂量组(SH)、标准药物低剂量组(SL),以及克拉霉素高剂量组(TH)、克拉霉素低剂量组(TH)。给予不同的处理后,观察抑菌圈的直径,结果见表9-31,请对该资料进行分析。
28个平板给予不同处理后的抑菌圈直径(mm)
11
区组SLSHTLTH
118.0219.4118.0019.46
218.1220.2018.9120.38
318.0919.5618.2119.64
418.3019.4118.2419.50
518.2619.5918.1119.56
618.0220.1218.1319.60
718.2319.9418.0619.54
37.为研究长跑运动对增强普通高校学生的心功能的效果,某学院对随机抽取15名男生,进行5个月的长跑锻炼,5个月前后测得的晨脉数据如表所示,问长跑锻炼后的晨脉次数有否降低?
某校15名学生5个月长跑锻炼前后的晨脉次数(单位:次/分钟)学生号12345678910111213141
5锻炼前70765663635658606765756656597
2锻炼后48546064485554455048564862495
0
38.分别对8名未患妊娠合并症的孕妇和9名患有妊娠合并症的孕妇进行葡萄糖耐受水平的测试,结果见表。问两类孕妇的葡萄糖耐受能力是否不同?
两组孕妇葡萄糖耐受水平的测试结果
未患妊娠合并症组110119133127141117135122
患有妊娠合并症组120140162184132128177143181
39.用中草药治疗不同类型的小儿肺炎,其疗效分为4个等级,结果见表,试比较该药物对不同类型的小儿肺炎疗效有无差别?
用某中草药治疗不同类型的小儿肺炎的疗效疗效病毒性肺炎细菌性肺炎合计秩次范围平均秩次合计
×(1)(2)(3)(4)(5)(6)=(2)
(5)
控制65421071~107542268
显效18624108~131119.5717
有效302353132~1841583634
无效131124185~2081972167
合计126822088786
40.某研究者欲研究A、B两种菌对小鼠巨噬细胞吞噬功能的激活作用,将59只小鼠随机分为三组,其中一组为生理盐水对照组,用常规巨噬细胞吞噬功
12
能的监测方法,获得三组的吞噬率(%)(下表),试比较三组吞噬率有无差别?
不同菌种对小鼠巨噬细胞的吞噬率(%)
A菌组B菌组对照组
45.064.070.051.062.089.046.044.056.066.071.051.068.091.031.036.056.066.074.054.068.093.056.036.057.066.074.054.070.048.024.060.366.076.059.070.043.018.063.067.073.061.071.024.036.064.070.093.061.070.018.044.064.070.095.061.087.036.036.0
41.欲对三位运动员的综合技术作出评价,以不同专业层次的8位教师对三位运动员的技术作评分(下表),问不同教师对三位运动员技术水平的评价有无不同?
不同教师对三位运动员的技术所作评分
教师编号运动员A运动员B运动员C
15.36.25.8
25.56.46.0
35.14.85.5
45.25.05.5
55.36.05.6
65.24.95.4
75.66.76.0
85.56.25.9
42.某省卫生防疫站对8个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果如表,试检验两者有无相关关系?
8个城市的肺癌标化死亡率和大气中苯并(a)芘浓度
城市编号12345678
肺癌标化死亡率5.618.5016.2311.4013.808.1318.0012.10
(1/10万)
苯并(a)芘0.051.171.050.100.750.500.651.203(μg/100m)
43.试就下表资料分析肾重与心重间的关系。
10名成年男子(尸检)肾重与心重检测结果
编号肾重(克)心重(克)编号肾重(克)心重(克)
(x)(y)(x)(y)
13332716340305
23574397369404
33613288312262
43053269268255
526927610354350
44. 某地防疫站用碘剂局部注射治疗219例地方性甲状腺肿,结果见表。问患者年龄与疗效间有无关联?
13
地方性甲状腺肿患者各年龄组疗效观察结果
疗效
年龄(岁)合计治愈显效好转无效
11~3511340
20~3289251
30~171312244
40~15108235
50~101123549
合计109435314219
45. 某医院为探讨流行性出血热临床发病情况和治疗原则之间的关系,得到
了446例病情转化资料(下表),试分析早期分度与最后定型之间有无关联。
流行性出血热不同分度病情转化情况
最后定型
早期分度合计轻型中型重危型
111211133轻度
516320188中度
01124125重度
116185145446合计
46.某医院在研究胎盘过早剥离者的出血情况时,将妊娠时间分为三个阶段,
失血量分为三个等级,共调查了224例,结果见表。问失血量的多少与妊娠阶段之
间有无关联?
妊娠各阶段胎盘过早剥离者的出血人数分布
妊娠阶段 失 血 量
合计较少中等较多
早期234633
中期47292399
晚期51192292
合计1215251224
47.试用表资料分析"右下腹压痛"与"是否患了阑尾炎"之间有无关联?
201例就诊者有无右下腹压痛与手术证实是否患有阑尾炎之间的关系
有无右下腹压痛是否患有阑尾炎合计
是否
有9327120
14
无156681
合计10893201
48.用如下数据计算相关系数,并检验其总体相关系数是否为零;计算回归
系数,并检验其总体回归系数是否为零;解释相关系数与回归系数的含义、比较
并解释两个检验结果;计算总体回归系数的95%置信区间。X24456
Y567912
49.15个儿童的身高与肺死腔容积的观测数据如表所示.
儿童的身高与肺死腔容积的观测数据
对象号身高(cm)肺死腔容积(ml),
Y
111044
211631
312443
412945
513156
613879
714257
815056
915358
1015592
1115678
1215964
1316488
14168112
15174101
试用该资料进行相关与回归分析:
(1)计算基本统计量;
(2)计算相关系数;
(3)进行相关系数等于零的假设检验;
(4)计算样本回归方程的截距与回归系数;(5)进行回归系数等于零的假设检验;
t=t=F 的关系 ; (6)验证是否存在rb
β(7)估计回归系数的95%置信区间;
50.研究者调查16个不同地区在某一固定时期内到中心医院的就诊率,同
时测量了每一地区中心点到医院的距离,结果如表所示:
16个地区到中心医院的距离和就诊率
15
地区编号距离(km)(X)就诊率% (Y)
16.821
210.312
31.730
414.28
58.810
65.826
72.142
83.331
94.321
109.015
113.219
1212.76
138.218
147.012
155.123
164.134
(1) 请用该数据进行回归分析。
(2) 求回归系数的95%置信区间。
51. 为何总体回归线置信带的上下缘是对称于回归线的两条弧形线,而不是平行线?
52. 为何个体值预测带的上下缘曲线要比回归线置信带的上下缘曲线离回归直线更远?
53. 什么是回归系数的标准误?什么是预测值的标准误?后者如何受前者影响?
(1)如果X的均数为20,Y的均数为50,X与Y的相关系数为r,试写出Y依X的回归方程。
(2)用如下年龄与血红蛋白的检测数据分别拟合简单线性、二次与三次多项式,并评价何种模型为优?
年龄6810121416182022
HB(克%)10.4110.8010.8510.3610.3110.6810.8211.0411.20
(3)某一食品中不同维生素E含量(X)对小白鼠喂养三月后的增重(Y)
数据如下,试问用何种回归模型最能描述其关系?
X0.340.290.280.420.290.400.660.740.450.60Y0.620.350.751.350.480.926.355.982.321.15
(4)观察某地破伤风预防接种率与发病率数据如下表所示,试问:何种回
归模型最能综合表达该地破伤风发病率(Y)与预防接种率(X)的关系?接种率X0.000.100.200.320.500.660.720.781.00
16
发病率Y8.707.805.593.532.181.981.851.501.35
22R54.给定R=.44,N =50,k = 12,试计算调整确定系数。a
55.在多重回归分析中,将某一自变量(X)的值乘以10,会对该自变量的i
回归系数产生何种影响?如果是对自变量值乘以10,又会对标准化回归系数产生何种影响?
56.考虑有四个与某疾病有关的因素与该病的患病率资料如表所示,试用
该数据进行多重回归分析。
某疾病的患病率与四个影响变量
XXXX患病率(%)1234
Y
1725142656.9
456243887.4
842122765.4
113294888.5
75273496.2
11581024109.2
467156103.3
234204682
120185698.7
2547630115.8
242244282.6
12661214120.3
1067913108.8
72666078.5
129155274.3
1256921102.2
462372578.8
57.获得年龄与血红蛋白测量数据如下,试用该数据拟合简单线性、二次、三次多项式模型,并评价模型的拟合优度。
年龄中值6810121416182022
HB(g%)10.4110.8010.8510.3610.3110.6810.8211.0411.20
58. 如表是随机抽取的11名儿童的智力测试数据,试以IQ为因变量拟合多重线性回归模型。并讨论本例应用回归分析所存在的问题。
儿童智力测试数据
常识算术理解拼图积木译码IQ
XXXXXXY123456
14132814223954
17
10141514343537
12121913243928
7879202419
13122412263836
19152316243828
19162621386953
910149314640
1081513154351
981210224355
12102014122842
59.根据下表的数据,计算:
?奥克拉荷马州和蒙塔那州的标准化死亡率;
?奥克拉荷马州和蒙塔那州的期望寿命。
美国1960年的人口分布及两个州的死亡率
年龄1960年美国人口奥克拉荷马州蒙塔那州
(千人)死亡率r(‰)死亡率r(‰)ii
0~411225.525.8
1~162091.21.2
5~354560.50.5
15~240201.21.6
25~228181.61.8
35~240812.93.1
45~204866.97.5
55~1557214.816.3
65~1099732.437.3
75~463479.087.3
85~929190.4202.8
合计179323
取自:Grove , R. D., and Hetzel,A.M.(1963). Vital Statistics
Rates in the United States, 1940-1960.
National Center for Health Statistics, Washington DC.60.根据表16-14的资料编制简略寿命表,并且分别将0岁组死亡率和60
岁组死亡率改变为原来的50%、30%、10%再计算其期望寿命,比较0岁组期望寿
命的变化。
1958年中国某山区少数民族男性人口数、死亡数
年龄组人口数死亡数年龄组人口数死亡数
0~99997352140~905551651
1~96494115645~889082439
5~9533963050~864843857
18
10~9462143855~826225789
15~9423045460~768408407
20~9385663765~6843011508
25~9315764870~5692314705
30~9247182975~4222016329
35~91666111280~2589025890
61.2002年云南某地女性人口数、死亡数和肿瘤死亡数见表.
(1)请编制全死因简略寿命表。
(2)编制去肿瘤死亡后的去死因寿命表。
2002年云南某地女性人口数、死亡数和肿瘤死亡数资料年龄组人口数死亡数肿瘤死亡数年龄组人口数死亡数肿瘤死亡数
0-29890563145-907562651531-87540113350-856714291965-99862120955-7068259829210-1395411351360-6384289434815-1954241551565-40685112340520-2111381961970-30857156826925-1865432343775-10364168410730-1269522014880-42167857935-1032801985685-9864521140-9125821076
62. 真性红细胞增多症病人经不同的放射线治疗后发生白血病的情况列于
表, 请分析不同治疗方案的白血病发病率及其相对危险性。
真性红细胞增多症病人经不同的放射线治疗后发生白血病的情况
治疗方案治疗人数白血病发病人数
未接受放射治疗133 1
接受X-线治疗 79 7
接受P32 治疗22825
接受X-线 + P32 治疗 7212
合计51245
63. 一项石棉与肺癌死亡的历史前瞻性研究结果列于表, 试用分层分析方
法阐明石棉对肺癌发病的影响, 并与不分层的分析结果相比较。
19
石棉与肺癌死亡的历史前瞻性研究资料
石棉工人非石棉工人
工龄(年)人年数死亡数死亡率人年数死亡数死亡率
10?8946236 4.027439514 1.88
20?5192516431.58625288613.75
30?17001177104.11193609645.59
40?8465109128.7772364156.66
合计16685348629.1316351923714.49
64. 就第63题的资料(资料引自: 陈镜群主编: 职业流行病学)分别考察石棉工人中和非石棉工人中肺癌死亡率是否有随年龄上升的趋势。
65.一项膀胱癌患者及对照者吸烟史的病例-对照研究资料列于表, 试分析
膀胱癌与吸烟史之间的关系。
观察组有吸烟史无吸烟史合计
膀胱癌患者192129321
对照者156181337
合计348310658
66. 一项心肌梗塞发生前饮酒量的病例-对照研究结果列于表, 试计算优势比并进行趋势检验。
每日饮酒量(g)病例数对照数
0136110
0~100202238
100~2004246
250+1124
调查总数391418
67. 两个重要命题:病例-对照研究中不同疾病状态下暴露于危险因素这一事件的优势之比等于追踪研究中不同暴露水平下发病这一事件的优势之比; 在发病率很低(如小于1%)的情况下, 后者很接近相对危险度。
DE(1)DE以和表示病例和对照,和表示暴露和无暴露,试用条件概率
()()()()()()()()PEDPEDPEDPEDPDEPDEPDEPDE,,和以及,,和表示上
述两种优势比。
20
(2)试利用Bayes公式证明这两种优势比相等。
(3) 证明发病率很低时, 后者很接近相对危险度。
68. 一项乳腺癌与授乳史关系的1:1配对病例-对照研究资料列于表, 试计
算优势比以分析有无授乳史对乳腺癌发病的影响。如果按非配对公式计算优势比,
其数值有何变化?
乳腺癌病人的授乳史
对照者授乳史有授乳史无授乳史合计
有授乳史276592
无授乳史234366
合计50108158
69. 42名确诊的白血病患者被随机分为2组,其中一组服用6-疏嘌呤
(6-MP),另一组服安慰剂,服药后症状缓解时间如表所示。试估计两组缓解率
并绘制生存曲线,给出各组中位缓解时间并推断生存曲线是否不同?
2组白血病患者缓解时间(周)
6-MP组安慰剂组
6 6 6 7 10 13 161 1 2 2 3 4 4
+ ++ + +22 23 65 5 8 8 8 8 11 9 10 11 17
+ + ++ + ++11 12 12 15 17 22 2319 2025 3232 3435
70. 31()(0TY为探讨某恶性肿瘤的预后,收集了名该肿瘤患者的生存时间月、结局
1)age ()sex (10)为死亡,为删失及可能的影响因素。影响因素包括病人年龄岁、性别男,女、
type(10)treat (10)组织学类型为高分化,为低分化、治疗方式为传统方法,为新方法、是否
lym(10)Cox有淋巴结转移是,否等。分别作每个自变量的单因素回归、包括所有自变量的
Cox123多因素回归以及逐步回归,结果如表、表和表所示,试就此结果做出你认为合理的分析结论。
31名恶性肿瘤患者生存资料单因素Cox回归结果
2变量 自由度 回归系数 的标准误 P值 -2ln(L) RR 95%置信区间bbχ?上限 下限RR
age 1 -0.00251 0.02074 0.0146 0.9037 133.893 0.958 1.039
0.997
sex 1 1.25673 0.46349 7.3519 0.0067 125.795 0.115 0.706
0.2850.151 0.827type 1 1.04060 0.43375 5.7557 0.0164 128.140
0.353
21
treat 1 0.56352 0.47830 1.3881 0.2387 132.406 0.688 4.486
1.7570.283 1.679lym 1 -0.37253 0.45450 0.6718 0.4124 133.206
0.689
31名恶性肿瘤患者生存资料多因素Cox回归结果(-2ln(L)=104.979)
?2变量 自由度 回归系数 的标准误 P值 RR 95%置信区间bbχRR
上限 下限age 1 0.01994 0.02364 0.7109 0.3992 0.974 1.069
1.020
sex 1 3.46658 0.89535 14.9905 0.0001 0.005 0.181
0.0310.007 0.211type 1 3.24466 0.86096 14.2026 0.0002
0.039
treat 1 1.93508 0.81330 5.6610 0.0173 0.029 0.711
0.1440.816 15.816
lym 1 1.27890 0.75620 2.8602 0.0908 3.593
31名恶性肿瘤患者生存资料多因素Cox逐步回归结果
(-2ln(L)=108.033)
2bbχ变量 自由度 回归系数 的标准误 P值 RR 95%置信区
?间RR
上限 下限
sex 1 3.35018 0.92938 12.9942 0.006
0.0003 0.0350.217
0.029 type 1 2.35071 0.61346 14.6836
0.3170.0001 0.095
treat 1 2.07064 0.85168 5.9110 0.024
0.0150 0.1260.66971.199419987收集了~年反映医疗质量的项指标值如表所示,
(1)Topsis5试采用法对该医院年的医疗质量进行综合评价。
19941998 ~年某医院医疗质量指标
XXXXXXX年度123456719942158476.77.31.0178.397.52.0
19952437286.37.40.8091.198.02.0
19962204181.87.30.6291.197.33.2
22
19972111584.56.90.6090.297.72.9
19982463390.36.90.2595.597.93.6
XXXX注:-出院人数, –病床使 –出院者平均住院日, –病1234
用率(%),死率(%)
XXX –危重病人抢救成功率(%), –治愈好转率, –院内感567
染率(%)
(2)5试采用层次分析法对该医院年的医疗质量进行综合评价。
(3)比较两种方法评价的结果。
72.就下表资料练习Meta分析。
3RCT 项某降脂药物的疗效的实验结果
研究 治疗组 对照组
样本量 均数 标准差 样本量 均数 标准差
1 13 5.0 4.7 13 6.5 3.8
2 30 4.8 2.7 48 6.0 2.4
3 36 22.5 3.5 28 24.9 10.8
4 58 12.3 2.9 49 13.4 3.8
5 43 9.8 3.2 38 7.4 2.6
1()对资料作同质性检验,正确选择统计分析模型。
(2)利用电脑实验中的程序对资料进行Meta分析,并与上述结果比较。
73.某研究者拟分析心肌梗死病人服用阿司匹林预防死亡的效果,经过检索得到下表资料。
7项心肌梗死病人服用阿司匹林预防死亡的研究
死亡数/病人数
研究编号 阿司匹林组 安慰剂组
1 49/615 67/624
2 44/758 64/771
3 32/317 38/309
4 102/832 126/850
5 85/810 54/406
6 246/2267 219/2257
7 1570/8587 1720/8600
(1)如何进行资料的同质性检验?怎样选择Meta分析的统计模型?
(2)利用电脑实验中的程序对资料进行统计分析,并作出结论。
?某医生欲比较某饮食疗法与一种药物疗法对降低血清胆固醇含量的疗效,
23
选择了40名高脂血症病人。设立了4个组 正常饮食组; 饮食疗法组;腔药物组;问药物+饮食疗法组。请问最好采用何种试验设计方案,并简述其理由。
?为研究膳食中添加赖氨酸盐后对正常儿童生长发育有无影响,拟在面包
中添加L-赖氨酸盐后用幼儿园的学生进行干预试验。问
(1)可采用何种设计方案?
(2)如何设置对照?
(3)观察指标有哪些?
(4)需控制哪些非处理因素?如何控制?
3.为进行对苯二甲酸、乙二醇联合作用对肾脏损伤的实验研究,将48只
SD大鼠随机分为到对苯二甲酸组、乙二醇组、苯二甲酸+乙二醇和生理盐水组,每组12只。
(1)你认为最好选用那种试验设计方案?并说明理由。
(2)如果研究的目的为比较苯二甲酸、乙二醇对肾脏是否有损伤,损伤是否有差异,又该选用何种设计方案?
?为何多个均数的比较不能直接作两两比较的t检验?若要采用两两比较的t检验,则其检验水准和两样本均数之差的标准误该作何调整?
?方差分析中的F检验为何是单侧检验?
?三个样本均数的比较经ANOVA有统计学意义,在多重比较中出现了“不拒绝μ=μ,也不拒绝μ=μ,但拒绝μ=μ”的结果,该结果应如何解释?121323
为什么?
?是否一定要经ANOVA发现有统计学意义后,再作均数间的两两比较?
?为研究三种不同处理下大白鼠血糖浓度随室温(?)的变化,抽取条件相同或
相近的24只大白鼠随机分配于三种不同处理的八种室温下进行实验,结果见表:
不同处理及不同室温下大白鼠的血糖浓度(g/L)
处理0?5?10?15?20?25?30?35?
A0.980.961.101.081.201.251.401.45
B0.860.801.001.161.151.301.201.40
C0.900.950.981.201.221.361.351.50问:(1)该资料是随机区组设计资料还是重复测量资料?为什么?
(2)三种处理的血糖浓度是否不同?八种室温的血糖浓度是否不同?
24
? Pearson积差相关系数r经检验无统计学意义,是否意味着两变量间一定无关系?
? Pearson积差相关系数r经检验有统计学意义,P值很小,是否意味着两变量间一定有很强的线性关系?
? 在云南省漫湾地区建立了一个漫湾电站。欲了解该电站对漫湾地区的生态环境、对周围居民健康是否有影响及影响程度,请作一个调查设计。
? 根据我们对全国出生缺陷监测资料的统计分析,发现神经管缺陷的发生具有明显的季节性,表现为1-3月份出生的孩子的发生率较高。今欲调查其原因,应采取什么调查方法?请做出完整的调查设计并制定出调查表。
13.欲了解某县育龄妇女下生殖道感染情况及其影响因素,该县有人口95000人,育龄妇女占30%,其中70%已婚,拟调查已婚育龄妇女3000人,请作一个抽样调查方案。
14.欲了解某市糖尿病患病情况及其影响因素,请作一个调查设计。
15.欲了解某市某小学在校学生的近视眼患病情况。该校共有6个年级,每个年级10个班,每班50人左右。欲通过分层整群抽样,调查600名学生,如何
抽样?
16. 地区A共有25名社区医生。假定客观上各位社区医生的学历和上个月家访的次数如下表所示。
25名社区医生上个月家访的次数
医生12345678910
次数35476124120
大学毕业1111111111
医生11121314151617181920
次数0310119875129
大学毕业1100000000
请从中随机抽取5名,获得调查数据后,估计该地区社区医生上个月家访的总次数、每名医生家访的次数和该地区社区医生中大学毕业的所占百分比。并且思考下述问题:(1)将你的结果和真值比较,有何发现?如何解释?
(2)将你的结果和你的同学所得结果比较,有何发现?如何解释?
(3)如果将这次调查视为预调查,下次正式调查应该怎么做?17.如果事先知道每一位社区医生的学历情况,便可根据大学毕业与否将第一题的资料分为两层。请在这一总体中作按比例分层随机抽样调查,总样本量为
5名。试估计该地区社区医生上个月家访的总次数、每名医生家访的次数。并且也
25
思考第16题提出的3个问题。
18.另一地区B共有社区医生40名,其他情况与上述地区类似。他们也准
备用简单随机抽样作同样目的的调查,要求相对误差不超过30%,置
信系数达到95%。请参考第16题的计算结果估算样本量。
19.如果事先知道地区B每一位社区医生的学历情况,便可根据大学毕业
N=25,N=15与未毕业将该地区的社区医生分为两层,设。欲在这12
一总体中作按比例分层随机抽样调查,要求相对误差不超过30%,置
信系数达到95%。请参考第17题的计算结果估算样本量。
20.某市按地理位置划分成30个学区,每学区有4所小学。经一阶段整群
抽样,抽得3个学区。对这3个学区的每一所学校调查了学生总数和色
盲的人数,数据见下表:
3个学区各学校的学生总数和色盲人数
学区编号学校编号学生人数色盲人数
114307
261012
363012
451020
813608
251017
34204
44903
17137016
253010
34303
42203
试估计该市共有多少小学生,多少色盲小学生,以及小学生中色盲者所占百分
比。
21.视第20题为预试验,在此基础上估算正式作一阶段整群抽样调查所
需的样本量。要求相对误差不低于30%,置信系数达到95%。22.第20题属于一阶段整群抽样,其中的“群”是什么?可否用分层随
机抽样达到同一目的?这时的“层”是什么?
23.围绕估计总体均数所需样本量的估算公式讨论,何时采用完全随机抽
样?何时采用分层随机抽样?何时采用一阶段整群抽样?
24.甲、乙两地女性乳腺癌死亡率(1/10万)资料如下表所示。
(1)分别用以下标准人口通过直接法标准化比较两地女性乳腺癌死亡率,
26
并讨论:?以甲地人口为标准人口。
?以乙地人口为标准人口。
?以甲乙两地人口合计为标准人口。
(2)分别用以下标准死亡率死亡率间接法标准化比较两地女性乳腺癌死亡率,并讨论:?以甲地死亡率为标准死亡率。
?以乙地死亡率为标准死亡率。
?以甲乙两地相同年龄组死亡数之和除以人口数之和求出两地合并年龄别死亡率,以此为标准死亡率。
甲、乙两地女性乳腺癌死亡率(1/10万)资料
年龄组甲 地乙 地
人口数人口分布死亡数死亡率人口数人口分布死亡数死亡率(岁)
0~1937400.5321.032298000.5831.3130~554000.15610.83654000.1757.6540~435000.121227.59410000.101331.7150~385000.101436.36298000.081136.9160~254000.07935.43173000.04740.4670~123000.03432.52112000.03544.64合计3688401.004712.743945001.004411.15
25.甲、乙两地慢性阻塞性支气管炎患病率资料见下表:
(1)分别用以下标准人口通过直接法标准化来比较两地慢性阻塞性支气管炎患病率,并讨论:?以甲地人口为标准人口。
?以乙地人口为标准人口。
?以甲乙两地人口合计为标准人口。
(2)分别用以下标准通过间接法标准化来比较两地慢性阻塞性支气管炎患病率,并讨论:?以甲地患病率为标准患病率。
?以乙地患病率为标准患病率。
?以甲乙两地相同年龄组患病数之和除以人口数之和求出两地合并年龄别患病率,以此为标准患病率。
甲、乙两地慢性阻塞性支气管炎患病率资料
年龄组甲 地乙 地
人口数人口分布患病患病率人口数人口分布患病患病率(岁)
%人数%%人数%0~121003.93540.45123003.29320.2610~3420011.101200.353980010.64630.1620~8340027.079651.169635025.768680.9030~5340017.3312842.406320016.909861.56
27
40~4970016.13536910.805860015.6746217.8950~3210010.42386412.044932013.18495210.0460~289009.38403613.97362009.68635117.5470~143004.64278519.48183004.89539829.50合计308100100.00184775.99374070100.00232716.22
26. 设一配对设计的病例-对照研究资料,用非条件logistic回归作分析,对结果有什么影响?
27. 某人在分析疾病发生与X和X两变量关系时,单个引入X或X都有统1212计学意义,但两变量同时引入时却都没有统计学意义,为什么?
28. 在随访某工厂1000人的队列研究中,暴露于危险因素(苯)的900人中有194人出现白细胞减少,非暴露人群100人中有21人出现该症状。再随访另一工厂1000人,暴露组100人中有6人出现白细胞减少,非暴露组900人中则有29人出现该症状。两工厂的资料合并得表。
两工厂资料的合并
E+E-合计
D+20050250
D-8009501750
合计100010002000
2试用经典方法估计OR值并做 检验,再用单因素logistic回归估计OR并做Wald检验,比较结果。进一步讨论各工厂分开分析与合并分析结果的差异及解决方法。
DocInC2C豆丁网()是全球优秀的文档销售与分享社区。
.pdf, .doc, .ppt, .txt 豆丁允许用户上传包括 在内的数十种格式的文档文件,并以Flash Player的形式在网页中直接展示给读者。简而言之,豆丁就如同文档版的Youtube。现在每天都有数以万计的文档会上传到豆丁,正基于此,豆丁将致力构建全球最大的中文图书馆。
豆丁努力使世界上任何人都能够自由地发挥他们的创造力。文档资料只通过少数、单一的出版物来传播的时代已经结束。现在,互联网给文档资料提供了世界范围内的传播渠道,豆丁希望能够给每个独立的文档持有者利用这个新机会的方法。现在,我们为原创人群提供安全、自由、民主、便利的文档发布与营销平台。借助豆丁,你可以为你的文档定价,并通过豆丁发表到不同博客、论坛、联盟中,进行广泛传播,在分享的同时获得收入回报。
豆丁致力于构建全球领先的文档发布与销售平台,面向世界范围提供便捷、安全、专业、有效的文档营销服务。包括中国、日本、韩国、北美、欧洲等在内的豆丁全球分站,将面向全球各地的文档拥有者和代理商提供服务,帮助他们把文档发行到世界的每一个角
28
落。豆丁正在全球各地建立便捷、安全、高效的支付与兑换渠道,为每一位用户提供优质
的文档交易和账务服务。
29
转载请注明出处范文大全网 » 生物统计学第五版答案生物统计