范文一:009017年北师大统计学考试指导
0090《统计学》2017年6月期末考试指导
一、考试说明
本课程闭卷考试,满分100分,考试时间90分钟。考试试题包括以下三种题型: (一)名词解释(每题4分,共20分)
要求准确给出相关名词的正确解释,但不必拘泥于课本,只要能够正确理解即可。 (二)简答题(每题6分,共24分)
回答要点,并作简要分析,要点要求完整、有序、明确,分析力求准确。 (三)计算题(共56分)
准确写出计算公式,注意相关计算结果。
二、重点复习内容
第一章 绪论
本章没有教学难点,主要目的是解释统计学的基本思维方式与学习方法。 第二章 统计调查
一(统计指标:描述总体特征的名称
1. 总体与单位
客观存在的,在同一性质基础上结合起来的许多个别事物的整体,称为统计总体,
简称总体。
构成统计总体的个别事物,称为总体单位,简称单位,或称个体。
2. 总体的特征
(1)同质性。统计总体中的单位必须具有某方面的相同属性,这一相同属性使总体内
的单位可以区别于非总体的单位。
(2)大量性。虽然一个单位也可以构成一个总体,但统计工作中研究的总体往往是由
大量的单位构成的。
(3)差异性。在具有相同属性的基础上,总体中的各个单位还应当是存在差异性的,
必然存在某些方法,可以将总体中的单位进行个体识别。
3. 统计尺度
1) 列名尺度:是指对事物仅做平等的分组或分类,而不提供更多的描述。
2) 顺序尺度:是指除提供名称描述外,还可对事物进行排序。
3) 间隔尺度:指能够提供两个测度之间的数量间隔。
4) 比率尺度:是指在两个测度之间,可以比较其比例关系。
4. 统计指标六要素
1) 指标名称
2) 计量单位
3) 计算方法
4) 时间限制
5) 空间限制
6) 指标数值
5. 标志是说明总体单位特征的名称,根据所说明的特征不同,标志可分为品质标志和数量标志两类。
1
二(统计调查的分类
1. 按范围分类:全面调查、非全面调查
全面调查是指对总体的全部单位均进行调查,也称为普查。全面调查由于是对全
部单位进行的调查,因此不会出现以偏概全的误差。
非全面调查是指仅对总体中的一部分单位进行调查,由这一部分单位的情况来反
映总体的情况。非全面调查主要包括三种方式:
1) 重点调查。对总体中影响全局的主要单位进行调查,而对不影响全局的单位不
进行调查。重点调查关注的是宏观现象,对于微观主体的状况不进行深入研究。
2) 典型调查。对总体中具有代表性的单位进行调查。典型调查的主要着眼点在于
对各类具体单位的微观分析,而不关注整体的宏观情况。
3) 抽样调查。按随机原则从总体中抽选一部分单位进行访问。抽样调查的结果既
可以对整体的宏观状况进行推断,也能够反映出微观主体的行为,从而成为研
究社会经济现象的主要手段。
2. 按方法分类
(1)观察法:观察法是指调查人员不直接与受访者进行接触,而是通过旁观的方法获
得对受访者情况的了解。
(2)采访法:采访法是指调查人员根据访问提纲,与受访者进行交谈,由此获得对受访者情况的了解。
(3)报告法:报告法是指由受访者填写有关报告表格,向调查人员报告自身情况。
(4)问卷调查法:问卷调查法是指调查人员利用格式化的调查问卷,向受访者进行询问。
三(抽样调查
1. 概率抽样:
指总体中的单位以确定的概率进入样本。包括以下几种类型:
1) 简单随机抽样
2) 分层抽样
3) 等距抽样
4) 整群抽样
5) 多阶段抽样
2. 非概率抽样,
指单位进入样本的概率事先是未知的。非概率抽样一般是作为概率抽样的一种近似方法而进行的。包括以下类型:
1) 便利抽样:根据方便为原则进行抽选。
2) 判断抽样:由访问员人为判断受访者的身份,确定是否选择作为样本。
3) 配额抽样:根据一定的身份配额抽选受访者进行调查。
4) 滚雪球抽样:是一种针对稀疏总体进行的抽样方法,抽选时,先找到几个符合
条件的受访者,然后通过这些受访者找到更多符合条件的受访者,逐步外推,
直至达到要求的样本数。
四(调查误差的构成
1. 抽样误差
抽样误差是指在抽样调查中,由于使用样本信息推断总体情况,而可能出现的误
差。
2. 非抽样误差
非抽样误差指不是由于样本的代表性,而是由于调查过程的各种其他因素而带来
2
的误差。
非抽样误差包括三种类型:抽样框误差、无回答误差、计量误差。 第三章 描述统计
一(数据分组
1(分组标志
一批数据可以按不同的标志进行分组,选择分组标志要根据研究目的进行。 2(组数
按同一标志,可以将数据分成不同数量的组。
3(组距
组距是指每个组的范围跨度。
4(组限
组限指组与组之间的界限。
5(组中值(组中值的计算)
组中值是一个组中处于中间位置的值,往往用以代表一个组的平均状况。
上限,下限组中值,2
对于缺上限或者缺下限的组,组中值的计算有几种不同的情况 (1)根据邻近组组距推算
1缺下限组组中值,上限,邻近组组距2
1缺上限组组中值,下限,邻近组组距2
(2)对于缺下限组而言,当邻近组组距过大时,使用上限的一半计算。 (3)根据现实情况人为确定。
二(次数分配
次数分配是指观察值按分组标志分配在各组内的记录数。 各组中观察值的数量称为次数,也称频数。各组次数与总次数的比例,称为频率。 三(钟形分布是社会经济现象中最常见的分布形式,具体表现为中间隆起,两侧逐渐降低。 四(总量指标和相对指标
总量指标是反映社会经济现象总体规模或水平的指标,又称为绝对数。 相对指标是两个有联系的总量指标对比计算的比率,又称为相对数。 根据相比较的总量指标之间的关系不同,相对指标可以划分为若干种类型: (1)结构相对指标
总体的某一部分结构相对指标, 总体的整体(2)比例相对指标
总体的甲部分比例相对指标, 总体的乙部分(3)强度相对指标
总体的甲方面强度相对指标, 总体的乙方面
3
(4)比较相对指标
甲总体比较相对指标, 乙总体
(5)动态相对指标
总体的甲时期指标动态相对指标, 总体的乙时期指标
五(描述总量指标和相对指标的一些常用术语
1(静态比较与动态比较
将同一时期的统计指标放在一起进行比较,称为静态比较。将不同时期的统计指标放在一起进行比较,称为动态比较。
2(基期与报告期,定基比较与环比比较
在进行动态比较时,有时会用当前的数据与过去某一时间的数据进行对比。此时,将当前的数据称为报告期数据,将用于比较的过去的数据称为基期数据。 如果观察的是若干个时期的数据,每个时期的数据均与同一个基期数据进行对比,则这种比较方法,称为定基比较。
如果在观察若干个时期的数据时,每一数据均与前一时期进行对比,则这种比较方法称为环比比较。
六(平均指标
1. 算术平均数(要求会计算)
x,ix,n算术平均数也称均值,是所有数的总和与数量之商。用公式表示为:
2. 调和平均数
调和平均数是根据标志值的倒数计算出来的平均指标,其意义与算术平均数一致。
M,i,HMi,xi公式为:
3. 几何平均数
几何平均数是在数列具有连乘积特征的情况下所计算的平均数。计算公式为:
nG,,xi
4. 众数
众数是一组数据中出现次数最多的变量值。
众数的计算公式如下:
,1Mo,L,,i ,,,12
其中:
L表示众数组的下限;
4
表示众数组与前一组的次数之差; ,1
表示众数组与后一组的次数之差; ,2
表示众数组的组距。 i
5. 中位数
N,1
2中位数是位于统计数列中间位置上的数。中位数的位置计算公式为 6. 分位数
分位数是指将一列数据K等分的各种数。
7. 截尾均值
截尾均值是指在一个数列中,去掉两端的极端值后所计算的算术平均数,也称为切尾均值。
七.离散程度指标是衡量数据变异程度的指标,包括以下几类: 1(极差
R,Max,Min极差是数据的最大值与最小值之差,用公式表示如下:。 2(内距
内距也称四分位差,是指第三四分位数与第一四分位数之差,用公式表示如下:
。 IRQ,Q,Q31
3(平均绝对差
xx,,AD平均绝对差是指各个标志值对其算术平均数的平均离差。 ..,n4(方差(要求会计算)是使用求平方的方式来消除正负号,便于数学处理。
22,,,,x,x,i方差的计算公式为:
2,,,,x,x,i5(标准差(要求会计算):方差的平均根称为标准差: 6(离散系数
,,V标准差相对于平均数的大小,称为离散系数。 ,x
八.探索性数据分析
是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法。对于在探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行证实分析,以确定规律是否正确。
探索性数据分析有四大主题,分别是:
1) 耐抗性
2) 残差
3) 重新表达
4) 图示
第四章 统计指数
5
一.概念:
指数是反映某一时期某一社会经济现象变动情况的指标。
二.指数的计算原理
1(个体指数的计算
个体指数的计算就是用两个时期的同一指标进行直接对比。
2(总指数的计算
总指数是指涉及到若干个同类指标的指数。例如某一时期的商品价格指数,涉及到同一市场上的许多种商品,此时就涉及到多个指标的合并问题。
三.综合指数计算思路(要求会计算)
1(拉氏指数:拉斯配雷斯提出使用基期变量作为同度量因素计算出来的指数,称为拉氏
pq,10K,pq,00指数。
2(帕氏指数:帕许提出使用报告期变量作为同度量因素计算出来的指数,称为帕氏指数。
pq,11,Kpq,01
四.总平均数指数因素分析
1(概念
平均指标在不同的时间或者不同空间上对比形成的相对数,称为总平均数指数,也称为可变构成指数。
2(结构变化影响指数
由于构成总体的个体数量比例发生变化,对总平均数产生的影响,称为结构变化影响指数。
3(固定构成指数
指在构成不变的情况下,由于个体的平均水平发生变化,而对总平均数产生的影响。 第五章 时间数列
一.时间序列的构成与表现形式
同类社会经济现象的统计资料,按时间先后顺序的排列,称为时间数列。
时间序列的一般表现形式如下:
,,Y,fT,S,C,I t
其中各个分项的含义分别为:
1) T:长期趋势(Secular Trend),指社会经济现象在较长的一段时间内所表现出来的
稳定的趋势性。
2) S:季节变动(Seasonal Fluctuation),社会经济现象表现出来的与日历周期同步的
周期性。
3) C:循环变动(Cyclical Movement),循环变动也是一种周期性的变动,不过这种
周期无法直接用日历周期来进行解释。
4) I:不规则变动(Irregular Variations),由各种无法解释的因素而引起的经济波动,
一般不表现出明显的规律性。
二.趋势变动的测定(简答题只需答出要点)
1(修匀方法
6
修匀方法是指从数列本身出发,通过平均的方法,消除数列的短期波动,使数列表现出稳定的趋势性。
修匀方法包括两类
1) 时距扩大法
2) 移动平均法
移动平均法是将时距扩大法进行了一个平移,从序列顶端向下,选择N个时间点进行一次平均,然后将选择范围向下移动一个时间点,再进行一次平均,依次类推。每次平均的结果,记录在N个时间点的中间位置上。
对于奇数周期的移动平均法,计算出来的平均值直接记录在居中的时间点上;对于偶数周期的移动平均法,则需要进行两次移动平均,第一次按偶数周期计算,结果分别写在居中的两个时间点中间,第二次再将居中的时间点两侧的两个移动平均结果再进行一次移动平均,计算出最终结果。
移动平均法除了选择时距之外,还可以选择移动平均计算时的权重。
移动平均法的时距选择是根据研究目的而定的:如果研究的目的是为了将周期变动的影响去除掉,则移动平均的周期需要与实际经济波动的周期一致;如果研究目的是为了修匀不规则变动,显示出周期的影响,则移动平均的周期应当大大地小于实际周期,并采用加权移动平均法,一定程度地突出实际数值。
2.拟合方法
拟合方法是从数据的内在规律性出发,利用数学模型来对数列进行拟合处理,寻找最适合数列的数学模型,并以数学模型的规律来推断时间数列的规律。
1) 分段平均法
分段平均法是一种进行曲线拟合的简单方法,其做法是将时间数列的各项数值平均分为几部分,分别求各部分的平均数,然后将各个平均数标在图上,由此确定两个点或者三个点,根据这些点确定对应的曲线。
2) 最小二乘法
三.季节变动的测定
季节变动的测定目的在于计算出季节指数,季节指数反映季节的实际数量与理论数量的差异,通常用比值表示。
各季的实际数量季节指数, 各季的理论数量
1(按月平均法
按月平均法是将全年的总量分配到每个月份,作为当月的理论数量,再以各月的实际数量进行比较。
2(趋势剔除法(要求掌握具体步骤)
趋势剔除法的核心在于充分考虑了长期趋势对于时间数列的影响,在计算各月的理论数量时,使用当月的趋势值代替年平均值。
具体步骤为:
1) 利用移动平均法,求出对应各季的趋势值;
2) 以各季的实际数量与趋势值相除,获得各季的季节变化情况;
3) 将各年的同一季节情况进行平均,得各季未修正指数;
4) 进行指数修正。
第六章 抽样估计(本章无重点)
一.参数与统计量
7
参数是指描述总体分布状况的数;
统计量是指由样本构造出来的数。
二.影响抽样误差的因素
根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:
(1)目标总体的变异程度:目标总体的变异程度()是影响抽样误差的最主要的因,
素之一,总体的变异程度越大,在确定样本下的抽样误差越大。
(2)样本容量:抽样误差与样本量的平方根成正比。
(3)抽样方式:有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。
(4)抽样的组织形式:抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。 第七章 假设检验
本章的内容已超出基础统计学原理范围,讲授时均不进行数学推导,仅提供常规处理方法。
一.检验原理
1. 提出原假设(Null Hypothesis)和备择假设(Alternative Hypothesis); 2. 确定适当的检验统计量T;
3. 规定显著性水平a(犯弃真错误的概率);
4. 计算检验统计量T的值;
5. 作出统计决策。
第八章 方差分析与相关分析
一.方差分析
1(基本概念
方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。
方差分析可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。
2(方差分析原理
计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。 三、重点习题
(一)名词解释
1. 单位
构成统计总体的个别事物,称为总体单位,简称单位,或称个体。
2. 抽样调查
按随机原则从总体中抽选一部分单位进行访问。抽样调查的结果既可以对整体的宏观状况进行推断,也能够反映出微观主体的行为,从而成为研究社会经济现象的主要手段。 3. 次数分配
次数分配是指观察值按分组标志分配在各组内的记录数。
4. 标志
标志是说明总体单位特征的名称,根据所说明的特征不同,标志可分为品质标志和数量标志两类。
5. 截尾均值
8
截尾均值是指在一个数列中,去掉两端的极端值后所计算的算术平均数,也称为切尾均值。
6. 固定构成指数
固定构成指数:指在构成不变的情况下,由于个体的平均水平发生变化,而对总平均数
f1x,,1f,1产生的影响。 f1,x,0f,1
(二)简答题
1. 简述统计总体的特征。
参考答案:
客观存在的,在同一性质基础上结合起来的许多个别事物的整体,称为统计总体,简称总体。一个统计总体应当具有三个方面的特征:(1)同质性。统计总体中的单位必须具有某方面的相同属性,这一相同属性使总体内的单位可以区别于非总体的单位。(2)大量性。虽然一个单位也可以构成一个总体,但统计工作中研究的总体往往是由大量的单位构成的。(3)差异性。在具有相同属性的基础上,总体中的各个单位还应当是存在差异性的,必然存在某些方法,可以将总体中的单位进行个体识别。
2. 简述调查误差的构成。
参考答案:
调查误差包括抽样误差和非抽样误差两个组成部分
(1)抽样误差
抽样误差是指在抽样调查中,由于使用样本信息推断总体情况,而可能出现的误差。 (2)非抽样误差
非抽样误差指不是由于样本的代表性,而是由于调查过程的各种其他因素而带来的误差。非抽样误差包括下列三种类型:
抽样框误差:抽样框误差主要是指抽样框与实际的抽样总体存在差异而造成的误差。 无回答误差:所谓无回答误差是指未能从指定的样本处获得有效的回答。 计量误差:计量误差是指在对个体进行调查时,调查结果与个体的真实情况出现的差异。
3. 离散程度指标有哪些类型,
参考答案:
离散程度指标是衡量数据变异程度的指标,包括以下几类:
R,Max,Min(1)极差是数据的最大值与最小值之差,用公式表示如下: (2)内距也称四分位差,是指第三四分位数与第一四分位数之差。 用公式表示如下:IRQ,Q,Q 31
xx,,AD(3)平均绝对差是指各个标志值对其算术平均数的平均离差。 ..,n(4)方差是使用求平方的方式来消除正负号,便于数学处理。 方差的计算公式为:
22,,,,x,x ,i
2,,(5)标准差:方差的平均根称为标准差,,,x,x ,i
9
,(6)离散系数:标准差相对于平均数的大小,称为离散系数。 ,V,x
4. 影响抽样误差的因素有哪些,试作简单介绍。
参考答案:
根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:
(1)目标总体的变异程度:目标总体的变异程度()是影响抽样误差的最主要的因,
素之一,总体的变异程度越大,在确定样本下的抽样误差越大。
(2)样本容量:抽样误差与样本量的平方根成正比。
(3)抽样方式:有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。
(4)抽样的组织形式:抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。
(三)计算题
1.某农场三种谷物的播种面积及亩产情况如下表所示
谷物 播种面积(万亩) 平均亩产(公斤)
稻谷 18 500
小麦 13 400
玉米 10 600
小米 7 350
请计算整个农场的谷物平均亩产。
2.有两批材料,测得强度情况如下
甲材料 100 110 120 130 140 150 160 170 180 190 乙材料 120 125 130 135 140 150 155 160 165 170
试比较两批材料强度的方差,确定哪批材料强度更稳定。
3.观察四个城市过去两年中某种商品的销售情况如下:
城市 2000年价格 2001年价格 2000年销量 2001年销量
北京 1250 1100 800 1200
上海 1300 1050 900 1300
广州 1200 1080 1200 2000
重庆 1100 1000 500 600
试计算该商品2001年的帕氏价格指数和拉氏销售量指数。
4.某商场电冰箱销售额数据如下
年份 春季 夏秋 秋季 冬季
1998年 784 1375 893 469
1999年 773 1694 1414 741
2000年 935 2415 1490 905
2001年 1209 2891 2038 1264
2002年 1918 3550 2117 1516
试用趋势剔除法求各季节的季节指数。
5.从一批零件中抽取30枚,测量其直径数据如下(单位:厘米)
10
14.47,14.57,14.62,14.72,14.74,14.74,14.77,14.81,14.81,14.82,14.82,14.82,14.86,14.87,14.91,14.93,14.93,14.94,14.96,15.03,15.05,15.05,15.07,15.14,15.14,15.16,15.28,15.29,15.30,15.34
试在95,的置信度水平下,估计这批零件的平均直径。
名词解释和简答题请在教材和ppt中查找答案,计算题说明如下: 计算题要有步骤、公式及结果才能得全部分数。
1(解答:
利用加权算术平均数公式
xf,iix=_______。 ,f,i
2xx,,,,i22.解答:使用公式计算方差 ,,n
2,,x, 对于甲材料: ,
2,,x, 对于乙材料: ,
所以,根据方差判断, 更稳定。
3(解答:
pq,11,, 帕氏价格指数: K Ppq,01
qp,10,,K 拉氏销售量指数: Lqp,00
4(解答:
第一步:计算各季度的四季度移动平均,由于移动平均周期为偶数,需要进行两次移动平均,计算结果为
年份 春季 夏秋 秋季 冬季
1998年
1999年
2000年
2001年
2002年
第二步:用原数据除以趋势值,得到各季的季节比率
年份 春季 夏秋 秋季 冬季
1998年
1999年
2000年
2001年
2002年
第三步:求各季节的平均值
季节 春季 夏秋 秋季 冬季
11
平均值
第四步,进行指数修正
计算四个季节的平均值之和为:______
修正系数为:______
修正后各季节指数为
季节 春季 夏秋 秋季 冬季
平均值
2x,x,,,s,5(解答:使用公式计算样本标准差为______ n,1
s样本平均数的标准差为,_______ ,,,x,
n
样本平均数为_______,对应 95% 置信度水平的t值为______,则总体平均数的置信区间为___________________。
注意:《统计学》考试需要使用科学计算器,请同学们务必携带。
说明:本考试指导只适用于201703学期期末考试使用,包括正考和重修内容。指导中的章节知识点涵盖考试所有内容,给出的习题为考试类型题,习题答案要点只作为参考,详见课程讲义或笔记。如果在复习中有疑难问题请到课程答疑区提问。最后祝大家考试顺利~
12
范文二:北师大教育统计学期末复习
教育统计学期末复习
1.统计学分为数理统计学和应用统计学,教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学。描述性统计和推断性统计(估计和假设检验) 2.随机现象的每一种结果叫做一个随机事件,能表示随机现象各种结果的变量称为随机变量,统计处理的变量都是随机变量。
第二章 数据的初步整理
一、数据的来源、种类及其统计分类
(一)来源
1.经常性资料:文字记载的资料 2.专题性资料
①教育调查:在没有预定因子、不施行控制的条件下,对现成的教育方面有关客观事实所进行的观察和分析。
分为:现情调查、回顾调查和追踪调查 或 全面调查和非全面调查
②教育实验:在预定的控制因子影响下,对教育方面有关客观事实所进行的观察和分析。 一般设立两种实验处理进行对照和比较:单组实验(看两种形式对结果的影响)、等组实验(甲乙两组基本条件相同的情况下,对之施行不同的实验处理)和轮组实验(在实验组和对照组分别进行两种实验处理,并且每种处理各重复一次:甲组实验先A后B,重复为先B后A;乙组实验先B后A,重复先A后B)
(二)种类
1.变量 ① ② ③ ④
定类(称名)变量:如性别、专业
定序(顺序)变量(无相等单位和绝对零点):1级、2级、三级 定距(等距)变量(有相等单位无绝对零点):摄氏温度 定比(比率)变量(有相等单位有绝对零点):身高、体重
2.数据
①点计:人数、物品个数。度量:用工具得到的数据 ②间断型随机变量数据(类别数据,人数、等级),连续型随机变量数据(数据可以用小数表示,连续区间)
3.统计量与参数(统计量:在统计工作中,对一系列原始数据进行计算,得出的平均数,
标准差)参数(由样本估计总体的水平)
二、统计图表
1.统计表
一般由标题、表号、题目、线段、数字(暂缺或未记录?表示,无用—表示)、表注构成
表2.12 师大附小和云岭小学二年级学生身高的频数百分比分布表
2.统计图
标题、图号、标目、图形、图注 ① 表示间断变量:直条图(纵条图和横条图)、圆形图
丁9%
丙10%
乙23%
甲58%
图2.2某年级操行评定结果
② 表示连续变量:线形图、频数分布图(直方、多边、累积频数和累积百分比图)
三、抽样
为了使统计推断正确可靠,就应当使样本对于总体有较好的代表性,这就引伸出抽样的问题: 抽样方法:
1. 单纯随机抽样:抽签,等概率,一般来说要放回,但无限总体放回与不放回不改变 2. 机械抽样:从总体中抽取样本时,按照时间或空间的等距间隔抽取,可与单纯随机抽样
结合起来(前20人中选任一个,再从下一个20人中任选一个) 3. 分层抽样:分组后单纯随机抽样
4. 整群抽样:如要调查北京市五年级小学生患近视眼的情况,不是个别地抽取每个学生,
而是按照学校来抽样,然后对抽取到的学校中的每个五年级小学生进行检查。组织便利容易抽取,缺点是样本单位在总体中的分布不均匀,代表性有限。 样本容量:一般认为n<>
第三四章 集中量和差异量
一、 集中量:用一个数据表示总体(或样本)某一方面的一般水平
(一) 算术平均数()及加权平均数(w)
频数分布表计算法中,把X替换为fx(组中值)X频数
(二) 中位数(Md)
频数分布表计算法:类似四分位距计算法
(三) 众数(Mo) 1. 皮尔逊经验法:
Mo≈3Md - 2(四)算术平均数、中位数和众数的关系
当频数分布呈正态时,算数平均数、中位数、众数三者重合为一点。 中位数始终在中间,正负偏态看
二、差异量:一组数据离散程度
(一)绝对差异量
1.四分位距(QD):数量中间的50%
Q1(累积频数为25%)Q3(累积频数为75%)
QD=
Q3?Q1
(1)原始数据求法
(2)频数分布表求法(内插法)
各数与算术平均数或中数之绝对利差的平均数:
3.方差(σx2)和标准差(σx)
(1).原始数据法
ΣX2ΣX2
σx= ?()
(2).频数分布表法:把X换成组中值fx
(二)相对差异量:两种单位不同,身高体重
σx
CV=×100%
X
CV大,表明离散程度大,CV小,表明离散程度小
(三)偏态量和峰态量
1.偏态量 SK=0
SK>0
SK<>
2.峰态量 α4=0 正态峰 α4>0 高狭峰 α4<0>0>
第五章 概率及概率分布
一、概率(P(X))
(一)分类:先验概率后验概率
二、二项分布:
xxn?x1.二项展开式通式:P x =Cnpq
2.在n次二项试验中成功事件出现次数的平均数为:μ=np,标准差为σ=
三、正态分布:
标准差大的,正态分布形态低阔,标准差小的,正态分布形态高狭
1.标准正态分布:
X?X
图形,面积的含义,整个曲线面积可大致分为6个部分
2.确定录取分数线(将录取率200/1600=0.125作为正态分布上端的面积。然后根据0.5-0.125=0.375查表得P,进而得到Z)、确定等级评定的人数(可将正态分布基线上Z=-3至Z=+3之间6个标准差的距离分成相等的几份)
Z=
★第六章 抽样分布及总体平均数的推断
通常以拉丁字母、s、r、n表示样本的平均数、标准差、相关系数统计量,以希腊字母μ、σ、ρ、Ν表示总体的平均数、标准差、相关系数、总个数等总体参数。估计和检验统称统计决断。
一、抽样分布
(一)概念:某一种统计量的概率分布 (二)定理:
1.从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数E=μ(E表示平均的符号,μ表示总体平均数)
2.容量为n的平均数在抽样分布上的标准差等于总体标准差除以n的平方根:σ=均数标准误)
Z=
n
(平
?μ?μ
= S=
σ n?1X
S为总体标准差的估计值
σX推导为:S=
= n?1σX
1
(三)t:
?μ
(df=n?1,df=30时≈Z) df越大,曲线越高
t=
二、总体平均数估计(点估计·区间估计·双侧)
实际研究工作中,除特殊情况外,把它假定为正态分布或接近正态分布。
(一)σ 已知
1. 95%置信区间:P?2. 99%置信区间:P X?<><><><+=0.95>+=0.95>
(二)σ 未知
1. 大样本:同上 2. 小样本:
① 95%置信区间:P?t df 0.05② 99%置信区间:P X?t df 0.01
<><+t df="">+t><><+t df="">+t>
=0.95 =0.99
三、假设检验
显著性水平α:
(一)σ 已知Z
(1) 提出假设:H0:μ=66 H1:μ≠66 (2) 选择检验统计量并计算其值:Z
=
(3) 确定检验形式:双侧/单侧
(4) 统计决断:丨Z丨 双侧(1.96 2.58)单侧(1.65 2.33)
(二)σ 未知t
Ⅰ大样本
Z=
Ⅱ小样本
(1) 提出假设
?μ0
(2) 选择检验统计量并计算其值:t(3) 确定检验形式
(4) 统计决断:t df 0.01 t df 0.05
=
★第七章 平均数差异的显著性检验
一、基本原理
平均数之差:=? 差的方差:
∑(D?)
σD=
2
2
∑(X1?)∑(X2?=+
∑ X1?(X2??2
22
==
2+σ2?2rσσσ12n
22
σ1σ2
独立样本平均数之差的标准误σD= +二、显著性检验
(一)相关样本
1.配对组
(1)提出假设 H0:μ1=μ2 或μD=0 H1:μ1≠μ2 或μD≠0 (2)选择检验统计量并计算其值
t=
?μD=
=
?+σ?2rσσσX1X1X2X2
n?1
(3)确定检验形式
(4)统计决断 2.同一组
T换为Z
(二)独立样(方差齐性用t检验,方差不齐性用t’检验)
1.独立大样本
22
S12S22σxσx12
S= +≈ + Z检验
2.独立小样本(略)
?
t=
n1+n2?2
n1n2
对两个总体的方差是否有显著性差异所进行的检验称为方差齐性检验,对两个独立样本
方差是否齐性,要F检验
第八章 方差分析
一、方差分析的基本原理:以F检验来推断几个平均数差异的显著性
F=
MSb
w
MSb组间方差=组间平方和SSb除以组间自由度dfb(组数?1)
MSw组内方差=组内平方和SSw除以组间自由度dfw(各组容量之和?组数)
SSt总平方和=SSb组间平方和+SSw组内平方和
SSb=nj?t=4[ 3?7 2+(8?7)]
SSw=∑∑(?j2 SSt=∑∑(?t2
2
2
★第十章 χ检验(类别变量,不能有具体数值)
考察比例,检验两个因素是否相关,根据样本的频数分布来推断总体的分布。自由分布的非
参数检验。
2
一、χ2
χ2=∑
二、χ2的抽样分布
(fo(实际频数)?ft(理论))
t
2
呈正偏态,右侧无限延伸,但永远不与基线相交。自由度越小,χ2分布偏斜度越大,自由度越大,分布形态趋于对称
(一)单变量的χ2检验:单相表的自由度=组数-1
① 按一定比率决定理论频数的χ2 检验
(1) 提出假设:H0:健康状况好中差的人数比率为1:2:1,H1:健康状况好中差的人
数比率不为1:2:1
(2) 计算χ2 值 χ=
2
(15?13.5)
13.5
2
+
(23?27)
27
2
+
(16?13.5)
13.5
2
(3)统计决断:自由度为3-1 ② 一个自由度的χ2 检验
各组ft≥5的情况
(1) 提出假设 H0:喜欢与不喜欢体育的人数相等;H1:喜欢与不喜欢体育的人数不等 (2) 计算χ2 值 (3) 统计决断 ③ 频数分布正态性检验:将各组面积与频数相乘,求各组的理论频数
(二)双变量的χ2检验(横行为r,纵行为)
(1) 提出假设:H0:学生是否愿意报考师范大学的态度与家庭状况没有关系;H1:学生
是否愿意报考师范大学的态度与家庭经济状况有关系
(2) 计算χ2 值 ft
=
nr(横实际频数总和)ncN(样本容量总和)
df=(r?1)(c?1)
在双向表χ2 检验中,如果是判断几次重复实验的结果是否相同,这种χ2 检验叫做同质性检验。
如果要进一步指导哪些组差异显著,哪些组差异不显著,还需进行四格表的χ2 检验
第十一章 相关分析
(画图,不考公式30以下的数据适合粗略等级相关)
伪相关:实际上无关。中介相关:由中介变量导致
一、 相关
(一)相关系数:r在-1到1之间,不等距。相关系数只能描述两个变量之间的变化方向
及密切程度,并不能揭示两者之间的内在本质联系。
(二)相关散布图
简单相关系数又称皮尔逊相关系数或“皮尔逊积矩相关系数”,它描述了两个定距变量间联系的紧密程度
二、分类
(一)积差相关
1.条件:两个变量都是正态 连续变量,成对数据 每组数据之间相互独立 两者之间呈现线
性关系(散布图),排除共变因素的影响,样本容量≥30。(例如,初中升高中入学考试生物与化学成绩均以百分制表示,若两者分别呈正态分布,它们之间呈线性关系,这时可用积差相关来表示他们的变化关系)
2.积差相关系数就是两个变量标准分数乘积之和除以n所得之商
(二)等级相关:
1.斯皮尔曼等级相关:等级次数排列,总体不一定正态,不一定>30
赋予等级-计算两个变量每对数据所赋予的等级数之差D,及差数的平方之和-代入公式 2.肯德尔和谐系数:多个变量。常用来表示几个评定者对同一组学生学习成绩等级评定的一致性程度,或同一个评定者对同一组学生学习成绩用等级先后评定多次之间的一致性程度。
(三)质与量的相关:一个为质,一个为量
1. 二列相关:都是正态连续性变量,其中一个变量被认为地划分为二分变量(及格不及格) 2. 点二列相关:其中一个是正态连续性变量,另一个是二分名义变量(男女)
3. 多系列相关:都是正态连续性变量,其中一个变量按不同质被认为地分为多种类别名义
变量。
(四)品质相关:两个都被化为类别
统计学术语:
频数分布(Frequencies) 统计量(Descriptives):
平均数(Mean) 中位数(Median) 众数(Mode)
平方和(Sum of Squares)
方差(Variance,Mean Square)
平均数的标准误(Standard error of mean)全距(Range)
标准差(Standard deviation) 四分位距(Quartiles)百分位距(Percentiles)
圆形图(Pie charts)直条图(Bar Charts) 频数分布图(Histograms)
偏态量(Kurtosis)峰态量(Skewness) 行(Row)列(Column)
自由度(Freedom)显著性(Significance)方差齐性(Equal variance is assumed) 相关样本(Paired-samples)
独立样本(Independent-samples) 组间差异(Between groups) 组内差异(within groups) χ2 检验(χ2 test)
回归分析(Regression)
单样本t检验(One-samples test)
配对样本t检验(Paired-samples t test) 独立样本t检验(Independent-samples t test) 方差分析(ANOVA:Analysis of Variance) 单因素方差分析(One way ANOVA) 双尾检验(Two-tailed)单尾检验(One-tailed)
相关(Correlate)
皮尔逊积差相关系数(Pearson) 肯德尔和谐系数(Kendall`s tau-b) 斯皮尔曼等级相关系数(Spearman r)
范文三:北师大统计学作业答案
《统计学》作业
本课程作业由两部分组成。第一部分为“客观题部分”,由15个选择题组成,每题1分,共15分。第二部分为“主观题部分”,由简答题和论述题组成,共15分。作业总分30分,将作为平时成绩记入课程总成绩。
客观题部分:
一、选择题(每题1分,共15题)
1、对于非专业人员而言,统计学原理可以分为( AB CD)。
A.调查与实验设计 B. 描述统计 C. 推断统计 D. 多元统计分析
2、( ABC )是统计总体的特征。
A. 差异性 B. 大量性 C. 同质性 D. 不可知性
3、说明总体单位名称的是( A )。
A. 指标 B. 标志 C. 计量单位 D. 标识
4、 统计学上一般用( D )来衡量标志。
A.列名尺度 B. 顺序尺度 C.间隔尺度 D. 比率尺度
5、 统计调查按范围可分为( ABD )。
A.典型调查 B. 重点调查 C. 问卷调查 D. 抽样调查
6、下列抽样调查方法中属于概率抽样的有( CD )。
A. 配额抽样 B. 判断抽样 C. 简单随机抽样 D.等距抽样
7、缺失值处理的方法有( ABCD )。
A. 就近插值 B. 删除对应记录 C. 随机插值 D.分类插值
8、反映社会经济现象总体规模或水平的指标是( AD )。
A. 绝对数 B. 相对数 C. 相对指标 D.总量指标
9、常用的平均指标有( ABCD )。
A.调和平均数 B.算术平均数 C.众数 D.中位数
10、数据最大值与最小值之差称为( B )。
A.内距 B.极差 C.方差 D.绝对差
11、探索性数据分析的主题有( ABCD )。
A.耐抗性 B.残差 C.重新表达 D.图示
12、影响时间数列的因素有( ABCD )。
A.不规则变动 B.循环变动 C.长期趋势 D.季节变动
13、测定趋势变动的方法中,修匀方法主要有( AB )。
A.时距扩大法 B.移动平均法 C.最小二乘法 D.分段平均法
14、影响抽样误差的因素有( ABCD )。
A.抽样的组织形式 B.抽样方式 C.目标总体的变异程度 D.样本容量
15、相关系数( AD )。
A.可以为负 B.大于等于零小于等于一
C.可以为任意实数 D.绝对值不大于一
主观题部分:
一、简答题(每题2.5分,共2题)
1、什么是统计指标,统计指标有哪些要素?
答:描述总体特征的名称,称为统计指标。构造一个统计指标需要注意六个方面的问题,一般称为统计指标的六要素。
(1)指标名称。
(2)计量单位。
(3)计算方法。
(4)时间限制。
(5)空间限制。
(6)指标数值。
2、什么是概率抽样,概率抽样有哪些主要形式?
答:概率抽样指总体中的单位以确定的概率进入样本。包括以下几种类型;
(1)简单随机抽样
(2)分层抽样
(3)等距抽样
(4)整群抽样
(5)多阶段抽样
二、论述题(每题5分,共2题)
1、平均指标有哪些类型?
2、什么是探索性数据分析,试阐述探索性数据分析的四大主题。
广东陶粒,广东陶粒厂 http://www.129258.com
ejz7S0WQ6b1q
范文四:北师大教育统计学期末复习.
大二上?教育统计学
教育统计学期末复习
1.统计学分为数理统计学和应用统计学,教育统计学是运用数理统计的原理和方法研究教育问题的一门应用科学。描述性统计和推断性统计(估计和假设检验)
2.随机现象的每一种结果叫做一个随机事件,能表示随机现象各种结果的变量称为随机变量,统计处理的变量都是随机变量。
第二章 数据的初步整理
一、数据的来源、种类及其统计分类
(一)来源
1.经常性资料:文字记载的资料
2.专题性资料
?教育调查:在没有预定因子、不施行控制的条件下,对现成的教育方面有关客观事实所进行的观察和分析。
分为:现情调查、回顾调查和追踪调查 或 全面调查和非全面调查
?教育实验:在预定的控制因子影响下,对教育方面有关客观事实所进行的观察和分析。 一般设立两种实验处理进行对照和比较:单组实验(看两种形式对结果的影响)、等组实验(甲乙两组基本条件相同的情况下,对之施行不同的实验处理)和轮组实验(在实验组和对照组分别进行两种实验处理,并且每种处理各重复一次:甲组实验先A后B,重复为先B后A;乙组实验先B后A,重复先A后B)
(二)种类
1.变量
? 定类(称名)变量:如性别、专业
? 定序(顺序)变量(无相等单位和绝对零点):1级、2级、三级
? 定距(等距)变量(有相等单位无绝对零点):摄氏温度
? 定比(比率)变量(有相等单位有绝对零点):身高、体重
2(数据
?点计:人数、物品个数。度量:用工具得到的数据
?间断型随机变量数据(类别数据,人数、等级),连续型随机变量数据(数据可以用小数表示,连续区间)
1
大二上?教育统计学
3(统计量与参数(统计量:在统计工作中,对一系列原始数据进行计算,得出的平均数,标准差)参数(由样本估计总体的水平)
二、统计图表
1(统计表
一般由标题、表号、题目、线段、数字(暂缺或未记录?表示,无用—表示)、表注构成
纵标目 顶线
表2.1 某年级各班学生人数
班别 一班 二班 总和 总标目
人数 42 36 78 横标目
底线
表2.8 38名学生6道选择题做对的频数分布
做对题0 1 2 3 4 5 6 总和 数
频数 1 3 6 13 10 4 1 38
表2.11 二年级80个学生身高的频数、累积频数、累积百分比分布表
身高 组中值 频数 累积频数 累积百分比
115- 116.5 1 1 1.25
118- 119.5 3 4 5.00
121- 122.5 8 12 15.00
124- 125.5 10 22 27.50
127- 128.5 20 42 52.50
130- 131.5 19 61 76.25
133- 134.5 12 73 91.25
136- 137.5 4 77 96.25
139- 140.5 2 79 98.75
142- 143.5 1 80 100.00
总和 80
表2.12 师大附小和云岭小学二年级学生身高的频数百分比分布表
身高 频数 频数百分比
师大附小 云岭小学 师大附小 云岭小学
112- 1 2.50
115- 1 6 1.25 15.00
总和 80 40 100.00 100.00
2
大二上?教育统计学
2.统计图
标题、图号、标目、图形、图注
? 表示间断变量:直条图(纵条图和横条图)、圆形图
5
4.5
4
3.5
3
人2.5数男2
女1.5
1
0.5
0
甲乙丙等级
图2.1某年级操行评定结果
丁
9%丙
10%
甲乙58%23%
图2.2某年级操行评定结果
? 表示连续变量:线形图、频数分布图(直方、多边、累积频数和累积百分比图)
3
大二上?教育统计学
6
5
4坐
标
3轴
标
2题
1
0
类别1
三、抽样
4
大二上?教育统计学
为了使统计推断正确可靠,就应当使样本对于总体有较好的代表性,这就引伸出抽样的问题:
抽样方法:
1. 单纯随机抽样:抽签,等概率,一般来说要放回,但无限总体放回与不放回不改变 2. 机械抽样:从总体中抽取样本时,按照时间或空间的等距间隔抽取,可与单纯随机抽样
结合起来(前20人中选任一个,再从下一个20人中任选一个)
3. 分层抽样:分组后单纯随机抽样
4. 整群抽样:如要调查北京市五年级小学生患近视眼的情况,不是个别地抽取每个学生,
而是按照学校来抽样,然后对抽取到的学校中的每个五年级小学生进行检查。组织便利
容易抽取,缺点是样本单位在总体中的分布不均匀,代表性有限。 样本容量:一般认为n<30为小样本,n?30为大样本>30为小样本,n?30为大样本>
第三四章 集中量和差异量
一、 集中量:用一个数据表示总体(或样本)某一方面的一般水平 (一) 算术平均数(,)及加权平均数(,,)
频数分布表计算法中,把X替换为fx(组中值)X频数
(二) 中位数(Md)
频数分布表计算法:类似四分位距计算法
(三) 众数(Mo)
1. 皮尔逊经验法:
Mo?3Md - 2,
(四)算术平均数、中位数和众数的关系
当频数分布呈正态时,算数平均数、中位数、众数三者重合为一点。
中位数始终在中间,正负偏态看,
5
大二上?教育统计学
二、差异量:一组数据离散程度
(一)绝对差异量
1(四分位距(QD):数量中间的50%
Q(累积频数为25%)Q(累积频数为75%) 13
,3?,1,,= 2
(1)原始数据求法
(2)频数分布表求法(内插法)
分数 频数 累积频数 四分位距
50- 1 1
6
大二上?教育统计学 55- 2 3
60- 3 6 36?29Q3=85+X5=88.5 1065- 4 10 70- 5 15 75- 6 21 80- 8 29 85- 10 39 90- 5 44 95- 4 48 总和 48 2. 平均差(MD)
各数与算术平均数或中数之绝对利差的平均数:
23(方差(,)和标准差(,) ,,
(1).原始数据法
22Σ,Σ,,?= ?(),,,(2).频数分布表法:把X换成组中值fx (二)相对差异量:两种单位不同,身高体重
?,CV=×100% ,,CV大,表明离散程度大,CV小,表明离散程度小 (三)偏态量和峰态量
1.偏态量
SK=0
SK>0
7
大二上?教育统计学
SK<0>0>
2.峰态量
α4=0 正态峰
α4>0 高狭峰
α4<0 低阔峰="">0>
第五章 概率及概率分布 一、概率(P) (X)
(一)分类:先验概率后验概率
二、二项分布:
,,?,,,,1.二项展开式通式:Px=,,, ,
2.在n次二项试验中成功事件出现次数的平均数为:μ=np,标准差为σ=,,, ,三、正态分布:
标准差大的,正态分布形态低阔,标准差小的,正态分布形态高狭
8
大二上?教育统计学
1.标准正态分布:
,?,Z= ?,
图形,面积的含义,整个曲线面积可大致分为6个部分
2.确定录取分数线(将录取率200/1600=0.125作为正态分布上端的面积。然后根据0.5-0.125=0.375查表得P,进而得到Z)、确定等级评定的人数(可将正态分布基线上Z=-3至Z=+3之间6个标准差的距离分成相等的几份)
?第六章 抽样分布及总体平均数的推断 通常以拉丁字母,、s、r、n表示样本的平均数、标准差、相关系数统计量,以希腊字母μ、σ、ρ、Ν表示总体的平均数、标准差、相关系数、总个数等总体参数。估计和检验统称统计决断。
一、抽样分布
(一)概念:某一种统计量的概率分布
(二)定理:
1.从总体中随机抽出容量为n的一切可能样本的平均数之平均数等于总体的平均数,,E,=μ(E表示平均的符号,,表示样本的平均数,μ表示总体平均数)
?2.容量为n的平均数在抽样分布上的标准差等于总体标准差除以n的平方根:?= (平,,,均数标准误)
,?,,?,Z== ??,,,
,S=? S为总体标准差的估计值 ,,,?1
,,?,,?11推导为:,==,? ,,,?1,,
(三)t:
,?,t= (df=n?1,df=30时?Z) ,,
df越大,曲线越高
9
大二上?教育统计学 二、总体平均数估计(点估计?区间估计?双侧) 实际研究工作中,除特殊情况外,把它假定为正态分布或接近正态分布。
(一)σ 已知
??,,1. 95%置信区间:P,?1.96<><,+1.96=0.95>,+1.96=0.95>
??,,2. 99%置信区间:P,?2.58<><,+2.58=0.99 ,,,,(二)σ="" 未知="">,+2.58=0.99>
1. 大样本:同上
2. 小样本:
?,?,,,? 95%置信区间:P,?,<><,+,=0.95>,+,=0.95>
?,?,,,,?,<><,+,=0.99 99%置信区间:p,,,,,,0.01,,0.01,,,,三、假设检验="">,+,=0.99>
显著性水平α:
(一)σ 已知Z
(1) 提出假设:H0:μ=66 H1:μ?66
,?,0(2) 选择检验统计量并计算其值:Z= ?
,,
(3) 确定检验形式:双侧/单侧
(4) 统计决断:丨Z丨 双侧(1.96 2.58)单侧(1.65 2.33) (二)σ 未知t
?大样本
,?,0Z= ?,
,,
?小样本
(1) 提出假设
10
大二上?教育统计学
,?,(2) 选择检验统计量并计算其值:t= ?,
,?1,
(3) 确定检验形式
(4) 统计决断:, , ,,,,df0.01df0.05
?第七章 平均数差异的显著性检验 一、基本原理
平均数之差:,=,1?,2
差的方差:
2
?(D?,)2?,=,
22
?(X1?,1)?(X2?,2)
=+,,
?,X1?,1,(X2?,2)
?2 ,
22?,?+??2r??1212,相关样本平均数之差的标准误=?,= ,,,
22??12,独立样本平均数之差的标准误?,=+ ,1,2二、显著性检验
(一)相关样本
1.配对组
,,,,(1)提出假设 ,:,=,或,=0 ,:,?,或,?0 012,112,(2)选择检验统计量并计算其值
,?μD,,1?,2t=== 22,,,,?+??2,??,1,2X1X2,,?1(3)确定检验形式
11
大二上?教育统计学
(4)统计决断
2.同一组
T换为Z
(二)独立样(方差齐性用t检验,方差不齐性用t’检验) 1.独立大样本
2222,1,2??,1,2,,S,=+?+ Z检验 ,1,2,1,22.独立小样本(略)
,1?,2t=
22,1?+,2?,1+,2,1,2,?,+,?2,1,212
对两个总体的方差是否有显著性差异所进行的检验称为方差齐性检验,对两个独立样本
方差是否齐性,要F检验
第八章 方差分析 一、方差分析的基本原理:以F检验来推断几个平均数差异的显著性
,,,F= ,,,
,,组间方差=组间平方和S,除以组间自由度,,(组数?1) ,,,
,,组内方差=组内平方和S,除以组间自由度,,(各组容量之和?组数) ,,,
S,总平方和=S,组间平方和+S,组内平方和 ,,,
222,,,,SSb=n?,?,=4[3?7+(8?7)] ,,
2SSw=??(,?,) ,
2SSt=??(,?,) ,
2?第十章 χ检验(类别变量,不能有具体数值) 考察比例,检验两个因素是否相关,根据样本的频数分布来推断总体的分布。自由分布的非
参数检验。
12
大二上?教育统计学
2 一、χ
,
?,)(,,(实际频数),(理论)
,,=?
,,
2二、χ的抽样分布
2呈正偏态,右侧无限延伸,但永远不与基线相交。自由度越小,χ分布偏斜度越大,自由度越大,分布形态趋于对称
(一)单变量的χ2检验:单相表的自由度=组数-1 2 ? 按一定比率决定理论频数的χ检验
(1) 提出假设:H0:健康状况好中差的人数比率为1:2:1,H1:健康状况好中差的人
数比率不为1:2:1
2 (2) 计算χ值
222(15?13.5)(23?27)(16?13.5)2 χ=++ 13.52713.5
(3)统计决断:自由度为3-1 2 ? 一个自由度的χ检验
各组,?5的情况 ,
(1) 提出假设 H0:喜欢与不喜欢体育的人数相等;H1:喜欢与不喜欢体育的人数不等
2 (2) 计算χ值
(3) 统计决断
? 频数分布正态性检验:将各组面积与频数相乘,求各组的理论频数
2(二)双变量的χ检验(横行为r,纵行为)
(1) 提出假设:H0:学生是否愿意报考师范大学的态度与家庭状况没有关系;H1:学生
是否愿意报考师范大学的态度与家庭经济状况有关系
2 (2) 计算χ值
,,,,(横实际频数总和) ,= ,,(样本容量总和)
,,=(,?,)(??,)
2 2 在双向表χ检验中,如果是判断几次重复实验的结果是否相同,这种χ检验叫做同质性检验。
2 如果要进一步指导哪些组差异显著,哪些组差异不显著,还需进行四格表的χ检验
第十一章 相关分析
13
大二上?教育统计学
(画图,不考公式30以下的数据适合粗略等级相关) 伪相关:实际上无关。中介相关:由中介变量导致
一、 相关
(一)相关系数:r在-1到1之间,不等距。相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系。
(二)相关散布图
简单相关系数又称皮尔逊相关系数或“皮尔逊积矩相关系数”,它描述了两个定距变量间联系的紧密程度
二、分类
(一)积差相关
1.条件:两个变量都是正态 连续变量,成对数据 每组数据之间相互独立 两者之间呈现线性关系(散布图),排除共变因素的影响,样本容量?30。(例如,初中升高中入学考试生物与化学成绩均以百分制表示,若两者分别呈正态分布,它们之间呈线性关系,这时可用积差相关来表示他们的变化关系)
2.积差相关系数就是两个变量标准分数乘积之和除以n所得之商
(二)等级相关:
1.斯皮尔曼等级相关:等级次数排列,总体不一定正态,不一定>30
赋予等级-计算两个变量每对数据所赋予的等级数之差D,及差数的平方之和-代入公式 2.肯德尔和谐系数:多个变量。常用来表示几个评定者对同一组学生学习成绩等级评定的一致性程度,或同一个评定者对同一组学生学习成绩用等级先后评定多次之间的一致性程度。
14
大二上?教育统计学
(三)质与量的相关:一个为质,一个为量
1. 二列相关:都是正态连续性变量,其中一个变量被认为地划分为二分变量(及格不及格) 2. 点二列相关:其中一个是正态连续性变量,另一个是二分名义变量(男女) 3. 多系列相关:都是正态连续性变量,其中一个变量按不同质被认为地分为多种类别名义
变量。
(四)品质相关:两个都被化为类别
统计学术语:
频数分布(Frequencies) 自由度(Freedom)显著性(Significance)统计量(Descriptives): 方差齐性(Equal variance is assumed)
相关样本(Paired-samples) 平均数(Mean) 独立样本(Independent-samples) 中位数(Median) 组间差异(Between groups) 众数(Mode) 组内差异(within groups)
2 2 ,检验(,test)
平方和(Sum of Squares) 回归分析(Regression) 方差(Variance,Mean Square)
平均数的标准误(Standard error of mean)单样本t检验(One-samples test) 全距(Range) 配对样本t检验(Paired-samples t test) 标准差(Standard deviation) 独立样本t检验(Independent-samples t test)
方差分析(ANOVA:Analysis of Variance) 四分位距(Quartiles)百分位距(Percentiles)
单因素方差分析(One way ANOVA)
圆形图(Pie charts)直条图(Bar Charts) 双尾检验(Two-tailed)单尾检验(One-tailed) 频数分布图(Histograms) 相关(Correlate)
偏态量(Kurtosis)峰态量(Skewness) 皮尔逊积差相关系数(Pearson) 行(Row)列(Column) 肯德尔和谐系数(Kendall`s tau-b)
斯皮尔曼等级相关系数(Spearman r)
15
书中横卧着整个过去的灵魂——卡莱尔
人的影响短暂而微弱,书的影响则广泛而深远——普希金
人离开了书,如同离开空气一样不能生活——科洛廖夫
书不仅是生活,而且是现在、过去和未来文化生活的源泉 ——库法耶夫
书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者———史美尔斯
书籍便是这种改造灵魂的工具。人类所需要的,是富有启发性的养料。而阅读,则正是这种养料———雨果
范文五:北师大统计学基础习题答案3
Exercise 3
1. Show thatxn+1
-
--11212
=(xn+1+nxn);sn+1=(1-)sn+(xn+1-xn)2;and use n+1nn+1
-
2
Splus (or R) language to write programme of computing xn and sn, -1n1n22where xn=∑xi; and sn=. (x-x)n∑i
ni=1n-1i=1
-
n-1n
Solution:Since xn=∑xi, then nxn=∑xi and
ni=1i=1
-
n--111n+`
(xn+1+nxn)=(xn+1+∑xi)=xi=xn+1 ∑n+1n+1n+1i=1i=1
So xn+1
-
-1
=(xn+1+nxn) n+1
2
Since sn=
1
(xi-xn)2, then ∑n-1i=1
-
-
-
n
2
sn+1
-1n+1
=∑(xi-xn+1)2 ni=1
-
-
-
-
=
xn+1+nxn21111222
(x-x)+(x-x)=(x-x+x-x)+(x-)n+1n+1nnn+1∑i∑in+1n+1
ni=1nni=1nn+1
n
n
-----1n2n1n--n22=∑(xi-xn)+∑(xi-xn)(xn-xn+1)+∑(xn-xn+1)+(xn+1-xn)2
2
ni=1ni=1ni=1(n+1)
--1n1n-xn+1+nxn2n22
)+(x-x)n=∑(xi-xn)+∑(xn- n+1
ni=1ni=1n+1(n+1)2
-xn+1-xn2121n2=(1-)sn+∑()+(x-x) nn+12
nni=1n+1(n+1)
n
-
-
--121n22
=(1-)sn+(x-x)+(x-x)nnn+1n+122
n(n+1)(n+1)-121=(1-)sn+(xn+1-xn)2
n(n+1)
-121
(xn+1-xn)2 So s=(1-)sn+
nn+1
Program: We give the program by generating 100 standard normal random numbers. The program is: >x=rnorm(100,0,1)
2n+1
> mean(x)
[1] -0.08212821 > var(x)
[1] 0.819366
2. P267 6.7. For each of the distributions in Exercise 6.1, find an estimator of θ by the method of moments and show that it is consistent.
(a)
,zero
elsewhere,
where
Solution: E(x)=∑x?
x=0∞
θx
x!
e
-θ
=∑
x=1
∞
θx-1
(x-1)!
e
-θ
?θ=∑
x=0
∞
θx
x!
-θ?θ=eθ?e-θ?θ=θ
-
So the estimator of θ by the method of moments is θ?=x.
1nP
According to the Law of Large Numbers, ∑[xk-E(xk)]??→0, which
nk=1?→θ. So θ?=x is consistent. shows x?
P-
-
(b)
Solution: E(x)=?x?θxθ-1dx=θ?xθdx=
1
1
,zero elsewhere.
θθ+1
Let (c)
?θ+1θ
=x, then θ?=
-
x1-x
-
-
and θ? is consistent.
,zero elsewhere.
∞
Solution: E(x)=?x?
-
1
θ
?eθdx=-?xd(eθ)=-x?e
-
x
∞-
x
-
x
θ
|+?eθdx=θ
∞
∞-
x
So θ?=x and θ? is consistent.
(d)
∞θx∞x1
Solution: E(x)=?x?-|x-θ|dx=?x-θdx+?θ-xdx
-∞-∞2θ22
-
e-θeθ-θθ-θ-θ?=(θe-e)-(-θe-e)=θ. So θ=x and θ? is consistent. 22
(e)
∞
∞
zero elsewhere.
∞
Solution: E(x)=?x?e-(x-θ)dx=eθ?xe-xdx=-eθ?xd(e-x)=θ+1
θ
θ
θ
?=x-1. θ?=x-1. Let θ?+1=x and θnn
---
?-θ|≥ε=limP(|x-1-θ|≥ε)=limP(|x-E(x)|≥ε)=0. limP(|θnnn
n→∞
--
n→∞n→∞
So θ? is consistent.
3. p217-218 4.97. Find the mean and variance of S=∑(Xi-X)2/n ,
2
i=1n
-
where X1,X2, ,Xn, is a random sample from N(μ,σ2).
Solution: Since So E(S2)=
nS2
σ
2
~χ(n-1),
2
E(
nS2
σ
2
)=n-1, Var(
nS2
σ
2
)=2(n-1)
n-122(n-1)4
σ, Var(S2)=σ. 2nn
4. P218 4.101. Let X1,X2, X5 be a random sample of size n=5 from
N(0,σ2)
2
+X52 has a (a) Find the constant c so that c(X1-X2)/X32+X4
t-distribution.
(b) How many degrees of freedom are associated with this T? Solution: According to Theorem 1 of Section 4.7, since X1,X2~N(0,σ2).
Y1=X1-X2~N(0,2σ), then
2
Xi2
σ
2
~χ(1). Y2=
2
2
X32+X4+X52
σ
2
~χ2(3).
Y12=2/3So c=
X1-X2
62=
22X32+X4+X52/3
X1-X2X+X+X
2
3
24
25
has a t-distribution.
6
and the degrees are 3. 2
转载请注明出处范文大全网 » 009017年北师大统计学考