范文一:经典测量理论:
经典测量理论:
1:难度:问题的难易程度
难度是指试题的难易程度,确定试题难度的方法有多种,其中一种常用的方法是利用下式计算:
其中:分别表示第j 题的难度,考生的第j 题的平均分和第j 题的满分分数。如果有n 个考生,则可利用下式,由考生在第j 题上的得分直接求得第j 题的难度。
其中:Xji表示第i 个学生在第j 题上的得分。
如果采用0、l 记分法,即答对时记1分,答错时记0分,也可用下式求得Pj
的值。
由上面的式子可知:Pj 的最大值是l ,表示无一人答对该题,该题的难度高。最小值是0,表示每个学生都答对了该题,该题的难度低。
2:区分度:既鉴别度,指测验项目对被试者的区分程度或鉴别能力。
区分度即鉴别度,是指测验项目对被试者的区分程度或鉴别能力。计算区分度的方法有多种,用得比较普遍的一种方法是两端分组法。它是比较得分在高、低两端的受试者通过该题目的比率。
假设PH 和PL 分别为高分组和低分组通过某个题目的百分比,则下式提供了该题目的区分度的
指标:
D =PH-PL
D 是区分度指数。D 的值在-l 和+1之间。D =+l,表示高分组全部答对,而低分组全都答错;D=-1则与上面的情形相反,低分组的全部答对,高分组的却全都答错;D=0,则表示两个分数组的通过率相等。一般认为,D 在0.4以上就非常好了。
上式也可表示为:
其中PH 及PL 分别表示高分组和低分组通过该题的人数,n 为每组的人数。显然,两个组越是处于极端,二者之间的差异越是明显。
但很极端的分组(例如最高10%和最低10%) ,由于每组的人数太少,会降低结果的可靠性。有人证明,在常态分布中,高低分的分组最佳点是上下27%,以此为分界点,既可以使两个对比组间的差异尽可能大,又可使两组人数尽可能多。
范文二:经典测量理论
参数的估计具有稳定性,需要大样本才可以,而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值,其人才和物力的投入都是相当可观的。上述问题都制约了项目反应理论理论在实践中应用的推进程度。但必须提出的是,项目反应理论代表了现代测量理论的发展方向,随着统计理论成熟和计算机技术的普及和测评需求的发展,IRT理论将逐步扩大其的现代人才测评中的应用范围。
上述三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。概化理论主要解决测量误差的问题,对于分析测量的信度有一定优势。IRT理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。
1
题目:
经典测量理论、项目反映理论、概化理论的理论观点和相互比较
学院:教育科学学院 班级:2011级心理班 姓名:乌吉斯古楞 学号:20111102520
百度搜索“就爱阅读”,专业资料、生活学习,尽在就爱阅读网92to.com,您的在线图书馆! 经典测量理论、项目反映理论、概化理论的理论观点和相互比较
随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高。目前, 心理测量有三大理论派别: 经典测量理论(Classical Test Theory , 简称CTT) , 项目反应理论( Item Response Theory , 简称IRT) 和概化理论( Generalizability Theory , 简称GT)。 一、 理论观点
经典测量理论是心理学研究者所熟悉的,其基本思想是把测验的得分看作真分数和误差分数的线性组合,可归结为如下简单数学模型:X—T+E,其中 X是观测分数,T是真分数,E 是误差分数。传统信度效度项目分析的原理方法均建立在这一模型之上 。
2
项目反映理论虽然在国外发展很快,但在国内研究不多,因此对多数心理学工作者来说是比较陌生的。其基本思想与心理学中关于潜在特质的一般理论关。项目反应理论假设被试对测验的反应受某种心理特质支配,于是我们就可对这种特质进行界定,然后据此估计出该被试这种特质的分数,并根据其高低来预测、解释被试对项目或测验的反应。因此项 目反映理论主要用于建立各种与数据拟合的模型,以此确定被试的潜在特质值和他们对于项目的反应之间的关系。
概化理论又称为概括力理论或拓广理论,其基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”代替“真分数”),?用“概括化系数,?G系数”代替了“信度”。
概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面。如学生阅读能力测验,?其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧
面。这里对学生阅读能力的测量是在双侧面情境的条件下
3
进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。
二、 经典测量理论、项目反映理论、概化理论相互比较
经典测量理论认为,仅从测验试卷上的得分不能获得被试个体确切地位的信
息。为了对测验的分数进行合理的解释,提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布,以常模团体的平均数(或中位数)为参照点,将
4
个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score)转换成量表分(Scale Score),或称导出分数。经典测量理论将这种类型的测验称为常模参照测验(Norm-referenced
Test),?与此相对应的称为标准参照测验
(Criterion-referenced Test),?其测验分数的解释与转换方法有所不同。
项目反应理论的理论假设是建立在严谨的数学统计模式基础上的, 它借助于电脑科技在近一、二十年取得了突飞猛进的进展。在过去的十余年中, 不断有新的项目反应模式诞生, 有新的项目参数估计方法提出, 国内也有一些学者对项目反应理论进行了一系列的应用研究。 但总的说来, 目前我国对IRT的理论和应用研究尚处于起步阶段, IRT的推广应用更要受到一些客观条件的限制。IRT对模式参数的估计, 必须要有电脑的辅助, 没有电脑, 其繁琐的运算过程几乎无法完成。IRT的应用推广, 还需要应用者有较深厚的数学功底, 或至少在数理
统计方面训练有素, 这是国内一般的心理学者所缺乏的, 因而推广应用的步履相当缓慢。
概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般
5
阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。
无论是经典测量论还是概化理论,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:
(1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的
6
测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。
(2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。
(3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义
7
为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。
与经典测量理论和概化理论相比,项目反应理论具有以下优点:
第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。
第二,项目反应理论模型项目参数的估计独立于被试样本。
8
项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多
少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。
项目反应理论的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。
第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i上的信息,Pi’(θ)是Pi(θ)的导数。
9
利用项目反应理论这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。
项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。
项目反应理论的优良特性确实是测评希望达到的理想状态,但也存在着一定的局限性,首先它假定所测的特质是单维的,这只是一种理想状态,在现实中很难满足这一假设。其次,现有的IRT模型主要是针对的是二级评分试题(即只有正确与错误两种答案的试题),而对多级评分的试题模型,虽说有一些探索,但还不是太成熟。第三,项目反应理论的参数估计不依赖于特定的样本,但是要使
10
百度搜索“就爱阅读”,专业资料、生活学习,尽在就爱阅读网
92to.com,您的在线图书馆!
11
范文三:经典测量理论
经典测量理论、项目反映理论、概化理论的理论观点和相互比较 随着心理学的发展, 心理测量无论是在理论上, 还是在方法上都逐步地提高。目前, 心理测量有三大理论派别: 经典测量理论(Classical Test Theory , 简称CTT) , 项目反应理论( Item Response Theory , 简称IRT) 和概化理论( Generalizability Theory , 简称GT) 。
一、 理论观点
经典测量理论是心理学研究者所熟悉的,其基本思想是把测验的得分看作真分数和误差分数的线性组合,可归结为如下简单数学模型:X —T+E,其中 X是观测分数,T 是真分数,E 是误差分数。传统信度效度项目分析的原理方法均建立在这一模型之上 。
项目反映理论虽然在国外发展很快,但在国内研究不多,因此对多数心理学工作者来说是比较陌生的。其基本思想与心理学中关于潜在特质的一般理论关。项目反应理论假设被试对测验的反应受某种心理特质支配,于是我们就可对这种特质进行界定,然后据此估计出该被试这种特质的分数,并根据其高低来预测、解释被试对项目或测验的反应。因此项 目反映理论主要用于建立各种与数据拟合的模型,以此确定被试的潜在特质值和他们对于项目的反应之间的关系。
概化理论又称为概括力理论或拓广理论,其基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”代替“真分数”) ,?用“概括化系数,?G系数”代替了“信度”。
概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面。如学生阅读能力测验,?其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧
面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得的分数就不能再推广到原来那么宽广的范围了。
二、 经典测量理论、项目反映理论、概化理论相互比较
经典测量理论认为,仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释,提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布,以常模团体的平均数(或中位数)为参照点,将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score) 转换成量表分(Scale Score) ,或称导出分数。经典测量理论将这种类型的测验称为常模参照测验(Norm-referenced Test) ,?与此相对应的称为标准参照测验(Criterion-referenced Test) ,?其测验分数的解释与转换方法有所不同。
项目反应理论的理论假设是建立在严谨的数学统计模式基础上的, 它借助于电脑科技在近一、二十年取得了突飞猛进的进展。在过去的十余年中, 不断有新的项目反应模式诞生, 有新的项目参数估计方法提出, 国内也有一些学者对项目反应理论进行了一系列的应用研究。 但总的说来, 目前我国对IRT 的理论和应用研究尚处于起步阶段, IRT 的推广应用更要受到一些客观条件的限制。IRT 对模式参数的估计, 必须要有电脑的辅助, 没有电脑, 其繁琐的运算过程几乎无法完成。IRT 的应用推广, 还需要应用者有较深厚的数学功底, 或至少在数理
统计方面训练有素, 这是国内一般的心理学者所缺乏的, 因而推广应用的步履相当缓慢。
概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。 无论是经典测量论还是概化理论,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:
(1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。
(2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。
(3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT 就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。
与经典测量理论和概化理论相比,项目反应理论具有以下优点:
第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。
第二,项目反应理论模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i 上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多
少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。
项目反应理论的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。
第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n 个测验项目上的信息测度可由下式给出。其中Ii(θ) 是项目i 上的信息,Pi’(θ) 是Pi(θ) 的导数。
利用项目反应理论这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。
项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。
项目反应理论的优良特性确实是测评希望达到的理想状态,但也存在着一定的局限性,首先它假定所测的特质是单维的,这只是一种理想状态,在现实中很难满足这一假设。其次,现有的IRT 模型主要是针对的是二级评分试题(即只有正确与错误两种答案的试题),而对多级评分的试题模型,虽说有一些探索,但还不是太成熟。第三,项目反应理论的参数估计不依赖于特定的样本,但是要使
参数的估计具有稳定性,需要大样本才可以,而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值,其人才和物力的投入都是相当可观的。上述问题都制约了项目反应理论理论在实践中应用的推进程度。但必须提出的是,项目反应理论代表了现代测量理论的发展方向,随着统计理论成熟和计算机技术的普及和测评需求的发展,IRT 理论将逐步扩大其的现代人才测评中的应用范围。
上述三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。概化理论主要解决测量误差的问题,对于分析测量的信度有一定优势。IRT 理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。
题目:
经典测量理论、项目反映理论、概化理论的理论观点和相互比较
学院:教育科学学院
班级:2011级心理班
姓名:乌吉斯古楞
学号:20111102520
范文四:经典测量理论
第四节 经典测量理论
本节首先简要论述了题库同教育测量理论的关系以及两种基本的教育测量理论,并且对教育测量理论和教育测量理论中的经典测量理论作了详尽的论述。
一、题库同教育测量理论的关系
如果我们想对题库有一个透彻的理解,就很有必要了解题库建设所依据的教育测量理论,他们是使题库变得可以使用的科学的依据。题库是按照一定的教育测量理论利用计算机技术构成的某种学科题目的集合。题库中的题目属性有一些其量化指标是一个统计量,如题目的难度、区分度,这是题库的重要指标项,被称为项目统计量(或项目参数)。项目统计量要根据教育测量理论的方法计算出。教育测量理论不仅为题库的项目统计量提供计算方法,也为题库中题目属性项目的建设提供依据,同时为测验的有效性、可靠性分析与评价提供方法和标准。
二、两种不同的教育测量理论
在题库建设中使用的测量理论有两种,即:经典测量理论(CTT: Classical Test Theory)
项目反应理论(IRT: Item Response Theory)
两种理论的核心部分是数学模型,它们是基于不同的假设提出的。经典测量理论采用的是线性的定性模型;项目反应理论采用的是非线性的概率模型。尽管如此,两种理论仍有许多相同及相互联系的地方,经典理论中的项目统计量与项目反应理论中的项目参数有着很高的相关性,只是项目统计量依赖于被试团体,不具普遍性;而项目参数与被试原体无关,项目参数具有不变性,这可使各个被试团体所得到的项目参数具有可比性。参数不变对提高题库的质量、对于测验的编制和实施适应性测验都是非常重要的。
三、测量理论
(一) 教育测量的应用
教育测量是对教育领域内的事物或现象,根据一定的客观标准,作慎密的考核,并依据一定的规则将考核的结果予以数量的描述。
教育测量是学校教育常用的基本手段之一。平时的单元测验和期中、期末考试,都是属于教育测量。
在教育科学研究中,特别是实验研究,为了给选择和组合基础条件基本相仿的实验组和对照组提供客观依据,或要掌握单组实验的实验对象的初始水平,一般都要进行事前测量;在实验结束之后,为了要显示因变量的变化情况,又要进行测量。因此,教育测量也是教育科学研究,特别是实验研究的必不可少的工具。
(二) 教育测量的要素
任何一种测量都要定义单位、确定参照点和使用体现单位、参照点的测量工具。例如,摄氏温度的测量,人们规定了在标准大气压下,水的沸点和凝固点之差的1/100作为一个摄氏温度单位,确定水的凝固点为摄氏温度零度,并以此为参照点;在此基础上,把体现单位、参照点的摄氏温度计作为测量温度的一种工具。由此可见,测量的三要素是单位、参照点和体现单位和参照点的测量工具。教育测量作为一种特殊的测量,毫不例外地要有单位、参照点和体现单位、参照点的测量工具。
1、单位 单位是计算数量的名称。在物理特征的测量时,千克是测量重量的单位,米是测量长度的单位,分贝是测量声音的单位。任何测量都离不开计量单位。教育测量也是如此。目前,在中小学教育中,教育测量最常用的单位是百分单位和等级单位。百分单位就是规定一项测验的满分为100分,把满分的1/100作为一个计量单位。等级单位是根据一项测验结果的上限和下限,把结果分成若干个等级,每一个等级作为一个计量单位。
2、参照点 所谓参照点是指计量的起点。有了参照点,就可以比较两个测量结果的异同。否则,测量的结果就无法进行比较。根据测量理论,参照点可分成两类:一类是绝对参照点;另一类是人为参照点。
教育测量中的参照点,除了某些体育测量之外,其余测量的参照点,全部是人为参照点。例如,在百分单位的测量中,习惯上将60分作为及格的参照点。
(三) 教育测量的特点
1、测量的间接性 一个物体的物理特征,诸如重量、长度和温度等,可以用秤、尺和温度计等予以直接测量。但是,由于学生的知识和技能的掌握、能力的发展、思想品德等情况,都是人的大脑活动情况。今天的科学发展水平,人们还没有办法直接测量人类的心理活动情况。目前,我们只能通过学生的外显行为,间接地测量学生与教育有关的精神特征。具体地说,我们主要是通过学生对文字测验题的反应和其它的一些行为表现,根据教育学和心理学的理论,用逻辑推理的方法来间接地测量他们的知识和技能水平、能力发展情况和思想品德情况的。
2、测量的不稳定性 物理特征的测量结果基本上是稳定不变的。但教育测量则不然。例如,在百分单位中,A 、B 两个不同年级的学生,在期中语文考试中的成绩都是88分。完全有可能A 学生是班上的高分获得者,而B 学生在班上是低分获得者。这是由于A 、B 两学生各自所在年级的语文考试试题的难易程度不一致,评分标准不一样,所在班级的学生考试成绩的分布情况有差异等,造成了分数的价值不相等。
3、计量单位的不等距性 重量、长度、体积和温度等物理特征的计量单位,大部分是等距的。例如,100米与95米的差是5米,41米与36米的差也是5米,这两个差是相等的。但是,教育测量中的计量单位就未必是等距的。如,在百分单位的测验中,A 、B 两个学生的数学测验成绩是60分和59分,C 、D 两个学生的数学测验成绩是90分和89分。虽然A 、B 两个学生的分数之差与C 、D 两个学生的分数之差都是1分,但前者1分的价值和后者1分的价值是完全不同的。
(四) 测验的基本指标
测验的信度、效度、难度和区分度是衡量测验质量的基本指标。
1、信度 所谓测验的信度是指测验的可靠性或者可靠程度。具体地说,测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性,或者同一组学生经过一次测验后,用另一个同质的测验再测一次,这两次测验所得分数的一致性。
2、难度 难度是指测验的难易程度。在教育测量中,某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻划的。
3、区分度 区分度又叫鉴别力,它是测验对学生实际水平的区分程度的指标。一个具有良好区分度的测验题,实际水平高的学生应该得高分,实际水平低的学生应该得低分。测验的区分度有积极区分度和消极区分度两种。积极区分是指区分的方向与测验总分的方向一致的区分,区分的方向与测验部分的方向不一致的区分是消极区分。测验题的区分度的取值范围在-100至100之间。如果区分度是负值,则表示该区分是消极区分;如果区分度为0,则表示该测验题没有区分;如果区分度是正值,则表示该区分是积极区分。
四、经典测量理论的内容
(一) 成绩分析
对于被试群体的成绩分析,经常使用的测量指标有平均分和标准差。
1. 平均分数
平均分数是用得最多的一种集中量数。所谓集中量数是指反映分数集中位置这个特征的数值,它代表一批分数,反映一批分数的典型情况,因此常用它进行不同分数组之间的比较。集中量数的形式有多种,如算术平均数、中位数、众数等。算术平均数则是最常用的一种。
设一组分数分别用
X1,X2,…,Xn 表示,则这组有 n 个分数的分数组的平均分为:
简记为:
2.
标准差 对于一批分数,除了要了解它的集中量数外,还应了解它的差异量数,即分数的分散程度或离散程度。差异量数的形式也有多种,标准差是最重要的差异量数。 若有n 个分数 X1,X2,… ,Xn ,这组分数的标准差定义为:而称为该组分数的方差。
(二) 项目分析
通常,对考试的分析与评价分两方面进行。一是对各个试题进行的分析,称为" 项目分析" ,二是对整个试卷或考试进行的分析和评价,称为" 整体分析" 。
学业成绩测验可以用来衡量学生的相对水平,也可用于衡量学生的实际水平。在教育测量中,把用于衡量学生相对水平的测验叫做常模参照测验;把用于衡量学生实际水平的测验叫做目标参照测验。常模参照测验中的" 常模" 是指
某一规定的学生群体在该测验中的成绩,在标准化测验中," 常摸" 实际上就是标准化样本在测验中的平均成绩。某-指
定学生的学习成绩的好坏,是根据该生的成绩在规定群体中所处的地位来判断的,例如与群体的平均分进行比较。目标参照测验的" 目标" 是指某门课程既定的标准,即教学目标。目标参照测验是以学生必须达到的标准来决定他是否具备某种能力的测验。它所关心的是测知一个人所能做的是什么,而不是要参照别人的学习能力水平来决定名次。当然,对一次测验也可以同时提出这两方面的要求。
由于存在着常模参照测验和目标参照测验,因此,对项目分析和整体分析也有不同的要求。常模参照测验的项目分析包括难度分析、区分度分析和迷惑答案的有效性分析。
1. 难度分析
难度是指试题的难易程度,确定试题难度的方法有多种,其中一种常用的方法是利用下式计算:
其中:
分别表示第j 题的难度,考生的第j 题的平均分和第 j 题的满分分数。如果有n 个考生,则可利用下式,由考生在第j 题上的得分直接求得第j 题的难度。
: Xji
表示第i 个学生在第 j 题上的得分。
如果采用0、l 记分法,即答对时记1分,答错时记0分,也可用下式求得Pj 的值。
由上面的式子可知:P j 的最大值是l ,表示无一人答对该题,该题的难度高。最小值是0,表示每个学生都答对了该题,该题的难度低。
在编制试题时,一般取难度适中的题目。一个试题,如果受试者全部答对或全部答错,即难度为0或l ,这样就无法区分受试者之间的能力差异。难度越接近0.5时,其区别力越高,所以应选择难度为0.5的试题来组成试卷,但这也不是绝对的,如果一份试卷的各个题目的难度都是0.5,由于题目太同质,又会降低总分数的区别力。因此,在选择试题时,除尽量使试卷的平均难度接近0.5外,还要使试题的难度适当分散为宜。
事实上,试题难度的选取还应考虑考试的目的。例如,某次考试要录取15%的人进行重点培养,试题的难度应选在o .85左右;如果要选15%的困难同学参加辅导,测试题的难度应在0.15左右。如果要测验学生对学习内容的掌握情况,学习的内容简单;试题也应该简单;学习的内容难,试题也应该难。在这种情况下,我们的目的是要了解学生能否完成学业,而不是区分学生的等级,则可不去追求试题的难度。
2. 区分度分析
区分度即鉴别度,是指测验项目对被试者的区分程度或鉴别能力。计算区分度的方法有多种,用得比较普遍的一种方法是两端分组法。它是比较得分在高、低两端的受试者通过该题目的比率。
假设PH 和PL 分别为高分组和低分组通过某个题目的百分比,则下式提供了该题目的区分度的 指标: D =PH - PL
D 是区分度指数。D 的值在-l 和+1之间。D =+l,表示高分组全部答对,而低分组全都答错;D=-1则与上面的情形相反,低分组的全部答对,高分组的却全都答错;D=0,则表示两个分数组的通过率相等。一般认为,D 在0.4以上就非常好了。
上式也可表示为:
其中PH 及PL 分别表示高分组和低分组通过该题的人数,n 为每组的人数。
显然,两个组越是处于极端,二者之间的差异越是明显。 但很极端的分组(例如最高10%和最低10%) ,由于每组的人数太少,会降低结果的可靠性。有人证明,在常态分布中,高低分的分组最佳点是上下27%,以此为分界点,既可以使两个对比组间的差异尽可能大,又可使两组人数尽可能多。 当分布比常态曲线更平缓或更陡时, 最佳分界点可比27%稍大或稍小些。当被试的人数不太多时,分界点可取25%一33%之间的任何数字,若被试少于1O0人,甚至可用50%作分界点,把上下各半作为高分组和低分组。
3. 迷惑答案的有效性
迷惑答案的有效性分析是对选择题而言的,它是在难度分析和区分度分析的基础上进行的。可以根据迷惑答案的有效性分析,为教师提供修改试题的参考信息。
例如,一次测验的考生人数为100人,按考试成绩取前面27人和后面27人构成高分组和低分组。表3.41表示该测验的部分试题的项目分析。
"( )"表示正确的选项
根据表中列出的各题的回答情况,可对每题的设计质量进行分析。
第一题,选项 C 无论是高分组或是低分组无一人选择,说明 C 对该试题没有贡献,应予修改或删除。对选项 A ,高分组和低分组几乎有相同的选择,说明该选项有意义含糊之处,也需要修改。本题的难度和区分度比较合适。
第二题,高分组和低分组对正确选项选择的人数一样多,区分度为0,四个错误选项也具有同等的迷惑力。这很可能是因为题目的编制不当,因此需要进一步修改。
第三题,低分组的答对人数反比高分组的答对人数多,区分度出现负值,这样的题要么删掉,要么重新编制。 第四题,高分组的学生有80%以上的学生答错,低分组的无一人答对,可见题太难。而且答错者较多地集中在选项 C 上,说明选项的迷惑力太强了。
(三) 整体分析
整体分析是利用测验的结果对试卷进行全面的分析和评价。它是通过两个数量指标来描述的。这两个指标称为效度和信度,它们是表明测验的有效性和可靠性的数量指标。
1. 信度
信度又称可靠性,它是指测验的一致性程度。表现在同一个测验在不同时间上所得结果的一致性。通常以相关系数为数据指标,称为信度系数。如果信度系数大,则测验信度高;如果信度系数小,则测验信度低。
信度的概念是个理论上的构想概念,在实际测量中是无法得到的,通常是以估计的方法求得信度系数,以它的大小来表示测验信度的高低。常用的估计方法有:
第一,再测法。以同一份试卷,在不同的时间内对同一组受测者施测两次,根据两次测验分数计算得到的相关系数称为再测信度。如果两次测验分数相关程度高,表明测验结果稳定,可靠。但是,两次测验结果的稳定性受它们之间的时间间隔长短的影响,因此,一般标准化测验很少用再测信度来估计测验结果的可靠性。
第二,复本法。编制两套题目不同、形式相同的试卷,题目的难度和区分度类同,在最短的时间内用两卷考试同一个群体,所得结果的相关系数称为复本信度。
第三,分半法。一测验施予受测者后,将全部试题分为相等的两部分(一般采用奇、偶题分半) ,并分别计算每个学生在两半试题的得分,再求得两半试题得分的相关系数,这是半个考试的信度系数。为了估计整个测验的信度,可采
用斯布公式计算:
其中rtt 为整个测验的信度; rhh 为两半试题得分的相关系数。
第四,库理法。这是一种常用的方法,使用 K-R20公式与 K-R21公式估计测验的信度。
K-R20公式: 式中,K 表示测验所有的题目数;Pi 为题目
i 通过率;是测验总分的变异数;r 为测验的信度系数。
如果每个题目的难度相近,可利用 K-R21公式:
式是测验总分的平均数,其它符号的含义与 K-R20公式中的相同。
用库理法估计测验的信度只适于客观性测验,对于主观性测验可用克伦巴赫α系数公式估计其信度:
式中 α为克伦巴赫系数值,即信度系数; K 为题目数; 为题目 j 的分数变异数;S 为测验总分数的变异数。
2. 效度
效度即测验的有效性,指测验结果的正确性程度,即是说测验在多大程度上测量到了所要测的东西,由于测验的目标不一样,因而便产生了几种效度形式:内容效度、效标关联效度和结构效度。
第一种形式是内容效度,指测验内容与预定要测量的内容间的一致性程度。测验内容是对测验题目而言,预定要测量的内容不但指教学内容,而且还包括教学目标。因此,教学内容和教学目标是内容效度的两大要素。如果测验题目与所要测量的教学内容及教学目标的一致性程度比较高,则测验的内容效度比较高,否则,测验的内容效度比较低。内容效度的值常由该领域的专家判定。为了保证测验有较高的内容效度,在编制试题之前,认真地建立一个双向纲目表,然后再依据双向纲目表编制试题。
第二种形式为效标关联效度,在特定条件下测验对被测验的操作行为所作预测的有效性,一般以测验分数与效标分数之间的相关系数来度量。所谓效标是衡量测验有效性的参照标准,它是指测验所要测量或所要预知的行为特征,这种特征又常用另一种测验的结果来表示,例如,对大学生来说,可用他们的" 大学的成功" 作为大学入学考试的效标。" 大学的成功" 的标准通常用效标分数来表示,即用大学期间的学习成绩或一年级的学年平均成绩作为效标分数。 根据测验分数与效标分数之间的时间关系,效标关联效度分为同时效度和预测效度。如果测验分数和作为效标的分数两者获得的时间间隔很短,称为同时效度;若获得这两种分数的时间间隔较长(通常是测验分数在前,效标分数在后) ,则称为预测效度。
第三种形式为结构效度 结构效度是指测验能测量理论上的结构或心理特性的程度。所谓结构是指用来解释人类行为的理论体系或心理特质。如" 理解能力" 、" 研究能力" 、" 智力" 、" 动机" 、" 自尊心" 等等。当把考分用作测量某种心理特质时,亦即根据考分的高低来推论具有这种心理特质的程度时,就需要结构效度来作为衡量的指标。
按照经典理论计算难度、区分度、信度等质量指标的方法,存在着严重依赖于样本的问题。那怕从同一总体抽样,就同一试题而言,被试样本组的水平如果较低,求出的难度值就会偏高;如果水平高,求出的难度值就会显得低。对区分度来说,如果被试样本组的程度参差不齐,较为异质,求出的区分度值就会高;若较为同质,程度相当整齐,求出的区分度值就会显得低。信度也有与区分度类似的情况。这样,质量指标随测试样本而变化,得不到普遍适用于整个被试总体的值。
在应用方面,经典理论也表现许多不足。例如,它主要适合于常模参照测验,而难以较好地满足目标参照测验的要求;主要适合于进行观察分数等值,难以较好地满足题目参数等值的要求;特别是,它不能为自适应测验(Adaptive Testing) 这类新型测验提供坚实可靠的理论基础。
经典测量理论的精华
一般将测量理论分为经典测量理论、概化理论和项目反应理论三大类,或称三种理论模型。人们将以真分数理论(True Score Theory)?为核心理论假设的测量理论及其方法体系,统称为经典测验理论(Classical Test Theory,CTT) ,?也称真分数理论。
真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。
所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(True Score)真分数。而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。由于有测量误差存在,所以,观察值并不等于所测特质的真实质,换句话说,观察分数中包含有真分数和误差分数。而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。为了解决这一问题,真分数理论提出了三个假设:其一,真分数具有不变性。这一假设其实质是指真分数所指代的被测者的某种特质,?必须具有某种程度的稳定性,至
少在所讨论的问题范围内,或者说在一个特定的时间内,个体具有的特质为一个常数,保持恒定。其二,误差是完全随机的。这一假设有两个方面的含义。一是测量误差的平均数为零的正态随机变量。在多次测量中,误差有正有负。如果测量误差为正值,观测分数就会高于其实际的分数(真分数);如果测量误差为负值,则观测分数就会低于其实际的分数,即观察分数会出现上下波动的现象。但是,只要重复测量次数足够多,这种正负偏差会两相抵消,测量误差的平均数恰好为零。用数学式表达为:E(E)=0。二是测量误差分数与所测的特质即真分数之间相互独立。不仅如此,测量误差之间,测量误差与所测特质外其它变量间,也相互独立的。其三,观测分数是真分数与误差分数的和。即X=T+E。
在上述三个基本假设的基础上,真分数理论作出了如下两个重要推论:第一,真分数等于实得分数的平均数(T=E(X));第二,在一组测量分数中,实得分数的变异数(方差)等于真分数的变异数(方差)与误差分数的变异数(方差)之和。即(S2X= S2T + S2E)。 经典测量理论在真分数理论假设的基石上构建起了它的理论大厦,主要包括信度、效度、项目分析、常模、标准化等基本概念。
(1)信度(Reliability)。信度是测量理论中最重要的核心概念,?指测量果的一致性程度,亦称可靠性程度。在经典测量理论中信度被定义为:一组测量分数的真分数的方差(变异数)在总方差(总变异数)中所占的比率。
由于真分数的方差和误差分数的方差是无法获得的,因此这个信度概念还只是一个理想的构想的概念,不能直接计算。为了解决这一问题,CTT 提出了平行测验(Parallel Test)的概念。
所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式(测验题目) 。如果某一测验有许多平行式,则某被试可以在每一形式上获一个观测分数,这样就产生了一个观测分数的分布,这一分布的平均值就称作该被试的真分数。实际上,平行测验是一个构想的概念,要在实际的测验的编制中实现是非常困难甚至是不可能的,最多也只能说是比较接近。
在平行测验假设的基础上,CTT 提出了估计测验信度的一系列方法,如采用相关法进行重测信度(Test-retest Reliability) 、复本信度(Equivalent-?forms Reliability)、分半信度(Split-half Reliability)的估计,提出同质性的概念以保证反应的一致性,如克伦巴赫(Cronbachα)系数、库德和理查逊(G.F.Kuder & M.W.Richardson ,1937) 提出的估计一致性的两个公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941) 等都是进行同质性估计的重要方法。
(2) 效度(Validity)
测量的效度是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个很复杂的问题,特别是对人的潜在特质的测量,因为潜在特质并不是一个看得见摸得着的物质实体,而是一种观念构想。对潜在特质的测量只能采用间接的方法,其测量模型可表示用行为主义的公式S-R表示,在测量过程中我们所能控制的是呈现给被试的刺激S,所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的,在这一中间过程对S传入大脑的信息作出了处理,处理后的信息以R方式输出。简单地说,效度要弄清楚的是在S信号传入大脑后,哪种(哪些或最主要是哪一种)特质参与了对输入信号的处理。
CTT 对效度问题提出了诸多解决方案,因而有很多效度名称。如,同时效度,预测效度,表面效度,相容效度,协同效度,假设效度,效标关联效度,实证效度,经验效度等等。为了规范效度问题的研究与解释,美国心理学会在1974年将测量的效度分为三大类,即,内容效度(Content Validity),是指测验的内容对欲测范围内内容的代表性程度;结构效度(Construct Validity),?测量结果与测验的理论假设之间的一致性程度;效标关联效度(Criterion-related Validity),又称实证效度,指测量的结果与某种外在效标之间的一致性程度,?一般用测验分数与效标之间的相关系数表示。 成就测验或学科测验(以检测知识为主的考试)较容易获得较高的内容效度,而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等,其内容效度的考察往往比较困难,而采用效标关联效度较多。效度的检验不是一次就能完成的,往往要通过累积证据的方法不断积累效度资料来证实它的有效性,结构效度在根据某一理论结构模型(智力、个性等)编制测验时特别注重,它也是通过累积证据的方法来效度获得支持的。 (3) 项目分析(Item Analysis)
为了提高测验的信度和效度,CTT 理论特别注重测验项目的质量,除了深入研究试题的类型和功能及编制技巧外,还发明一系列筛选、甄别项目的方法,统称为项目分析,其中最主要的是难度分析和区分度分析。项目难度的主要指标是通过率,即在该题上答对的人数与全体被试的比率(或平均得分与该题满分的比率)。仅难度还不足以说明题目质量的优劣,CTT 还提出以题目对被试水平区分鉴别能力作为评价试题质量的区分度概念。
(4) 常模(Norm)
CTT 理论认为,仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释,提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布,以常模团体的平均数(或中位数)为参照点,将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score) 转换成量表分(Scale Score) ,或称导出分数。CTT 将这种类型的测验称为常模参照测验(Norm-referenced Test),?与此相对应的称为标准参照测验(Criterion-referenced Test),?其测验分数的解释与转换方法有所不同。
(5) 标准化(Standardization)
所谓标准化是指对测验实施程序、对象范围、施测环境、测试方式、测验时限、分数解释(常模)作了统一的规定,使测验能够在异时、异地,不同的主试等条件下进行,并能得到同等有效的测验结果。标准化的思想主要来自于自然科学中对实验条件进行严格控制以降低测量误差,其方法主要源自实验心理学对无关变量和干扰变量控制的方法。 2 概化理论
凡测量都有误差,误差可能来自测量工具的不标准或不适合所测量的对象,也可能来自工具的使用者没有掌握要领,也可能是测量条件和环境所造成,也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的,而CTT 理论仅以一个E就概括了所有的误差,并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义,只能根据主试自己的理解去控制一些因素,针对性并不强。鉴于此种情况,二十世纪六十至七十年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory)简称GT 理论。
GT 理论的基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score)?,?用“概括化系数,?G 系数”(Generalizability Coefficent) 代替了“信度”(Reliabilty)。
概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement) 。如学生阅读能力测验,?其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得分数就不能再推广到原来那么宽广的范围了。
概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。
概化理论把全域分数方差对总变差的比称为为概括力系数(简称G 系数)。而总方差可以分成全域分数方差(δ2 (p)和误差分数方差(δ2(δ)),如果测验是常模参照性测验,则G 系数E2ρ是评价测验稳定性程度的最佳指标:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若该测验是标准参照性测验,则其依存性j 指标是测验稳定一致性的最好指标。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上两式中,误差方差δ2(δ)可能是很多项的和,如上例中考生的阅读理解能力的方差是标志测量目标的方差,即为全域分数方差记为(δ2(p)),而试题、评分者及三个主效应间的交互作用方差(共有7种方差成分)都不应包括在全域分数方差之中,作为误差方差(δ2(δ))的一部分,是构成总方差的成分之一。由此可见,当全域分数方差不变,而误差分数方差增大时,概括力系数值降低,信度降低。反之,当全域分数方差增大,而误差分数方差不变,则概括力系数增大,信度提高。所以,随着测量情境关系的变化,测量目标与侧面的变动,概括力系数即信度也就会不同。同一批资料就可能有多种不同含义与取值的概括力系数。一般说来,增大概括力系数的方法有两种:第一种是,固定测量侧面(如固定试题)。第二种是增加侧面所包含的水平数(如增加试题或评分者数目)。(漆书青,1993)
概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小,并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小,如代表试题侧面的内部一致性系数,代表评分者侧面的评分者信度等,正因为是单独估出的,这些值之间不能直接比较,也只有对主效应作估计,而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应,也能估计出交互作用效应,并能对各估计值的大小进行直接比较。在概化理论中,理论估出各方差成分相对大小的过程,叫概化理论的概括分研究阶段或称G -研究阶段。
概化理论并不内静止地分析各种误差来源,还要在G -研究的基础上,通过实验性研究,进一步考察不同测验设计条件下的概括力系数的变化状况,如固定侧面或增加侧面水平下的变化状况,从而探求到最佳的控制误差的方法,作出最佳的设计决策,从而改进测验的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D -研究阶段。 GT 在研究测量误差方面有更大的优越性,它能针对不同测量情境估计测量误差的多种来源,为改善测验,提高测量质量有用的信息。其缺陷是统计计算相当繁杂,如果借助一些统计分析软件可以解决这一问题。GT 理论目前在我国还处于实验研究阶段,在面试、考核等主观性测评中有一些应用(刘远我, 张厚粲,1998)
3 项目反应理论
任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT 还是GT ,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:
(1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能
在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。
(2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。
(3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT 就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。
项目反应理论研究是以潜在特质为假设并从项目特征曲线开始。所谓项目特质曲线就是用能稳定反映被试水平的特质量表分代替被试卷面总分作为回归曲线的自变量,并把求得的被试在试题上正确作答概率对特质分数的回归曲线称为项目特质曲线(Item Characteristic Curve, 简称ICC )。项目反应理论研究中的一项重要工作就是要确定项目特征曲线的形态,然后写出这条特征曲线的解析式,即项目反应函数,也称为项目特征函数(Item Characteristic Function,简称ICF )。
第一个项目反应理论模型是由洛德于1952年提出的双参数正态肩形曲线模型。其项目特征曲线的形状和函数如下。 θ表示被试特质水平的参数;Pi(θ)表示特质水平为θ的被试在项目I 上正确回称的概率。从理论上讲,θ的取值在-∞和+∞之间,当θ=-∞时Pi(θ)为0,当θ=+∞时Pi(θ)为1;bi 为项目难度参数,它与特质θ定义在同一个量表上。取θ=bi代入上式,得Pi(θ)=0.5,可见b 点是肩形曲线的对称中心,也是曲线的拐点;ai 称为项目的区分度参数。从图中可以看出,ai 是曲线在拐点bi 处的切线斜率的函数,即
自洛德提出第一个IRT 模型后,许多学者投入到此领域的研究中,提出了很多种模型,目前应用最多是伯恩鲍姆(Brinbaum )提出的逻辑斯蒂克模型(Logistic Model)和拉希模型(Rasch Model)。逻辑斯蒂克模型如下:
上式是三参数模型,除了试题的难度参数bi 和区分度ai 以外,他还增加了一个猜测参数ci, ci 通常定义为被试中能力水平远低于项目难度2/ai个单位的人在该项目实际猜测作答获得成功的概率。当令ci=0,则上述天参数模型就变成了双参数模型,如ci=0且ai=1,则变成了单参数模型,逻辑斯蒂克的单数模型与丹麦学者拉希(Rasch)提出的单参数模型是相同的。拉希模型是在实践中最常用的模型之一, 其模型如下:
与CTT 理论和GT 理论相比,IRT 具有以下优点:
第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。
第二,IRT 模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i 上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。
IRT 的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。
第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n 个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i 上的信息,Pi’(θ)是Pi(θ)的导数。
利用IRT 这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。
项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引
入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。
IRT 的优良特性确实是测评希望达到的理想状态,但也存在着一定的局限性,首先它假定所测的特质是单维的,这只是一种理想状态,在现实中很难满足这一假设。其次,现有的IRT 模型主要是针对的是二级评分试题(即只有正确与错误两种答案的试题),而对多级评分的试题模型,虽说有一些探索,但还不是太成熟。第三,IRT 的参数估计不依赖于特定的样本,但是要使参数的估计具有稳定性,需要大样本才可以,而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值,其人才和物力的投入都是相当可观的。上述问题都制约了IRT 理论在实践中应用的推进程度。但必须提出的是,IRT 代表了现代测量理论的发展方向,随着统计理论成熟和计算机技术的普及和测评需求的发展,IRT 理论将逐步扩大其的现代人才测评中的应用范围。
上述三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。GT 理论主要解决测量误差的问题,对于分析测量的信度有一定优势。IRT 理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。
一般将测量理论分为经典测量理论、概化理论和项目反应理论三大类,或称三种理论模型。人们将以真分数理论(True Score Theory)?为核心理论假设的测量理论及其方法体系,统称为经典测验理论(Classical Test Theory,CTT) ,?也称真分数理论。
真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典真分数理论发展至颠峰状态,并实现了向现代测量理论的转换。
所谓真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即(True Score) 真分数。而我们通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数),叫观测值或观察分数。由于有测量误差存在,所以,观察值并不等于所测特质的真实质,换句话说,观察分数中包含有真分数和误差分数。而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。为了解决这一问题,真分数理论提出了三个假设:其一,真分数具有不变性。这一假设其实质是指真分数所指代的被测者的某种特质,?必须具有某种程度的稳定性,至少在所讨论的问题范围内,或者说在一个特定的时间内,个体具有的特质为一个常数,保持恒定。其二,误差是完全随机的。这一假设有两个方面的含义。一是测量误差的平均数为零的正态随机变量。在多次测量中,误差有正有负。如果测量误差为正值,观测分数就会高于其实际的分数(真分数);如果测量误差为负值,则观测分数就会低于其实际的分数,即观察分数会出现上下波动的现象。但是,只要重复测量次数足够多,这种正负偏差会两相抵消,测量误差的平均数恰好为零。用数学式表达为:E(E)=0。二是测量误差分数与所测的特质即真分数之间相互独立。不仅如此,测量误差之间,测量误差与所测特质外其它变量间,也相互独立的。其三,观测分数是真分数与误差分数的和。即X=T+E。
在上述三个基本假设的基础上,真分数理论作出了如下两个重要推论:第一,真分数等于实得分数的平均数(T=E(X));第二,在一组测量分数中,实得分数的变异数(方差)等于真分数的变异数(方差)与误差分数的变异数(方差)之和。即(S2X= S2T + S2E)。 经典测量理论在真分数理论假设的基石上构建起了它的理论大厦,主要包括信度、效度、项目分析、常模、标准化等基本概念。
(1)信度(Reliability)。信度是测量理论中最重要的核心概念,?指测量果的一致性程度,亦称可靠性程度。在经典测量理论中信度被定义为:一组测量分数的真分数的方差(变异数)在总方差(总变异数)中所占的比率。
由于真分数的方差和误差分数的方差是无法获得的,因此这个信度概念还只是一个理想的构想的概念,不能直接计算。为了解决这一问题,CTT 提出了平行测验(Parallel Test)的概念。
所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式(测验题目) 。如果某一测验有许多平行式,则某被试可以在每一形式上获一个观测分数,这样就产生了一个观测分数的分布,这一分布的平均值就称作该被试的真分数。实际上,平行测验是一个构想的概念,要在实际的测验的编制中实现是非常困难甚至是不可能的,最多也只能说是比较接近。
在平行测验假设的基础上,CTT 提出了估计测验信度的一系列方法,如采用相关法进行重测信度(Test-retest Reliability) 、复本信度(Equivalent-?forms Reliability)、分半信度(Split-half Reliability)的估计,提出同质性的概念以保证反应的一致性,如克伦巴赫(Cronbachα)系数、库德和理查逊(G.F.Kuder & M.W.Richardson ,1937) 提出的估计一致性的两个公式K-R20公式和K-R21公式、荷伊特信度(Hoyt,1941) 等都是进行同质性估计的重要方法。
(2) 效度(Validity)
测量的效度是指测量结果的有效性程度,也就是已测到的质和量与主试者欲测的质和量相符合的程度,有的也称效度为正确性。效度是任何一种测评必须解决的首要问题,因为有效性决定了一种对测量效度的考查是一个很复杂的问题,特别是对人的潜在特质的测量,因为潜在特质并不是一个看得见摸得着的物质实体,而是一种观念构想。对潜在特质的测量只能采用间接的方法,其测量模型可表示用行为主义的公式S-R表示,在测量过程中我们所能控制的是呈现给被试的刺激S,所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的,
在这一中间过程对S传入大脑的信息作出了处理,处理后的信息以R方式输出。简单地说,效度要弄清楚的是在S信号传入大脑后,哪种(哪些或最主要是哪一种)特质参与了对输入信号的处理。
CTT 对效度问题提出了诸多解决方案,因而有很多效度名称。如,同时效度,预测效度,表面效度,相容效度,协同效度,假设效度,效标关联效度,实证效度,经验效度等等。为了规范效度问题的研究与解释,美国心理学会在1974年将测量的效度分为三大类,即,内容效度(Content Validity),是指测验的内容对欲测范围内内容的代表性程度;结构效度(Construct Validity),?测量结果与测验的理论假设之间的一致性程度;效标关联效度(Criterion-related Validity),又称实证效度,指测量的结果与某种外在效标之间的一致性程度,?一般用测验分数与效标之间的相关系数表示。 成就测验或学科测验(以检测知识为主的考试)较容易获得较高的内容效度,而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等,其内容效度的考察往往比较困难,而采用效标关联效度较多。效度的检验不是一次就能完成的,往往要通过累积证据的方法不断积累效度资料来证实它的有效性,结构效度在根据某一理论结构模型(智力、个性等)编制测验时特别注重,它也是通过累积证据的方法来效度获得支持的。 (3) 项目分析(Item Analysis)
为了提高测验的信度和效度,CTT 理论特别注重测验项目的质量,除了深入研究试题的类型和功能及编制技巧外,还发明一系列筛选、甄别项目的方法,统称为项目分析,其中最主要的是难度分析和区分度分析。项目难度的主要指标是通过率,即在该题上答对的人数与全体被试的比率(或平均得分与该题满分的比率)。仅难度还不足以说明题目质量的优劣,CTT 还提出以题目对被试水平区分鉴别能力作为评价试题质量的区分度概念。
(4) 常模(Norm)
CTT 理论认为,仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释,提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布,以常模团体的平均数(或中位数)为参照点,将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score) 转换成量表分(Scale Score) ,或称导出分数。CTT 将这种类型的测验称为常模参照测验(Norm-referenced Test),?与此相对应的称为标准参照测验(Criterion-referenced Test),?其测验分数的解释与转换方法有所不同。
(5) 标准化(Standardization)
所谓标准化是指对测验实施程序、对象范围、施测环境、测试方式、测验时限、分数解释(常模)作了统一的规定,使测验能够在异时、异地,不同的主试等条件下进行,并能得到同等有效的测验结果。标准化的思想主要来自自然科学中对实验条件进行严格控制以降低测量误差,其方法主要源自实验心理学中对无关变量和干扰变量控制的方法。 2 概化理论
凡测量都有误差,误差可能来自测量工具的不标准或不适合所测量的对象,也可能来自工具的使用者没有掌握要领,也可能是测量条件和环境所造成,也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的,而CTT 理论仅以一个E就概括了所有的误差,并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义,只能根据主试自己的理解去控制一些因素,针对性并不强。鉴于此种情况,二十世纪六十至七十年代初,克伦巴赫(Cronbach)等人提出了概化理论(Generalizability Theory)简称GT 理论。
GT 理论的基本思想是,任何测量都处在一定的情境关系之中,应该从测量的情境关系中具体地考察测量工作,提出了多种真分数与多种不同的信度系数的观念,并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。并用“全域分数”(Universe Score)代替“真分数”(True Score)?,?用“概括化系数,?G 系数”(Generalizability Coefficent)代替了“信度”(Reliabilty)。
概化理论认为,测量的总方差可以分解为代表目标测量的方差成分和构成误差的种种方差成分。测量工作中要加以认识和予应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素,称为测量侧面(Facets of Measurement) 。如学生阅读能力测验,?其目的是对学生阅读能力的测量,因此,阅读能力就成为测量目标,除此外试题的水平和评分者等因素也会影响测验的总变异。这两个因素就是测量侧面。这里对学生阅读能力的测量是在双侧面情境的条件下进行的。测量侧面中的单个事例叫侧面的水平,如有两个评分者甲和乙,则评分者这一侧面就有两个水平。测量侧面又分为随机侧面和固定侧面。随机侧面是指测量侧面中所包含的各水平中是类似水平的随机样本,而非固定不变的侧面,如大规模考试中评分者每次都有可能不同,由这样变化的评分者所组成的测量侧面就称为随机侧面。固定侧面是指在各次实施中测量侧面的所在水平一直保持不变的测量侧面,如标准化的心理测验中测验的项目总是一样,这样的侧面就叫固定侧面。因此,进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差,但却会使测量目标变得更为局限。比如,把阅读理解题定为对科技说明文,这时,所测的特质就不再是一般的阅读理解能力,而是特定的对科技说明文的理解能力了。这样,测验所得分数就不能再推广到原来那么宽广的范围了。 概化理论强调,测量目标是具体的,并不是绝对固定不变的。因而全域分数也就不固定,可以有多种。一方面,当固定侧面时,侧面本身会转化为测量目标的一部分(如对一般阅读理解能力的测量转变为对科技说明文的测量),测量目标要局限化;另一方面,当测量中考察目的与应用需要改变时,测量目标对象就可能完全转移。比如,当作文考试结果是要对考生作判断时,测量目标就是考生的作文能力,若要把评分严与评分宽的评分者区分开,评分者的能力就成了测量目标,也即测量目标就完全发生了转移。显然,测量目标不同时,标志测量目标的分数也就不同。测量目标在具体关系条件下的分数叫全域分数。这样,有时对同一批测量资料来说,当测量工作的具体关系变化时全域分数也会变。即同一测验资料就可能有多种全域分数。
概化理论把全域分数方差对总变差的比称为为概括力系数(简称G 系数)。而总方差可以分成全域分数方差(δ2 (p)和误差分数方差(δ2(δ)),如果测验是常模参照性测验,则G 系数E2ρ是评价测验稳定性程度的最佳指标:
即: E2ρ=(δ2(p))/[ δ2(p) +(δ2(δ))]
若该测验是标准参照性测验,则其依存性j 指标是测验稳定一致性的最好指标。
j=(δ2(p))/[ δ2(p) +(δ2(△))]
上两式中,误差方差δ2(δ)可能是很多项的和,如上例中考生的阅读理解能力的方差是标志测量目标的方差,即为全域分数方差记为(δ2(p)),而试题、评分者及三个主效应间的交互作用方差(共有7种方差成分)都不应包括在全域分数方差之中,作为误差方差(δ2(δ))的一部分,是构成总方差的成分之一。由此可见,当全域分数方差不变,而误差分数方差增大时,概括力系数值降低,信度降低。反之,当全域分数方差增大,而误差分数方差不变,则概括力系数增大,信度提高。所以,随着测量情境关系的变化,测量目标与侧面的变动,概括力系数即信度也就会不同。同一批资料就可能有多种不同含义与取值的概括力系数。一般说来,增大概括力系数的方法有两种:第一种是,固定测量侧面(如固定试题)。第二种是增加侧面所包含的水平数(如增加试题或评分者数目)。(漆书青,1993)
概化理论是用方差分析的方法来全面估计出各种方差成分的相对大小,并可直接比较其大小。虽然真分数理论也可以分别地估出某一方差成分的大小,如代表试题侧面的内部一致性系数,代表评分者侧面的评分者信度等,正因为是单独估出的,这些值之间不能直接比较,也只有对主效应作估计,而不能对交互作用进行估计。而概化理论却能做到这一点。它既能估计出主效应,也能估计出交互作用效应,并能对各估计值的大小进行直接比较。在概化理论中,理论估出各方差成分相对大小的过程,叫概化理论的概括分研究阶段或称G -研究阶段。
概化理论并不内静止地分析各种误差来源,还要在G -研究的基础上,通过实验性研究,进一步考察不同测验设计条件下的概括力系数的变化状况,如固定侧面或增加侧面水平下的变化状况,从而探求到最佳的控制误差的方法,作出最佳的设计决策,从而改进测验的内容、方式方法提供了有价值的信息。这一阶段称作决策研究或称D -研究阶段。
GT 在研究测量误差方面有更大的优越性,它能针对不同测量情境估计测量误差的多种来源,为改善测验,提高测量质量有用的信息。其缺陷是统计计算相当繁杂,如果借助一些统计分析软件可以解决这一问题。GT 理论目前在我国还处于实验研究阶段,在面试、考核等主观性测评中有一些应用(刘远我, 张厚粲,1998)
3 项目反应理论
任何一种理论都不可能是完美无缺的,作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论(Item Response Theory, IRT)则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。
无论是CTT 还是GT ,其测验内容的选择、项目参数的获得和常模的制定,都是通过抽取一定的样本(行为样本或被试样本),因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面:
(1)测量结果的应用范围有限。一般来说,对测量误差的控制有三种方法:配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异,随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上,将误差变量的影响参数化,从而在测量中调整参数估计值,减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而,使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立,却不能将其拓展到非标准化的环境之中去,使得测量的应用受到很大的限制。
(2)测量分数赖性于具体的测验(内容)。经典测量理论控制误差应用标准化技术,但其标准化的对象是测验的各种外部变量,对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性,迫使经典测验理论要么使用统一的试卷,要么使用实际上并不平行的所谓“平行试卷”。这种处理方法,即给实际操作带来困难,也给结果的解释带来较大的误差。
(3)测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系,同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法,同样受到样本的影响。为避免抽样误差对参数估计的影响,经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样,随机抽样总是偏差存在。何况在实际工作中,由于客观条件的限制,还不能做到随机抽样。因此,参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。
(4)信度估计的精确性不高。测量的重要目标就是降低测量误差,提高测量的精度。在经典测量理论中,信度被定义为真分数的变异在总变异(观测分数)中所占的比率。然而,真分数的方差是无法求取的,误差的方差也无法计算。为了估计信度,CTT 就提出了平行测验的概念,并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的,等价测验也很难获得的,在此基础上估计的测验信度很难达到比较高的精确程度。另外,经典测量理论中的信度估计值也是一个笼统值,即假定对不同能力水平的被试来说,测量的误差是相同的。而事实是,一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于(或低于)测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。 项目反应理论研究是以潜在特质为假设并从项目特征曲线开始。所谓项目特质曲线就是用能稳定反映被试水平的特质量表分代替被试卷面总分作为回归曲线的自变量,并把求得的被试在试题上正确作答概率对特质分数的回归曲线称为项目特质曲线(Item Characteristic Curve, 简称ICC )。项目反应理论研究中的一项重要工作就是要确定项目特征曲线的形态,然后写出这条特征曲线的解析式,即项目反应函数,也称为项目特征函数(Item Characteristic Function,简称ICF )。
第一个项目反应理论模型是由洛德于1952年提出的双参数正态肩形曲线模型。其项目特征曲线的形状和函数如下。 θ表示被试特质水平的参数;Pi(θ)表示特质水平为θ的被试在项目I 上正确回称的概率。从理论上讲,θ的取值在-∞和+∞之间,当θ=-∞时Pi(θ)为0,当θ=+∞时Pi(θ)为1;bi 为项目难度参数,它与特质θ定义在同一个量表上。取θ=bi
代入上式,得Pi(θ)=0.5,可见b 点是肩形曲线的对称中心,也是曲线的拐点;ai 称为项目的区分度参数。从图中可以看出,ai 是曲线在拐点bi 处的切线斜率的函数,即
自洛德提出第一个IRT 模型后,许多学者投入到此领域的研究中,提出了很多种模型,目前应用最多是伯恩鲍姆(Brinbaum )提出的逻辑斯蒂克模型(Logistic
Model) 和拉希模型(Rasch Model)。逻辑斯蒂克模型如下:
上式是三参数模型,除了试题的难度参数bi 和区分度ai 以外,他还增加了一个猜测参数ci, ci 通常定义为被试中能力水平远低于项目难度2/ai个单位的人在该项目实际猜测作答获得成功的概率。当令ci=0,则上述天参数模型就变成了双参数模型,如ci=0且ai=1,则变成了单参数模型,逻辑斯蒂克的单数模型与丹麦学者拉希(Rasch)提出的单参数模型是相同的。拉希模型是在实践中最常用的模型之一, 其模型如下:
与CTT 理论和GT 理论相比,IRT 具有以下优点:
第一,项目反应理论深入测验的微观领域,将被试特质水平与被试在项目上的行为关联起来并且将其参数化,模型化,是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知,则模型在测验中为项目性质调整数据,可生成独立于测验项目性质的特质水平测量,这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。
第二,IRT 模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说,已知特质水平面为θ0的被试在项目i 上正确作答的概率仅仅依赖于其值θ0,并不依赖于具有θ0水平的人数有多少,也不依赖于其它θ取值上的人次数。所以,在求取项目特征曲线的各种参数时,由于回归线的形状、位置都不依赖于被试的分布,所以它的参数,包括难度、区分度和猜测参数也都是不变的。
IRT 的第三个优点是能力参数与项目难度参数的配套性,亦即项目难度参数与能力参数是定义在同一个量表上的。这样,对一个能力参数已知的被试,配给一个项目参数已知的试题,我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力,我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试,使得能力估计更为精确。这一特点为自适应测评奠定了基础。
第四个优良性质是通过模型测得的被试能力水平,可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出在项目反应模型下,能力参数未定的被试在n 个测验项目上的信息测度可由下式给出。其中Ii(θ)是项目i 上的信息,Pi’(θ)是Pi(θ)的导数。
利用IRT 这些优良性质,可以开发优质题库,可以按测量精度目标编制各种测验试卷,可能实施测验等值,可以侦察测验项目功能偏差,可以实现计算机化的自适应测验(CAT)。
项目反应理论的发展除了自身的基本理论系统,模型种类,数据模型拟合检验方法和参数估计方法的发展之外,在实际应用方面也有很大成就,主要表现在三个方面:一是指导测验编制。伯恩鲍姆和费啸的测验信息结构的测度引入测验,导致通过建立测验信息目标函数来影响测验的结果,从根本上改善了测验编制的指导思想。在此基础上发展起了多种测验编制指导方法,特别是对目标参照性测验编制的指导,一改经典测验理论软弱无力的指导状况。二是计算化自适应测验的兴起,其三是项目反应理论认知测量模型的出现,将测量导向与认知心理学相结合的方向,应用测量模型直接探索人的认知结构。
IRT 的优良特性确实是测评希望达到的理想状态,但也存在着一定的局限性,首先它假定所测的特质是单维的,这只是一种理想状态,在现实中很难满足这一假设。其次,现有的IRT 模型主要是针对的是二级评分试题(即只有正确与错误两种答案的试题),而对多级评分的试题模型,虽说有一些探索,但还不是太成熟。第三,IRT 的参数估计不依赖于特定的样本,但是要使参数的估计具有稳定性,需要大样本才可以,而在现实的测评中要对大量的试题进行大样本测试以获取稳定的参数估计值,其人才和物力的投入都是相当可观的。上述问题都制约了IRT 理论在实践中应用的推进程度。但必须提出的是,IRT 代表了现代测量理论的发展方向,随着统计理论成熟和计算机技术的普及和测评需求的发展,IRT 理论将逐步扩大其的现代人才测评中的应用范围。
上述三种测量理论构成了现代人才测评的理论基石。三种理论各有长短,经典理论容易理解、操作简单,体系完整,在现实中更易于被接受,因为适应面很广。GT 理论主要解决测量误差的问题,对于分析测量的信度有一定优势。IRT 理论数理逻辑严密,测量精度高,但对使用者的素质和客观条件都有很高的要求,故应用的范围受到限制。在人才测评实践中,要根据具体的测评对象、目的和具备的条件选择恰当的理论来指导测评工作。当然如果能将几种测量理论的优势结合起来则会获得更好的测评结果。
项目反应理论的发展综述及其在教育测量学中的应用
本文关键词:项目反应理论, 教育测量学, 项目参数, 经典测试理论, 经典测量理论, 理论模型, 逻辑斯蒂模型, 考试, 估计, 真分数理论, 因子分析法, 教育工作者, 质量, 指导理论, 样本, 学生, 同而不同, 题目, 试题, 期末成绩
当前,考试的指导理论主要有两种:一是以真分数理论为代表的经典测试理论(CCT),二是项目反应理论(Item Response Theory ,IRT) 。经典测量理论以分数的真值理论为基础,发展了信度、效度、难度以及区分度等概念系统,用以衡量一个测量工具或考试题目的质量。随着教育测量学的迅猛发展,自20世纪60-70年代以来,以项目反应理论为核心的现代测量理论成为教育测量学研究的主要内容,受到越来越多的研究人员和教育工作者关注。相对于经典测量理论, 11
项目反应理论具有明显的优势,它所采用的项目参数是不会受样本影响的指标,这些参数的获得不会因为接受测验的被试样本的变化而改变,同时对被试能力的估计也不会因为试题的不同而不同……正是因为它的这些优点,使其在心理及教育测量中有更为广泛的应用。 本文主要介绍了项目反应理论的历史发展,以三参数逻辑斯蒂模型为典型代表论述了项目反应理论模型的基本理论,它与经典测试理论的比较,多维项目反应理论的历史背景、早期的发展、及其与因子分析法的比较,多维项目反应理论模型,多维项目反应理论的展望,最后用EM 算法介绍了项目反应理论的参数估计的实现过程,并根据辽宁省鞍山市三所初中200名学生的期末成绩数据估计出项目参数,并对结果加以分析。成果为根据得到的项目参数,评价题目的质量,分析学生的学习和掌握情况,以期对教学和考试具有一定的指导作用。 作 者: 赵秋
学科专业: 应用数学
授予学位: 硕士
学位授予单位: 东北师范大学
导师姓名: 陶剑
学位年度: 2008
研究方向:
语 种: chi
分类号: C31
关键词: 项目反应理论
教育测量学三参数逻辑斯蒂模型 12
范文五:经典测量理论
经典测量理论(Classical Test Theory,CTT) ,?也称真分数理论。最早实现数学形式化的测量理论。
目录
1 起源
2 真分数
3 数学模型
4 假设
起源编辑
经典测量理论(Classical Test Theory,CTT) ,它从十九世纪末开始兴起,二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式,而1968年洛德和诺维克的《心理测验分数的统计理论》一书,将经典测验理论发展至颠峰状态,并实现了向现代测量理论的转换。
真分数编辑
为了研究方便,心理学家引入了真分数的概念。真分数(True Score )即是测量中不存在测量误差时的真值或客观值,操作定义就是无数次测量结果的平均值,在实际的测量中,误差是不可避免的,当误差接近于真分数时,我们就说误差较小。通常用T 表示真分数。 数学模型编辑
观察分数用X 表示,E 表示测量误差,则真分数的基本方程式为:X = T + E。T 和E 是线性的关系,这里的误差只包括随机误差,系统误差是包含在真分数里的。
假设编辑
根据公式我们可推导出三个相互关联的假设公理: 第一,反复观察N 次,误差平均数为零,即真分数等于实得分数的平均数T=E(X)或E (E )=0. 第二,真分数和测量误差之间相互独立。ρ(T,E )=0 第三,各平行测验误差相关为零。ρ(E1,E2)=0 在实际应用当中,用平行测验反复测量同一个人的同一心理特质是行不通的,因为平行测验不仅要求所测特质相同,对题目、数量、难度、区分度等也要保持一致性。这就增加了编制方面的困难。一般我们都是用同一个测验测量一个团体,团体中的每个人的误差可以假定是随机,并服从正态分布。所测团体的实测分数、真分数和误差分数的方差之间有如下的关系,SX=ST+SE。公式中只涉及随机误差,系统误差的方差包含在真分数方差中,这就是说真分数访查中包含与测量目的有关的变异(SV )和与测量目的无关的变异(SI )。由此,公式可以变为SX=SV+ SI+SE