在教育和心理测量中,常受人关注就是其潜在变量。就像“智力”这种变量易于理解。当描述某人聪明或者普通时,听众就有一些关于说话者传达的是有关讨论对象的什么方面的想法。同样地,个人可以讨论学生的能力和其特征,比如取得了好成绩,轻易就学到了新的知识,将不同的资源和信息整合起来,有效地利用了学习时间。在理论界,个人能够运用诸如阅读能力和数学能力这类说明项。这些能力中的每一种是心理测量学中提及的不易观察的、或者潜在的特性。尽管每一个变量都很容易描述,而且知识渊博的人能列出他的特征,它却不能像高度或者重量一样直接测量,因为变量是概念而不是物理维度。教育和心理测量学的主要目的是有多大程度决定了个人所拥有的这样的潜在特征。因为大多数研究在处理诸如学生、阅读、数学、算术能力这类变量时,“能力”这一专业术语用在项目反应理论中来代指潜在的特征。
如果有人准备测量一个人有多大的潜在能力,有一个测量的量表是很有必要的,也就是给出一个测量的尺度。因为大量的技术上的原因,定义测量等级、等级的数值、累计表征数值的特性是一个非常困难的工作。因为前面六章的目的,这一问题应该可以通过简单地定义一个任意的潜在的能力等级来解决。假设不管是何种能力,在拥有一个零点的刻度,一个度量单位,一个负无穷大到正无穷大的测量范围时,它都能被测量。因为有一个度量单位和一个零点,这样的等级就是我们提到的等距测量。其隐含的想法就是是否个人能够物理地探知一个人的能力,这个尺度说明了一个人有多大的能力,几个人的能力能够进行比较。当能力的理论范围从负无穷大到正无穷大时,实际的考虑仅仅局限于一个有价值的范围,比方说,-3到+3。因此,在本文中的讨论以及计算机操作部分仅在这一范围内处理能力价值。然而,你应该认识到超出这一范围的价值是可能存在的。
用来测量一种能力的常用方法是开发一个由大量选项(问题)组成的测验。每一个选项测量我们关心的一个特定的能力的某一方面。从纯技术的观点,比如项目应该是自由的,即应试能够写出任何似乎恰当的回答。测验中个人的得分必须反应出回答正确与否。当选择正确时,被试得1分,回答不正确时得0分,也就是说,选项有两个分数。在经典测验理论中,被试的原始分数应该是在测验中得到的选项的分数总和。在项目反应理论中,主要关注的是被试每一选项是否正确,而不是原始的分数。这是因为项目反应理论的基本概念取决于测验的单独的
选项,而不是取决于诸如测验分数这类项目反应的集合。
从实践的观点,自由反应项目很难用于测验中。特别地,在信度方面他们很难评价。结果,大多数测验都使用了在项目反应理论下的多选题。它们采用了分开的计分:正确的答案得1分,错误的答案计为0分。选项的计分经常作为二进制提出。每一个被试反应了测验选项拥有的潜在能力的累计,这种假设是合理的。因而,个人可以考虑到每一个测验有一个数值、分数,标明了他或她在某个能力水平上。这个能力分数用第八个希腊字母θ来表示。在每一个能力水平,将有一个被试正确回答选项的正确的能力的概率。这一概率用P(θ)表示。在典型的测验选项中,这个概率会因为被试的低能力就小,或者被试的高能力就大。如果P(θ)作为一种能力函数作图,结果将会是如图1-1显示的平滑曲线。能力的最低水平处,正确回答的概率接近于0,在能力的最高水平处,概率增加,接近于1。这一平滑曲线描述了正确回答选项的概率和能力水平的关系。在项目反应理论中,把它称作项目特征曲线。测验中的每一个项目都有自己的项目特征曲线。
项目特征曲线是项目反应理论的基础。这一理论的其它构建都依赖于这一曲线。因此,对这一曲线和它在理论中的任务受到了相当多的关注。项目特征曲线可以用两个特性来描述。第一个是题目的难度。项目的难度描述了项目函数处于哪一能力等级。例如,一个容易的项目函数在低能力水平的被试中,一个困难的项目函数在高能力水平的被试中,因此,难度是一个特定的指标。第二个特性是区分度,他描述了在低于项目区域和高于项目区域的被试之间,一个项目在多大
程度有区别。这一特性本质上反应了在项目特征曲线的中间部分的不合理性。曲线越平直,区别就越小,因为低能力水平正确回答的概率接近于高能力水平正确回答的概率。利用这两种描述,个人就能够描述项目特征曲线的普通形式。
有关试题难度作为位置索引图的想法将首先被检验。在图2中,三个项目特征曲线在同一张图中呈现出来。每一条曲线都有相同等级的区分度,但是难度不同。左侧的曲线呈现的是一个容易的选项,因为在低能力的被试中正确回答的概率是高的,而高能力的被试正确回答的概率接近于1。中间的曲线呈现的是一个中等难度的选项,因为在最低能力水平正确回答的概率在能力等级中间大约是0.5,而且最高能力水平的概率接近于1。右侧的曲线呈现的是一个困难的选项。对大多数能力等级来说其正确回答的概率是低的,仅仅在高等级能力水平时才有所增长。甚至在最高的能力水平+3处,对大多数难度选项,正确回答的概率仅仅0.8。
关于项目特征曲线的问题
考研屋 www.kaoyanwu.com
提供各大机构考研、公务员、四六级辅导视频课程
遇到一个题,如下:项目特征曲线中,当虚线坡度为90?时,曲线的区分度为多少,A 0 B0.5 C1 D不一定答案给的C但是,什么是项目特征曲线呢,在大纲的哪一块,谢谢
测量新发展什么的那块,和概化理论在一起。
回 1楼(白草00) 的帖子看书的时候米发现。再找找~
项目特征曲线,ICC曲线。。。。。项目反应理论中的内容 ICC:被试在项目上的正确作答概率对被试潜在特质水平的回归曲线 ICC曲线一般是单调递增的。。。当虚线坡度为90?时,即曲线在拐点的夹角为90度,曲线的区分度为1
我是来承认错误的。。。。。。。。。额。。。看书不仔细。。。把自己误导了。。差点还误导别人了。。
我错啦 IRT理论区分度是可以到无穷大的。。。。。
引用第3楼juan552200于2010-12-22 23:21发表的 : 当虚线坡度为90?时,即曲线在拐点的夹角为90度,曲线的区分度为1
错。拐点处的区分度最大,但这个最大值不一定是1,而是斜率的根号(2π)倍。若虚线坡度为90?,此刻区分度是无穷大。 在项目反应理论中,区分度可以大于1的。 重难点手册下册73页有介绍。你看书不仔细。
Re:回 1楼(白草00) 的帖子
-22 22:52发表的 回 1楼(白草00) 的帖子 : 看书的时候米 引用第2楼桐叶晨飘于2010-12
发现。再找找~
你没看到大纲里有项目反应理论,还是没看到教材里有项目反应理论,
回 4楼(笔为剑) 的帖子谢笔版,俺正困惑呢,觉得都80度了,参数a该很大才对。
还是笔版厉害啊
考研屋www.kaoyanwu.com :提供各大机构考研、公务员、四六级辅导视频课程 专业提供提供各大机构考研、公务员、四六级辅导视频课
项目特征曲线等值的抽样误差
心理学报2007,39(4):723—729
Acta Sinica Psychologica
项目特征曲线等值的抽样误差枣
戴海琦 丁树良罗照盛 熊建华 漆书青
(江嚣耀藏大学心瑾学系,鬻熬330027) 摘篓躐程,等值越采越受翻锫考试浏验税构及溺量学研究入爨的重视,将剐是顼强反应理论等稳豹{苑越性熨 使他们有了信心。然而,很多人却没有注意到被试能力分布形态可熊给等值结果带来的影响效果及稷度。本研究
以项目反应理论两级记分模型的项垦参数等健程不弱被试熊力分布形态下的结果蓑羚作为重点,探讨狻试抽样镳 差可能给项圈特征蒲线等值带采的误差闷题。研究结果表鹈,被试熊力分布形态会鬣箸地影响顼疆参数等值的系
数,特剐她,熊力分布的德态系数与等值方稷翡截蹶存在显著懿线性樱关关系,但糍力分布形态瓣变纯对等值方穰 中斜率的影响并不骥显。关键词项目特征曲线等值,抽样误差,能力分布形态。 分类号B841
值抽样误差。造藏这穗误差的原因是:盘予在进行 1 弓|言 等值时所用的样本是从总体中抽样而得到的,而这 个抽样的过程不可避免地带有一定瑕度的偏差,于 等值是测验工作中一个非常重要的方面。等值 就是通过铆题或铆被试组为桥梁来建立两份同特质 是据此所建立的转换关系也是具有一定程度的有 测验结果之闯躬莱种转换关系。通过这种转换关 偏性。 系,就可以公平交换地使粥这些测验上的项
Test 等值方法可以分为经典测量理论(Classical 目参数
以及这些测验上的得分。因此,等值对测验结聚评 Theory,c1Tr)等值与项目反应理论(Item Response Theory,IRT)等值,也可滏分为线性等值与j?线性 价、对建立大型题痒黻及进行大规模测验都是墨器常 等值。从等值设计角度,可以分为掴网项目组设计 燕要而必要的。
等值同样逝楚一个非鬻严格麴过程。这不僵包 或?越辚题设计,与裙阋被试组设计或l糖铆被试设
这些等值方法和等值设计模式均各有优势计。 括等值的前提条件必须得到满足,如测验内容同特 硬、测验等信度等等。两麒在等馕的过程中也必须 足|2』。等煎误差可以分为系统误差积随桃误差和不 口』。 考虑到其{也各种因素和条件可能对等值结果的影 随机误差在实践中是无法避免的,比如随机抽
样带 来的溪差,系统误差爨可以人为尽鲎减小的,如镌。如:某些特定等堕方法中筑定要满怒的条{譬是
等德 否被偏离;等值设计中铆题、铆人或随机等组等条件的前提条件造成的误藏、等值设计及数据收集带来 是否容易满足以及等值的被试样本容量大小及其代 的误差,以及使用了与获取项圈参数时不同的被试 群倦进行等值关系估计,等。 裘性闻题等等,这些因素都无疑会影响等值结巢的 准确性程度。因此, 必须认真地分析这些因素的效 关于等值误差阅题的实诞研究,大部分是对隧
机误差问题的探讨。Hanson等狰’研究了经典测应,严格地控制这些因素酌影响,以使等僚结果蹴较
量 理论指导下Levine线性等值的标准误差及其估准确‘1’2I。 计 辑以,造成等僮误差的原因是多种多样懿,包括 计算方法。b砖”』,Lioul51爵究了经典测量瑗论指 选择的等德方法本身是否精良、等值设计条件是否 导下非线性等百分位等值方法的标准误差闷题。
Parshall坤1等研究了小样本容量对线性等值可髓麓够在实舔酶数据收集中褥刘满足等等。特别地, 带 由于被试抽样偏藏给等值结果所带来的误差叫做等 来的误差问题。Michaelidesl列等则从测验项目 抽样
收稿日期:2004—12—10
s蕊家自然科学基金浚助项匿(60263005)。 通讯俸者:黟照盛,E-mail:lu?s@j26+e。m,毫话:079i一8739424 723 万方数据
心 理 学 报 39卷
的角度,运用平均数一标准差等值法研究了等值误 被试能力参数,建立两个不同试卷上获得的共同题
o研究了项目反应理论 参数的等值转换方程。 等值方法的标准误差及其计差的形成问题。 Ogasawara|8
算问题。罗照盛‘9 o同 等值关系转换方法采用项目特征曲线法?’2j,
时比较了多种经典测量理论指导下等值方法的标准 等值系数的估计过程采用极大似然估计法,具体的, 误差问题,包括线性等值方法和非线性等百分位等 等值系数的估计过程将按照以下式子进行?,2 J, 值方法。 (式1)娑:iaF: 0 d仅印然而,已有关于等值误差问题的研究,基本上都 其中,仪,届分别为等值系数ALPHA、BETA,而 是在固定被试参数总体分布的情形下,对各种等值 1 N 方法运用bootstrap方法反复随机抽样方式,或运用 (式2)1' J F=专?(,一}, )2 Delta方法,比较不同样本容量的等值标准误差问题 其中,?为被试数,而 及其估计计算方法,没有系统研究铆题设计情形下, M 不同被试能力水平分布形态本身与项目特征曲线等 (式3)f,=?P(9“;仅"b“) 肘值系数之间的关系,或者说,使用不同分布形态的被 (式4)拿,=?P(0“,a。,a,a6“+卢 )试组估计项目特征曲线等值系数时可能带来的等值 其中,M为项目数,p为能力参数,a为项目区 偏差。 分度参数,b为项目难度参现在,等值越来越受到各考试测验机构及测量 数。 学研究人员的重视,首先,等值是建立测验题库过程 中不可缺少的2 方法 一项工作,参数只有经过等值才能统
本研究将运用蒙特卡洛检验方法?0I,所有数据 一放在同一个题库中;其次,等值也是比较不同情形 来源均通过严格的模拟程序生成,以保证研究过程 下得分水平的一个不可缺少的工作,只有经过等值 的理想可控性,同时使结果更具有参照价值。等值 的分数才能直接进行比较,这对于许多需要比较不 过程将通过自编程序完成+。 同年份或不同地区测验结果的考试来说尤其显得重 要,对于比较来自多 2(1研究设计 份试卷上的成绩亦如此。现在 关于等值的研究主要是关于等值 首先,模拟生成三批需要进行等值转换并估计 方法和等值设计方 等值系数的项目参数一。每批参数包含两个数据 面的研究,而基于项目反应理论的等值方法更是研 文件,其中一个是基准量尺参数文件,另一个为需进 究者们关注的重点,因为项目反应理论本身相对经
行参数量尺转换的文件。每批参数均包括100道典理论存在许多的优势?’2 J。然而,大家却没有系
两 统地研究被试能力分布形态可能给等值结果带来的 级记分题,使用的模型为双参数Logistic模型,难
度 影响程度和影响模式。 参数服从正态分布,平均数为0,标准差为2,区分
度 参数分布的偏态系数分别为一0(10、一本研究的目的就是,以铆题设计为等值设计方 0(25、 一0(10,峰度系数分别为一0(35、一案,通过计算机模拟的形式,以项目反应理论两级记 0(25、一0(35,平 均数为0(75,标准差为分模型的项目参数等值在不同能力分布形态下的结 0(1。其等值系数的预先设 置值,即真值为:果差异作为研究内容,对被试抽样偏差可能给项目 ALPHA系数,即等值方程的斜率, 分别为特征曲线等值估计带来的误差问题进行探讨。以期 0(85、1(00、1(27;对应的BETA系数,即等值 为等值设计中样本的抽取工作提供参考。 方程的截 距,分别为0(75、0(60、一0(36。每批数据 的每个项铆题设计等值的具体方案是,两批不同的被试
目参数在生成过程中均加入了完全随机因 组作答了两份不同的试卷,但这两份试卷中有一部
子。通过以上模拟过程生成的参数,既保证了研究
分共同的题目,由于是由两批不同的被试作答,因此 过程的可控性,同时也更加接近现实情形。 试卷中
然后,模拟生成不同分布形态的被试能力参数 题目的参数就不在同一个度量系统上,但为
数据共31种,每种分布形态各生成30批,共930了两份试卷题目参数及得分具有可比性,于是需要 批 建立它们之间的等值转换关系。具体是,利用一批 数据。每批能力参数的容量均为2000人,参数取 值 t此程序已通过专家鉴定。 万方数据 }}此程序为Assessment 1(00版。Systems Corporation开发的PARDSIM
725g期 罗照盛等:项目特征曲线等值的抽样误差
均在一3至+3区间内,每批参数均为单峰分布,每 数字,负偏态时取大端数字),最后,把此数字进行
批参数取不同的偏态系数(Skewness)和峰度系数 如下转换即生成一个能力参数:6木(数字)一3, 重 (Kurtosis),具体参见表1。能力数据的生成过程大 复以上步骤2000遍,即生成一批包含2000个能 力 致如下:首先,生成0至1问随机数字31个并按大 参数的数据。小排列,然后,根据偏态程度及 峰度系数的要求选取 31种被试能力参数分布形态的偏态系数、峰度 其中位置不同的一个随机数字(如正偏态时取小端 系数(平均数),如表1所示。
表1能力参数分布形态
从表1所示数据中可以看到,能力分布形态从 参数的等值系数ALPHA值和BETA值,总共获
典型正偏态到典型负偏态,从典型高峰到平坦分布, ×930对等值系数(ALPHA系数、BETA系数)。 得3 基本代表了在相同全距内各种可能的单峰分布形 3(1等值系数估计结果 态。另外,虽然都是30
批数据分布形态的平均数, 分别对三批项目参数,计算31种能力分布形 态 但仍然可以看到两端存在少数几个极端分布情形。 下估计的等值系数的平均数和标准差,其结果如表 偏态系数、峰度系数的最大值与最小值之间的距离 2所示。 均约为3(4 。从表2结果中可以看到,随着31种能力参数 分 最后,利用生成的31种共930批能力参数,分 布形态的变化,ALPHA系数表现总是非常稳定,这
别估计前述三批人工加入了随机因子的项目参数的 不仅表现在等值系数绝对数值的大小变化上,而且
等值系数。 也表现在各30批平行数据估计出来的等值系数
的
稳定性上,即标准差。相对而言,BETA系数的估计 3 结果 值则没有那么稳定,显示出系统性的规律性的变化 用31种共930批能力参数,分别估计三批项目 趋势。
图l 偏态系数与等值系数BETA问相关散点图
万方数据
726 心 理 学 报 39卷 表3偏态系数、峰度系数与等值系数间相关系数检验
注:}+P<0(ol(双尾) 3(2="" 着显著的线性相关关系。="" 能力参数分布形态与等值系数关系分析="" 以表3及图1说明了能="" 而从表3的结果似乎也可以看到,能力参数力参数分布的偏态系="" 分="" 布的峰度系数与等值方程的alpha系数问存在数、峰度系数与等值方程中的alpha系数、beta="" 系数之问的关系及其检验结果。="" 著的相关关系,对于这种关系,通过图示可以对它进="" 显="">0(ol(双尾)>
行更清晰的分析,见图从表3及图1可以进一步看出,能力参数分布
2。 的偏态系数与等值方程的BETA系数之问确实存在 万方数据
727 4赣罗照盛等:项蟊特征麓线等德的抽样误差
溺2漳瘦系数与等篷系数ALPHA裰关教点懑
由图2结合表3结果可以看到,首先,峰度系数 同时,从以上研究结果可以看出,被试能力参
数 与ALPHA系数问的相关系数检验部分受到极端数 分布的偏态系数与等值方程的BETA系数之间
存在 值的影响,这在褶关系数统计检验中是很常见的一 着嚣黉显著的线性榴关关系。特别是从图1
所示, 种误导情形,即极端数值会歪隧相关系数。黧然,关 缎乎隐含着如下缀设,如果模拟的过程不 加入任何 于这两者之间的关系,如果稃与表2中数据结合来 误差因素,能力参数分布的偏态系数与 项目参数等 看,将更能说明问题,因为表2中ALPHA系数的值 值系数BETA间存在确定的函数关 系。然而,这种 显得非常稳定,只是在万分位上有微小的变化,很多 假设的验证过程应该从更多的数
据支持和理论推导 情形下甚至梭本没有变化,邋瞧造成图示中的数点 等多方蟊进行。馕可以说暖的
是,在实舔等值估计 基本集中在同一个地方,并且与坐标轴的横轴平行 过程中不应只考虑样本量的
大小,必须重视被试样 分布,只有少数几个极端值例外。本的分布形态。
另外,等值方程中的ALPHA系数在不同的被 碡讨论及需进一步研究的问题 试襻本分布形态下避褥毙较稳定,它既不受到分布 偏态性水平的影响,也不受分布峰度大小的影响,这 等值中的铆题设计,是用一批能力参数来建立 两批项目参数间的等值转换方程。在本研究中,项 与BETA系数的情形完全不同。这是否只是基于 项 目参数效应被阉定,考察的只是能力参数分布形态 目反应理论的等值方法的结果,其他等值方法,如平
对等值系数的影响效应。露磺究中赝有生成赫能力 均数标准差法、统计回归方法等是否有裰同情形。
参数全距被匿定在一3至+3之闻,同时麓力参数的 通过比较不同等缎方法,也许可以发现是等筐方法
带来的稳定性还是ALPHA系数本身具有的样本容量也被囤定为2000人。在此情形下,分布形
态的变化,如偏态系数的变化,会预示着整体能力水 定性。 平的变化,同时也导致BETA系数的变化似稳 乎并不 此外,本研究只考虑了样本容量为2000人的 情 意外,但本研究发现的更重要的结果是:分布形态中 形,摄然公认为600入情形下的等值结果就j?常 稳 峰度系数的变化,即各能力水平段分布权重的变化 定,但在样本容量减少而能力参数分布形态又变化 较大的情形下,等值结果会是怎么样的情形,这也需 (固定全距、固定样本容量情形下),不仅对BETA 系数未产生影响,而且对ALPHA系数也未产生任 要进一步加以研究。
何可验证的睽显的系统酶撬簿性的影响。这主要表 5 结论 现在,ALPHA系数数值变化非常微小,只魁在万分
根据研究结果,发现: 位上有微小的变化,很多情形下甚至根本没有变化, 而且,在同一种分布形态
首先,被试能力参数分布形态的不同,将实质地 下,多批平行数据估计出来 的ALPHA系数的离散程度(标准差)也菲常微小, 影响项目参数等簸系数的估计,特别是对等值系数 BETA的影响j暑常娃著。穗同能力全距,相同被这是出乎大家预溅之外的结聚。这一点对指导实际 试 的考试等值工作应该具有非常重要的参考价值。 容餐情形下,能力参数分布的偏态性程度与等值系
万方数据
728 39卷理 学 报
standard error of 5 LiouM(Asymptotic equipercentile equating (数BETA的取值有着显著的线性相关关系,而且,能
Behavioral Statistics,1995,3:259 JoumalofEducationaland力分布越趋向正偏态,BETA系数取值越小,能力分 ,286 布越趋向负偏态,BETA系数取值越大。 , Parshall C J G,Houghton P,Du Bose,Kromrey D(Equating 另外,相同能力全距,相同被试容量情形下,即 Error and Statistical Bias in Small Linear Equating(JournalSample of Educational 使在不同能力参数分布形态下,等值系数ALPHA Measurement,1995,32(1):37 一直显得非常 M E of Common Items:An7 Michaelides P,HaertelH(Sampling 稳定。 in SourceofErrorTestUnrecognized Equating(CSE Report,2004 此外,相同能力全距,相同被试容量情形下,未 。 H(Standard errors of item Ogasawara response theory equating ,发现能力参数分布的峰度系数与等值系数问明显的 function linking by response methods(Applied Psychological 规律性的关系。 Measurement,2001,25(1):53,67 9 Luo errors of classical test theory Zhaosheng(Standard equating 参考文献 methods(in Science,2000,23(4) by many Chinese)(Psychological its and501,494Qi theory applications Shuqing,DairesponseHaiqi(Item
(罗照盛(经典测量理论等值的误差研究(心理科学,2000,23(4) (in Press,1992 Chinese)(Nanchang:Jian鲥Education 501(494)(漆书青,戴海琦(项目反应理论及其应用研究(南昌:江西高校 Harwell M the results of onte Carlo studies in MR(Analyzing 出版社,1992) item and M easurement 2 of modem response theory(Educational Psychological Qi Shuqing,Dai Haiqi,Ding Shuliang(Principles 1997,57(2):266,279educational and psychological measurement(in Chinese)(Beijing : Kolen M and Education J(Linking assessments:concept history(Applied Higher Press,2002 Psychological Measurement,2004,28(4):219—226 (漆书青,戴海琦,丁树屯现代教育与心理测量学原理(北京:高 等教育出版 12 Hanson scale for item BAacommon guin A,B A(Obtaining社,2002) item versusconcurrent J,Kolen J(Standard errors of theory parameters separate HansonBLMLevineresponseusing A,Zeng in estimationthecommon—itemequating design(Appliedlinear Psychological equating(AppliedMeasurement,1993,3:225 Psychological Measurement,2002,26(1):3—24 ,237
Dorans N4 Lord F M(The standard CITor of J(Equating,concordance(and expectation,Applied equipercentile equating(Journal Educational Psychological Measurement,2004,28(4):227,246 Statistics,1982,3:165,174 of Error of The Item Sampling Response Theory Equating With Item Characteristic Curve Methods
Luo Zhaosheng Xiong Jianhua,Qi Shuqing,Dai Haiqi,Ding Shuliang (Psychology
University,Nanchang 330027,China)Department,Education College,Jiangxi?ormal
Abstract is the item bank construction and also the results atototestnecessary longitudinal Equating procedure based item much attention in recent decades to its on Equating response theory(IRT)has留Jned according reporting(
advanta寥s over classical test nationwide tests had IRT theory(CTT)based strategy(M any implemented equating(But of of and must in the IRT-basedthere still many problems applications equating(First all,researchers practitioners are be aware of the factors that will affect the results(M and factors will cause errors of various equating any many methods( equating concerned about the of about the bias that available The studies are standard errors mainly equating methods,but rarely will when we under item occurusedistributed toIRT-baseddifferently ability sampling equating parameters will leadcharacteristic methods and under anchor-item data collection from desi伊(Bias sampling curve(ICC)equating
to misunderstood results(In this to the IRT-based ICC will be addressed( errorpaper,sampling equating
Under arameler item air-wise sets of item arameter data were simulated to onse model,three two?p logistic resp p p
be data set includes 1 00 items(The distributions of item arameter are set to be normal equated(Each difficulty p
distributed(The of the function were set to be were 0(85,1(00,1(27 0(75,0(60,slope equating respectively,the intercept
万方数据
4期 罗照盛等:项目特征曲线等德的抽样误差
一0(36 930 of data were simulated be distributed(That had setstoaccordingly(Then ability parameter differently is(they different skewness and kurtosis coefficients(With these simulated item and were conducted ability parameters,equating
item charaete蛀stie curve method for each data set( under The results show that coefficients are much different with distributed equating differently ability parameters(The
coefficients of are much the coefficients are much relations stable,while variable(Also,the slope equating intercept
between coefficients with the distribution are intercept ability parameters systematically proved( the indicates distribution Withofwill affects the results,it that,fwstly,the gnificantly ability parameter siequating results under item characteristic curve and distributed willmethod(Secondly specifically,the differently ability parameters and affects the coefficient of much less effects but has onintercept equating slope significantly systematically coefficient( words item characteristic curve distribution( Key equating sampling error,ability
中国心理学会军事心理学专业委员会 一届三次工作会议纪要
中国心理学会军事心理学专业委员会一属三次工作会议于2007年4月26日至27日在杭州空军
疗养 院召开。16名委员、4名特约裹宾以及来自各军事研究机构翻基层部队的30名特约代表参加了会
议。本次 会议酶主题为:军事心瑾学如键为我军军事斗争准备服务,鲡俺为穰谐连队建设服务,以及作好
2007年第十 一届全国心理学会学术会议军事心理学专题报告的准备。 中国心理学会理事长张侃教授到会,就圆际、国内心理学的最新进展做了题为“心理和谐与和谐社会” 的主题报告,传达了2007年香山会议精神,使全体代表了解到国际心理学发展的最前沿的信息。特约嘉宾、 中国心理学会常务理事王登峰教授以“心理学礤突的中国纯:理论与策略”为题,就中国心理学的本?纯研
究问题进行了系统的论述,特别是为我国军事心理学研究开辟了新的视野,引起了热烈的讨论。
学术交流会上,苗丹民主任就2005年以来专业委员会的主要工作做了详细汇报,并做了题为“全国征
兵 心理检测系统预测效度分析”的发言;武国城委员做了“空军心理工作情况汇报”;王京生委员做了题为
“美 军作战心理研究”的发言;刘悫宏委员傲了题为“军车驾驶员安全适性检测与安全管理的研究”的发言。
委员靛逐藏瓶一届委员会的组织建设稻合作阕题进行了讨论,并形成“积极组织军事心理学工作者参 加第十一届全网心理学会学术会议”的提议。委员们认为:军事心理学专业委员会是一个年轻的学科,在发 展的过程中需要中国心理学会的大力支持;本专业委员会是,个学术组织,其主要目的是组织、协助军内外 军事心理学专业工作者和爱好者从事相关研究和学术交流。
《心理学报》编辑部
万方数据
等级反应模型项目特征曲线法等值研究
第20卷
总第75期心理学探新EXP LORATI ON OF PSY CH O LOGY 2000年第3期
等级反应模型项目特征曲线法等值研究
戴海崎
(江西师范大学, 南昌330027)
摘 要:主、客观题并用的测验建项目反应理论题库需作多级模型项目参数等值, 本研究推演
了等级反应模型下项目特征曲线等值方法并在实际等值试验中获得成功。
关键词:项目反应理论; 等值; 等级反应模型; 项目特征曲线法
中图分类号:B84117 文献标识码:A 文章编号:1003-5184(2000) 03-0049-05
1 研究多级模型参数等值的意义
测验等值是指将测量同一心理品质的不同测验上的分数或项目参数实现单位系统转换, 达到相互之间可以比较的过程。测验等值是在测验基础理论指导下发展起来的一项测验技术, 是实现不同次测验在同一量表系统上作分数解释的关键技术。随着测验事业的发展, 我国测量学者从九十年代初开始关注和研究测验等值, 所使用的是经典测验理论指导下的各种测验等值方法。稍后, 随着项目反应理论在我国的传播, 有些学者开始研究项目反应理论的等值方法, 研究内容集中在能力等值方面, 少数是项目参数等值, 所建基的模型都是Rasch 模型、双或三参数Logistic 模型等用于1、0记分的简单模型, 很少有人问津建基于多级模型的测验等值问题。我国是一个考试大国, 考试的使用频率和考试的规模都令其他国家叹为观止。同时我国的考试又极具特色, 历史上考试都采用主观题, 而现在又坚持主客观题并重的原则, 从测量学思想上来说无疑是正确的, 但也对测量技术的发展提出了更高要求。在应用项目反应理论指导测验编制时, 我国这种主客观题混用的测验就需要多级模型作分析基础, 并且还需将1、0记分的客观题作为多级记分的主观题的特例来处理。如果需要用项目反应理论指导这类测验的等值, 特别是需要建设大型题库时, 就必然要做多级模型的项目参数等值。现在, 我国高考等值研究已开始多年, 经典理论指导下的等值试验已取得了阶段性成果, 但项目反应理论指导的等值研究却未成功, 其关键就在于多级模型等值试验还未成功。同时, 国家自考委已决定建设高等教育自学考试国家题库, 其中有些课程要建成项目反应理论题库, 其关键技术之一就是多级模型项目参数等值。
显然, 我国测量实践的发展迫切需要开发多级模型参数等值技术。目前问津者较少, 原因是这方面的技术资料相对缺乏, 应用的模型比较复杂, 所需的计算技术也相对陌生, 还有一个重要的问题是, 等值结果的质量检验较为困难。但是为了满足我国测验实践发展的需要, 却必须去探索和研究多级模型的项目参数等值。这正是我们的工作目的。
2 等级反应模型项目特征曲线法等值方法探索
211 多级评分模型选择及等级反应模型简介
实施多级评分模型参数等值首先面临的是模型的选择。就目前来说, 项目反应理论能用于主观题分析的常见多级评分模型有评等量表模型、等级反应模型、分部评分模型、序列模型和分部评分的拓广模型等多种。我们最终选择的是由Samejima 于1969年给出的等级反应模
50心理学探新2000年型(G raded Response M odel ) 。选择这个模型出于四个方面的考虑:其一, 该模型比较适用于我国一般主观题的评分形式, 其逻辑顺序要求并非非常严格; 其二, 该模型的建模思想建立在对1、0记分模型的拓广上, 采用它易被社会接受; 其三, 该模型数学表述采用的是大家所熟悉的Logistic 函数, 数学处理也较为方便; 其四, 该模型在我国已较为流传, 解决它的参数等值, 有一定的工作基础, 也有较大的推广价值。
Samejima 等级反应模型有单参数的, 也有双参数的。由于是首次研究, 为简便起见, 我们选择了只有难度参数的单参数模型。名为单参数, 实际上就难度参数的个数而言, 却是试题有多少等级, 就有多少个等级难度值。其基本形式如下:
) =1-P i 3) P i 0(θ1(θ
……………………
33) =P ij (θ) -P ij ) (j =1, 2, ……, k i -1) P ij (θ+1(θ(1)
……………………
) =P i , k (θ) P i , k i (θi
3(θ) 为单参数Logistic 函数的形式:其中P ij
3θ) ={1+exp [-1. 7(θ-b ij ) ]}P ij (-13 (j =1, 2, ……, k i ) (2)
3(θ) 表示能力为θ的被试在项目i 获取j 等或j 等以上分数b ij 为项目i 第j 等的难度参数, P ij
) 即为能力为θ的被试在项目i 上恰获j 等分数的概率, P ij (θ) 称为模型的运算的概率。P ij (θ
特征函数, 一个k 等级题共有k +1条运算特征函数构成它的模型。一个能力为θt 的被试其在第i 项目上得分的期望(即真分数) 为:
k
ξP tij (θit =6j ?t ) j =1i (3)
其中整个测验上得分的期望(全卷真分数) 应为:
ξP tij (θt =66j ?t ) i =1j =1n k i (4)
n 为整个测验的项目数。
2. 2 项目反应理论参数等值基本原理及等值设计
项目反应理论认为, 同一测验项目在不同测验中所估出的两套参数间具有以下关系:
(5) a yi =a xi /α, b yi =α?b xi +β
其中a yi , b yi 分别为项目i 在测验Y 中所估得的区分度与难度, a xi , b xi 分别为项目i 在X 测验中
α与β是两套参数的转换系数。由于在项目反应理论中能力参数与所估得的区分度和难度。
项目难度参数是定义在同一量纲上的, 因此对于同一被试, 如果他参加了两不同测验, 则他在两不同测验中被估得的两能力参数之间具有项目难度参数类似的关系, 即有
θθ?yt =αxt +β(6)
其中θ如果能求得式中的转换系yt , θxt 分别为t 被试在y 测验与x 测验中被估得的能力参数。
数α与β, 实际上就求得了测验x 与测验y 的参数等值关系, 即对于测验x 中任何一个项目或任何一个体, 其项目参数或能力参数都可以通过含有α与β的关系式转换到y 测验的参数系统上。因此, 项目反应理论参数等值的实质就是估出两套参数之间的关系系数α与β。
在项目反应理论中要精确估计关系系数α与β必须有一批测验项目分别参加x 与y 两测
第3期戴海崎 等级反应模型项目特征曲线法等值研究51验的测试和参数估计, 获得同一批项目的两套对应参数, 然后才能据关系假设用数学办法求出α与β。因此, 项目反应理论中等值设计都采用铆测验设计, 铆测验就是x 与y 测验中共有的一批测验试题。铆测验项目可以镶嵌在原测验中, 也可以独立成卷, 两种形式分别称为内铆和外铆。测验实施和参数估计后估出铆测验项目两套参数的转换关系, 也就是得到了x 测验与y 测验的等值关系。
2. 3 项目参数等值方法选择及项目特征曲线等值法原理
根据2. 2中给出的参数关系式估计关系系数α与β的方法有好几种, 如均数方差法, 改良的均数方差法, 项目特征曲线法等。由于项目特征曲线法利用了模型信息和所有参数信息, 被认为是最理想的参数等值方法, 因此我们选择了项目特征曲线法。项目特征曲线法是黑巴诺(Haebara ) 1980年首先给出的, 后来斯托金(Stocking ) 和洛德(Lord ) 也提出了类似的方法, 但其条件比黑巴诺的相对宽松一些。我们选择了后者的方法。其思想如下:
项目反应理论认为, 对于被试t 应答项目i , 无论其参数系统是在x 测验上, 还是在y 测验上, 其得分期望(真分数) 从理论上看应该是相等的, 即有
ξ(7) xit =ξyit
ξ其中ξxit 表示被试t 在项目i 上用x 测验系统参数求得的真分数, yit 表示被试t 在项目i 上用y
测验系统参数求得的真分数。在此基础上, 对同一批项目如n 道铆测验项目, 可得
ξ(8) xvt =ξyvt
ξξ其中:ξ如果有N 个被试的话, 则应有xvt =Σxit , ξyvt =Σyit , v 代表铆测验。i =1i =1
t =1n n 2Σ(ξxvt -ξyvt ) =0N
(8)
但是在实际中, 实得项目参数都是样本估计值, 由于其间存在误差, 故上式不可能恰好等于零, 但应该接近于零。记
2F =Σ(ξxvt -ξyvt ) t =1N (9)
注意上式ξxvt 中含有铆测验在x 系统上的区分度参数a xi , 难度参数b xi , 能力参数θxt , ξyvt 中含有铆测验在y 系统上的区分度参数a yi , 难度参数b yi , 和能力参数θ由于事实上在铆测验设yt 。
计中并没有安排同一批被试参加x 与y 两测验, 因此不存在与θxt 所对应的θyt , 但是, 由于参数
θθ中存在关系θ?yt =αxt +β, 故我们在ξyvt 中用由θxt 求得的理论转换值yt 悉数代入, 则F 就成了
含有已知参数a xi , b xi , a yi , b yi , (i =1,2, ……, n ) , θxt , (t =1,2, ……, N ) 和未知参数α与β的函数。至此, 求α与β的问题演变成了求F 极小条件下的α与β问题。F 是所有被试在整个测验上的真分数误差平方和。可用最小二乘法求取α与β的估计值。
将F 分别对α与β求偏导, 分别记为f 1, f 2, 并令其为0, 可得二元非线性方程组:(10) α=09(11) f 2=β=09
此方程组可用Newton 迭代法解。若设(α(k ) , β(k ) ) ′为已估得的第K 次迭代解, 则第K +1次迭代解可由下式求取:f 1=
52心理学探新2000年
α(k +1=
(k +1) α(k -(k ) (12) ββf α99
当相邻两次迭代解的修正值小于设定的精度控制值时终止迭代过程, 认定所得的为估计值。这就是斯托金和洛得的项目特征曲线等值法。黑巴诺的方法更为严格, 其使用公式为
F =ΣΣ(ξxit -ξyit ) t =1i =1N n α99f 12(13)
F 是所有被试在所有测验项目上的真分数误差平方和。用此公式求解α与β的方法是一样的, 但展开式会有所不同。理论上认为其解要更精确一些, 但其迭代解的收敛要比用前式困难一些。以下我们还是回到对前式的求解。在前述迭代求解公式中, 要注意的是其中的2×2矩阵是F 对于α与β的二阶偏导对称矩阵, 而且矩阵应求逆后才能与向量(f 1, f 2) ′相乘。下面给出式中六项的展开式, 以备读者查考。
N ξ) f 1==-2Σ[(ξ-xvt yvt αα]t =199
N f 2==-2Σ[(ξxvt -ξyvt ) ββ]t =199
N 22ξ2) +(ξ==-2Σ[-(]xvt -ξyvt ) 22α9αt =199αα9
N 22ξ2) +(ξ==-2Σ[-(]xvt -ξyvt ) 22β9βt =199ββ9
N 22ξ2===-2Σ[-+(ξxvt -ξyvt ) β9α9αβα9βα]t =19?999?9
2. 4 等级反应模型项目特征曲线法等值理论依据及公式推演
项目特征曲线法等值项目参数的方法能否应用于多级模型, 特别是能否应用于Samejima 的等级反应模型是我们考虑得最多的问题。我们认为:第一, 项目反应理论中同一项目在不同测验中存有系统转换关系的结论在等级反应模型中是同样存在的; 第二, 同一被试在同一测验项目上作答的期望分数是相等的, 进而同一被试在同一批测验上作答的期望分数是相等的, 并不受其测验参数被定义在哪一系统上的影响。这一结论同样适用于多级评分项目; 第三, 等级反应模型下被试在任一项目上测试的期望分数是稳定的, 也是可求的; 第四,Smaejima 的等级反应模型是1、0记分Logistic 函数的推广,1、0记分Logistic 函数模型下的项目参数等值是完全可以应用项目特征曲线法的, 因此其推广模型应用项目特征曲线等值也是可以的; 第五,Same 2jima 等级反应模型中同一项目的等级难度是单调递增的, 因此更有利于难度参数的有序转换而不会产生错位。基于上述理由我们认为, 用项目特征曲线法实现对等级反应模型下项目参数的等值是正确的, 也是可能的。
为了实现等级反应模型下项目特征曲线等值, 我们推演了该模型下全部有关公式, 现将结果列出如下(14)
33ξ(p xvtij -p xvti xvt =ΣΣj ?, j +1) i =1j =1
n k i n k i (15) (16) 33ξ(p yvtij -p yvti yvt =ΣΣj ?, j +1) i =1j =1
第3期戴海崎 等级反应模型项目特征曲线法等值研究53
θ其中:θ?yt =αxt +β
k n i 3333θ(1-p yvtij ) -p yvti (1-p yvti =1. 7ΣΣj ?xt [p yvtij ?, j +1?, j +1) ]αi =1j =19n k i 3333(1-p yvtij ) -p yvti (1-p yvti =1. 7ΣΣj ?[p yvtij ?, j +1?, j +1) ]βi =1j =19k n i 2ξ2233333ΣΣθ(1-p yvtij ) ?(1-2p yvtij ) -p yvti (1-p yvti j ?[p yvtij ?xt ?, j +1?, j +1) 2=1. 7?i =1j =1α9(17) (18) 3(1-2p yvti ?, j +1) ]
k (19)
3(1-2p yvti ?, j +1) ]
k n i 2ξ233333ΣΣ(1-p yvtij ) ?(1-2p yvtij ) -p yvti (1-p yvti =1. 7?j ?[p yvtij ?, j +1?, j +1) 2i =1j =1β9(20)
3(1-2p yvti (21) ?, j +1) ]
3 等级反应模型项目特征曲线法等值的实践
江西师大周骏就等级反应模型下项目特征曲线等值作了更全面的理论探讨并循前述思路编成了应用软件Ejxnu1. 0, 还采集高考等值实验数据进行了实际等值分析获得成功。为了验证结果的准确性, 他做了等值对称性试验, 发现所得数据差异都处于百分位上。另外他找了国n i 2ξ233333ΣΣj ?θ(1-p yvtij ) ?(1-2p yvtij ) -p yvti (1-p yvti =1. 7?[p yvtij ?xt ?, j +1?, j +1) αβi =1j =19?9外同类软件做校验, 其间所得数据差异也表现在百分位上, 说明等级反应模型应用项目特征曲线法实现参数等值是可行的。在与国外软件比较时他还发现, 国外软件只能用于多级记分的主观题, 而他自编的Ejxnu1. 0能同时用于主观题和客观题的等值分析, 达到了用于我国主、客观题并用试卷的等值分析的设计目的。
参考文献
[1] 漆书青, 戴海崎, 丁树良1现代教育与心理测量学原理[M]1南昌:江西教育出版社,19981
[2] Win J. Van der Linden &R onald K. Hambleton[Z]1Handbook of M odern Item Response Theory 119951
[3] Michael J. K olen &R obert L. Brennan 1T est Equating[M]119951
Study on Test Equating Using Method of Item Characteristic
Curve Transformation under G raded R esponse Model
Dai Haiqi
(Jiangxi N ormal Univesity ,Nanchang 330027)
Abstract :It needs T est Equating to establish a Item Bank of P olytom ous Scored M odel under the IRT. This study deduced the Item Characteristic Curve Method for the purpose under the G raded Response M odel and g ot success on the equating ex 2periment.
K ey w ords :Item Response Theory ;equating ; G raded Response M odel ;method of Item Characteristic Curve
受试者工作特征曲线
一、ROC曲线的概念
受试者工作特征曲线(receiver operator characteristic curve, ROC曲线),最初用于评价雷达性能,又称为接收者操作特性曲线。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。
传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。因此,ROC曲线评价方法适用的范围更为广泛。
二、ROC曲线的主要作用
1.ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。
2.选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最少的最好阈值,其假阳性和假阴性的总数最少。
3.两种或两种以上不同诊断试验对疾病识别能力的比较。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一种试验的 AUC最大,则哪一种试验的诊断价值最佳。
三、ROC曲线分析的主要步骤
1.ROC曲线绘制。依据专业知识,对疾病组和参照组测定结果进行分析,确定测定值的上下限、组距以及截断点(cut-off point),按选择的组距间隔列出累积频数分布表,分别计算出所有截断点的敏感性、特异性和假阳性率(1-特异性)。以敏感性为纵坐标代表真阳性率,(1-特异性)为横坐标代表假阳性率,作图绘成ROC曲线。
2.ROC曲线评价统计量计算。ROC曲线下的面积值在1.0和0.5之间。在AUC,0.5的情况下,AUC越接近于1,说明诊断效果越好。AUC在 0.5,0.7时有较低准确性,AUC在0.7,0.9时有一定准确性,AUC在0.9以上时有较高准确性。AUC,0.5时,说明诊断方法完全不起作用,无诊断价值。AUC,0.5不符合真实情况,在实际中极少出现。
3.两种诊断方法的统计学比较。两种诊断方法的比较时,根据不同的试验设计可采用以下两种方法:?当两种诊断方法分别在不同受试者身上进行时,采用成组比较法。?如果两种诊断方法在同一受试者身上进行时,采用配对比较法。
四、ROC曲线的优点
该方法简单、直观,通过图示可观察分析方法的临床准确性,并可用肉眼作出判断。ROC曲线将灵敏度与特异性以图示方法结合在一起,可准确反映某分析方法特异性和敏感性的关系,是试验准确性的综合代表。ROC曲线不固定分类界值,允许中间状态存在,利于使用者
结合专业知识,权衡漏诊与误诊的影响,选择一更佳截断点作为诊断参考值。提供不同试验之间在共同标尺下的直观的比较,ROC曲线越凸越近左上角表明其诊断价值越大,利于不同指标间的比较。曲线下面积可评价诊断准确性。
五、SPSS软件实现ROC分析
SPSS 9.0以上版本可进行ROC分析,操作步骤如下:
1.定义列变量,并输入数据
(1)诊断分类值或检测结果(test):多个诊断试验则定义test1,test2,...
(2)金标准类别(group):1,病例组,0,对照组
(3)分类频数(freq),需要进一步执行第二步
2.说明频数变量路径:Data\Weight Case..., 选项:Weight case by,填表:Freqency Variable (freq)
3.ROC分析:路径:Grahps\Roc Curve... 填表:Test Variable(test), State Variable (group), Value of state variable,选项包括:
(display) ROC Curve,with diagonal reference line (机会线), standard error and confidence
interval (面积的标准误,及其可信区间), Coordinate points of the ROC curve (ROC曲线的坐标点), options:test direction (如果检测值小划归为阳性,则需要选),cofidence level (,):需要除95,以外的可信度,可在此定义。
如果是连续型测量资料,则不需要第1步的(3)及第2步。