林炎小学

1语言测试标准项目复习

说到语言测试标准，就不能不谈效度、信度、难度和区分度。在各类语言测试中，无论是语言测试设计前期的控制，还是对其设计产品的评估，抑或是测试后工作流程结束后的评估分析，都存在一种倾向，即不仅要考虑主要影响前期操作的三大标准项，还要考虑主要影响后期操作的两大标准项。甚至在处理效度(语言测试的目的)和信度(语言测试的可靠性)的关系时，往往会出现一种结果，即语言测试的客观量化必须以语言的真实使用为代价，具体表现为各种语言测试中主观题的增加和客观题的减少。

主要原因在于对各种语言测试标准之间关系的不同理解。总的来说，效度和信度的关系是一对矛盾，也就是一个跷跷板关系:信度提高就意味着效度下降，反之亦然。李小菊从影响因素和构成因素的角度具体论述了效度和信度，并对包括效度-信度关系在内的七种关系进行了深入的探讨(李瑟娥·林炎2005)，并列举了解决这种关系的四种常用方法。但是，效度和信度的矛盾似乎并没有得到根本解决。看来，我国大学英语四、六级和英语专业四、八级的改革主要集中在主观题的增加，口语的增加和所谓的考试结果的解读(有向雅思考试学习的倾向)。语言测试不仅针对大学生。从覆盖面来说，目前应该更多地关注中学甚至小学和儿童语言教育中对语言测试尤其是测试标准的讨论。然而，对测试效度和信度的普遍对待，对难度和区分度的简单偏执，显然不利于基础语文教育改革，只能使考教分离，教考分离现象更加严重。毫无疑问，如果说难度和区分度对高考还有意义的话，那么在选拔研究生考试和出国考试中，为了制造一定的区分度，达到选拔人才的目的而考虑增加一些试题的难度，显然是幼稚的。认为主观题效率高，客观题效度低，也是极端和不现实的。

2效度和信度的关系

首先必须考虑语言测试的有效性。因为它决定了语言测试是否达到目的。简单来说，听说技能测试的效度必须通过听说题来体现；读写试题的有效性也必须通过读写来实现。从这个意义上说，它和我们汉语中的‘效果’虽然没有对等关系，但还是有着不可分割的内在联系。此外，期中考试作为一种信息量大的考试，与以总结语言学习为主要目的的期末考试应该具有同中有异的特点，这也会对语言测试的效度产生影响。如果期中考试只是作为考察手段的一篇作文甚至是一篇作业，那么期末考试应该在作文中占有相当大的比重。追求高可靠性是统计学的一大特点。把一种语言分解成几个单元，似乎是从语言使用的角度出发

虽然可能不可思议，但语言学习不可能一蹴而就，对于语境(这里指的是使用语言而非语言语境或语境)也不可能是空中楼阁。它需要我们在掌握语言单句语境的前提下进一步思考，尤其是对于语言测试。一般认为，没有可靠性的测试是没有用的；没有效度的测试是不可靠的。我们认为，这种关系的理论讨论对语言测试实践没有任何意义。没有信度为零的语言考试，除非是大规模作弊。没有完全缺乏效度的测试，除非提问者完全不了解语言教学规律和语言测试技巧。因此，单一的语言观的有效性和可靠性比这种武断的矛盾的一元论更现实。李小菊对效度和信度关系的处理为我们提供了一个视角，即不仅仅从这两个词的定义出发，而是从它们的构成和影响因素出发。从她的论述中不难看出，影响信度的因素远多于效度。这样，从追求双高的角度，即高效率和高可靠性，我们似乎看到了一线希望。如果某些影响因素的改善能够在不影响整体平衡的情况下提高效度或信度(毕竟语言测试不同于跷跷板，没有一点差别就会有天壤之别)，那么语言测试实践就会减少很多压力。解决这种看似矛盾的一对的另一种方法是从更高层次的系统来看待它们的关系，即我们需要从系统的角度而不是权衡的角度来关注这种关系。如果语言学习输入和输入增强对初学者的作用很大，如果在学习的初级阶段学习者输入是不可能或不现实的，那么语言测试的首要标准项就不应该着眼于所谓的语言输出(或语言产出)，而应该考虑基于联想和记忆刺激的语言识别能力。这样就可以借鉴应用语言学家提供的连续统模型(见Bachman:1990)来考虑语言测试中效度和信度的关系(见表1)。这个统一体的一端是高效率，另一端是高可靠性。不同的需求决定了试题是高信度还是高效率，或者处于中间，但不存在好坏的问题，或者确切地说，是好是坏完全是由考试的目的(不同于效度)和类型决定的。

语言输入语言识别

高可靠性-高效率。

语言输出语言生产

上图显示，理想的试题应该在D区和A区..虽然语言学习者终身离不开语言输入，但对于初学者和初级学习者来说，语言素养的培养应该比组织能力更重要；体现在语言测试上，它的高可靠性应该比它的高效率更重要。对于语言水平高的学习者来说，语言组织能力的培养应该是最重要的，应该体现在语言产出的试题中。当然，还有一个关于语言测试的类型、与教学教材相关的教学内容以及测试内容的有效性的问题，不是本文的重点，这里就不赘述了。

3困难与歧视的关系

语言测试的设计有一个约定俗成的规律，就是试题的内容和类型要遵循从‘容易’到‘适合’再到‘困难’的规律。这也体现在理想的测试结果图中:两头小中间大的弧形图案。这样做的目的是让参加测试的语言学生熟悉和适应测试过程，最终形成所谓的理想弧线。

语言测试技术的一个原则就是不给考生设陷阱。难度作为一个相对的概念，不应该体现在题型上，而应该体现在学生学习的内容上。如果为了降低难度而把主观题改成客观题可以理解，那么通过这种方法增加难度就不可思议了；为了增加难度，在试题中加入大量很少出现或使用的语言项目(除非是语言禀赋测试，也就是能力倾向测试)就更加荒谬了。对于普通的语言测试，要和你所学的内容挂钩。只要教材选择得当，只要教学内容和方法得当，平时的小测验、期中考试或期末考试都应该体现自己平时所学的内容，以此来检验学生在这门课程中的学习情况，更多地反映学习者的进步(进步或成绩)而不是语言能力(水平测试)，更不要通过语言测试在学习者之间进行比较，从而形成竞争压力，甚至造成消极的学习焦虑。增加难度的目的是为了区分，区分程度的实质是把学习者分成不同的等级。如果因此而进行动态调班或者分级教学，还是有一定道理的。然而，忽视竞争对语言学习的负面影响，加强基于规范的测试的作用，忽视基于标准的测试的存在，并不会给语言教学和测试实践带来很大的好处。语言试题的难度和区分度、分数分布曲线的考虑或偏度和峰值的考虑，在分级/分级测试和常模测试的情况下都必须涉及，不必仅从标准测试的角度考虑。此外，如果为了区分而影响语言测试的反洗效果，将在很大程度上影响语言学习的主要矛盾，并将失去语言学习和语言测试的主要方面。

语言测试标准的一致性是应用语言学家关心的问题。关于效度和信度关系的研究长期以来在语言教学和实践中徘徊，或向左或向右，或折中。在我们看来，除了想办法平衡，比如提高可靠性的完形填空题，也可以从不同的角度考虑。在此基础上，本文提出了与测试类型相关的测试目的的旧概念，并试图从语言测试要求和Bachman提出的系统连续体的角度重新审视效度和信度之间的关系。至于语言的难度和区分度，本文认为应该按需实施，不能盲目推广甚至无限制，使之成为‘普遍适用’的准则。

对语言教育教学和语言测试的理论和实践的研究不会停止，语言测试的标准也将继续。如果能在语言教学和测试中找到一个很好的衔接点，如果能逐步解决四六级或四八级的接力棒和指挥棒问题，那么我们提倡的减负减压等措施才能真正落到实处，才能培养出创新型人才，而不是应试专家。Leech在2001第三届中国英语教学国际研讨会上提交的主题报告《先教常，后教少》，无论对于语言教学还是语言测试实践，无疑都具有启发性，这也是包括中国在内的英语教学的一大症结所在。

分类

测试的有效性一般可分为以下几类:

1)票面有效期。

指应达到的试卷标准，即一套试题表面上是否合适。例如，如果阅读理解测试包括许多受试者没有学过的方言单词，则可以认为该测试缺乏表面效度。面子效度是检验被试正常水平的保证因素。

2)内容有效性。

指一套试题是否测试了应该测试的内容或测试的内容是否反映了测试要求，即测试的代表性和覆盖面。例如，如果某套发音技能测试题只考查发音所必需的某些技能，比如单个音位的发音，而不考查单词中重音、语调或音位的发音，那么该测试的内容效度就很低。

3)结构效度。

指的是一套试题的项目反映测试所依据的理论的基本方面的程度。比如基于结构主义语言理论，认为系统性的语言习惯是通过句型习得的，所以强调词汇和语法环境的试题就失去了编制效度。

4)实证效度。

经验效度是衡量测验有效性的一种尺度，它是通过将测验与一个或多个标准量表进行比较而获得的。经验效度可分为两种:一种是* * *效度，即把一个测验的结果与另一个时间相近的有效测验的结果相比较，或者与老师的鉴定相比较而得到的系数；二是预测效度，即把一次测试的结果与后来的语言能力进行比较，或者与老师后来对学生的认定进行比较而得到的系数。

一般来说，在检验一份试卷的效度时，不仅要根据教学大纲的要求和概念效度的理论来考察试卷的内容，而且要采用计算相关系数的定量方法，即计算这份试卷与另一份已确定能正确反映被试水平的试卷之间的相关系数。系数越高，有效性越大。课堂测验的效度应在0.4-0.7之间，大规模测验的效度应在0.7以上。

影响因素

测量的有效性是指测量的有效性，即被测目标能够被测量的程度。一般来说，效度比信度更重要。如果测试的有效性低，无论其可靠性有多高，该测试都没有应用价值。高效度是好测试的最重要特征，是选择和评价测试的必要条件和重要依据。然而，许多方面正在影响测量的有效性。下面主要分析测试本身，样本组和标准因素。

测试的因素

测试本身带来的影响因素有测试项目的质量、测试实施中的干扰、测试时长、受试者的因素等等。

测试项目的质量

测试的有效性会受到一些因素的影响，如指导不明确、试题表达不清晰、试题太难或太容易、试题中有多余线索、诱导答案设计不合理、试题太少、试题安排和组织不恰当、试题不符合测试目的等。

实施测试的干扰因素

考试环境太差，被试不按说明做，分数错了，都会降低考试的效度。

测试的长度

一般来说，增加测验的长度通常可以提高测验的信度，效度系数能否达到最大值也受信度的影响。所以增加试题往往可以提高考试的效度。但是增加效度的前提是这些增加的问题必须与测量目标相关。

受试者影响因素

被试的反应集、测试动机、情绪和身心状态都会影响测量的效度。

样本组性质

效度的计算往往是通过分析样本组的分数得到的，因此样本组的性质也会对测验的效度产生影响。这些影响体现在三个方面。

(1)同一个测试测得的函数对于不同的群体可能是不同的；

(2)对于同一测验，样本组性质不同，效度会有很大差异；

(3)样本组的异质性也会影响效度。

标准属性

使用效标关联效度时，效标的性质会影响测试效度的评价。一般来说，在其他条件相同的情况下，被测行为或心理特质与标准行为或特质越相似，效度系数越高。另外，准则与考试成绩的关系是否是线性的也是一个非常重要的影响因素。

测验信度，也称测验信度，是指测验结果是否稳定可靠。

换言之，测试结果是否反映了受试者的实际语言水平？例如，如果同一套测验在同一测验对象上的几次测验中得分有高有低(即被试本身没有变化)，则说明该测验缺乏可靠性。测试的可靠性与其效度密切相关。

一般来说，只有信度较高的测试才有较高的效度，但效度较高并不能保证信度较高。测试的可靠性主要涉及试题本身的可靠性和分数的可靠性。试题是否可靠，主要看试题的范围、数量和区分度。分数是否可靠，取决于评分标准是否客观准确。

应用示例

测试的可靠性通常用相关系数(即两个数之间的比例关系)来表示。相关系数越大，可靠性越高。当系数为1.00时，说明测验的信度达到最高水平；当系数为0.00时，测试的可靠性最小。正常情况下，系数不会高达1.00，也不会降到0.00，但会介于两者之间。对可靠性指标的要求根据测试类型的不同而不同。人们通常要求标准化测验的信度系数在0.90以上。比如托福的信度大致在0.95，而课堂测试的信度系数在0.70-0.80之间。有许多方法可以计算测试的可靠性。这里只介绍三种易于操作的方法:

1)复试方法

(重测方法).用同一套试卷在两个不同的时间对同一组被试进行测试，从而得出两组分数，然后计算两组分数的相关系数。当然，在两次测试中，学生在第二次测试中的分数应该高于第一次测试，因为学生在第二次测试中取得了进步，获得了更多的现场经验。但如果问题靠谱的话，两次测试每个学生的排名顺序应该基本不变。

2)交替表格法

(另一种方法).两组试题类型相同，难度相同，但具体题目不同的等价试卷，进行两次测试，然后计算两次分数的相关系数。

3)半法

(对半法).测试只进行一次，但将整张试卷的题目按单双号分成两组，计算两组分数的相关系数，再用Spearman-Brown公式计算出整张试卷的信度系数。具体计算步骤是:将两组分数的相关系数乘以2，再除以1，将两组分数的相关系数相加。

试题难度是衡量试题质量的指标之一。试卷中试题(项)的难度是衡量试题对所有科目的适合性。d用来表示难度等级，0

试题难度是衡量试题质量的指标之一。试卷中试题(项)的难度是衡量试题对所有科目的适合性。D用来表示难度等级，0为D

试题难度等级的D值必然会影响区分度、信度和效度。计算D值的主要方法是平均法:A代表试题的满分，李代表所有科目的平均分，那么

如果正确答案得A，错误答案得0(没有中间分数，比如选择题或判断题等。)，则x/a为本题所有被试的正确回答率，记下P}/A，则D-1-P .若被试人数为n，则正确回答本题的被试人数为r，

辨别力是指试题区分被试情况的能力，主要用于评价选题，以达到选择的目的。

试卷的区分度反映了试题区分不同水平科目的程度，即测试不同水平的学生，真正把优秀、一般、差水平的学生区分开来。优秀、一般、差三个水平的学生都有一定的比例。如果在某个分数范围内学生相对集中，高分太多或者考试不及格太多，那么区分度就低。

计算

如果按照分数从高到低排序，前50%的考生在高分组，后50%在低分组。计算公式为:d = 2 (XH-XL)/w，其中d为区分度，XH为高分平均分，XL为低分平均分，w为试卷总分(一般为100或150)。

对于简单的计算，教师可以使用以下方法之一来计算区分度:

先对分数进行排序，高分组难度P1=27%，低分组难度P2=27%，区分度D =(高分组27%平均分-低分组27%平均分)÷满分。

区分度一般在-1到+1之间，数值越大，划分越好。0.4以上的试题区分度表示本题区分度好，0.3 ~ 0.39表示本题区分度好，0.2 ~ 0.29表示本题区分度不好，需要修改，0.19以下表示本题区分度不好，应该淘汰。

区分度的计算方法有很多种，需要特别注意的是，对于同一个试题的考试成绩，采用不同方法得到的区分度的值是不同的。