主题研讨 | 杨志明:改进结果评价的理论与方法

撰写时间:2023-03-09  来源:广东省教育研究院 浏览量:

    在第十届中国南方教育高峰年会上,湖南师范大学测评研究中心主任、博士生导师杨志明教授带来《改进结果评价的理论与方法》的分享。在演讲中,杨教授梳理了结果评价中的原始分数、等级分数和标准分在使用中需要注意的问题,提出要改进相对评价的计分方式,加强对评价结果的绝对表达,并将相对评价与绝对评价进行合理科学地结合,为改进结果评价提出了非常有价值的参考建议。

一、结果评价概述
    结果评价指的是在某项教育教学活动结束以后对学生的学习结果进行事实判断和价值判断的一种活动。根据参照标准的不同,结果评价可以分为相对评价和绝对评价两种。其中,相对评价的参照点是学生所属群体(总体)的一般水平,重在确定学生的知识和能力水平在其所属群体中的相对排位,其目的主要是为人才选拔服务;绝对评价的参照点是学生所要求掌握的知识和能力等内容,重在确定学生对所学知识和能力的掌握程度,目的是发现学生的强项和弱势,为改进教与学提供反馈信息。

    传统的结果评价过度看重学生的相对评价,轻视对学生的绝对评价,具有“一俊遮百丑”等“唯分数”特征,认为考试分数名列前茅的学生就样样都好等。“唯分数”带来的直接后果是教育教学活动完全以提高考试分数为中心,忽视了学生在德智体美劳等方面的发展;把海量刷题作为教与学的主要手段,忽视了学生自主阅读和主动探究等学习方式;不仅降低了学习的投入与产出效果,而且加重了学生的学习压力和心理焦虑等。为了破解“唯分数”难题,目前大家采用的办法主要有:禁止频繁考试、禁止公开排名、降低考试难度、改分数为等级或评语、不得超前学习等。但这些措施并没有根治“唯分数”难题。
    要彻底解决“唯分数”的问题,就要建立科学的教育评价机制。其中,尝试“使用分数而不唯分数”的跨栏式高考招生录取模式或许是个好办法。这种方法的基本特征是“设置栏杆、逐级淘汰、优中选优”,其基本思路是:首先,根据招生政策,设定各高校各专业对学生基础知识、思维能力以及德智体美劳等方面的多种质量标准;其次,把录取过程分为2-4个阶段,在1-3阶段重点设置不同的门槛(如总分门槛或若干单科分数的门槛),以淘汰具有某种短板或不符合专业要求的不合格者;在最终阶段,再使用与相关专业或学科关系最密切的重要指标,按“分数优先、遵循志愿”的平行志愿规则优中选优。这种方法在基本实现了高等教育大众化的许多国家得到了成功的应用,我国的具体实施办法和效果需要先行试点,找出规律,再做定论。

二、原始分数的缺陷

    目前对于学生学业成绩的表达,用的最多的是卷面原始分。但原始分的赋分标准往往比较主观,存在着零点含义不清、度量单位不等距、分数分布受试卷难度和考生水平的影响较大等缺点,特别是把不同性质的科目得分合成为总分的算法虽然简便易行,却很不合理。

三、等级分数的风险
    等级分数是把考生卷面原始分数按照一定规则换算为等级的分数,其典型形式是优、良、中、差或A、B、C、D、E等。这种分数多用于达标性考试中,测验使用者不太在意考生之间的细微差别。把考试成绩表现为等级存在着测量精度降低、不方便数学运算等缺点。特别是在考生群体不具有代表性情况下所确定的等级赋分规则,往往会造成较大测量误差,影响考试的有效性和公平性等。
    目前,普通高中学业水平选择性考试所使用的分数主要是等级分数。其等级赋分规则是:首先,将考生的原始分数由高到低排,按照一定比例划分为A、B、C、D、E五个等级。各等级人数所占比例依次为:A等级15%,B等级30%,C等级30%,D、E等级共25%,E等级为不合格,各等级的比例由各省(市、区)根据教学质量要求和命题情况等自行确定。
    由于考生具有一定的选考自由,因此可能出现考生样本的能力水平不服从正态分布的问题。一旦出现极端负偏态或极端正偏态的分数分布,等级分数有可能扩大测量误差。为了给每个学生都提供精准的考试成绩,建议使用“基于全省代表性小样本确定等级赋分规则”的方法。其具体做法是首先构造一个与总体分布相匹配的代表性样本,再以此样本的分布来确定ABCDE等级规则,并用这个规则换算所有选考群体的等级分数。这种方法在许多著名的考试项目中得到了广泛应用,国内的许多模拟研究也验证了其良好的效果。
四、标准分数的得失
    标准分数是以考生总体得分值指为参照点、标准差为单位的导出分数:SS=500+100(X-M)/S。在学生群体符合正态分布的前提下,标准分数广泛用于选拔性和达标性考试,优点是零点含义确定、分数单位等距,缺点是分数转换可能出错、不易于理解等,在非正态分布、缺乏常模、用错常模的情况下,标准分数就会出错。

五、改进结果评价

    目前在国际考试和评价行业中主要通过两方面改进结果评价。一方面要改进相对评价的计分方式,通过量表分数、百分位等级、标准九和T分数等常模参照分数进行评价结果的呈现。美国高考、智力测验采取的是比较典型的量表分数呈现方法。其主要做法是首先构造一个度量系统(量表或尺子),这把尺子事先标定好了分数的参照点和单位,然后再用这把尺子来度量所有考生。不过,使用这把尺子的前提是考生总体的得分分布基本服从正态分布。由于选考群体可能不是考生总体的代表性样本,而且这个应考样本的得分分布可能不服从正态分布,所以直接根据应考样本所确立的原始分数与量表分数之间的换算关系(常模)可能不够科学,进而造成较大的相对评价误差。解决这个问题的办法是用全省或全市的代表性样本来确定原始分数与量表分数之间的转换关系。当然,常模的研发方法还有很多。只有具备了科学的常模,才能公平和有效地进行结果的相对评价。
    除了改进相对表达的方式,还可以改进绝对表达的方式。在进行绝对表达时,需要设计掌握分数,即一个考生对所要求的知识点或能力要素所掌握的程度,这个程度通常用百分数表示,例如80%即表示一个考生掌握了某个年级或年龄阶段所要求的某个知识点或能力要素80%的内容。比如,美国高考SAT-I除了报告学生的总分,还分别报告了学生在题目层面的得分,以及不同题型、知识点、能力维度等给出多个方面的掌握分数,甚至提供了一个自然科学分析分数和社会科学分析分数。根据这个成绩单,既能发现学生在哪些方面掌握得好、哪些方面比较薄弱等信息,也能够得知学生在全班、全年级、全地区、全省的相对水平等信息。这些做法值得参考。


(本文根据专家在高峰年会上的演讲实录整理。)