首页 >> 教师发展>> 质量评价

【资源分享】前沿:国际基础教育评价新动向——以PISA,PIRLS,TIMSS为例

摘要:近年来,国际基础教育评价呈现新的发展趋势。具体而言,国际基础教育评价对国家、地区教育决策的影响力逐步增强;从基于书本知识到逐步关注真实社会情景和价值观教育;评价方式从实地调查走向线上评价,质性数据愈加重要;评价主体趋向多元化,更多发展中国家参与到评价中来;更加理性地看待评价结果,评价过程也越来越被看重。此外,国家教育评估如何不危及教育的多样化,也是未来国际教育评估需要考虑的问题。


  自20世纪中期开始,基础教育评价不断发展,尤其进入21世纪以来,国际上形成了如国际学生评估项目(Programme for International Student Assessment, PISA)、国际学生阅读素养进展研究(Progress in International Reading Literacy Study, PIRLS)、国际数学与科学趋势研究(Trends in International Mathematics and Science Study,TIMSS)等为主的大规模基础教育评价项目,在教育质量的监测、教育水平的提升、教育决策的制定中发挥着越来越重要的作用。判断教育公共政策的标尺也在发生变化,评价教育体系是否完善或是否需要改进的依据不再是国家教育标准,而是在世界范围内表现最为卓越的教育评价体系。近年来,我国在制定国家教育标准、探索“管办评”分离的同时,也在借鉴国际基础教育评价项目的经验。基于此,准确把握国际基础教育评价的发展趋势,具有重要的学术价值和现实意义。


一、对国家教育决策的影响力逐步增强
  国际基础教育评价由于科学性、规范性、广泛性等特点,吸引了越来越多的国家参与。许多参与评估的国家以评估结果为依据,进而解决其国内的教育问题。对于宏观层面的教育决策者和中观层面的学校管理者而言,这些评估结果也有利于其增进对本领域教育的了解,从而制定更为合理的教育政策。可以说,评估结果会影响教育政策的制定、实施,从而推动一个国家教育体系的不断完善,进而顺应本国乃至国际教育的发展趋势。
  以德国为例,2000年,PISA评估结果显示,德国1/415岁学生不能顺畅阅读,也未达到经合组织(OECD)成员国的平均水平,引起了德国社会的震惊。迫于压力,德国当局迅速做出调整,转变了全国的教育政策,并于2004年出台新的教育标准。与此同时,德国当局设立了教育体系质量发展研究院,并设置了教育监测体系来检验其教育达标程度。除此之外,德国政府在2006年继续对教育政策进行完善,出台了《教育监测全局战略》,建立了国际、国内评估相结合的评估体系,两年发布一次《国家教育发展报告》。实施改革以后,德国PISA成绩持续提高,从2009PISA结果来看,德国教育发展的实际表现与期望值之间的距离缩小了很多。
  再如,2009 年,美国学生在PISA的数学、科学和阅读项目的排名均不乐观,分别排名第17位、第23位和第31位,这在美国社会引发了一系列讨论,美国政府对此高度重视。其实,早在2008年,美国政府就发现在其他国际评估中美国教育暴露出来的短板,当年12月,美国国家管理者协会(National Governors Association, NGA)、重点州学校管理者委员会(Council of Chief State School Officers,CCSSO)和成就公司(Achieve)共同发布了《成功的基准:确保美国的学生获得世界一流教育》的报告,旨在确保学生获得优质的教育。针对PISA结果体现出来的教育问题,美国政府连续几年出台相关的法律,如在2010年颁布《各州共同核心标准》,确定在语言和数学领域联合制定周密的、达到国际基准的教育标准,以提升美国教育的核心竞争力。2012年,美国发布了题为《美国教育改革与国家安全》的报告,将美国教育改革提升到了关乎美国国家安全的新高度。
  许多国家和地区积极借鉴国际教育评价坚持的理念和采用的技术,将其纳入本国教育政策制定当中。比如,在德国2004年进行的教育改革中,其小学、初中、高中水平考试的州际比较在某种意义上就仿照了国际大规模教育评估,即借鉴了国际教育评估的比较方式。
  虽然国家和政府仍是行为主体,但是在涉及世界事务,尤其是文化、教育等方面,社会各方可以参与并结成伙伴关系,参与全球治理。教育领域跨国、跨区域的评估,特别是诸如PISA等大型国际教育评估项目就是在全球治理的背景下实现的。在联合国教科文组织、经合组织等机构的牵头下,各个国家积极推动教育国际化发展,在多边合作中制定方针和协议。要了解教育治理的效果如何,各个国家就需通过国际教育评价来了解自身教育情况,从而获得适合自身发展的教育模式和路径。


二、更加关注真实的社会情景和价值观教育
  国际教育评价的主要目的在于帮助学生提升解决问题的能力。2009年,PISA共收集了47 万多个有效学生样本,虽然主要测试内容是阅读,但问卷更新了对学生在数学、科学等方面的评价。就题目内容来看,PISA不是孤立地对待某些领域中的知识,而是把这些知识和学生的能力相联系,关注学生对知识和经验的反思,以及在现实工作环境中的应用等。对于每一个评价领域,PISA均关注学生知识掌握的过程、对理念的理解及其在各种具体情景中的运用。
  在关注真实的社会情景的同时,国际基础教育评价也非常重视价值观的测评。虽然PISATIMSS、国际公民与公民素养教育研究(International Civic and Citizenship Education StudyICCS)所侧重的角度有所不同,但均指向学生对于未来生活的适应能力。以ICCS为例,这个测试并非指向义务教育阶段学生所习得的基本素养,而是把目光聚焦于学生对社会现实的理解上,因而其评估的重点是学生对有关人际交往、社会以及相应政治制度的观点的把握。最初,相比数学、科学、阅读等学科的评估,很多国家对这种涉及价值观测评的国际评估并不是很感兴趣,但是,随着国际社会价值观冲突带来的一系列问题,以及国际社会民主化、现代化发展程度的提高,国际公民教育评估受到了越来越多的关注。


三、更多发展中国家加入,评价主体逐渐多元化
  随着联合国教科文组织、经合组织、世界银行等国际组织对发展中国家教育的持续关注,更多的教育资源流入发展中国家,推动了发展中国家教育条件的改善。国际基础教育评价也吸引了发展中国家的广泛参与。例如,中国2009年首次参加PISA,虽然只对外公布了上海的测试结果,但是对国际基础教育评价以及中国教育本身产生了重要影响。2012年,上海再次在阅读、数学和科学三大领域同时获得了世界第一的成绩,引发了全球瞩目——“这让我们又有了当年苏联抢先将人造卫星送入太空时美国人的震撼感”,美国《纽约时报》如此评价。在中国对上海所取得的成绩自豪或反思的同时,2015年,中国的北京、广东、江苏等地也将参与PISA。随着国际教育评价的逐步发展,将会有更多的发展中国家和地区参与其中。
  之前,评价主要聚焦于学生的学业成就,但从各大教育评估项目的发展来看,也开始关注教师和校长的作用。在国际基础教育评价的初期阶段,评估的主要对象是学生,获得的数据大多显示某地区学生个体呈现的差异。随着国际基础教育评价的逐渐发展,影响评估结果的因素逐渐被考虑在其中。例如,PISATIMSS在调查学生学业状况之余,还利用问卷搜集学生学习的背景信息,试图从原因层面对评估的结果做深层次解释。然而,这些方面的评估仅依附于PISATIMSS的附加内容,学生之外的教育评估主体的主体性并未得到很好的彰显。从国际教育评估发展的趋势来看,为了更好地描述一个国家或地区的教育体系,除了更好地巩固学生主体,势必要在评估中增加评价主体,如关注教师、校长,甚至学生依赖的社会环境等。其中,以“改进校长工作,提高学生学业成就”(Leadership Improvement for Student Achievement,LISA)和教与学国际调查(Teaching and Learning International Survey,TALIS)两个项目为代表。
  LISA有利于推动整个欧洲教育体系的创新,其并非直接针对学生群体,而是瞄准了与学校管理息息相关的校长,核心问题在于了解中学校长的领导风格、态度和实践,及其在学校改进和学生学业成就提升方面所起的作用,尤其了解在PISA等国际评估项目的影响日益增大的背景下,校长在提升学生基本学习技能方面所起的作用。该测评项目由欧盟委员会教育、视听与文化执行署资助,整个测评项目被置于欧盟“终身学习计划”(The Lifelong Learning Programme,2007-2013)之下,其目的在于提高欧洲中学绩效,改善校长领导力和学生学业成就,帮助学生获得终身学习的能力。
  教师及其有效教学也是提高学生学业成就的重要因素,因此,2007年,OECD发起了TALIS,该项目又被称为“教师版的PISA”,旨在为世界范围内的教师评价提供指导。该项目始于2008年,主要测评了24个国家中学教育中的教师和学校领导。期间,测评主要关注教师的工作环境、教学条件,及其对学校和教师效能的影响。2013年,参与该项目的国家或地区增加到34个,此时期的调查侧重于教师培训、教师评价及反馈、学校领导力、教师的教学信念以及实际的教学活动。虽然被称为“教师版的PISA”,但是TALIS更倾向于获取教师的态度和声音,针对教师的所思所想进行阐释、分析与评价,进而将评估结果反馈给校园,以这些指导性的意见来指导教师的实际教学,推动其专业发展,进而促进学生学业成就的提升。
四、在线测试成为主要方式,质性数据比重增加
  在科技迅猛发展的今天,评估方式也逐渐走向在线测试。在线测试相对于传统的测试方式,更加方便、快捷,不受时空限制。在线测试所具有的便捷的资源共享途径,使其测试资源更为丰富多样。同时,测试系统对于学生解答提问的及时反馈,有助于提高教师教学效率。
  2012年,在韩国首尔召开的第十二届国际数学教育大会(ICME-12)发布的报告提到了数学网络评估系统(Specific Mathematics Assessment that Reveals Thinking, SMART)。SMART系统能够在学生回答完毕后,及时将学生出错的原因和学生对问题的理解程度反馈给教师,并提出有针对性的教学建议。通过SMART系统,教师可以洞察学生的思考过程。SMART系统的使用流程如下:教师首先选取测试主题;其次启用有关此主题的SMART测试题目,并让学生作答;再次通过SMART系统提出的解题反馈,了解每名学生的解题方式;最后教师采用SMART系统提供的新题目继续测试学生。新的测试题目会在原来题目的基础上有微小变动,目的是更准确地判断学生对题目的掌握程度,及时发现学生的知识漏洞。
  随着大数据时代的到来,国际评估的抽样规模也越来越大。比如,PISA项目自2000年以来,已经实施了五轮测评,调查对象从最初的43个国家或地区发展到70个国家或地区,样本容量从最初的25万名学生发展到51万名学生。如果没有大规模的在线测试,如此大的工作量是不可想象的。这些反馈资源将成为一个国家、地区或学校发展的重要支撑。
  虽然互联网、大数据带来了更多的样本,量化的数据结果也确保了评估的精确性,但随着国际教育评估的发展,质性数据的比重也在增加。以PISATIMSS为例,最终显示出来的结果多以量化数据为主,但由于不同国家的社会、历史、文化背景不同,其学生的社会适应能力也将显现较大差异,这种差异不易在量化数据中体现,而更容易从质性资料中显现。因而,在这种情况下,量化研究的结果是否可信就成为一个问题。这些都是现有的以量化为主的国际评估不能较好地解释的问题,即如何解释数据背后的意义、相同的数据或分值背后是否具有不同的原因和结果等。因此,未来国际评估的发展趋势,将会从以单一量化数据为主到质性与量化相结合,通过访谈等方法,共同揭示各个参与测评国家或地区的教育问题。


五、过程与结果并重,更加理性地看待评估结果
  评估通常是以结果为导向的,尤其是发达国家教育体系相对稳定,教育条件不是制约教育质量提升的主要因素,因此,国际评价在发达国家的教育体系中主要体现在结果上,即关注学生是否满足当今社会的发展所需,是否具有适应国家乃至全球发展的能力。然而,发展中国家由于教育条件相对滞后,在国际评估中不仅关注评估结果,也注重评估过程。其实,许多发达国家的评估仍然注重评价过程,比如欧盟教育质量监测指标当中的教育质量监测涉及学习成就领域、教育成功和过渡领域、教育监测领域以及教育资源和结构领域,都是典型的过程与结构并重的教育质量标准框架。
  无论是管理者还是学术界,在重视评估结果的同时,开始更加理性地看待评估。通常而言,技能测评和教育制度的国际比较相对容易,文化因素的评估具有一定的难度。例如,上海在PISA中的表现实际上无法准确反映中国的教育表现。受国情、地域等差异的影响,国际教育评估应该淡化排名,以评估为契机,在跨文化的棱镜中审视各国或地区的教育体系,推动其教育发展。国际教育评估在未来发展的过程中,应该从评估设定的方法论上入手,提高评估的可测性,多维度评估教育主体,而不仅以学生学业成就作为评价的唯一标准。
  此外,由于国家或地区间教育标准具有差异,不同国家或地区的同一年龄段学生的学习内容相差较大。在这种情况下,各国学生适应未来的能力到底有多大程度的可通约性,如何抽样才能尽量保证结果公平,也是国际教育评估面临的挑战和未来的发展趋势。


六、结语
  随着教育的发展,政府越来越重视教育公平和质量。同时,人们也在追求更加满意的、个性化的、终身化的教育体系。由此,教育问责会越来越引起政府和第三方机构的重视。值得注意的是,受政治、经济、文化等外在因素的影响,笔者认为,国际教育评估的排名次序只是参照或提示,而非绝对标准,因为各个国家的教育体系和实际情况各不相同。在这种情况下,国家教育评估如何不危及世界上原本多样化的教育体制、学校类型、课程内容等,不使教育落入模式化、单一化的陷阱,是未来国际基础教育评价需要考虑的问题。即便如此,积极参与国际基础教育评价项目,借鉴国际教育评估先进经验做法,进而诊断和矫正我国基础教育存在的弊端,构建适合我国教情的评估体系、框架和指标,必要且需进一步加强。

 

(来源:2015年《世界教育信息》第19期)