北京第二外国语学院学报, 2020, 42(5): 32-45 doi: 10.12002/j.bisu.299

外语教学研究(语言能力等级量表研究专栏 主持人:金艳)

语言能力等级量表效度研究评述

李清华,1, 孔烁,2

1.南方医科大学外国语学院,广州 510515

2.山东水利职业学院,日照 276826

Research on Validity and Validation of Language Proficiency Scales: A Review

Li Qinghua,1, Kong Shuo,2

1. School of Foreign Studies, Southern Medical University, Guangzhou 510515, China

2. Shandong Water Conservancy Vocational College, Rizhao 276826, China

责任编辑: 栗娜

收稿日期: 2019-08-22   网络出版日期: 2020-10-30

基金资助: 教育部人文社会科学研究项目“中国医学学术英语能力等级量表研究”部分成果(17YJA740021)

Received: 2019-08-22   Online: 2020-10-30

作者简介 About authors

李清华,博士,南方医科大学教授,510515,研究方向:应用语言学。电子邮箱:lqhtesting@163.com

孔烁,山东水利职业学院,276826,研究方向:计算语言学。电子邮箱:reedandbicycle@gmail.com

摘要

语言能力量表在国家语言战略和语言教育中发挥着重大作用,2018年发布的《中国英语能力等级量表》(CSE)已经成为社会和学界关注的热点。本文在对量表效度研究进行梳理后发现,现有研究大多仅围绕量表的测评用途展开。在理论探索方面,朱正才(2016)方绪军、杨惠中(2017)提出了各自的效度验证框架。两个框架均持分类效度观,但所用概念名称不尽相同,种类略有差别,各有优势和不足。在量表效度验证方面,已有研究主要集中在量表的解读和对接方面。在这些研究中,对学习者真实语言行为的描述多来自专家、教师和学生的主观判断,这些数据的可靠性有待验证。因此,笔者认为有必要在教育与心理测量和语言测试领域效度理论指导下,针对语言能力量表的特点,进一步整合量表效度验证框架。对已有量表的效度验证和新量表研发应从对语言使用者的调查转到基于大规模语言使用者语料库的研究上来。必须指出,CSE等国内外著名语言能力量表均定位为“标准”,而“标准”的语言能力量表是语言测试开发的基础,所以语言测试的效度理论在多大程度上适用于能力量表值得进一步讨论。

关键词: 语言能力等级量表 ; 语言测试 ; 语言教育 ; 效度验证 ; 中国英语能力等级量表

Abstract

Language proficiency scales have played a significant role in national language strategy and language education. Recently, China’s Standards of English Language Ability (CSE) has drawn much attention from academia and the whole society. This paper reviews the current studies on validity and validation of language proficiency scales. It is revealed that most research has focused on one function of the scales—assessment tools. In terms of validity theory of language scales, two frameworks proposed by Zhu (2016) and Fang & Yang (2017) are discussed. Both frameworks hold that validity can be classified into several kinds, but they understand validity in different ways and apply different concepts to refer to the same validity. Comparison of these frameworks shows that Zhu (2016) and Fang & Yang (2017) each have their advantages and disadvantages. As for the experimental studies, interpretations of developing the scales and aligning them to other scales and tests have attracted the most effort. Discussion on the theoretical and experimental research of language scales leads us to propose potential future directions. On the one hand, it seems necessary to integrate the two current frameworks into a new model of validation of language proficiency scales that considers scale characteristics under the guidance of validity theory acknowledged in the educational and psychological measurements and language testing. On the other hand, it is arguable that descriptors of learners’ real language behaviors should come from collecting and selecting real data from a large group of language users rather than the subjective judgment of experts, teachers, and students, mainly because the subjective evaluation might not be fully reliable. Furthermore, CSE and other well-known language scales all boast that they should be used as standards on which language tests can be developed. Therefore it is an open question to what extent validity theories of language testing can be applied to validating language scales.

Keywords: language proficiency scales ; language testing ; language education ; validation ; China’s Standards of English Language Ability (CSE)

PDF (1527KB) 摘要页面 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

引用本文

李清华, 孔烁. 语言能力等级量表效度研究评述. 北京第二外国语学院学报, 2020, 42(5): 32-45. DOI:10.12002/j.bisu.299

Li Qinghua, Kong Shuo. Research on Validity and Validation of Language Proficiency Scales: A Review. Journal of Beijing InternaTional Studies University, 2020, 42(5): 32-45. DOI:10.12002/j.bisu.299

引言

语言能力量表(language proficiency scales(①Scale(量表)至少有两个含义,一是评分量表(rating scale,评分标准),二是语言行为水平描述语(performance level descriptors)。学界存在二者混用的问题(Fulcher,2016:31~32;朱正才,2016)。本文中的量表选取的是后者的含义。))是对语言使用者运用某种语言能力的系列描述,分为不同的级别,描述语言能力发展的不同阶段(韩宝成,2006)。制定语言能力标准是实现语言战略的重要手段,有助于维护国家和地区在政治、经济、军事、文化等方面的利益(韩宝成、常海潮,2011)。语言能力量表在语言教育中发挥着不可或缺的作用,是教学大纲制定、语言测评设计、教材编撰和教师发展等方面的基础和标准。语言能力量表的研制发轫于欧美国家。最早出现的语言能力量表是美国外事服务学院(Foreign Service Institute)于1955 年制定的口语能力量表,它被称为语言能力量表之母(North,2000)。近几十年来,欧美发达国家或地区纷纷制定各自的外语能力标准并推出相应的考试,以此作为推动外语教学发展和提升国民外语水平的重要手段(Masashi,2012),欧洲理事会推出的《欧洲语言共同参考框架》(Common European Framework of Reference for Languages,简称CEFR)就是其中的典型代表。

党的十八大以来,提高国民外语能力被提升到了国家战略高度,《国务院关于深化考试招生制度改革的实施意见》(国发〔2014〕35号)明确指出要建立我国国家外语能力测评体系。为了实现这一目标,首要任务便是制定统一的外语能力标准(刘建达,2015)。教育部考试中心组织研制的英语能力等级量表——《中国英语能力等级量表》(China’s Standards of English Language Ability,简称CSE)由中华人民共和国教育部、国家语言文字工作委员会(2018)发布。这是我国首个覆盖教育全学段的英语能力标准,在提升外语学习、教学和测评的质量,促进各学段衔接,推动外语教育“一条龙”建设方面将发挥重要作用(刘建达,2019)。

以CEFR和CSE为代表的语言能力等级量表引起了语言测试界的高度关注,研究的焦点包括量表的研制与解读(如North,2000/2014;刘建达,2015;刘建达、韩宝成,2018;潘鸣威,2017;曾用强,2017;金艳、揭薇,2017)、量表与其他考试或量表的对接(如Deygers et al.,2018;Green,2018;Martyniuk,2010;Papageorgiou,2010;何莲珍,2019;蔡宏文,2019)等方面。作为刻画和评价语言能力表现标准的量表,效度是其生命(方绪军、杨惠中,2017)。因此,在量表的制定和使用过程中,效度保证和验证始终都应处于优先地位(方绪军、杨惠中,2017;朱正才,2016;杨惠中等,2015;杨惠中、桂诗春,2007)。但是,语言能力量表的效度及其验证尚未引起学界的足够重视。因此本文将梳理国内外关于CEFR和CSE效度的理论探讨和实证研究,分析研究现状并尝试指出未来研究方向。

一、语言能力等级量表效度的理论研究

对于语言能力等级量表效度的讨论应在语言测试效度的理论框架下展开。国外有学者提出量表的效度问题(如Alderson,2002/2007;Byrnes,2007;North,2000/2014;Weir,2005等),但目前尚无效度验证的理论框架。因此,本文将仅针对国内现有的两个理论框架进行讨论。

1. 朱正才(2016)的“社会、教育和认知模型”

朱正才(2016)在讨论国际测量界和语言测试界效度研究的基础上,试图为CSE的效度研究构建一个完整的理论框架,称之为“社会、教育和认知模型”(①有学者主张,模型(model)是更为抽象的理论,与具体语境无关(context-free),而框架(framework)是模型的具体化(Fulcher,2016:31)。尽管汉语的“模型”和“框架”也有区别,但考虑到国内语言测试界的现状,本文不作区分。)(以下简称“朱框架”)。在该框架中,语言量表的效度是“量表能测量到目标语言能力构念的程度”(朱正才,2016:3),认为“测验(或量表)应该科学、公平,对相关决策有效,对英语教学和社会生活具有积极的影响”(朱正才,2016:9)。

在“朱框架”中,量表效度被分成“构念效度”(construct validity)、“公平效度”(fairness validity)、“教学反拨效度”(teaching backwash validity)、“社会影响效度”(social impact validity)和“决策效度”(decision validity),而“决策效度”是最高一级效度指标。

在量表构念设定和量表编制阶段,需要保证两类效度:一是构念效度,二是公平效度。构念效度是指“能测量到目标语言能力构念的程度”(朱正才,2016:6)。CSE的构念是对“中国人的英语能力概念”(②笔者不同意把“概念”与“构念”混用。概念所指的对象是已经被证实存在的东西,而构念所指的对象是未被证实存在的东西(张凯,2016:70)。朱正才(2016)也承认“构念”是“假设”(见下文朱对构念效度的界定)。)的理解和表述。构念效度研究可以分为“理性”和“实证”两大类。所谓“理性”是指用推理方法来论证假设(即构念);而“实证”则是用实验或调查数据来证实或证伪该假设。进行“实证”研究,首先要构建关于英语能力的假设;其次,用量表测量受试的英语能力,通过其他可靠的测量工具来测量其余与构念有关的变量;最后,用定性、定量或二者混合的方法来证实或者证伪研究假设。公平效度则是量表满足公平性原则的程度。这里的公平性原则指在量表设计的各个方面和环节均不存在对任何测量对象的偏差或歧视,而且每个被试都有充分展现目标能力的机会。它具体体现在三个方面:第一,保证能力目标样本的代表性,严格控制“与构念无关的变量”;第二,描述语中不存在性别、种族、宗教等方面的偏见或歧视;第三,保证使用过程的客观性、一致性和标准化。这一阶段需要收集语言能力构念、描述参数和等级划分、公平性等方面的效度证据。

在量表的应用阶段应保证决策效度。决策效度是指量表的测量结果“能帮助人们进行有效决策的程度”(朱正才,2016:8)。量表对社会决策产生的间接影响是“间接决策效度证据”,而把量表直接用于使用者自评和他评时则产生“直接决策效度证据”。

在社会反响调查阶段,主要分析两类效度证据:一是教学反拨效度,指量表对教学产生积极引导作用的程度;二是社会影响效度,指“能否正确引导中国英语教学、评价活动向国家战略目标靠拢”(朱正才,2016:8)。效度证据主要来自对利益攸关者的调查,包括教育管理者、教师、学生、专家学者以及政府、企业、舆论界的管理人员和研究人员等。

“朱框架”明确了各类证据的收集方法,主要包括问卷调查、田野调查、访谈、心理学实验法(如眼动、ERPs等)、统计学方法(如因子分析、结构方程建模、IRT模型分析等)以及大数据分析等。

2. 方绪军、杨惠中(2017)的量表效度验证框架

方绪军、杨惠中(2017)在语言测试效度理论和语言能力等级量表的理论和实践的基础上,提出了量表效度验证框架(下文简称“方杨框架”),其中包括构念、内容、效标关联和使用等四类效度。该框架认为,构念效度(③ “方杨框架”和上文“朱框架”中“构念效度”意义不同。)和内容效度属于量表的内在效度(internal validity),而效标关联效度和使用效度与外部因素有关,属于量表的外在效度(external validity)。内在效度是第一位的,在很大程度上决定着外在效度。

在“方杨框架”下,构念效度和内容效度可以结合起来进行验证。构念效度指量表“在多大程度上适应特定条件下语言教学和测试的需要,它的预期目标和用途、所依据的语言能力理论是否科学合理,制定量表的思路和方法是否可行”(方绪军、杨惠中,2017:5)。内容效度指量表内容在目标和用途、所描述的语言能力全距及各等级跨距、量表各等级上的语言能力侧面等方面反映构念的程度。

效标关联效度有两种验证途径:一是对接(④原文用“关联”。)(alignment),即把新建量表与经过效度验证的构念类似的现有量表或语言测试项目进行对接;二是匹配,即让教师、学习者同伴用量表来评价和描述学习者的语言能力表现,或学习者用量表进行自我评价。

使用效度指“在教学、测评实践中量表预期用途的实现程度”(方绪军、杨惠中,2017:11)。用途不同应使用不同种类的量表(⑤量表有多种种类和用途:(1)报告总体水平的简要的综合量表;(2)报告不同领域语言使用水平的量表;(3)具体的综合性评分量表;(4)具体的分析性评分量表;(5)作为教学大纲和测试标准的指导纲领(North,2000)。笔者认为,不同用途的量表应该有不同的质量检验标准。)。如果是供语言测试和评价之用,量表使用效度的证据来源包括:(1)用作语言测试项目对语言能力构念的具体描述;(2)作为描述和评价语言能力表现的标准;(3)为测试用户提供的直观分数解释;(4)实现不同测试项目报告分数的可比性。而对于面向教学需要的量表,其使用效度应表现在“量表为教学中分技能、分等级、分侧面训练语言技能提供有效的依据和支持”(方绪军、杨惠中,2017:11)。

该框架并未对效度研究方法开展单独讨论,但提出了量表效度验证的两个基本要求,一是科学性和可操作性并重,二是要进行有效的实验和调查。

3.语言测试效度理论框架下的语言能力量表效度

朱正才(2016)方绪军、杨惠中(2017)均认为,语言能力量表是语言能力的测量工具。如果一个量表的主要用途是测量语言能力,那么,其效度与效度验证就应该符合教育与心理测量和语言测试领域的效度理论要求。自20世纪80年代以来,Messick(1989)的效度一元观或整体论(a unified concept),即一个效度、多种证据的一元多维思想(李清华,2006)逐渐被学界接受。在美国《教育与心理测试标准》(Standards for Educational and Psychological Testing,以下简称“《标准》”)中,对效度的经典定义是:“证据和理论在多大程度上支持为特定使用目的对考试分数作出的解释”(American Educational Research Association et al.,2014:11)。效度验证是根据效度理论的一般要求和具体测试项目的实际情况从多方面收集理论依据和经验证据,以支撑测试结果的解释和使用的论证过程。效验的对象既不是某项测试,也不是该测试的结果(分数),而是根据测试结果作出的主张和决策(Kane,2006)。把考试结果的使用决策纳入效度验证之中,这超出了测量学的范畴。那么,效度验证需要收集哪些方面的证据?我们尝试结合《标准》的要求来分析上述“朱框架”和“方杨框架” 所需要的效度证据类型(参见表1)。

表1   效度证据分类对比

效度证据《标准》朱框架方杨框架
内容测试内容的代表性公平效度内容效度
反应过程测试的构念与测试过程中受试实际心理过程之间的吻合程度
内部结构测试特定维度的理据;试卷实际所测的维度与欲测维度的一致性构念效度;
内容效度
构念效度
与其他变量的关系收敛性(与相同或相似构念的其他测试的相关)和区别性(与其他不同构念测试的相关);与标准之间的关系决策效度效标关联效度
后效测试实施后对测试有关方面产生的影响教学反拨效度;社会影响效度使用效度

新窗口打开| 下载CSV


(1)基于内容的证据:一是所测试的内容是否充分代表了欲测量的全部目标,二是测试内容是否适合相对应的描述或分数解释。对于语言能力量表来说,主要看量表内容在多大程度上体现了量表的构念,表现为描述语库建设和描述语的量表化。在这一方面,上述两个框架虽然使用了不同的术语,但都作了较为详细的阐述。

(2)基于反应过程的证据:通常包括受试答题和评分员评分时的心理反应过程。对于语言能力量表来说,可以观察教师和学习者同伴用量表评价学习者语言能力的心理过程,或学习者用量表进行自我评价的心理过程。遗憾的是,上述两个框架都未提及该方面的证据。

(3)基于内部结构的证据:包含要测试特定维度的理据,以及具体试卷实际上在多大程度上测量到了这些维度。对于语言能力量表而言,主要看量表所依据的语言能力理论的科学性,以及量表所描述的语言能力全距及各等级跨距、量表各等级语言能力参数体现构念的程度。在这一方面,“方杨框架”的阐述更为全面,操作性较强。

(4)基于与其他变量关系的证据:一是关于收敛性(与其他具有相同或相似构念测试的相关程度)和区别性(与其他具有不同构念测试的相关程度)的证据,二是关于与标准之间关系的证据。对于语言能力量表而言,就是把新建量表与构念相同或类似的已经过效度验证的现有量表或语言测试项目进行对接。上述两个框架都重视这个方面的证据,只是归入了不同类别而已。

(5)基于测试实施后效的证据:测试后效指一项测试实施之后对有关方面产生的影响。对于语言能力量表而言,主要看量表的使用达到其预期效果的程度,一是对语言教学和测评的反拨作用,二是对社会的影响。在这一方面,“朱框架”更为全面。

总之,从语言测试效度理论的视角来看,“朱框架”和“方杨框架”各有优势和不足。

二、语言能力等级量表效度的实验研究

量表的效度验证是一个长期的、不断完善的过程。不论是在量表初稿形成时还是在定稿之后,都需要不断地收集证据,对量表进行验证,并作必要的修正(方绪军等,2008)。CEFR和CSE在开发过程中和发布之后都开展了系列效度验证。量表的对接研究非常重要,一方面可以建立量表与考试或其他量表之间的联系,另一方面对接过程中收集的证据能使基于量表的考试分数解释更为合理,同时也是量表效度验证的重要组成部分(Tannenbaum & Baron,2010)。

1. CEFR的效度验证

CEFR在研制过程中就十分重视量表的效度(Alderson,2002/2007;North,2000/2014),但并未提出量表效度验证的理论框架。尽管发布者强调CEFR不是实际的测评工具,而是语言能力参照(reference),甚至连CEFR的“标准”功能也被极力淡化(North,2014),但他们还是借用了语言测试基本的质量标准概念,特别是效度和信度,并对这些概念的内涵加以拓展。CEFR认为,效度是在多大程度上能够证明在特定环境中实际上测到了所应该测到的东西(构念),以及测评的结果在多大程度上能够准确反映考生的语言能力水平;信度则是同样的考生有多大的可能性在两次同样的测评中获得相同的名次(排序)。CEFR强调,根据量表对考生的语言能力等级作出准确判断比信度更重要,而分级的准确性既取决于量表级别适用于特定环境的效度,也取决于量表标准及其研发的效度(Council of Europe,2001)。

CEFR主要从研发方法和对接等方面保证其效度(Martyniuk,2010;North,2000/2014)。

首先,CEFR以交际语言能力模型为理论依据,采用面向行动的(action-oriented)方法描述语言能力,即把语言使用者和学习者看成是在具体环境或场景中以特定语言行为完成交际任务的社会角色,对其语言使用的过程和结果进行描述。CEFR量表涉及普通能力、交际语言能力、语言活动、语言活动领域、策略、任务、语篇等维度。这些维度便是语言能力描述的基本参数。

其次,CEFR十分重视描述语库建设及效度验证。具体操作分为三步:

(1)建立描述语库。CEFR先后分析了41个已有量表,收集不同量表各个语言能力级别的描述语,并作临时排序,要求每级均用一句话进行描述。

(2)定性效度论证。开发人员邀请了约100位有经验的教师对其各自班上共计约1 000名学生的语言能力进行评判,收集他们使用的描述语,选择清楚实用的描述语收入描述语库。

(3)定量效度论证。采用Rasch模型进行量表化。先初步分级和排序,然后让教师对班上学生进行评分,再作相关分析。不同级别之间用“锚题”连接,将描述语等级排成数字量表,然后确定级与级之间的分界线,最后确定分为6个等级(North,2000;杨惠中、桂诗春,2007)。

最后,开展对接研究。为了便于研究者开展量表对接研究,欧洲理事会(Council of Europe,2009)推出了《语言考试和欧洲语言共同参考框架对接手册》(Relating Language Examinations to the Common European Framework of Reference for Languages: Learning, Teaching, Assessment <CEFR>: A Manual)。其他考试与CEFR的对接研究已经成为测试研究领域的热点之一(如Figueras,2012;Green,2018等)。

2. CSE效度验证

CSE研制首席专家刘建达教授(2015)指出,CSE的研制严格遵循了科学性、实用性和可操作性的原则。CSE的编制分三步进行,即描述语收集、分类和分级。描述语主要来自于国内现有课程标准、教学大纲、考试大纲和国外语言能力标准文献,同时通过采样的方法进行补充。收集到的描述语由专家和教师进行初步分类,然后使用调查问卷加以验证。为了对描述语进行分级,首先通过大规模问卷调查,由语言使用者(专家、教师和学生)进行判断,然后使用Rasch模型等统计手段对调查问卷结果进行统计分析,锚定各个等级,最终确定各等级的描述语(刘建达,2015)。

由于CSE发布时间不久且为我国首个通用英语能力量表,对CSE效度的实证研究尚不多见。何莲珍、陈大建(2017)对CSE听力能力分量表从能力构念、等级划分、量表使用结果等方面进行了效度验证。他们把“构念效度”界定为量表的描述方式和参数框架能够反映其能力构念的程度。通过他们的描述可以知道,分量表研制者根据中国英语教学与测试的实际需求和国内外听力理解能力的最新研究成果设定了听力能力模型,据此提出描述语的参数框架,并经相关专家多次论证。此外,对教师和学生的访谈数据也是描述语的构念效度证据。为保证量表等级划分的效度,量表研制者采用了定性和定量相结合的方法。首先,量表研制者结合描述语的不同来源和中国英语学习者的能力现状,把描述语划分为九个级别;然后,面向量表使用者开展大规模问卷调查,要求参与者根据学生真实能力来判断描述语级别。同时,量表研制者还抽取教师、学生、职场人士等进行面对面访谈,根据反馈意见修正描述语的内容和级别。何莲珍、陈大建(2017)强调CSE使用后效论证的重要性,认为在不同领域的应用研究(如量表级别与二语习得顺序关系研究、CSE与国外量表及考试的对接研究等)都是重要的效度证据来源,但该研究并没有报告相关研究成果。

在CSE对接研究方面,何莲珍(2019)提出了语言能力等级量表的对接效度验证框架——对接使用论证(Linking Use Argument)框架,主张对接研究的效度验证应从对接后效、对接决策制定、对接结果解释、对接记录等方面收集证据,明确了所要回答的问题及研究方法。在此框架下,闵尚超(2019)使用综合标准设定和教师评判数据,从一致性角度考察了雅思考试阅读部分与CSE对接结果的效度;蔡宏文(2019)从概推性和一致性角度考察了雅思考试写作部分与CSE对接的效度;张洁、王伟强(2019)则从培训师职责的视角,探讨了普思考试听力部分与中国英语等级量表对接的效度。此外,揭薇(2019)运用决策一致性系数、多层面Rasch模型分析等方法评估标准设定质量,运用逻辑回归和中点分析法计算分界分数,采用标准设定方法建立了CSE的口语量表与大学英语四级口语考试的对接框架。

结语

迄今为止,语言能力量表的效度研究仅围绕量表的测评用途展开。在理论探索层面,朱正才(2016)方绪军和杨惠中(2017)的量表效度验证框架基本一致,均持分类效度观。但是,两个框架的概念名称不尽相同(如公平效度与内容效度、决策效度与效标关联效度),效度类别之间存在交叉(如“朱框架”的决策效度与“方杨框架”的使用效度),种类略有差别。“朱框架”强调决策效度的首要地位,而“方杨框架”则坚持内在效度(构念和内容)是第一位的。“朱框架”的优势在于突出了公平性和后果(教学反拨效度和社会影响效度)的重要性;“方杨框架”的长处则在于对构念效度和内容效度的界定更为清晰详细,且可操作性更强。因此,笔者认为,有必要在教育与心理测量和语言测试领域效度理论的指导下,针对语言能力量表的特点,进一步整合“朱框架”和“方杨框架”,探索新的理论框架,以便更好地指导量表效度研究。

在量表的效度验证方面,CEFR和CSE在开发过程中和发布之后都开展了较多的研究,但均主要集中在量表的解读和对接两个方面。第一类研究已有多篇论文问世(如刘建达,2019;曾用强,2017等),有助于加深人们对语言能力量表的理解,避免误解或误用。第二类研究刚刚兴起,何莲珍(2019)蔡宏文(2019)等就量表对接研究所做的探索成为亮点。但是,总体来看,量表效度验证的实验研究数量仍然较少。通过现有的研究成果来看,对学习者真实语言行为的描述多来自专家、教师和学生的主观判断,这些数据本身的可靠性无法完全确定。CEFR的研究者已经开始了基于“剑桥学习者语料库”(Cambridge Learner Corpus,简称CLC)的研究,建立了“英语档案库”(English Profile),从中获得了更为具体的基于真实数据的语言参照水平描述,以便完善CEFR,使其更具可操作性(Saville & Hawkey,2010)。对基于大规模实证数据的语言特征参数的研究有助于挖掘学习者在使用语言时所呈现出的语言区别性特征(Davies,2008;Wisniewski,2017/2018)。与此同时,国内学者也开始关注学习者语料库在量表研制中的作用(赵雯等,2015)。可以预见的是,大规模语言使用者语料库将在语言能力量表的开发和效度验证中发挥更大的作用。

本文综述表明,无论是量表解读还是量表效度验证,国内学者的注意力多集中于量表的“测评”功能上。其实,CSE的用途可以是多方面的。对于英语教学而言,量表可以用来帮助教材编写单位编写合适的教材,帮助教育机构制定英语课程教学大纲,帮助教师制定明确、详细、切实的教学目标,帮助教师、学校设计检测学习计划的评估办法和工具等(刘建达,2015;刘建达,韩宝成,2018)。笔者认为,语言能力量表是为使用者提供参考的“标准”,其主要功能是“报告”(report)而非“测量”(measure)。CEFR和国外其他量表的定位均为“标准”(Harsch,2018),对于这类语言能力量表,其描述语的首要功能不再是评分工具(Fulcher,2016)。 CSE虽然表述为“量表”,但它对量表的定义是“对能力进行评估和分级的系列标准”(中华人民共和国教育部、国家语言文字工作委员会,2018:1),所以其题目对应的英文翻译是China’s Standards of English Language Ability,且作为语言文字规范发布。CSE可以为我国的英语学习、教学和测评提供一个统一的参考标准,为各级各类大纲或指南提供衔接连贯的参考(刘建达,2019)。因此,不同于作为能力测量工具的语言量表的效度,作为标准的量表的效度是指描述语在多大程度上全面准确地刻画了学习者的语言行为,并对他们的语言能力准确定级。那么,语言测试的效度及其验证理论与方法能够在多大程度上适用于作为“标准”的语言能力量表,这一问题值得学界进一步讨论。

参考文献

Alderson J C.

Common European Framework of Reference for Languages:Learning,Teaching,Assessment:Case Studies

[C]. Strasbourg:Council of Europe, 2002.

[本文引用: 2]

Alderson J C.

The CEFR and the need for more research

[J]. The Modern Language Journal, 2007,91(4):659~ 663.

[本文引用: 2]

American Educational Research Association, American Psychological Association, National Council on Measurement in Education & Joint Committee on Standards for Educational and Psychological Testing.

Standards for Educational and Psychological Testing

[Z]. Washington, DC:American Educational Research Association, 2014.

[本文引用: 1]

Byrnes H.

Perspectives

[J]. Modern Language Journal, 2007,91(4):679~ 685.

[本文引用: 1]

Council of Europe.

Common European Framework of Reference for Languages:Learning,Teaching,Assessment

[Z]. Cambridge:Press Syndicate of the University of Cambridge, 2001.

[本文引用: 1]

Council of Europe.

Relating Language Examinations to the Common European Framework of Reference for Languages:Learning,Teaching,Assessment:A Manual

[M]. Strasbourg:Language Policy Division,Council of Europe, 2009.

[本文引用: 1]

Davies A. Assessing Academic English:Testing English Proficiency,1950—1989—The IELTS Solution[M]. Cambridge: Cambridge University Press, 2008.

[本文引用: 1]

Deygers B, Carlsen C, Saville N, et al.

The use of the CEFR in higher education:A brief introduction to this special issue

[J]. Language Assessment Quarterly, 2018,15(1):1~ 2.

DOI:10.1080/15434303.2017.1421957      URL     [本文引用: 1]

Figueras N.

The impact of the CEFR

[J]. ELT Journal, 2012,66(4):477~ 485.

DOI:10.1093/elt/ccs037      URL     [本文引用: 1]

This article provides some context for the unquestionable influence of the Common European Framework of Reference for Languages: Learning, Teaching, Assessment (CEFR) on language learning, teaching, and assessment ten years after its publication. If a survey about the most relevant and controversial document in the field in the twenty-first century were to be carried out, the CEFR would most surely be the top one. The document itself has been translated into all European languages, and its scales are now available in more than 40 languages, including sign language. The CEFR levels and its scales have become currency in Europe and beyond, and its recommendationshaving seduced governments and institutionsare slowly finding their way into everyday practice. The CEFR, however, is not a model of absolute perfection, and criticisms and challenges will also be reviewed and discussed.

Fulcher G.

Standards and framework

[C]// Tsagari D & Banerjee J. Handbook of Second Language Assessment. Boston/Berlin:Walter de Gruyter, 2016: 29~ 44.

[本文引用: 3]

Green A.

Linking tests of English for academic purposes to the CEFR:The score user’s perspective

[J]. Language Assessment Quarterly, 2018,15(1):59~ 74.

[本文引用: 2]

Harsch C.

How suitable is the CEFR for setting university entrance standards?

[J]. Language Assessment Quarterly, 2018,15(1):102~ 108.

[本文引用: 1]

Kane M. Validation[C]//Brennan R. Educational Measurement. Westport,CT: Greenwood Publishing, 2006: 17~ 64.

[本文引用: 1]

Martyniuk W. Aligning Tests with the CEFR:Reflections on Using the Council of Europe’s Draft Manual[C]. Cambridge: Cambridge University Press, 2010.

[本文引用: 2]

Masashi N.

The development of the CEFR-J:Where we are,where we are going

[C]// Tomimori N,Furihata M,Haida K et al. New Perspectives for Foreign Language Teaching in Higher Education:Exploring the Possibilities of Application of CEFR. Tokyo:Tokyo University of Foreign Studies, 2012: 10~ 116.

[本文引用: 1]

Messick S.

Validity

[C]// Linn R L. Educational Measurement. 3rd ed. New York:American Council on Education and Macmillan, 1989: 13~ 104.

[本文引用: 1]

North B.

The Development of a Common Framework Scale of Language Proficiency

[M]. New York:Peter Lang, 2000.

[本文引用: 7]

North B. The CEFR in Practice[M]. Cambridge: Cambridge University Press, 2014.

[本文引用: 5]

Papageorgiou S.

Linking international examinations to the CEFR:The Trinity College London experience

[C]// Martyniuk W. Aligning Tests with the CEFR:Reflections on Using the Council of Europe’s Draft Manual. Cambridge,UK:Cambridge University Press, 2010: 145~ 158.

[本文引用: 1]

Saville N & Hawkey R.

The English Profile Programme:The first three years

[J]. English Profile Journal, 2010,1(1):1~ 14.

[本文引用: 1]

Tannenbaum R & Baron P.

Mapping TOEIC Test Scores to the STANAG 6001 Language Proficiency Levels

[R]. Princeton,NJ:Educational Testing Service, 2010.

[本文引用: 1]

Weir C J.

Limitations of the Common European Framework for developing comparable examinations and tests

[J]. Language Testing, 2005,22(3):281~ 300.

[本文引用: 1]

Wisniewski K.

Empirical learner language and the levels of the Common European Framework of Reference

[J]. Language Learning, 2017,67(S1):232~ 253.

[本文引用: 1]

Wisniewski K.

The empirical validity of the Common European Framework of Reference scales:An exemplary study for the vocabulary and fluency scales in a language testing context

[J]. Applied Linguistics, 2018,39(6):933~ 959.

[本文引用: 1]

蔡宏文.

产出型语言考试与语言标准对接的效度问题——概推性与一致性

[J]. 现代外语, 2019(5):709~ 721.

[本文引用: 3]

方绪军, 杨惠中.

语言能力等级量表的效度及效度验证

[J]. 外国语, 2017(4):2~ 14.

[本文引用: 12]

方绪军, 杨惠中, 朱正才.

制定全国统一的语言能力等级量表的原则与方法

[J]. 现代外语, 2008(4):380~ 387.

[本文引用: 1]

国务院.

国务院关于深化考试招生制度改革的实施意见[Z]

北京, 2014.

[本文引用: 1]

韩宝成.

国外语言能力量表述评

[J]. 外语教学与研究, 2006(6):443~ 450.

[本文引用: 1]

韩宝成, 常海潮.

中外外语能力标准对比研究

[J]. 中国外语, 2011(4):39~ 46.

[本文引用: 1]

何莲珍.

语言考试与语言标准对接的效度验证框架

[J]. 现代外语, 2019(5):660~ 671.

[本文引用: 3]

何莲珍, 陈大建.

中国英语能力等级量表结构探微——听力描述语的横向参数框架与纵向典型特征

[J]. 外语界, 2017(4):12~ 19.

[本文引用: 2]

揭薇.

英语口语考试与中国英语能力等级量表对接研究——以CET-SET 4为例

[J]. 外语界, 2019(1):71~ 81.

[本文引用: 1]

金艳, 揭薇.

中国英语能力等级量表“口语量表”制定原则和方法

[J]. 外语界, 2017(2):10~ 19.

[本文引用: 1]

李清华.

语言测试之效度理论发展五十年

[J]. 现代外语, 2006(1):87~ 95.

[本文引用: 1]

刘建达.

我国英语能力等级量表研制的基本思路

[J]. 中国考试, 2015(1):7~ 11.

[本文引用: 5]

刘建达.

中国英语能力等级量表

[J]. 中国外语, 2019(3): 1, 11~ 12.

[本文引用: 3]

刘建达, 韩宝成.

面向运用的中国英语能力等级量表建设的理论基础

[J]. 现代外语, 2018(1):78~ 90.

[本文引用: 2]

闵尚超.

接受型语言考试与语言标准对接的效度问题——一致性

[J]. 现代外语, 2019(5):696~ 708.

[本文引用: 1]

潘鸣威.

中国英语写作能力等级量表的典型写作活动构建:系统功能语言学的文本类型视角

[J]. 外语界, 2017(2):37~ 43.

[本文引用: 1]

杨惠中, 桂诗春.

制订亚洲统一的英语语言能力等级量表

[J]. 中国外语, 2007(2):34~ 37.

[本文引用: 2]

杨惠中, 朱正才, 方绪军. 尽快制定统一的中国语言能力等级量表[C]//杨惠中,桂诗春. 语言测试社会学. 上海: 上海外语教育出版社, 2015: 132~ 142.

[本文引用: 1]

曾用强.

中国英语能力等级量表的“阅读量表”制定原则和方法

[J]. 外语界, 2017(5):2~ 11.

[本文引用: 2]

张洁, 王伟强.

接受型语言考试与语言标准对接的效度问题——来自标准设定过程的证据

[J]. 现代外语, 2019(5):684~ 695.

[本文引用: 1]

张凯. 语言测试概论:几个问题[M]. 北京: 北京语言大学出版社, 2016.

[本文引用: 1]

赵雯, 金檀, 王勃然.

大学英语语言能力标准的研制——理论、实践及启示

[J]. 现代外语, 2015(1):102~ 122.

[本文引用: 1]

中华人民共和国教育部, 国家语言文字工作委员会. 中国英语能力等级量表(国家语言文字规范GF0018-2018)[S]. 北京: 高等教育出版社, 2018.

[本文引用: 2]

朱正才.

中国英语能力等级量表效度研究框架

[J]. 中国考试, 2016(8):3~ 13.

[本文引用: 15]

版权所有 © 北京第二外国语学院学报
地址:北京市朝阳区定福庄南里1号 邮编:100024
电话:010-65778734 传真:010-65778734 邮箱:flexuebao@126.com
本系统由北京玛格泰克科技发展有限公司设计开发

/