AUA框架下的國際漢語水平考試效度驗證

2025-01-19 00:00:00金璟雯代春倩孫志廣

考試研究 2025年1期

[摘要] 基于測試使用論證框架，對國際漢語水平考試進行效度驗證。研究發現，其具備測試框架的真實性要素，同時存在評分員與考生的文化背景缺乏匹配、忽視初級漢語水平學習者與中華文化的互動、翻譯測評任務與考生的母語背景匹配不足等問題；據此提出評分員地區化匹配、加大文化要素考查、文本語種多樣化等建議。

[關鍵詞] AUA框架；HSK；效度；論證分析

[中圖分類號] G424.74 [文獻標識碼] A

[文章編號] 1673—1654（2025）01—073—007

一、引言

近年來，人類命運共同體理念深入人心，中國在經濟、科技領域的國際影響力不斷增強，國際中文人才需求大增?！爸形模玐”的培養和學習模式在國際中文教育領域發展勢頭迅猛，越來越多的中文二語學習者（以下簡稱為“學習者”）將學習目標設定為依托中文為載體，強化其在經濟、貿易、臨床醫學等特定領域的學習。對這類學習者來說，中文有“目標語言”和“工具語言”兩大功用，其學習過程也是在中文語言環境下對某一具體領域的信息進行獲取、交換和加工的過程[1]。漢語水平考試（HSK）目前已成為繼雅思、托?？荚嚭笕虻谌笳Z言考試品牌，“中文＋”的發展態勢對其效度提出了更高要求。

2003年，Bachman從哲學方法論的角度出發，首次提出構建AUA（Assessment Use Argument，測試使用論證）框架對測試進行效度驗證的設想[2]。2007年在美國應用語言學協會年會上，Bachman作了以“Language Assessment： Opportunities and Challenges”為題的報告，提出用AUA框架指導目前學界關注的各種問題，如測試語言能力的本質、測評的公平性及其后果等[3]，將測試的效度驗證范圍擴大到其社會需求和價值層面。2010年，Bachman和Palmer將AUA框架的各種主張和理據結合考試實踐進行細化，并提出一系列更具可操作性的語言測試開發指南問題[4]，推動了語言測試開發、設計和實踐朝著更加科學化的方向發展。

本文采用AUA理論框架對HSK進行效度分析，論證其測試機制及是否與當下多元化的漢語學習需求和社會環境相適應，并指出HSK目前存在的不足，為HSK更好地服務于各類學習者提供建議。

二、測試使用論證（AUA）框架概述

1996年，Bachman認為對測試進行效度論證可以從多個方面入手，為此他提出了“測試有用性”模式，具體包括六個要素，即信度、構念效度、真實性、互動性、影響和可行性[5]，測試研究者可以把這六要素作為檢查語言測試質量的指標，但其內部之間缺乏邏輯連接，無法將其作為一個整體的理論框架與測試分析相結合。2005年，Bachman提出了測評論證的結構（The Structure of an Assessment Argument）[6]，該結構指出從決策到測試表現可以雙向論證，且論證過程有理據支撐和反駁依據，但其并未將測試效果納入論證過程。

基于以上理論基礎，2007年，Bachman將“測試有用性”模式的六個要素與測評論證的結構結合起來，并將測試結果納入框架結構（見圖1）[3]，雙箭頭表明測試開發、設計和使用過程中的各種主張（如效果、決策、解釋等）相互關聯。2010年，Bachman和Palmer闡述了AUA理論框架的各種主張用于指導語言測評實踐的具體行動指南（見圖2）【4】。

如圖1所示，在對測試進行效度驗證時，“測試有用性”模式的六個要素分別成為測評使用論證過程中不同主張的理據支撐?！靶哦取备拍钪父鶕忌臏y評表現所作的測評記錄的穩定性；測評任務的互動性是考生表現的前提；根據測評記錄所作的解釋是否是合理的、恰當的、有意義的是構念效度的保證；解釋和決策之間的互動在于二者之間的關聯程度；決策的制定所產生的影響是考試使用效果的一部分；真實性貫穿測評使用論證的全過程，和其他五個要素相結合共同作用于語言測評的效度論證，其在語言測評的開發和使用過程中體現的維度是多方面的。

完整的語言測評過程包括需求分析/測評的預期目的、測評構念/測評任務、施測、評閱、測評記錄、分數解釋、決策和效果分析這些環節，真實性在這些環節中都有所體現，例如關于實施測評的預期目標與相關利益群體的真實需求契合、測評任務的設置與目標語言使用域結合、施測過程中對于測評所需的客觀條件與受測者所處的環境條件的差異進行人性化處理、評閱過程中測評標準的設定與受測者的學習目標相吻合、測評記錄真實有效、分數解釋與真實的交際環境相匹配、測評的效果分析與受測者的個人成長發展及認知相結合等[7]。

如圖2所示，Bachman和Plamer提出了AUA框架下測評開發過程中關于效果、決策、解釋和測評記錄這四項主張的具體實踐指南，語言測評開發者通過對這15個問題的思考，促進語言測評朝著更加科學化的方向發展。

三、AUA框架下的HSK效度論證

（一）HSK信度論證

在不同等級水平測試中，HSK題型題量的分布設計具有差異性。如表1所示，聽力和閱讀這兩類題目在各個等級水平考試中均有所考查，考查形式多為選擇題，作答形式為填涂答題卡（紙筆考）或鼠標點擊選項（機網考），機器閱卷評分，此類客觀題完全避免了人工評分主觀因素的干擾，測評記錄和結果僅根據考生作答情況給出結論。HSK三級到七-九級測評任務增加了寫作、翻譯等主觀題，此類題型能較好地考查考生的中文運用和表達能力，但由于評分方式為人工閱卷，測評記錄易受到考生和評分員兩個主體的主觀因素影響。

從評分員這一主體角度出發，以中文考試服務網提供的HSK七-九級樣卷寫作題目為例，考生關于中國城鄉地區互聯網普及率這一主題寫作，在分析城鄉差異背后原因時，不同評分員對該現象出現原因有不同見解，依據考生作答記錄，評分會出現差異性，此類情況下，依據考生的測評表現做出的測評記錄具有不穩定性。因此，評分員的專業性在測評的信度高低方面具有關鍵作用。

評分員的遴選和培訓是閱卷環節的基礎及核心，可有效控制主觀題評分誤差，履歷分析法是評分員遴選過程中行之有效的人才選拔理論[8]。對評分員工作以及生活背景進行分析，從而判斷其能否勝任評分工作，可以最大限度保證評分員和考試測評的適配性，提高測評記錄信度，HSK評分員大多在國內外從事一線教學的國際中文教師隊伍中選拔，具備寫作、翻譯等專項的實際教學經驗，能夠根據考生的作答較為準確地判斷其中文水平。

初步遴選出HSK評分員后，在培訓過程中，要求其對樣卷進行試評并說明理由，若評分員內部之間存在分歧，則進行討論，直至意見統一。在評分員討論、反思、修正評分的過程中，不同的個體逐漸達成一致的評分意見，測評記錄具有更高的信度和效度。最后進行實操考核，要求其在限定時間內，在兼顧質量和效率的前提下，完成大規模評分任務，通過與專家評分的差異分析，對其進行評分水平評定，確定考核是否合格[9]。這種“試評＋考核”的培訓方式將不同的個體置于統一的集體中，使個體形成監控自身評分、與其他評分員評分達成一致的意識，最大限度降低個體差異性對評分帶來的主觀影響，并且最終考核對標專家評分，為測評提供了更多信度支撐。

從考生主體出發，隨著影響力范圍不斷擴大，中文吸引了越來越多的來自不同政治經濟制度和文化背景的國家和地區的學習者，受母語文化背景的影響，其對中國文化與國情的理解與認同度不盡相同。盡管大多數評分員都來自教學一線且閱卷前接受過統一培訓，但其執教面對的學習者群體學情不同。以考生關于中國城鄉地區互聯網普及率這一主題寫作為例，來自發達國家（或地區）的學生與來自欠發達國家（或地區）的學生對這一問題具有不同看法，在閱卷過程中，評分員所做的測評記錄可能會受學情差異影響，進而影響測評的信度。

（二）HSK構念效度論證

構念效度是從認知視角出發，說明測評結果的得出是否與測評目標的實現相關的重要參考依據，根據測評表現所做的解釋與測評目標的一致性是保證二者相關的基礎。

2022年，依據《國際中文教育中文水平等級標準》（GF0025-2021）（以下簡稱“《標準》”），中外語言交流合作中心新設的HSK七-九級首次開考，一卷三級，根據考生表現做出相應測評記錄，最終對標《標準》，對考生作出HSK是否達到七級、八級及九級的測評判斷。《標準》以言語交際能力、話題任務內容和語言量化指標形成三個評價維度，以中文聽、說、讀、寫、譯作為五項語言技能，體現了語言要素清單型標準與任務、技能型標準的統合[10]，從而準確定位學習者的中文水平。

HSK重點考查中文作為第二語言的學習者在真實場景中將中文作為語言技能進行交際的能力，依據《標準》對考生的測評表現做出的解釋應與實際情境下交際所需的語言水平一致。但文化與語言密不可分，在真實情景中進行交際所需的認知不能脫離文化背景，表2為HSK各等級考試考查的相應內容，一至三級考查內容并未涉及到相關中華文化與國情層面。

（三）HSK真實性論證

1. 交際能力運用的真實性

語言測評對考生語言能力的闡釋能否推廣到非測試環境中是論證語言測評真實性的重要依據。目標語言使用域（Target Language Use，簡稱TLU）是指除測試任務本身之外的需要考生完成語言使用任務的特定的情景語境，HSK考生出于某些現實需求，通過HSK相應等級考試獲取證書證明自己的中文水平，對他們來說，將中文運用到真實交際情景滿足需求才是測評目的。

由于真題的保密性，目前只有一套官方出版的HSK七-九級樣題在中文考試服務網站中可見，對其測評試題的分析缺少樣本支撐。在2022年11月26日，HSK七-九級正式開考之前，HSK六級曾作為證明學習者中文水平最高等級的考試，對其測評試題的分析具有一定的研究意義。因此，本文以2018年官方出版的HSK六級考試真題集的5套試題為例，對書寫題進行論證，分析其與目標語言使用域，即中文交際環境的相關性。

官方給出的5套書寫題題目要求都是根據語篇內容進行縮寫，要求考生在10分鐘內了解語篇內容，在不重復原文語篇內容的前提下，對語篇的信息進行整合提取并完成縮寫。縮寫考查考生對語篇中關鍵信息進行選擇和轉述的能力，是對語碼的二次轉換，真題集收錄的語篇類型皆為敘事型語篇，敘事型語篇的主要語用功能在于通過對事情的敘述使聽話人理解事情的前因后果[11]，從而達到交際的目的。HSK六級通過縮寫這一寫作形式考查考生對語碼的二次加工和輸出，完成信息的傳遞，交際的過程實際上就是個體之間信息傳遞的過程，完成相關測評任務的HSK考生具備一定的在中文語境中交際的能力。

2. 施測過程的真實性

在對測評進行真實性效度論證分析時，施測過程具有人性化也是論證語言測評真實性的參考依據[12]。如表3所示，在新冠疫情期間，為滿足學習者申請國際中文教師獎學金、畢業、求職等考試需求并兼顧其健康與安全，官方發布了HSK系列居家網考的通知，為考生提供便利。

表3統計的相關居家網考通知的時間范圍限定為疫情期間，結合其他國家的政策，2024年5月25日，官方發布面向美洲、歐洲、大洋洲、非洲國家考點開放的居家網考通知，最大限度保證考生的健康、安全，充分體現了測評過程實施的人性化。

（四）測評任務的互動性

1.知識的互動性

在語言測評具體實踐中，互動性是指考生接收到測評任務發出的指令后，個體特質被該指令激發，語言知識、話題知識等都是個體特質的范疇[13]。HSK七-九級考試翻譯部分均為外文譯為中文，翻譯材料只提供英語、越南語、泰語、日語、韓語五種語言，但該測評機制的設置未充分體現AUA框架提出的互動性，聯合國六大官方語言為漢語、英語、阿拉伯語、俄語、法語、西班牙語，該六大官方語言設定的背后與一定政治經濟因素有關，但語言屬于文化范疇，HSK七-九級外譯中提供的翻譯材料語言與聯合國官方語言重合的只有英語。

對于母語非英語、越南語、泰語、日語、韓語這五種語言的學習者來說，要通過HSK七-九級考試還要掌握這五種語種中的一種才能完成該項測評任務，對于此類學習者來說，還要研究參加考試語種的文學特色或相關語言學知識才能更好地達到翻譯目標，完成語言測評的任務。此類學習者在HSK七-九級測評中，對于翻譯這項測評任務，要對語碼進行二次轉換，該測評任務語種的設置與AUA理論框架提倡的互動性有一定差異性，同時也不利于對學習者的漢語水平進行真實測評。

2.中華文化的互動性

如表2所示，HSK一至三級考查內容未包含相關中華文化和中國國情，處于這三個HSK水平的學習者中文語言能力較為薄弱，不具備真實話題場景下的交際技能，但語言學習和能力的掌握是一個循序漸進的過程，《國際中文教育用中國文化和國情教學參考框架》（以下簡稱“《參考框架》”）從宏觀與微觀兩個層面結合，將文化教學目標劃分為文化知識、文化理解、跨文化意識、文化態度四個維度[14]，文化教學與語言教學是齊頭并進的，國際中文教育中對學習者文化的四個維度的培養應當貫穿語言學習的整個過程，HSK一至三級忽視對中華文化和國情的考查，測評任務的設置沒有體現初級水平的漢語學習者與文化的互動。

四、結語

本文從“測試有用性”模型中的信度、構念效度、真實性、互動性四個層面對現有的HSK進行了效度論證分析。研究發現，從評判學習者的語言交際能力和施測過程兩方面來看，HSK具備AUA測試框架的真實性要素；從閱卷過程中依據考生作答情況做出的測評記錄來看，HSK 評分員與考生的文化背景匹配方面信度支撐不足；從評判學習者對中文和中國文化以及國情的掌握匹配程度來看，HSK缺乏一定的構念效度支撐且忽視了初級漢語水平的學習者與中華文化的互動性這一要素；從測評任務與考生的互動性這一方面來看，HSK相關題型（翻譯）的語言設定忽視了二者之間的互動性要素。

據此，對HSK開發和使用的進一步完善提出以下建議。

（一）評分員地區化匹配

根據考生來自的國家和地區對其進行分組，并匹配具有相關國家和地區執教經驗的國際中文教師作為評分員。這既有利于教師及時把握執教地區學習者的學情，及時調整教學策略與教學方法，又能有效提高HSK的信度，閱卷過程中，評分員可以結合實際教學學情，依據考生的測評表現得出真實有效的測評記錄與測評結果。

（二）加大文化要素考查

HSK一至三級測評任務的開發和設置應增加對于文化要素的考查。《參考框架》對文化教學目標進行了分級，HSK各等級測評任務的開發與成績的評定應參照《參考框架》并結合《標準》，判定其是否具備真實場景下中文交際的能力，以確保測評的構念效度和測評后效的真實性。

（三）文本語種多樣化

在考生報名HSK時，可在系統上對考生的母語進行統計，測評團隊根據當次考生母語統計結果對翻譯原文文本的語種進行設定，此舉既可精準對接考生語言背景，減少命題工作量，又可最大限度地實現測評任務與考生之間的互動性，提高測評結果反映考生語言能力的真實性。

本文僅基于AUA框架的信度、構念效度、真實性以及互動性這四個維度對HSK進行了論證，HSK相關測評任務的可行性與后續影響的研究有待進一步探討。

參考文獻：

[1] 李宇明，李艷華.“中文+X”的類型及“工具語言”問題[J].世界漢語教學，2024，38（02）：147-159.

[2] Bachman L F. Constructing an Assessment Use Argument and Supporting Claims about Test Taker-Assessment Task Interactions in Evidence-Centered Assessment Design [J]. Measurement： Interdisciplinary Research and Perspectives， 2003，（1）： 63-65.

[3] Bachman L F. Justifying The Use Of Language Assessment [EB/OL]. http： //www.oxford.co.kr/ 2007_oxford_day/ppt/bach2.pps. 2007a， 2007.

[4] Bachman L F， A S Palmer. Language Assessment in Practice： Developing Language Assessments and Justifying their Use in the Real World [M]. Oxford： Oxford University Press， 2010.

[5] Bachman L F， A S Palmer. Language Testing in Practice： Designing and Developing Useful Language Test [M]. Oxford： Oxford University Press，1996.

[6] Bachman L F. Building and Supporting a Case for Test Use [J]. Language Assessment Quarterly，2005，（1）.

[7] 徐啟龍.AUA框架——語言測評理論的新發展[J].外語電化教學，2012，（01）：37-41.

[8] 劉建華，馬睿，郜國民，等.主觀題網上閱卷員隊伍建設與誤差控制研究[J].中國考試，2012，（09）：32-39.

[9] 肖媛，劉玉屏，李群鋒.漢語水平考試（HSK）評分員培訓的實證研究[J].中國考試，2022，（09）：69-75.

[10] 王祖嫘.《國際中文教育中文水平等級標準》與海外中文課程大綱的耦合與互動[J].貴州師范大學學報（社會科學版），2024，（03）：84-95.

[11] 喬恒宇.敘事型語篇的信息結構及其認知分析[J].雞西大學學報，2016，16（09）：140-143.

[12] 胡范鑄，劉毓民，胡玉華.漢語國際教育的根本目標與核心理念——基于“情感地緣政治”和“國際理解教育”的重新分析[J].華東師范大學學報（哲學社會科學版），2014，46（02）：145-150+156.

[13] 辜向東，彭康洲.從測試有用性到測試使用論證：Bachman語言測試理論的新發展[J].中國外語，2008，（06）：37-41+46.

[14] 祖曉梅.新時期中國文化教學與傳播的新探索——以《國際中文教育用中國文化和國情教學參考框架》為例[J].寧波大學學報（教育科學版），2023，45（01）：5-7+19.

A Review of the International Chinese Proficiency Test Under the AUA Testing Framework

Jin Jingwen1" Dai Chunqian1" Sun Zhiguang2

1 International Education Center， Nanjing University of Chinese Medicine，Nanjing， Jiangsu， 210046

2 First Clinical Medical College， Nanjing University of Chinese Medicine， Nanjing， Jiangsu， 210046

Abstract： Based on the Assessment Use Argumentation framework， the validity of the International Chinese Proficiency Test is verified. The study found that it has the authenticity elements of the test framework， but at the same time there are problems such as the lack of matching between the cultural backgrounds of the raters and the candidates， the neglect of the interaction between primary Chinese proficiency learners and Chinese culture， and the lack of matching between the translation assessment tasks and the candidates’ native language background. Accordingly， suggestions such as regional matching of raters， increasing examination of cultural factors， and diversification of text languages are put forward.

Key words： Assessment Use Argument Framework， the Chinese Proficiency Test， Validity， Argumentation Analysis

（責任編輯：吳茳、王瑋）

考試研究2025年1期

考試研究的其它文章: 《Routledge語言測試手冊》（第二版）評介; 清代直隸省舉人中舉效應研究; 愛爾蘭高考中文試題分析; 自考命題數字化轉型的內涵、價值和實施路徑; 直播課堂大學英語口語動態評估實證研究; 準確性與公平性視角下能力分布異常對測驗等值的影響