劉新樂,吳耀武
(西安外國語大學 a.英文學院;b.高級翻譯學院,西安710119)
中國特色社會主義進入新時代以來,各行各業對于人才的需求也日漸增多,而在語言類行業進行公平有效人才選拔的方式最為大眾所信服的便是通過語言測試。語言測試根據測試結果可以分為高風險語言測試和低風險語言測試,而選拔人才最主要的方式是高風險語言測試。高風險語言測試是指測驗結果對個人或單位具有重大意義或產生決定性影響的測驗[1]。我國的中高考英語、大學英語四六級以及漢語水平考試等均屬于高風險語言測試,這類測試與其他測試相比最為突出的特點是風險高且影響深遠[2]。因此,本研究擬對中國知網2012—2022年間有關高風險測試的文獻進行整合與分析,主要探索本領域目前研究現狀,并試論其不足之處以及展望該領域未來發展。
本研究以CNKI(中國知網)作為數據來源,為保證所檢索的相關文獻無遺漏,筆者運用高級檢索服務,以“語言測試”為關鍵詞和主題檢索2012—2022年的文獻,得到相關文獻235篇,后又以“語言測試”為主題,以及摘要中涉及“語言測試”的文獻,檢索出期刊文獻682篇。由于本研究的研究內容主要關注高風險語言測試且高風險語言測試涵蓋范圍較大。同時發現期刊文獻較少以高風險考試為名,且大多研究僅僅聚焦于某類高風險語言測試。因此,本文以“大學英語四六級”“專業英語四八級”等具體高風險考試名稱篩選出相關文獻,通過刪除重復文獻、書評以及與高風險語言測試無關的內容后,得到有效文獻125篇作為本研究主要的文獻內容。
表1和圖1是我國自2012—2022年有關高風險語言測試的發文數量統計以及發文趨勢。從表1可知,我國每年有關高風險語言測試的發文量并不多,其中,2013年發文量最多,為20篇,而2021年發文量最少,僅有3篇,發文量差距較大。從圖1可以看出發文趨勢呈波動式發展,主要可分為三個階段:2012—2014年期間處于快速發展階段,2013年發文量為20篇,較2012年增長5篇;2015—2018年處于緩慢下降階段,2017年和2018年發文數量僅有9篇;2019—2022年處于急速下降階段,最低發文數量為2021年,僅有3篇高風險語言測試相關文獻。總體看來,近幾年來學者對于該領域的關注度呈下降趨勢,關注度較之前顯著降低。

圖1 2012—2022年高風險語言測試發文趨勢

表1 2012—2022年高風險語言測試發文量統計
為更清晰了解高風險語言測試發展現狀,本研究根據文秋芳和任慶梅的分類方式,將125篇文獻按照實證研究與非實證研究進行分類,分類的原則為:提供了研究對象、研究工具、數據收集和分析等相關信息的文章即為實證研究,否則為非實證研究[3],結果如表2所示。實證研究文獻共40篇,占總文獻量的32%;非實證研究為85篇,占總文獻量的68%。非實證研究文獻占比過半,且數量遠大于實證研究文獻,可見近10年有關高風險語言測試的文章以非實證研究為主。本文將從實證研究和非實證研究的具體方面分析國內高風險語言測試的發展現狀。

表2 2012—2022年國內高風險語言測試分類統計
本文對于實證研究文獻的分析主要從測試類別、研究樣本以及研究內容三方面進行。
1.測試類別
2012—2022年高風險語言測試的涉及以下七類考試:中考英語、高考英語、大學英語四級、六級、專業英語四級、八級、漢語水平考試、考研英語以及雅思托福考試,詳細文獻數量如表3所示。其中,大學英語四級、六級在近10年中受到的關注度最高,篇數占比達到總測試類別的32.5%,關于大學英語四級、六級的實證研究主要聚焦于測試對于教師教學的反撥效應[4-5]以及對于學生學習的反撥作用[6-7]。此外,篇數最少的為考研英語相關研究,僅有一篇,為徐莎莎關于考研英語對教學的反撥效應研究,作者通過對于不同群組學生進行訪談和課堂觀察,發現存在學習目標、學習重點偏離以及教學方式單一等問題[8]。

表3 2012—2022年高風險語言測試實證研究測試類別
2.研究樣本
2012—2022年高風險語言測試中實證研究涉及的研究樣本如表4所示。由表4可知,國內高風險語言測試實證研究主要是關注考生群體,相關文獻有18篇,占實證研究總數的45%,在有關考生的研究中,黃春霞關于考生群體的研究中最為全面,被調查考生的性別、年齡區間、職業情況以及教育背景及分布均較為全面[9]。而對于教師單個群體、考生與教師以及考生、教師與管理者的組合群體研究則較少,尤其是對于考生、教師和管理者三者的研究僅有兩篇,分別為萬書霞對于大學英語四六級聽力改革及其反撥研究[10],以及張艷莉與孔傅鈺關于漢語水平測試的反撥效應研究[2],僅占實證研究總數的5%。

表4 2012—2022年高風險語言測試實證研究樣本
3.研究內容
在各類高風險語言測試中,其研究內容方面較為多樣化,如表5所示。語言測試與教學和學習是息息相關的,而反撥效應是指語言測試對教與學的影響,因此,反撥效應研究在高風險語言測試實證研究中有17篇,占比42.5%,主要探究測試對于教師教學和學生學習的反撥效應[2,8,11]。除此之外,研究數量最少的為教師反饋和語言技能與性別差異研究,各僅有一篇,共占比5%,其中,屠麗華和蔡慧萍調查了大學英語四級考試中的性別差異對于語言技能的影響,結果表明男女生在大學英語四級成績的四個分項均有顯著差異[12]。學生的性別差異會對語言技能產生影響,但這不是不可逆轉的現象,對于某些技能的提高可以借助外部幫助,如王哲和岳紫嫣對于教師反饋對提高學生雅思寫作能力進行了實證研究,結果顯示“教師面對面反饋可有效提高學生雅思寫作能力”,為我國學生雅思寫作分數的提高提供了有效途徑[13]。

表5 2012—2022年高風險語言測試實證研究內容
由表2可知,我國近十年來非實證研究篇數為85篇,占總研究68%,仍在研究中占較大比重,因此,筆者為詳盡分析非實證研究內容,將85篇非實證研究分為以下五類(見表6):語言測試信效度和反撥效應、不同理論視角與語言測試、個人經驗與觀點、文獻綜述、語言測試其他維度,并對其各類具體內容在下文做詳細論述。

表6 2012—2022年高風險語言測試非實證研究類型概況
首先,由表6可知,研究數量最多的為“語言測試信效度和反撥效應”,共有37篇,占比43.5%。自從反撥效應在我國開始發展,反撥效應的研究便層出不窮,除了大量的實證類文章,非實證類文章數量也不少。本文關于高風險語言測試的探究必然離不開反撥效應,因為高風險語言測試的屬于大規模測試,其必然會對教師教學和學生學習產生較大影響。在本文收集到的有關反撥效應的非實證研究中,主要涉及了大學英語四六級、專業英語四八級、漢語水平考試和高考英語等高風險語言測試類型,且大多研究以上測試對于教學的反撥作用[14-16]。但范曉薇和劉沛言另辟蹊徑,從社會和人文素養的角度對于專業英語四級考試給高風險測試的利益相關者(即教師、學生和家長等)帶來的負面反撥效應做了論述[17],本文認為,過度重視TEM4的分數,會使利益相關者形成“唯分數論”的思維,且不利于社會公平性的發展。另外,在TEM4中取消了人文素養的有關知識不利于語言學習者人文素養的培養與提高。除此以外,錢慧基于Bailey于1996年在文章中所探討的反撥效應運作機制,構建了有關大學英語四級的反撥效應衡量模式,實現了理論方面的創新[18]。除反撥效應外,語言測試的信度和效度是語言測試必不可少的話題,但相較于反撥效應,有關信效度的非實證研究數量較少。蘇悅暢提出要從明確測試的目的、方式、內容等方面加強語言測試的信效度,從而提高測試和教學的質量[19]。
其次,有關高風險語言測試的非實證研究也與其他不同理論相結合或者從不同理論視角進行研究,相關研究文獻較多,為20篇,占非實證研究總數的23.5%。其中姜秀娟的文章中,通過使用Bachman的評估使用論證理論進行對于高考的公平性的研究,肯定了英語高考“一年兩考、取最高分、分等級計入”的社會化考試模式的改革方向,并從考生、考試內容以及評分差異等多方面提出了建設性意見[20]。除了對現有理論與語言測試的結合研究,還有學者以現有的理論為基礎,創新了高風險語言測試的設計框架,如在韓寶成和張允的文章中,他們通過結合心理和語言測試等的相關理論,并與國外較為成功的托福和雅思的考試進行測試目標和測試內容方面的對比,發現我國高考英語設計的不合理性,并在此基礎上對于高考英語考試設計的框架進行了創新,提出了“任務-能力”設計框架,為高考英語測試提供了有效的參考[21]。而同樣是對高考英語進行研究,除了從宏觀角度進行研究以外,還有學者僅僅聚焦于某一地區的高考英語,有針對性地進行研究,如潘鳴威的文章則僅僅聚焦于上海地區的高考英語試題,從歷時的角度回顧其變遷,并指出背后變化著的理論基礎和效度觀。最后,基于回顧,作者提出了“注重高端人才選拔”和“加強考試數據透明度”等改革建議,為上海高考英語的發展提供了可靠方向[22]。
其三,語言測試的其他維度研究共16篇,占研究總數量的18.8%。主要從語言測試的公平性和真實性、評分標準和利益相關者等方面進行,對于語言測試真實性的研究主要聚焦于某一測試的某一具體題型進行深入研究,如周培樹的研究主要是關于大學英語四六級的口語考試真實性的研究[23],而汪惠彥則主要研究大學英語六級聽力考試的真實性[24]。而有關公平性的研究,學者對于高考英語的“一年多考”制度提出相關建議,張曉丹和張彧在分析“一年多考”的利弊后,為保證測試的公平性提出“保證試題難度統一”的建議[25]。除此之外,有關評分標準和利益相關者的研究較少,魏緒濤和巴隴鋒對于大學英語四六級主觀題的評分“主觀題型客觀化”的現象提出了建議,作者認為評分標準應根據考生的用心程度進行劃分,并且提議以閱卷人親自體驗題目的方式來感受此標準等,試圖使得題目的評分標準更加人性化[26]。而有關利益相關者的研究則主要基于Bachman的評估使用論證框架,如徐啟龍的研究則立足于AUA框架,對于測試開發者和使用者的責任進一步明確[27]。
最后,有關個人經驗與觀點以及文獻綜述的文章共12篇,與其他類型相比數量最少,占比也最小,僅有14.1%。個人經驗與觀點類的文章主要通過國內外考試對比或者國外考試的理念或其他方面對國內的考試以及教學等方面產生的啟發。王立群通過對美國托福考試不同社會角色的剖析,從“語言測試政策”和“語言測試實踐”兩方面對我國英語測試提出建議,特別是“將語言測試納入語言服務行業體系”,將語言測試從學校內部擴展到社會中,利于語言測試的社會化發展[28]。文獻綜述的文章僅搜集到一篇對漢語水平測試的綜述:孔傅鈺和張艷莉于2004—2020年期間漢語水平測試有關的文章進行了綜述,對于漢語水平考試的研究現狀和不足進行了詳細論述,并對其未來發展進行展望[29]。
從2012—2022年期間總體發文量看來,有關高風險語言測試的發文量總體持下降態勢,近三年來發文量均未超過十篇,本文認為可能有以下兩方面原因:(1)該領域未出現新理論。由本文我們可以看出,有關高風險語言測試的研究,無論是實證還是非實證研究,大多離不開反撥效應和信效度的研究,而近年來并未有學者在此領域提出理論方面的創新,而自反撥效應和信效度在我國風靡伊始,有關此領域的研究已幾近飽和,研究空間較小。(2)重復研究較多。在本文收集的文獻中,CSSCI以及SCI文章屈指可數。可見,無論是實證還是非實證研究,僅滿足于對前人研究的重復,推陳出新的文章較少。
由表3可知,研究的測試數量最多的為大學英語四六級考試,對其他測試的研究數量均較少,尤其是對于考研英語的研究,僅在2017年有一篇文章。但是,近年來,考研人數不斷激增,而上岸人數卻不足考研人數的一半,除其他原因外,考研英語未過線也是非英語專業學生面臨的極為棘手的問題。因此,對于考研英語的研究必不可少。另外,有關高風險語言測試的研究樣本覆蓋面也較窄。高風險語言測試同時也是大規模測試,所以考試所涉及到的人群絕不僅僅包含考生、教師和管理者,包括考試項目的設計開發者(即測試工作者)、學生家長等[30]。
由表2可知,非實證研究文獻數量85篇,實證研究文獻數量40篇,非實證研究比實證研究文獻數量的一倍還多,數量極不均衡,且這其中存在一些問題,如非實證研究的相關研究,并未對于研究涉及到的個體或者組織進行觀察和研究,卻提出一些建議和意見。本文認為其說服力并不強,且部分都是通過常識可以推斷出的內容,因此產生的意義較小。
通過對于中國知網整理出的125篇文獻進行分類分析,可知我國高風險語言測試的相關研究總體處于下滑狀態,且存在一些不足之處。基于以上闡釋,本文認為要提高高風險語言測試領域研究數量和質量,還需在以下方面做出努力:
第一,鼓勵教師合作發文且多發高質量文章。時代瞬息萬變,發展日新月異,原有理論對于新形勢下的狀況較難全面涵蓋,因此教師可嘗試對原有理論進行小部分創新,使其更適用于現下的狀況。在此過程中,教師與教師之間應積極合作,合作有利于在思想碰撞中激發靈感,從而助推高質量文章的產出。
第二,注重對于考研英語等高風險語言測試的研究,并拓展研究樣本覆蓋面。資源豐富的高校可組織教師開展對于考研英語的輔導,幫助學生解決重難問題、降低學生對于考研英語的焦慮,且有助于教師開展相關研究。同時,因高風險語言測試具有影響深遠的特點,除學生以及教師以外,學生家長也對此也非常重視,教師應與學生家長建立聯系,探究學生家長在不同類型高風險語言測試中所起的作用。
第三,支持開展實證研究。不可否認,非實證研究中不乏有意義的研究,為該領域的發展厘清界限并指明方向。但是基于高風險語言測試與教學和學習高度相關的特點,開展實證研究對該領域問題進行論述更加具有說服力。考慮到實證研究需消耗教師大量的時間和精力,因此建議高校可適當減輕教師除教學以外的任務,為教師科研提供更為輕松的環境。與此同時,教師應充分利用現有資源進行實證研究,學習使用新技術輔助研究,切實增強文章科學性,提高文章現實可參考性。
最后,本文認為在如今信息技術高度發達的時代,高風險語言測試的未來發展,必將受到技術的加持與影響,使其更為便捷、科學且高效;其次,為適應我國高速發展的需求,高風險語言測試在我國影響不斷加深、范圍不斷擴大,其評分標準將會更為公平透明,測試內容也更能凸顯考生實際語言水平。
總而言之,高風險語言測試的發展不該也不能停滯。在我國,它不僅是檢驗學生學習和老師教學的成果的一種方式,也是選拔人才的一種途徑。高風險語言測試的不斷改革和發展一定能更好地發揮測試本身的功效,真正做到有效測試。