計算機自動評分技術在高利害考試中應用的前景分析

2019-03-14 13:33:52彭恒利

內蒙古教育·科研版 2019年1期

彭恒利

摘要：主觀性試題的評分是考試界的難題。隨著計算機技術以及測量技術的迅猛發展，主觀性試題的計算機自動評分由設想變成了現實。自動評分涉及自然語言處理、信息檢索、人工智能等多個領域，核心是語音和圖像的識別、特征值的提取、模型的構建等。目前，計算機自動評分技術雖然取得重大進展，但尚有很大的提升空間，若能在實評中克服打保險分、跑題高評的不足，完全可以替代人工評分，在高利害考試中廣泛應用。

關鍵詞：計算機自動評分;高利害考試;應用;前景

【中圖分類號】G 【文獻標識碼】B 【文章編號】1008-1216（2019）01B-0004-03

主觀性試題因其命題的角度靈活、測查的能力維度多樣以及效度方面的優勢在高利害考試中得到了廣泛應用，雅思（IELTS）、托福（TOEFL）、中國漢語水平考試（HSK）、中國少數民族漢語水平等級考試（MHK）以及高考、研究生考試等這些與考生切身利益高度相關的高利害考試中均設有主觀性試題。主觀性試題泛指無固定答案、采用多級計分的題目，如筆試中的簡答、論述題、作文等，口試中的問答、口頭報告等，其特點突出，缺陷也比較明顯：評分的信度和效度偏低、閱卷的耗費大、效率低，等等。雖然網上評閱技術的應用對此做了有效彌補，但人工評分的趨中評分、疲勞效應、評分效率低等問題依然突出。隨著計算機科學技術的快速發展，自然語言處理技術、大數據、人工智能等有了長足進展。為了克服人工閱卷帶來的弊端，一些考試機構嘗試用計算機自動評分系統來替代或部分替代人工閱卷員進行評分，試圖破解主觀性試題的評分難題，由此計算機自動評分（Computer-Automated Scoring，CAS）就由設想變成了可能，許多大公司和考試機構投巨資進行攻關，計算機自動評分系統被紛紛推出，并展現出了廣闊的應用前景。

一、計算機自動評分技術的發展沿革

計算機自動評分研究肇始于1966年Ellis Page建立的作文自動反饋系統。起初開發這套系統的主要目的是為了在課堂上及時給學生進行反饋，試圖通過計算機分析學生的作文，為學生提供有針對性的反饋。這種理念也影響了后期MyAccess！TM、WritetoLearnTM以及Criterion的網上寫作評價系統的開發。亦即最初的計算機自動評分技術主要用于測試練習，僅給考生報告機器評分，一旦用于高利害、高風險的考試中，則會比較謹慎，如美國教育考試服務中心（ETS）在GRE以及托福考試中，通常會采用“人機雙評”，即一個評分員和e-rater聯合評分，并且在最后的分數報告中僅采用評分員評分。

口語計算機自動評分的應用晚于作文。20世紀90年代初，SpeechRater投入使用，并于2006年用于TPO，口語的評分直接由機器完成。之后，培生公司的口語測試系統Ordinate和SpeechRater齊頭并進，展現出良好的發展勢頭。但兩者的技術路線卻有較大差異，SpeechRater的核心技術是自然語言處理，它能夠評價考生的發音、語言表達的流利程度、語法的準確性以及一部分作答內容，測試題目多采用非限定性題目，側重于考查考生的“自由發揮”的口語能力，評分準確度與人工評分員的相關為0.7;而以Ordinate為技術核心的培生英語口試Versant則更側重于口語表達的熟練程度，測試多采用封閉式的問題，答案高度限定，依靠考生大聲朗讀、造句以及列舉反義詞等方式來“預測”考生的口語熟練程度，而非直接測量考生能力。由于答案的高度限定性，培生英語口試可以直接采用機器分數為報告分數。此外，這種技術顯示出較強的通用性，除了英語版，Versant口語考試還包括中文、西班牙語、阿拉伯語、荷蘭語以及法語口語考試。

國內的計算機自動評分研究與國外的類似，作文的自動評分研究早于口語。因手寫體識別的瓶頸沒有實質性的突破，作文的自動評分出現了短期的停滯。之后技術的突破是從英語開始的。梁茂成于2008年主持的項目“大規模考試英語作文自動評分系統的研制”通過了鑒定，有學者認為“該評分系統的評分信度高于e-rater并且達到了可操作水平”。此外，還有外研社開發的新視野大學英語在線學習系統中的自動評分系統、浙江大學和杭州增慧網絡科技有限公司聯合開發的“冰果英語智能評閱系統”，以及“批改網”等。

隨著手寫識別技術的快速發展，近年來，國內的計算機自動評分技術又有了新的突破。根據科大訊飛的技術報告，計算機識別英文書寫篇章復雜版面的準確率可高達98%，并能讓計算機準確地切分英文，能辨別書寫、空白、涂抹以及插入區域，計算機線下中英文手寫與計算機轉寫的準確度高達96.5%。也就是說，該項技術實現了手寫體的識別和評分，在技術上領先于e-rater，因為e-rater目前僅支持計算機輸入，紙筆作答暫時無法進行計算機自動評分。

而語音識別技術的突破則助推了口語測評系統在實際考試中的應用。2007年，科大訊飛發布了首個口語朗讀測評系統作為高利害考試的測評平臺，標志著口語測評進入了實用階段。2012年，廣東高考的英語口語考試開始使用訊飛的口語評測技術，這在國內高利害考試的評分中具有了里程碑的意義。目前，普通話水平測試（PSC）、中考英語測試以及中國少數民族漢語水平等級考試（MHK）也采用了訊飛的口語自動評分技術。

縱觀國內外的相關研究和應用，我們可以清楚地看到計算機自動評分技術的發展脈絡：在評分技術上，現有的自動評分系統基本上都是建立在語音合成、語音識別和圖像識別的技術之上，通過特征值的提取、聚類、回歸等方式，實現了不能到能的跨越，在評分效率、穩定性和一致性上接近或超過了人人評分;在技術應用上，涉及的題型也在不斷擴展，從朗讀、跟讀、簡答到自由回答，實現了從封閉性型向半封閉、開放性型的拓展;在評分質量研究上，實現了從單純注重信度（人機相關、大分差率）到信效度并重的轉變。

二、計算機自動評分技術涉及的核心問題

計算機自動評分技術的開發和應用涉及多個學科，是集計算機科學、語言學、統計學、心理與教育測量學之大成。口語和書面語的呈現方式不同，語言類型的不同，會給技術開發的路線帶來一定的影響，但就計算機自動評分技術來講，任何一個自動評分系統的開發和應用都離不開圖像或者語音識別、特征值抽取、模型篩選、算法確定、分數報告與解釋等幾個核心環節，其中涉及矢量空間模型技術、自然語言處理技術、信息檢索技術、統計技術、人工智能等。為便于理解，下面從語音和圖像識別、特征值以及模型三個方面進行介紹。

（一）語音識別與圖像識別

從自動評分的流程上來劃分，計算機自動評分系統大致可分為識別端和評分端。語音識別和圖像識別屬于識別端，它是主觀性試題自動評分的起點。語音識別主要用于口語考試，圖像識別主要用于書面的筆答如作文考試等。語音識別需要根據聲譜特征確定聲學模型，然后還要進行降噪、聲學特征提取、說話人自適應、轉換詞圖、標識置信度等工作。早期的語言識別模型一般采用隱馬爾可夫模型，如SpeechRater和Ordinate均采用了該模型，但這種模型的識別率不高，SpeechRater的單詞識別率僅為50%。現代的語音識別和圖像識別均采用了深度神經網絡模型，從而使識別的速度更快、準確率更高。據科大訊飛網上的資料介紹，其語音和手寫體的識別準確率都達95%以上。

（二）特征值抽取

Bennett &Bejar（1998）提出了自動評分開發以及評估的兩個基本步驟：（1）抽取特征值;（2）將這些特征值通過某種模型統一成一個總體的分數。確定了特征值，也就代表了自動評分系統會“按圖索驥”，根據人工設定的一系列語法、語義、語用、修辭特征判斷考生的表達能力處于量表的何處。進一步講，特征值即代表了測試的部分構念。

目前，主觀題自動評分的特征值多集中考查一些淺語言特征，語法、句法等語言特征是最容易獲取也最容易評分的內容。以e-rater為例，它的11項原始特征值中，有9個是語言特征，另外2個為內容特征。這9個語言特征分別是：文章結構、行文、語法、語言使用、標點拼寫等書寫規則、風格、平均詞長、詞頻、地道程度。每個原始語言特征還包含一些易于統計和計算的子特征，比如書寫規則就包括拼寫、大小寫、標點符號、復合詞規則，等等。然而有些原始特征僅能依賴一些非直接的統計因素，比如文章結構特征值在很大程度上依賴于文章的長度。結構和行文兩項特征值中，60%的得分來自文章長度，書寫等規則占該項得分的10%，其余30%則取決于考生的語法句法水平。內容特征則更加難于數據化，e-rater的兩個內容特征值能夠測量的內容質量是非常有限的，而寫作的語氣、口吻等內容目前的技術水平還難以測量。這也是部分非測量界學者一直批評主觀題自動評分的一個主要原因。目前的特征值僅能測試一些語言熟練程度以及簡單交流，而對內容、文章謀篇布局等寫作層面上的因素關注得太少。此外，子特征值是否能夠完全涵蓋原始特征值的全部也是爭議的焦點。如果子特征值無法完全涵蓋原始特征值，而原始特征值又無法涵蓋主觀題測試的構念，那么主觀題自動評分的構念就值得進一步商榷。

（三）模型構建

確立了特征值，之后就需要通過數學模型將加權后的特征值綜合評判給出分數。模型的構建是一個復雜的過程，一般來說，模型的開發和驗證需要500～2000個樣本，評分也可采用多種模型，目前實際用于大規模考試的模型主要包括：線性回歸、多元回歸模型、分類樹模型、基于規則的專家系統等。

研究者還嘗試使用了一些新的模型，如貝葉斯網絡、人工智能網絡等。McNamara et al.（2015）采用了層級聚類的算法評閱高中生和大學新生的寫作，研究結果表明，使用這種算法機器評分與人工評分達到了55%的絕對一致率和92%的相鄰一致率。國內自動評分系統常用的模型多為回歸模型。

在技術層面上，學界對模型的評判較多關注的是機器評分員與人工評分員的一致性、人機一致性和人人一致性的比較、機器評分員和人工評分員平均分的比較等。此外，評判模型的一個重要因素還要考查其是否很好地代表了構念。

特征值抽取和模型確定是自動評分技術中最核心的部分，也是各考試機構以及研究者研究的重點。因考試內容和目的不同，各考試機構以及研究者的技術路線或有差異，但都會將其中的許多特征值和變量作為技術內核，視為專利或商業機密鮮有公布。

三、計算機自動評分技術在高利害考試中應用的前景

據Ramineini和Williamson（2013）的調查，目前，美國等國家至少有十種以上的計算機自動評分系統，最具代表性的包括基于人工智能開發的MyAccess！TM、培生公司基于潛在語義分析技術開發的Intelligent Essay Assessor （IEA）、美國教育考試服務中心（ETS）根據人工智能以及自然語言處理技術開發的e-rater等。國內的一些高科技公司也推出了自己研發的自動評分系統，如科大訊飛的多語種智能閱卷系統，在普通話水平測試（PSC）、中考英語測試以及中國少數民族漢語水平等級考試（MHK）等考試中得到了廣泛應用。MHK已實現朗讀題的計算機自動評分，封閉式簡答題替代人工進行一評，并就作文、口語自由回答進行了多次大規模的人機評分的對比實驗。這些系統一經推出便表現出了良好的性能，不僅大大節省了人力、物力和財力，還有效避免了疲勞效應，且具有安全性高、準確性好、客觀性強、一致性高、穩定性好等優勢。基于此，ETS的SpeechRater以及培生的Orindate系統都在口語測試中占領了相當大的市場份額，ETS與Pearson還合作致力于將自動評分技術應用到美國各州的共同核心標準測試中，該考試涉及數學、寫作、知識性簡答、口試以及完成模擬任務等內容，顯示出廣闊的應用前景。

目前，計算機自動評分在國內的考試領域主要有三個用途：一是質量檢測。多個省市已將自動評分系統作為質檢系統用于中考、高考等高利害考試中，檢查空白卷、疑似雷同、疑似抄襲、特殊作答等;二是部分替代。在一些等級考試中，如普通話水平測試（PSC）、民族漢考（MHK）等中部分替代人工閱卷;三是完全替代。在一些低利害考試中，如成考、自考中部分分段完全替代人工評分。可以看出，計算機自動評分技術在國內的高利害考試中的應用還是比較隱性低調的，應用的領域也是漸進的。未來，隨著人工智能實現從感知智能到認知智能的飛躍，通過計算機對人類的語義理解、知識表示、邏輯推理和自主學習的模擬和學習，計算機自動評分技術將會實現質的飛躍，評分質量會顯著提高，應用范圍也會呈現出竹子效應，有一個突飛猛進的過程，更多的省市將在中考、高考等高利害考試中采用該項技術。更重要的是將實現與認知診斷技術的有機融合，不僅能實現自動評分，而且還能給出個性化評價及反饋指導，這在很大程度上就應和了1966年Page開發自動測試系統的初衷。

盡管計算機自動評分技術發展的勢頭很好，我們也應清醒地看到，受自身技術的局限，計算機自動評分技術需要探索的問題還很多。核心技術的“黑箱”如何解釋？趨中評分、高分偏少、跑題誤判問題怎樣解決？如何界定計算機自動評分的信度和效度？它們與人工評分的信度和效度的內涵是否一致？等等。在計算機自動評分技術大規模使用之時，這些問題都需要一一解決。

四、結束語

綜上，計算機自動評分技術表現出了良好的應用前景。對此，需要保持清醒的頭腦，盲目樂觀和消極悲觀同樣不可取。應該看到，計算機自動評分技術既有自身難以克服的局限，還有許多問題亟待解決，特別是在高利害考試中，計算機完全替代人進行評分尚待時日。同時，對于考試機構來說，是否在實評中采用計算機自動評分技術，既要過技術關，也要過心理關，用戶與考生對這項技術的了解和認可還需要一個較長的過程。無論人工智能如何發展，計算機都不可能完全照搬人工評分的模式，它有自身的技術途徑，要允許和接受差異的存在，允許計算機和人的殊途同歸。因此，在相當長的一段時間內，比較現實可行的評分模式是：用計算機替代一評，實現人機的優勢互補。

基金項目：本文為北京語言大學“民族漢考（MHK）主觀性試題人機評分的對比研究”項目（項目編號：17YJ050004）的成果。

參考文獻：

[1] Attali& Burstein.（2006）. Automated Essay Scoring with e-raterV.2. The Journal of Technology， Learning， and Assessment， 4（3）.Retrived from：https：//ejournals.bc.edu/ojs/index.php/jtla/article/viewFile/1650/1492

[2] Bennett， R. E.，&Bejar， I. I. （1998）. Validity and automated scoring： It's not only the scoring. Educational Measurement： Issues and Practice， 17（4）， 9–17.

[3] McNamara， D. S.， Crossley， S. A.， Roscoe， R. D.， Allen， L. K.， & Dai， J. （2015）. A hierarchical classification approach to automated essay scoring. Assessing Writing， 23， 35–59. Print.

[4] Ramineni， C.， & Williamson， D. M. （2013）. Automated Essay Scoring： Psychometric Guidelines and Practices. Assessing Writing， 18（1）， 25–39. Print.

[5] Williamson， D. M.， Xi， X.， & Breyer， F. J. （2012）. A Framework for Evaluation and Use of Automated Scoring. Educational Measurement： Issues and Practice， 31（1）， 2–13. Print.

[6]梁茂成，文秋芳.國外作文自動評分系統評述及啟示[J].外語電化教學，2007，（10）.

[7]羅凱洲，韓寶成.Ordinate與SpeechRater口語自動評分系統述評與啟示[J].外語電化教學，2014，（4）.

[8]石曉玲.在線寫作自動評改系統在大學英語寫作教學中的應用研究——以句酷批改網為例[J].現代教育技術，2012，（10）.

[9]王士進，李宏言，柯登峰.面向第二語言學習的口語大規模智能評估技術研究[J].中文信息學報，2011，（6）.

[10]謝賢春.英語作文自動評分及其效度、信度與可操作性探討[J].江西師范大學學報（哲學社會學版），2010，（2）.

[11]嚴可，胡國平，魏思.面向大規模英語口語機考的復述題自動評分技術[J].清華大學學報（自然科學版），2009，（1）.