汪張龍 徐 俊 李曉臻 朱瑋琳
?
紙筆考試智能網上評卷系統的設計和應用——智能教育應用之“考試評價”篇
汪張龍1徐 俊1李曉臻2[通訊作者]朱瑋琳1
(1. 科大訊飛股份有限公司,安徽合肥 230088;2.訊飛教育技術研究院,安徽合肥 230088)
文章回顧了紙筆考試評卷的發展歷程,重點介紹了紙筆考試主觀題智能評卷技術和掃描網上評卷技術,并基于這兩大技術的融合,設計了紙筆考試智能網上評卷系統。該系統在大規模教育考試網上評卷中的應用,提升了教育考試評卷工作的質量和效率,有助于推動大規模考試評分系統的智能化升級,并為探索人工智能技術與教育考試評卷行業的應用融合形式、構建人工智能技術輔助大規模教育考試網上評卷應用模式提供參考。
智能評卷;網上評卷;考試評卷;人工智能
近年來,《國家中長期教育改革和發展規劃綱要(2010-2020年)》、《“互聯網+”人工智能三年行動實施方案》、《新一代人工智能發展規劃》等多項文件都明確了教育信息化、智能化的發展方向,以及人工智能在各行業應用的總體思路、目標和主要任務。在教育領域,人工智能技術正在全面、深刻地影響著教育理念和教育模式,諸如語言識別、手寫文字識別、自然語言理解、智能評測等人工智能技術已在教育考試中得到了逐步應用。這些應用契合國家教育考試、考試招生制度的改革需求,具有重要的現實意義。在此背景下,在紙筆考試評卷的過程中引入先進的人工智能技術,推動智能化、信息化與教育考試的深入融合,將有效破解教育考試評價過程中面臨的相關難點問題。
20世紀90年代之前,我國的考試判卷一直由評卷員手工完成。而在20世紀50年代,英國首先研發出光標閱讀器,能通過光學掃描的方法識別按規定格式印刷或書寫的作答標記,并通過計算機對各種作答信息進行快速準確的分析、處理。借鑒英國的經驗,清華大學、山東大學于20世紀90年代初自主研發出光標閱讀機,大規??荚囋u卷開始采用標準化答題卡的方式,進行客觀題的作答和快速評閱,手工評卷得以進入到半自動化階段,大幅提升了評卷效率。
智能評卷是伴隨著近年來人工智能技術的快速發展而興起的一種新型評卷模式。20世紀90年代末,一套名為E-rater的英文作文自動評分系統[1][2]被開發出來,目前美國教育考試服務中心(Educational Testing Service,ETS)正利用該系統對管理學研究生入學考試(Graduate Management Admission Test,GMAT)中的分析性寫作評價(Analytical Writing Assessment,AWA)部分進行評分,并于2005年開始應用于托??荚嚨淖魑脑u分[3]。21世紀初,英文作文的自動評分技術在美國得到了大規模的正式應用?!白魑淖詣釉u分(Automated Essay Scoring,AES)指通過計算機軟件對學生的作文進行評分,……AES目前在美國主要用于兩個方向:一是用在高風險考試中進行實際評分(一般是作為人工評分的補充,尚無完全依靠機器評分的實例);二是用在英語教學中對學生的寫作能力進行診斷,提供改進意見”[4]。在國內,北京外國語大學的梁茂成教授研究團隊就中國學生英語作文的自動評分模型展開了深入研究,并結合第二語言習得理論、語料庫語言學理論、測試學、統計學等,進行文本特征變量的深入挖掘、評分模型的不斷優化;他們在2012年研發的大規??荚囉⒄Z作文自動評分系統經過多輪多次隨機抽樣的訓練集,驗證評分信度達到可操作、可推廣的水平。21世紀初,國內領先的人工智能技術企業如科大訊飛股份有限公司(下文簡稱“科大訊飛公司”)也開始了以人工智能技術為基礎的計算機自動評卷技術的研究,且相關研究成果已被應用于全國普通話水平測試和多地區中、高考英語聽說考試之中。
紙筆考試主觀題智能評卷技術是一種面向以掃描為評卷數據采集形式的紙筆類考試,由計算機完成作文等主觀題智能評分的技術。目前,國內外相關作文類主觀題智能評分技術的研究主要有人工特征方案和深度學習方案兩個方向:①人工特征方案主要通過專家對試題評卷標準提取相關的特征進行定義,機器自動抽取一些統計性信息與這些特征進行抽象對應,并完成對相應樣本的評分;②深度學習方案主要通過神經網絡來自動抽取與評分準則相關的特征,并進行匹配評分。近年來,深度學習方案被廣泛應用,越來越多的研究者嘗試開展基于神經網絡深度學習的作文題評分研究。如Nguyen等[5]采用雙層前饋神經網絡、長短期記憶網絡(Long Short-Term Memory,LSTM)和雙向LSTM來表示作文,在此基礎上進行評分回歸模型的訓練;Alikaniotis等[6]采用LSTM來表示作文,并在訓練時引入分數信息,對詞匯的表示進行調整,得到面向評分任務的詞向量表示(Score-specific Word Embeddings),從而提高了評分的準確率;Dong等[7]采用雙層卷積神經網絡(Convolutional Neural Network,CNN),同時調整詞向量表示,使其更適合評分任務。在國內的人工智能技術及應用研究團隊中,科大訊飛公司率先將深度學習方案應用于智能評卷技術的研究及優化中,其研發的語音評測技術現已具備了人類專家的評分能力。
紙筆考試主觀題智能評卷技術的應用流程大致如下:①通過計算機圖文轉寫技術,將掃描圖像中的手寫內容轉化為計算機可處理的信息;②計算機對全部考生的作答內容進行特征提取與聚類,輸出典型樣本集合,由充分了解并能規范執行評分標準的評卷專家完成定標評分,進而訓練計算機學習評分專家的評分數據,使計算機掌握各題型的評分標準并具備評測主觀題的能力;③經過定標訓練后的計算機從主觀題評分的不同維度(如詞匯豐富度、局部連貫性、句法正確性、篇章結構等),快速高效地對中、英文作文等主觀題進行自動評分與批改。目前,科大訊飛公司研究團隊在基于掃描圖像的中、英文手寫文本識別轉寫方面的準確率均已超過95%,且“計算機在多項不同教育考試的語文、英語考試主觀題(包括作文)評分上已達到現場評卷教師水平,可以滿足大規??荚嚨膶嶋H需要。此外,計算機系統不僅能夠進行智能評分,還可以從語法、用詞、內容表達等不同維度給出診斷分析報告,實現自動化作文批改”[8]。
掃描網上評卷技術主要指利用高速圖像掃描與識別技術、網絡技術、大型分布式數據庫及大容量智能化的網絡存儲等先進的電子技術和計算機技術,實現計算機輔助評卷。
掃描網上評卷技術的應用流程大致如下:①通過掃描設備,將考生各科目的答題卡掃描到數據庫;②評卷系統根據設定的客觀題標準答案,自動評出客觀題分數;③裁切主觀題答題圖像,由評卷管理人員創建評卷員賬號、設置科目主觀題參考答案、裁切圖片、處理異常評卷、設置誤差控制參數等,系統根據指令,將答題內容通過網絡傳輸給分布在各個終端的評卷員;④評卷員登錄系統,通過瀏覽器查看考生的答題內容圖像,根據評分標準評出分數;⑤系統自動保存結果,對主觀題、客觀題的分數進行合并計算,最終得出考生的考試成績。值得一提的是,在網上評卷過程中,評卷系統還可同時實現對評卷教師評分過程、進度及結果的實時監控。
紙筆考試主觀題智能評卷技術具有高效、精準完成大規模數據檢測以及長時間穩定執行專家評分標準的顯著優勢;而掃描網上評卷技術經過多年在多類大規??荚囋u卷應用過程中的不斷完善,其評卷組織模式具有較好的靈活性。這兩大技術的融合,能有效提升網上評卷的評分效率和評分質量,實現考試評卷的智能化升級。兩大技術的融合主要發生在以下兩個階段:
(1)掃描階段兩大技術的融合
這是一個美好的機緣,這是一次幸福的走訪。在“走進廣州好教育”系列叢書編寫過程中,我們走進了中小學校,走進了廣州好教育。
在掃描階段,掃描設備對答題卡進行圖像采集,智能評分服務與掃描管理端進行數據交接,接收掃描設備采集的答題卡圖像。在接收的過程中,智能評分服務實時提取圖像的輪廓曲線、灰度值等關鍵信息,進行圖像是否為空白的判斷;在掃描的過程中,智能評分服務實時、高效、精準地輸出篩選出的空白題信息。在圖像數據傳輸至網上閱卷系統之前,由掃描管理系統對篩選出的空白題做評分配置后,便可不再將空白題數據下發給評卷員進行評分。
(2)網上評卷階段兩大技術的融合
“文本相似度計算是各種文本挖掘技術的基石,有了文本相似度的定義就有了各種文本比較的理論依據?!盵9]在網上評卷階段,基于深度神經網絡的手寫識別技術可對考生答卷掃描切圖中的文本進行快速、精準的識別。當評卷管理系統獲取到考生的主觀題目作答內容并配置相關的評卷管理參數之后,可通過系統軟件自動對比計算機轉寫結果與試卷題干、網絡范文等外部文本來源的文本相似度,并精準計算出兩者的相似比例,最終輸出處于一定相似度閾值范圍內的疑似異常答卷。此后,評卷管理員根據評卷組織模式需要,通過評卷管理系統進行應用配置,并在人工評卷的過程中以同步的形式對評卷人員進行內容疑似異常答卷的評分預警。
在實施網上評卷的過程中,可以根據不同考試項目所采用的評卷模式,將智能評分結果與人工評分工作進行融合,形成多樣化的人機協作智能評分模式。比如,在主觀題采取單評模式的考試中,可在人工評分的同時增加智能評分作為二評分,并進行人機評分結果對比,將大分差數據交由第三者進行仲裁,以保障和提升評卷質量;在主觀題采取多評模式的考試中,可用智能評分結果代替其中的一評,最終進行分數的合并匯總,以降低考務的組織難度、提升評卷效率;對于教育類高利害考試評卷,則可將符合學習評卷專家標準的智能評分結果作為人工評分質量的第三方監控指標,以確保人工評分的質量?!爸饔^題評卷技術通過對不同考試、不同試題專家評分標準的學習、調整和程序化設計,使得評分標準可以在更大范圍內被‘具備專家評分水平’的計算機標準化地執行和實施?!盵10]而計算機智能評分結果的客觀性和公正性,將有助于最大化實現考試的公平、公正。
紙筆考試主觀題智能評卷技術與掃描網上評卷技術在數據層、服務層和應用層的深度融合以及相關數據的統一管理,是技術推動應用革新的基礎。本研究基于掃描階段和網上評卷階段兩大技術的融合,設計了紙筆考試智能網上評卷系統,如圖1所示。

圖1 紙筆考試智能網上評卷系統
(1)數據層
數據層主要通過掃描評卷數據庫,支持服務層和應用層對數據的讀取或寫入。掃描評卷數據庫分類存儲掃描、智能評卷各階段的數據,如掃描圖像、人工評分軌跡、圖文轉寫結果、智能評分結果以及各類異常檢測結果等。
(2)服務層
服務層是數據層與應用層之間的邏輯層,主要提供應用層所需的檢測、轉寫及評分等核心技術服務,具體包括:①OMR識別服務,實現對客觀題填涂答案信息的識別。②圖文識別轉寫服務,實現對答卷掃描圖像中文本的智能識別轉寫、評分數據預處理。③圖像檢測服務,實現對掃描圖像數據質量的檢測,可篩出空白、重張等異常數據。④內容檢測服務,基于圖文識別轉寫結果,將考生作答內容與評卷系統輸入的樣本進行相似度檢測,查出內容高度相似的作答樣本,并基于語義分析檢出離題作答樣本。⑤智能評分服務,通過自動聚類,篩選出典型樣本集合;人工評分客戶端可獲取到該樣本集合,之后組織人工評分;智能評分服務基于人工評卷客戶端反饋的典型樣本集合中的人工評分結果,自動訓練智能評分模型,進而實現對考生差異化作答樣本的智能評分,最終根據應用層的參數配置輸出檢測結果。此外,服務層具有較強的拓展性,可根據不同考試評卷需要提供其它服務,如條形碼識別服務等。
(3)應用層
應用層主要提供兩大功能系統:一是實現紙質答卷數據轉化為計算機可處理的圖像數據的智能數據采集系統,二是基于圖像數據進行評分和其它評卷管理的智能評卷系統。
①智能數據采集系統。該系統包含掃描管理端和掃描客戶端,實現紙質答卷圖像的高效采集,并支持掃描圖像的智能化檢測和數據校驗。在紙質答卷的掃描過程中,掃描管理端可配置啟動智能圖像檢測服務,依據掃描客戶端對裁切區域的標定結果,對掃描圖像自動進行版面分析、灰度值分析等;同時,綜合分析結果,高效、精準地校驗掃描數據,篩查出空白題、重掃異常圖像等。該系統采集的數據與經過圖像檢測服務篩查出的異常掃描圖像數據,作為智能化評卷系統的輸入數據,待考試管理機構在掃描之后的評卷環節進行差異化處理。
②智能評卷系統。該系統支持各類教育考試的不同評卷模式配置,并在此基礎上通過智能評分服務,進行主觀題的手寫內容識別、內容檢測、智能評分,形成人機協助的新型評卷模式。該系統由以下部分組成:評卷管理端——主要實現對智能評分任務與操作流程的配置、管理;智能服務管理端——實現對圖文識別轉寫、智能評分、文本相似度檢測等各類服務的進程管理和監控;人工評卷客戶端——主要對智能評分過程中需要人工處理的評分數據進行評分、復核等操作提供支持;作業調度——實現對智能評分服務所處理的大數據量作業內容的進程控制、資源分配;誤差引擎——實現對人人、人機評分誤差的自動化分析;質檢功能——基于人工評分軌跡與圖像檢測、內容檢測、智能評分的結果,提供評卷質檢的參數配置與檢測分析等功能。
紙筆考試智能網上評卷系統的應用流程主要分為五個階段:數據準備、掃描、主觀題數據預處理、主觀題評分、結果匯總,每個階段的步驟及步驟描述如表1所示。

表1 紙筆考試智能網上評卷系統的應用流程
目前,人工智能技術應用于大規??荚囈逊e累了不少成功案例,如科大訊飛公司開發的智能評分系統已被應用于廣東高考英語聽說考試、江蘇省初中英語聽力口語自動化考試等,并取得了良好成效。作為國內人工智能技術的領軍企業,科大訊飛公司與教育部考試中心于2016年成立聯合實驗室,主要開展人工智能技術在教育考試領域的應用研究。隨后,聯合實驗室基于多地區各類型考試數據,對紙筆考試智能網上評卷系統及其應用效果進行了持續優化。
2017年6月,聯合實驗室在某省大規模教育考試網上評卷過程中開展了紙筆考試智能網上評卷系統的應用實驗。本次實驗在正式考試評卷期間,與正式評卷同步進行,是一次具有突破性的創新實驗。從掃描圖像數據交接至評測結束,本次實驗過程用時5天,完成兩個科目近百萬份作文題樣本的智能評分,并在智能評分的過程中基于圖像分析和識別轉寫結果,將語文作文的1.7萬余份非缺考空白卷、200余份高相似度異常作答情況和英語作文的2.4萬余份空白卷、1400余份高相似度異常作答情況予以檢出。
本次實驗隨機抽取了500份答卷數據進行人工手動轉錄,并對比計算機識別結果進行識別準確率分析。經統計分析,中、英文手寫字符的識別率均達到97%以上,滿足地區考試院實現自動評卷的基礎要求。本次實驗將最終的計算機評分結果與現場人工評分結果進行了對比分析,得出結論:語文作文機評分與最終報道分的評分一致率達到了95%以上,與現場人工兩評的一致率幾乎相等;英語作文機評分與最終報道分的評分一致率達到了92%以上,略高于現場人工兩評的一致率,說明計算機評分具有較高的評分準確性。
需要說明的是,在本次實驗中,地區考試院有選擇性地對抄寫題干內容的70多份語文作文樣本進行了反饋,這70多份語文作文樣本均由學科評卷組進行質檢審查和仲裁評分,仲裁結果為:這批考生的語文作文成績均進行了15~30分的向下修正。同時,地區考試院也對1400余份英語作文各類異常樣本通過網上評卷系統進行了分數檢查,確認這些樣本在人工評卷時都已經進行了合理評分,所以未反饋給學科評卷組進行評分修正。
人工智能技術的快速發展,對教育考試領域的影響也不斷擴大。通過人工智能技術學習專家評分標準,計算機憑借較高的評分準確度和穩定性,有效提升了教育考試評卷工作的質量和效率。在未來,隨著教育改革和考試改革的不斷深入推進,綜合類素質考試將被越來越廣泛地推行開來,基于人工智能技術的計算機智能評測技術也將更大地發揮它的價值,輔助人工完成高水平的評卷工作。
[1]Burstein J. The E-rater? scoring engine: Automated essay scoring with natural language processing[A]. Shermis M D, Burstein J. Automated essay scoring: A cross-disciplinary perspective[C]. Mahwah, NJ: Lawrence Erlbaum Associates, 2003:113-121.
[2]Burstein J, Chodorow M, Leacock C. Automated essay evaluation: The criterion online writing service[J]. AI Magazine, 2004,(3):27-36.
[3]Yigal A. Construct validity of e-rater in scoring TOEFL essays[R]. Princeton, NJ: ETS, 2007:7-21.
[4]韓寧.幾個英語作文自動評分系統的原理與評述[J].中國考試,2009,(3):38-44.
[5]Nguyen H, Dery L. Neural networks for automated essay grading[OL].
[6]Alikaniotis D, Yannakoudakis H, Rei M. Automatic text scoring using neural networks[OL].
[7]Dong F, Zhang Y. Automatic features for essay scoring——An empirical study[OL].
[8][10]汪張龍.人工智能技術在考試中的應用[J].中國考試,2017,(11):30-36.
[9]王振振,何明,杜永萍.基于LDA主題模型的文本相似度計算[J].計算機科學,2013,(12):229-232.
編輯:小米
The Design and Application of the Intelligent Online Marking System for the Pen-and-paper Test ——“Examination Evaluation” for the Application of Intelligent Education
WANG Zhang-long1XU Jun1LI Xiao-zhen2[Corresponding Author]ZHU Wei-lin1
This paper reviewed the development of pen-and-paper test marking, emphatically introduced the intelligent marking technology of subjective questions in the pen-and-paper test and the scanning online marking technology, and further designed the intelligent online marking system for the paper-and-pen test based on the integration of the two technologies. The application of this system in the online marking system of the large-scale education examination enhanced the quality and efficiency of the education examination marking work, helped to promote the intelligent upgrading of the marking system of the large-scale examination. In addition, it provided reference for the exploration of the application integration form of the artificial intelligence technology with the marking industry of education examination, and the construction of the application model of the large-scale examination online marking assisted by the artificial intelligence technology.
intelligent marking; online marking; examination marking; artificial intelligence
G40-057
A
1009—8097(2018)03—0005—07
10.3969/j.issn.1009-8097.2018.03.001
汪張龍,科大訊飛教育事業群副總裁,訊飛啟明科技發展有限公司總經理,學士,研究方向為教育技術、智能教育,郵箱為zlwang@ifytek.com。
2018年2月27日