張帥
(廣州工商學院計算機科學與工程系,佛山528138)
智能閱卷是指通過計算機對學生作答的試題答案進行自動閱卷。智能閱卷能大大減輕老師人工閱卷的工作量,在一定程度上提高了評卷的公平性。當前國內的信息化考試系統只能完成客觀題的自動評分,還不能實現主觀題的自動評閱。主觀題的答案是學生通過自然語言書寫,不存在標準、唯一的答案,人工評閱也是閱卷人參考評分標準,根據自身經驗完成的。主觀題答案中不同種語言、字符、語言模式差異所導致相似度計算中的復雜性和準確性問題,所以對于主觀題的自動閱卷是一個很大的技術難題。
主觀題的自動閱卷涉及到自然語言處理技術。自然語言是指人類特有的語言,例如中文、英文等各種語言,形式包括有文本、語音等。自然語言處理是對自然語言進行理解、分析,將其轉換成計算機可理解的、結構化的信息的方法和技術。
雖然國外在智能閱卷這一方面的研究遠遠早于國內,但是由于中文與西文在本質上的差別,很多在西文上取得的研究成果無法應用于中文。漢語是一個復雜開放的體系,存在大量的近義詞、同義詞以及非標準用語,因此中文主觀題自動評分系統的研究的難道遠遠大于英文文章評分系統。國內學者專家也投入了大量的精力,并在基礎理論方面取得了一些突破,但距離自動評分系統的大規模推廣還有很長的一段距離[1-2]。
主觀題評分模型最主要的問題是如何計算標準答案和考生答案的相似度。通過字數相似度、詞數相似度這些指標來評價兩個文本間的相似度。這種基于句子表面特征的相似度計算方法僅考慮在字符串層面的相似度計算,因此準確度相當低[3]。
國內有針對作文自動評分的研究,通過分析文本連貫性評價作文。但是不同于長文本的作文,問答題的文本是短文本,增加語篇連貫性的指標并不能有效地提升準確度[4]。
我們首先對文本進行預處理,分詞、去除標點、去除空白字符、去除停用詞等。然后提取幾個詞法特征,如錯別字數量、字數總和、去除停用詞和重復詞之后的字數。
為了解決主觀題自動閱卷評分精確度不高的問題,我們在以上詞法特征的基礎上加入了孿生神經網絡模型,判斷學生答案和參考答案的相似度從而對學生答案作出評分。
孿生神經網絡是一種人工神經網絡,也就是一種數學模型。與其他神經網絡模型相比,它的特別之處在于同時輸入兩個子網絡,并且這兩個子網絡共享權重。孿生神經網絡的特點使得它在衡量相似度這方面有很好的效果。
孿生神經網絡應用在主觀題閱卷,是將題目的參考答案和學生答案同時輸入孿生神經網絡模型里,輸出的是兩者之間的距離。我們用這個距離來衡量兩者的相似度。要計算二者的距離,也就是說從A 到B 應該和從B 到A 的距離是一樣的,共享權重可以控制距離的一致性。即使我們調換A 和B,距離不會發生改變。
上述的孿生神經網絡是一個模型框架,在同時輸入參考答案和學生答案后,兩個子網絡還分別需要用LSTM 模型對數據進行訓練。LSTM,Long Short-Term Memory,長短期記憶神經網絡是一種循環神經網絡,適合于處理和預測時間序列中間隔和延遲非常長的事件。我們可以把文本看作一個時間序列,例如句子“我吃蘋果”,時間0 對應“我”,時間1 對應“吃”,時間2 對應“蘋”,時間3 對應“果”。也就是說LSTM 可以解決相隔較遠的兩句話還存在著聯系這種情況。
在兩個子網絡用LSTM 模型訓練后,需要計算二者的距離,這時我們用曼哈頓距離(Manhattan Dis?tance)來度量。曼哈頓距離,是歐幾里得幾何度量空間的幾何學用語,用以標明兩個點上在標準坐標系上的絕對軸距之總和。
如圖1 所示,d1 線、d2 線和d4 線都表示的是曼哈頓距離。而采用曼哈頓距離計算兩個LSTM 子網絡距離的模型,我們簡稱為MaLSTM。
圖2 展示的就是基于MaLSTM 的孿生神經網絡模型的算法過程。我們輸入兩句話“他很帥”和“他很英俊”,分別對這兩句話訓練兩個子網絡LSTMa 和LST?Mb,然后通過曼哈頓距離衡量二者的相似度。
最后我們在詞法特征的基礎上結合答案的相似度,算出學生答案的得分。

圖1

圖2
應用孿生神經網絡模型,同時輸入學生答案和參考答案進行相似度計算,從而估計學生答案的得分,改善了單單基于句子表面特征的相似度計算方法,提高了準確度。