基于深度學習的手寫簡答題智能評分研究

2021-11-22 08:14:04劉鋒

物聯(lián)網(wǎng)技術 2021年11期

劉鋒

（廣東松山職業(yè)技術學院電氣工程學院，廣東韶關 512126）

0 引言

隨著大數(shù)據(jù)、人工智能等技術的快速發(fā)展與應用，信息技術正在飛速地改變著教育工作者和學習者之間的交互形式，甚至正在推動著教育意識形態(tài)的改變。用人工智能推動教育變革，將人工智能研究的最新成果應用于教育實踐中，解決當前教育信息化及互聯(lián)網(wǎng)在線教育的共同發(fā)展訴求，是現(xiàn)今教育改革的一種趨勢[1-2]。

對于推動教育形態(tài)的改變、驅動教育模式的改革，一個優(yōu)秀的解決方案是依托于大數(shù)據(jù)及人工智能技術，將“教、學、考、評、管”融合為相互協(xié)同的一體化體系，為師生提供一個全面的智能感知環(huán)境和綜合信息服務平臺[3]。其中“考”和“評”是至關重要的環(huán)節(jié)。在傳統(tǒng)的方式中，對學生的評審和考核往往通過組織大型考試，需要耗費大量的時間、人力；同時老師需要手工對學生做的試卷進行批閱，而在批閱主觀題的時候，教師往往容易受到批閱時的精力、情緒、學生的卷面等因素的影響，無法給學生做出客觀的評價。為了減少在傳統(tǒng)過程中老師手動批閱試卷帶來的種種問題，本課題組擬開發(fā)出一款基于深度學習的簡答題智能評分系統(tǒng)，將原來教學環(huán)節(jié)中批改試卷這種重復性強、有固定模式的部分用人工智能進行替代。這樣不僅能夠促進教學向智能化方向發(fā)展，還可提高老師的閱卷效率，減少老師在重復性閱卷評分上的工作時間，從而把老師的價值集中在與學生的情感交互、個性化引導和創(chuàng)造性思維的開發(fā)等方面。

根據(jù)第47次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》指出，截至2020年12月，中國在線教育用戶規(guī)模達3.42億，而其中移動端在線教育用戶規(guī)模為3.41億[4]。在未來的商業(yè)市場中，在線教育市場前景十分廣闊，而“考”與“評”作為不可或缺的環(huán)節(jié)，意味著本文的產(chǎn)品將擁有十分獨特的市場優(yōu)勢。在未來，教育者們將擺脫單調乏味的試卷批改，將精力和時間投入到更加注重教師親自教育的領域。而本產(chǎn)品可以作為服務融入到許多智能教育軟件當中，推動“教、學、考、評、管”教育產(chǎn)業(yè)的一體化。

1 相關技術現(xiàn)狀

1.1 手寫漢字識別技術

脫機手寫文字沒有筆順等信息，而且會因掃描設備在不同光照、分辨率、書寫紙張等條件下工作而帶來很多的干擾。同時，相較于印刷體漢字，脫機手寫漢字隨意性大、缺乏規(guī)范性，人們常用的橫、豎、撇、捺、點等筆畫容易變形，各種不同的寫字風格可能有巨大的差異，從楷書、行書到草書，識別難度越來越高。除此之外，漢字的字符種類繁多，存在許多相似字和易混淆的漢字，例如“已-己”、“口-囗”、“淚-汨-汩”等，也給漢字識別帶來不小的挑戰(zhàn)。更為重要的是，目前針對大類別、多風格的無約束手寫數(shù)據(jù)庫仍顯不足，數(shù)據(jù)庫的采集和整理需要消耗大量的人力和物力來兼顧規(guī)模性和準確性[5-6]。

1.2 漢語文本分詞技術

為了讓計算機可以理解人類語言、分析考卷中學生答案和標準答案，就需要進行自然語言處理（NLP）。其中分詞是非常重要的一個模塊。對于英文等拉丁語系的語言來說，由于詞之間有空格作為詞邊界表示，詞語一般情況下都能簡單且準確地提取出來[7]。但是漢字除了標點符號之外，字之間緊密相連，沒有明顯的詞邊界，因此很難將詞提取出來；而且在中文中，單字作為最基本的語義單位，雖然有自己的意義，但是表意能力差，意義較為分散，而詞的表意能力更強，能夠更加準確地描述事物和情感。因此在NLP中，通常情況下詞是最基本的處理單位。

在中文分詞中有兩個最主要的挑戰(zhàn)：歧義詞識別和未登錄詞識別。一般來說在句子中一個字可以同時作為兩個詞的組成部分，當這兩個詞同時出現(xiàn)，就可能會出現(xiàn)歧義現(xiàn)象。而未登錄詞是分詞詞典中沒有收錄的，但又確實是大家公認的詞語，也被叫做新詞。雖然可以通過將新詞收錄到字典中進行解決，但是在互聯(lián)網(wǎng)時代，人們會不斷創(chuàng)造出一些新詞。所以對于新詞的自動識別，也是需要解決的問題[8]。

1.3 漢語文本對比技術

主觀題閱卷就是將試卷中的學生答案和標準答案進行比對，判斷學生答案是否與標準答案相似，并根據(jù)它們的相似度進行評分[9]。然而，存在著一些句子，它們當中沒有相同的詞，但表達的意思相近或者有邏輯關系，例如：“喬布斯離我們而去了。”“蘋果手機價格會不會降？”使用傳統(tǒng)的方法判斷這些句子的相似度是無法得到滿意的結果的，因此，在判斷文檔相關性或相似性的時候，需要考慮文檔的語義，對其中的語義進行挖掘。

2 基于深度學習的手寫簡答題智能評分研究

為實現(xiàn)漢語考試中試卷的自動化批改，本課題以深度學習技術為基礎，開發(fā)面向簡答題評分的智能閱卷系統(tǒng)。該系統(tǒng)涉及漢字手寫體識別、中文語義理解、文本相似度評定等科學和技術問題。該文的研究系統(tǒng)流程如圖1所示，研究內容及框架如圖2所示。

圖1 系統(tǒng)流程

圖2 研究內容及方案框架

2.1 基于深度神經(jīng)網(wǎng)絡的手寫漢字識別技術

針對手寫漢字識別率與識別精度一直比較低的問題，文獻[10]采用卷積神經(jīng)網(wǎng)絡（CNN）進行手寫體漢字識別。如圖3所示，在卷積層上利用多個濾波器對輸入的漢字圖片進行卷積運算，通過一個激勵函數(shù)在卷積層得到多個特征圖，又對每個特征圖進行池化。經(jīng)過多層的卷積和池化后最終將得到的特征圖進行連接，可以得到漢字圖片的特征向量；最后通過使用兩層Softmax全連接的神經(jīng)網(wǎng)絡，將預測結果通過如下公式進行歸一化，對不同的識別結果進行比較后，得到最后識別的手寫漢字。

圖3 基于CNN的手寫體漢字識別示意圖

在卷積層中，每個神經(jīng)元只取前一層的局部區(qū)域作為輸入，利用局部感受野，減少了神經(jīng)網(wǎng)絡本身需要訓練的參數(shù)個數(shù)，提取漢字圖像局部的、細微的特征。在池化層中通過包含的多個特征映射，減少數(shù)據(jù)處理量、保留有用信息。另外，利用映射平面上所有神經(jīng)元權值相等，減少了網(wǎng)絡中參數(shù)的數(shù)量，降低訓練的復雜度，同時提高對漢字樣本中的位移、亮度等變化的容忍能力。

2.2 基于雙端長短期記憶神經(jīng)網(wǎng)絡的文本分詞與理解技術

為確保試卷評判質量，需要高精度的中文分詞及文本理解技術。為此，利用上下文信息進行中文分詞與理解就顯得尤為重要。本課題擬使用雙端長短期記憶網(wǎng)絡（Bi-LSTM）實現(xiàn)文本分詞與理解，其網(wǎng)絡結構如圖4所示。

圖4 雙端長短期記憶網(wǎng)絡示意圖

長短期記憶網(wǎng)絡（LSTM）通過各個計算層的相互連接和作用，保證在分詞過程中可與遠距離的前文本信息聯(lián)系，避免了梯度消失和梯度爆炸的問題。利用雙端模式，將兩個LSTM上下疊加在一起，將分詞的輸出由兩個LSTM的隱藏層狀態(tài)決定。這樣可以讓Bi-LSTM不僅僅依賴于前文本的文字，還與后面的文本文字有關，從而真正意義上根據(jù)上下文進行分詞，保證了分詞的準確性。

2.3 基于深度神經(jīng)網(wǎng)絡的文本相似度計算

本文使用詞匯語義特征CNN模型（LSF-CNN）計算學生答案與正確答案之間的相似性。該模型在原有CNN基礎上引入三種優(yōu)化策略：詞匯語義特征（Lexical Semantic Feature, LSF）、跳躍卷積（Skip Convolution, SC）和K-Max均值采樣（K-Max Average Pooling, KMA），抽取更加豐富的語義特征。

該模型對于輸入的兩個文本進行如下處理：首先，對于學生答案和標準答案的分詞序列，利用詞匯語義特征技術為每個單詞計算LSF特征值，以此來表征文本之間的語義交互特征。LSF特征會與詞嵌入拼接在一起構成詞語粒度上更加豐富的特征表達，表達詞的向量再次拼接構成句子矩陣。然后，學生答案和正確答案的句子矩陣經(jīng)過跳躍卷積層和K-Max均值采樣層，最終形成各自的向量表達，兩個向量會根據(jù)學習得到的相似度計算矩陣M得到一個相似度分數(shù)。最后，將相似度分數(shù)和向量整合在一起作為分類器的輸入，最終得到學生答案為正確答案的概率。

3 結語

手寫漢字的識別是智能閱卷過程中最基礎的一個部分。然而，由于手寫漢字的不規(guī)范和環(huán)境的不斷變化，手寫漢字的識別可能會受到很大的干擾。如果不能對手寫漢字進行準確和快速地識別就無法得到有意義的文本，這樣對于文本的分詞和文本間相似度的比對也就毫無意義。因此，通過該研究可以解決手寫漢字的準確識別。針對漢語文本的分詞是計算機可以理解學生答案和標準答案所表達語義的必要途徑。然而，由于漢語文本的獨特性，分詞可能會受到歧義詞和未登錄詞的影響，使得句子偏離原本的表達意義。因此，通過本文的研究，結合文字上下文的相關性進行分詞，還可以讓文本可以被正確地分詞。在試卷閱卷過程中，為了得到每個同學在題目上的分數(shù)，需要將學生答案和標準答案進行比對，通過判斷它們之間的相似度，系統(tǒng)才能得到學生答題的正確率，以此為基礎算出相應的分數(shù)。因此，可以利用神經(jīng)網(wǎng)絡對文本間的相似度進行度量，最終實現(xiàn)手寫答案智能評分研究的效果。