999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于命名實體識別的試題自動分割方法*

2022-05-18 02:38:02鞏稼民趙夢凱孫一斌蔣杰偉張凱澤
傳感器與微系統 2022年5期
關鍵詞:文本模型

鞏稼民, 趙夢凱, 孫一斌, 蔣杰偉, 張凱澤

(1.西安郵電大學 電子工程學院,陜西 西安 710121;2.西安郵電大學 通信與信息工程學院,陜西 西安 710121)

0 引 言

隨著互聯網的快速發展,教育行業也由原來的線下教學逐步轉向線上線下相結合的模式,越來越多的人參與到線上課堂中[1]。其中,線上考試發展尤為迅速,極大地方便了組織者管理考試數據[2]。線上考試系統中試題庫占據了重要地位,試題庫的豐富性和準確度直接影響了考試質量,因此,建設一個完善的試題庫尤為重要[3]。而建設試題庫必不可少的環節是將試題分割錄入,如何快速準確地分割試題是試題庫建設的重點和難點。

早期人們在網頁界面中手工逐個錄入試題中的題干、答案、選項、解析等等,實現精準的拆分錄入,但這種方式效率極低,很難建設一個龐大的試題庫。一些研究者提出了不同的方法來提高試題分割錄入的效率。王甲等人[4]依據構詞規則、語法規則及自定義的正則表達式解析分割試題。蘇志同等人[5]實現了帶有圖片的試題錄入,并使用機器學習技術提高了試題分割的準確率。劉思婷等人[6]通過設定語義規則對試題進行解析拆分。

以上研究主要采用規則、語義和傳統機器學習方法對試題文檔進行解析分割。對于不同類型的試題文檔,分割的準確率會大大降低[7],且在試題分割時無法很好保留試題文檔中的圖表和字體樣式(加粗、下劃線、傾斜)等信息。對于包括大量富文本信息的試題文檔,這類方法的通用性和實用性不高。

為了解決當前試題分割中存在的一些問題,本文提出了一種基于命名實體識別的試題自動分割方法。將試題中的題號、答案、選項號、解析等關鍵詞抽象為試題的命名實體,并構建試題命名實體識別模型,將標注后的每個實體作為試題的分割點,實現試題的分割,并判斷試題類型。為保留試題中的圖表和字體樣式信息,本文對試題文檔進行了相應的預處理。此外還構建了條件隨機場(conditional random field,CRF)、雙向長短時記憶(bidirectional long short-term memory,Bi-LSTM)+CRF和BERT(bidirectional encoder representations from transformers)+Bi-LSTM+CRF三個試題命名實體識別模型,通過實驗對比得出BERT+Bi-LSTM+CRF模型具有更高的準確率和魯棒性。

1 相關工作

命名實體識別(named entity recognition,NER)是自然語言處理中的一項基本任務,主要用來識別文本中包含的特定實體,廣泛應用在信息提取、知識圖譜和問答系統等場景中[8]。NER的實現主要包括以規則和詞典為主的方法、以統計學習為主的方法和以深度神經網絡學習為主的方法[9]。

基于規則和詞典的方法主要依靠人工制定特征提取規則,特定領域則需要相關專家參與制定。這種方法的泛化能力較差,無法勝任復雜的數據識別[9]。基于統計學習的方法將實體識別問題轉換成序列標注,并使用學習算法提高了實體識別的準確率和泛化能力,但對復雜文本處理能力仍然較弱,且人工參與度較高[9]。

隨著深度神經網絡的發展,研究者們逐漸將神經網絡技術應用到NER中。2015年,Huang Z等人[10]提出了Bi-LSTM網絡與CRF相結合的模型,此模型被廣泛應用在NER中,并且在當時取得了優異的成績。

在訓練模型時,文本序列無法直接輸入,需要將文本進行編碼。2013年,Mikolov等人[11]提出了Word2Vec技術,通過大量文本學習,得到了低維、稠密的詞向量編碼,但是Word2Vec不能解決一詞多義問題。為了解決此問題Peters M E等人[12]提出了ELMO(embeddings from language models)語言模型,有效解決了Word2Vec中存在的一詞多義問題。2018年,Devlin J等人[13]提出了BERT預訓練語言模型,BERT模型使用特征提取能力更強的Transformer[14]網絡替換ELMO模型中的LSTM網絡,通過大量語料訓練,獲得了表征能力更強的詞向量編碼。

2 數據集構建

2.1 數據預處理

試題實體識別屬于特定領域的NER,需手工標注數據集。模型訓練時只能輸入純文本字符對應的編碼向量,因此在標注數據集之前,需要先對試題文檔進行預處理。

本文預處理試題文檔的流程如圖1所示,首先,在讀取試題文檔的過程中將公式和不可識別的符號轉換成圖片,并忽略文檔中的顏色、字體、字號等不重要信息;然后,逐個判斷讀取的內容類型,根據判斷結果進入到對應的標記模塊;最終,生成試題內容和樣式標記相對應的TXT文本,圖片保存到指定位置。

圖1 文檔預處理流程

其中,文字、圖片和表格的具體標記方式如下:

文字:將帶有加粗、傾斜和下劃線的文本分別標記為〈bold〉、〈italic〉和〈underline〉,并將文本與標記對應存儲。

圖片:將圖片存儲到指定文件夾,并標記為〈img width="32" height="32" src="url" /〉。其中,width和height為圖片的寬度和高度,src為圖片的存儲路徑。在試題文本中使用[IMAGE]代替圖片的位置,并與圖片標記內容對應存儲。

表格:使用HTML語言的表格標記格式,并使用統一的表格樣式和字體樣式。在試題文本中使用[TABLE]代替表格的位置并與表格標記內容對應存儲。

按照本文的文檔預處理規則,Word文檔標注示例如圖2所示。將每個字符按照規則對應標記,中間使用" "分隔,對于不需要標記樣式屬性的文本,標記為〈none〉。

圖2 Word文檔示例

2.2 數據集標注

通過分析多個學科的試題內容,發現試題基本上由題干、選項、答案和解析這幾部分中的一個或多個組成。由于試題中這幾部分文字較多無法作為實體,因此,本文將題干內容的識別轉換成題號實體的識別,將選項內容的識別轉換成選項序號實體的識別,將答案內容的識別轉換成答案關鍵詞實體的識別,將解析內容的識別轉換成解析關鍵詞實體的識別。此外,試題中還有一些其他的實體,如標題序號、子題號等也需要設定為實體。具體的試題命名實體分類如表1所示。

表1 試題命名實體分類

本文采用BIO的實體標注方法,B表示實體的開始,I表示實體的內部,O表示其他非實體[15]。根據試題命名實體的分類,試題的命名實體標簽如表2所示。

表2 試題命名實體標簽

2.3 數據分布統計

本數據來自各地區的高中政治和數學試題。在收集的數據中,包括子選項類的試題太少,因此去掉了子選項類的試題。最終構建的數據集各實體分布情況如表3所示。

表3 數據集實體分布

3 試題命名實體識別模型

本文構建BERT+Bi-LSTM+CRF模型識別試題中的命名實體,整體結構如圖3所示。首先,以字符為單位輸入到BERT層,依靠預訓練好的語言模型,生成表征能力更強的字向量。然后,將字向量輸入到Bi-LSTM層,進一步融合上下文信息,輸出信息更豐富的字向量表示。最后,將獲取到的字向量輸入到CRF層,通過概率模型生成最優標注序列。

圖3 BERT+Bi-LSTM+CRF模型結構

3.1 BERT層

BERT模型是Google在2018年提出的預訓練語言模型,其結構如圖4所示,該模型采用雙向的Transformer編碼器提取特征。其中,E={E1,…,EN}表示輸入的字向量,Trm是Transformer模型的Encoder部分,T={T1,…,TN}是模型輸出的字向量信息。BERT模型還提出了“遮蓋語言模型”和“下一個句子預測”兩個無監督的方法,增強了模型在字符和句子之間的特征學習能力[13]。

圖4 BERT預訓練語言模型

BERT的輸入序列E={E1,…,EN}由位置嵌入、字嵌入和句子嵌入組成。位置嵌入標記了輸入文本的順序,字嵌入是每個輸入字符的編碼映射,句子嵌入區分不同的句子。

Transformer Encoder是BERT預訓練模型的重要部分,結構如圖5所示。其中的自注意力機制,可以更好地捕獲輸入序列的上下文語境,并且長度不受限制。自注意力機制的計算如下

(1)

為了增強不同位置的注意力,提高特征的提取能力,Transformer Encoder采用了多頭(multi-head)機制,其計算方法如下

MultiHead(Q,K,V)=Concat(head1…headh)WO

(2)

(3)

此外,為了避免在深度訓練中出現學習退化的情況,模型中加入了殘差網絡和層歸一化網絡,層歸一化方法如下

(4)

在Transformer Encoder中還包括一個全連接前饋神經網絡(feed forward network),計算方法如下

FFN(x)=max(0,xW1+b1)W2+b2

(5)

圖5 Transformer Encoder模型結構

經過Transformer層訓練之后最終輸出表征語義能力更強的字向量T={T1,…,TN}。

3.2 Bi-LSTM層

Bi-LSTM層的核心組件是LSTM單元,和普通的RNN網絡相比,LSTM加入了“門”控制機制,解決了長序列文本梯度消失的問題。LSTM單元結構如圖6所示,內部包含輸入門、輸出門、遺忘門和記憶單元四部分。

圖6 LSTM單元結構

(6)

Bi-LSTM層由輸入、前向、后向和輸出組成。輸入是從BERT層中得到的字向量,前向和后向由多個LSTM單元組成,并分別輸出各個時刻的隱藏狀態,最后將得到的前后向隱藏狀態組成一個雙向的特征表達向量,作為下一層輸入。

3.3 CRF層

由于Bi-LSTM網絡對實體標簽之間的關系學習能力較弱,因此,需要添加CRF層對標簽序列進行約束。CRF是一種無向圖模型,廣泛用于序列標注任務中,它可以學習到當前實體標簽和相鄰實體標簽之間的關系,輸出最優的實體標注序列。

對于給定的輸入序列x={x1,x2,…,xn}和對應的標簽序y={y1,y2,…,yn},對應的評價方法如下

(7)

式中A為轉移矩陣,Ayi,yi+1為標簽yi轉移到標簽yi+1的概率。Pi,yi為第i個輸入樣本xi被標記為標簽yi的概率。在訓練過程中使用最大似然估計,其似然函數如下

(8)

其中,P(y|x)計算如下

(9)

4 實 驗

本文搭建了CRF、Bi-LSTM+CRF和BERT+Bi-LSTM+CRF三個模型進行對比試驗,將三個模型分別在自定義的數據集上進行訓練。數據集按照8︰2的比例隨機抽取分成訓練集和驗證集,其中隨機抽取以題為單位,確保試題的完整性。

4.1 實驗環境

本文實驗使用Google開源深度學習框架TensorFlow構建,為方便開發環境的搭建,實驗使用TensorFlow 1.13.1-GPU-py3版本的docker鏡像。實驗系統環境為Ubuntu16.04,并使用一塊NVIDIA RTX 2080Ti(11G顯存)顯卡進行訓練。

4.2 參數設置

本文參考Google開源的BERT-Base預訓練模型參數,并根據數據樣本對原始參數進行適當調整。BERT+Bi-LSTM+CRF和Bi-LSTM+CRF模型主要參數如表4所示。其中,加入失活率可以有效避免模型的過擬合,提高模型的泛化能力。在Bi-LSTM+CRF模型中使用Word2Vec方法訓練的字向量作為輸入,字向量維度為100。

表4 模型主要參數

基于CRF的試題實體識別模型,本文使用工具包CRF++進行實驗。

4.3 評價標準

本文使用精確率P、召回率R和F1值對模型進行綜合評估,計算如下

(10)

式中TP為模型正確識別實體的數量,FP為模型識別的實體中不正確的數量,FN為模型沒有識別出實體的數量。

4.4 結果分析

本文分別使用三種模型對同一數據集進行訓練和驗證,最終得到如表5所示的實驗結果,表5中列出了三個模型的準確率P,召回率R和F1值。從實驗結果中可以看出:BERT+Bi-LSTM+CRF模型在三個評價指標上都高于其他兩個模型,CRF模型評價結果最低。Bi-LSTM+CRF模型的F1值比CRF模型的高出9.86 %,這是由于添加Bi-LSTM層后模型可以融合輸入序列的上下文語義,具有更強的特征提取能力,提高了模型實體識別的F1值。BERT+Bi-LSTM+CRF模型的F1值比Bi-LSTM+CRF模型的高出了3.31 %,說明BERT模型生成的字向量能夠更好地表征字符信息。

表5 實驗結果 %

綜合來看BERT+Bi-LSTM+CRF模型的實體識別能力更強。針對此模型,表6給出了每個命名實體的評價結果,從表格中可以看出題號、子題號、選項號、解析和子解析實體的F1值較高,這是由于這類實體關鍵詞主要由數量詞和字母組成,辨識度高,模型可以更準確的學習到其特征。而標題和子標題實體F1值較低,這是因為標題和子標題的實體特性更接近一些,容易混淆。答案和子答案實體F1值最低,主要是其實體內容類型較多,如“答案”關鍵詞、字母和對錯符號等內容,不易識別,因此降低了此類實體的F1值。

表6 BERT+Bi-LSTM+CRF各實體評價結果 %

5 試題分割

通過試題實體識別模型標注輸入的文本,仍可能出現標注錯誤的情況,為解決這些問題,本文添加了完整性檢查功能,具體流程如圖7所示,主要判斷兩個題號實體之間是否包含有答案、解析、選項號等一個或多個實體。若不符合檢查標準則返回當前實體的具體位置,人工修正后再重新檢查。

圖7 試題分割流程

試題分割以標注好的實體為分割節點拆分試題,并去掉開頭和結尾的無意義字符。分割時需將文檔預處理時標記的圖表、文字樣式等屬性添加上去,并判斷試題類型。其中,試題類型包括單選題、多選題、判斷題、簡答題和分析題。最后將分割后的試題各部分順序存儲到數據庫并標記相應的試題類型。

6 結 論

本文研究了當前試題分割方法的優缺點,并分析了試題內容結構,提出將試題的分割轉換成試題命名實體識別的方法。根據試題的結構特點定義了試題的命名實體,并搭建三個試題命名實體識別模型。通過分析對比得出BERT+Bi-LSTM+CRF模型效果最好。為保證實體識別的準確率,本文在試題分割時加入了完整性檢查功能。此外,為了分割帶有圖表、字體樣式等內容的試題,本文還提出了試題分割前的預處理方法,通過自定義的標記格式,將試題中的主要樣式內容保存下來,最終在試題分割時還原。本文通過數據預處理、試題實體識別以及試題分割模塊最終實現了試題的準確自動分割。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 丁香五月激情图片| 国产一级毛片在线| 一本久道热中字伊人| 人与鲁专区| 久久免费成人| 老司机久久99久久精品播放| 欧美精品成人| 亚洲乱伦视频| 亚洲IV视频免费在线光看| 被公侵犯人妻少妇一区二区三区 | 成人福利在线观看| 成人无码一区二区三区视频在线观看| 日韩免费毛片视频| 国内精品久久久久鸭| 亚洲视频二| 亚洲AV无码乱码在线观看裸奔| 99久久婷婷国产综合精| 色婷婷亚洲综合五月| 久久精品国产国语对白| 成人在线观看不卡| 亚洲成综合人影院在院播放| 国产精品三级av及在线观看| 在线免费无码视频| 国产日产欧美精品| 久久五月天综合| 日韩欧美国产综合| 亚洲视频免费在线看| 五月丁香伊人啪啪手机免费观看| jizz国产视频| 自拍偷拍一区| 日本免费a视频| 一本大道东京热无码av| 国产丰满成熟女性性满足视频| 国产成人综合亚洲网址| 好紧太爽了视频免费无码| 最新亚洲av女人的天堂| 天天色天天综合网| 欧美国产日韩在线观看| 色国产视频| 色成人综合| 黄色国产在线| 免费一级全黄少妇性色生活片| 欧美综合一区二区三区| 亚洲成在线观看| 国产精品无码制服丝袜| 亚洲熟女偷拍| 日韩av资源在线| 欧美日韩一区二区在线免费观看| 国产高清毛片| 国产对白刺激真实精品91| 综合亚洲色图| 国产在线观看一区精品| 久久美女精品国产精品亚洲| 国产办公室秘书无码精品| 精品国产福利在线| 亚洲美女一级毛片| 国产国产人在线成免费视频狼人色| 99这里精品| 久久a级片| 午夜视频免费一区二区在线看| 欧美亚洲国产视频| 色偷偷综合网| 亚洲欧美国产五月天综合| 香蕉久久国产超碰青草| 沈阳少妇高潮在线| 免费观看成人久久网免费观看| 99青青青精品视频在线| www亚洲天堂| 午夜激情福利视频| 无码免费的亚洲视频| 亚洲色图欧美在线| 国产精品三区四区| 久久这里只精品国产99热8| 亚洲无码视频图片| 国产你懂得| 亚洲日韩精品无码专区| 手机在线免费毛片| 久久免费精品琪琪| 亚洲人成网站色7799在线播放| 欧美va亚洲va香蕉在线| 天堂成人av| 波多野结衣一区二区三视频|