999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)字人文視域下多粒度特征融合的古文命名實體識別

2024-02-13 00:00:00孟佳娜許英傲趙丹丹李豐毅趙迪
知識管理論壇 2024年6期

摘要:[目的/意義]利用命名實體識別技術深入挖掘古籍文獻,推動中文古籍數(shù)字化進程,對于推動歷史學習、增強文化自信以及弘揚中國傳統(tǒng)文化具有重要意義。[方法/過程]提出多粒度特征融合的古文命名實體識別方法,以《左傳》為研究語料,構(gòu)建人名、地名、時間等命名實體識別任務。首先,將古文字信息、詞性信息及字形特征融合,提高輸入特征表示能力;然后,在加入預測實體頭尾輔助任務學習古句邊界信息的同時利用Transfer交互器啟發(fā)式學習古文實體構(gòu)詞規(guī)律,并用BiLSTM和IDCNN聯(lián)合抽取上下文信息;最后,將學習到的多種古文特征加權融合,輸入CRF中進行實體預測。[結(jié)果/結(jié)論]實驗結(jié)果表明,多粒度特征融合的古文命名實體識別方法,相比主流的BERT-BiLSTM-CRF模型,精確率、召回率和F1值分別提升5.09%、13.45%和9.87%。多粒度特征融合的古文命名實體識別方法能夠精準地實現(xiàn)對古籍文本的命名實體識別。

關鍵詞:數(shù)字人文;古文;實體識別;多粒度特征融合

分類號:TP391.1

引用格式:孟佳娜, 許英傲, 趙丹丹, 等. 數(shù)字人文視域下多粒度特征融合的古文命名實體識別[J/OL]. 知識管理論壇, 2024, 9(6): 533-546 [引用日期]. http://www.kmf.ac.cn/p/411/. (Citation: Meng Jiana, Xu Yingao, Zhao Dandan, et al. Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities[J/OL]. Knowledge Management Forum, 2024, 9(6): 533-546 [cite date]. http://www.kmf.ac.cn/p/411/.)

1" 引言/Introduction

中華文明悠久源遠,歷經(jīng)千年歲月,蘊含著無數(shù)珍貴的智慧和經(jīng)驗。千古典籍,如明珠般閃爍著歷史的光芒,描繪了一幅幅精彩紛呈的歷史畫卷。以人為鑒,能夠領悟得失之道;以史為鑒,能夠洞悉興衰之勢。汲取中華文明上下五千年的歷史智慧和經(jīng)驗,乃是實現(xiàn)人民幸福、國家興盛、中華民族偉大復興的重要法寶。近年來社會信息化的趨勢日益增強,數(shù)字人文研究悄然興起,為傳統(tǒng)人文與社會科學研究提供了新的研究范式[1]。中共中央辦公廳、國務院辦公廳印發(fā)的《關于推進新時代古籍工作的意見》給數(shù)字人文下的古籍智能信息處理研究指明了方向并提供了重要的機遇。從研究的精細程度來看,古籍智能信息處理主要分為詞匯級、句子級、篇章級。古文詞匯級研究主要包括自動分詞、詞性標注、關系抽取與命名實體識別[2]。其中,命名實體識別是自然語言處理領域的重要任務之一,旨在從文本數(shù)據(jù)中識別出具有特定意義的實體,并對其進行分類和抽取。以《左傳》為例,利用筆者提出的命名實體識別模型結(jié)合前端技術,實現(xiàn)命名實體識別任務案例可視化(見圖1)。由于命名實體通常表示現(xiàn)實中具體的人、地點、組織機構(gòu)、時間或事件等,因此命名實體識別在信息提取、機器翻譯、自動問答、情感分析、知識圖譜構(gòu)建等應用場景中具有廣泛的應用。

近年來,隨著古籍數(shù)字化進程不斷加快,古文的命名實體識別任務變得尤為重要。古文命名實體識別有助于深入挖掘古文本身的語言、歷史、文化等價值。通過識別古文中的人名、地名、時間等實體,能夠為古代政治、經(jīng)濟、社會等方面的研究提供更加準確和全面的資料信息。但由于古文語料其語法、結(jié)構(gòu)及字意的特殊性,從古文中提取實體難度極大。命名實體識別模型在提取實體前,需要準確理解字、詞及語句的內(nèi)容才能更加準確判定實體。古文存在很多一詞多意的現(xiàn)象,模型理解古文語義十分困難。例如,古文中“策之不以其道”“執(zhí)策而臨之”“策勛十二傳”中的“策”分別代表“驅(qū)使”“馬鞭”“記錄”的意思。其次,長度適中的語料便于命名實體識別模型記憶重要信息,遺忘非重要內(nèi)容,推斷實體可能存在的概率及判定實體的邊界,而古文句式短小,簡明扼要,模型推斷實體存在的概率、捕捉文本邊界信息或特征十分困難。例如,“知者不惑,仁者不憂,勇者不懼。”最后,嵌入字、詞或詞性等特征的輸入表示隱含了實體構(gòu)詞規(guī)律和詞邊界等重要信息,面向古文領域的命名實體識別,現(xiàn)有的模型對于如何整合多粒度特征信息以及學習古文實體構(gòu)詞規(guī)則研究較少。針對上述問題,筆者提出多粒度特征融合的古文命名實體識別方法以提高實體識別的精度,以《左傳》數(shù)據(jù)集為實驗對象,構(gòu)建時間、地名、人名等命名實體識別任務。實驗結(jié)果證明了多粒度特征融合的古文命名實體識別方法的優(yōu)異性。相較于傳統(tǒng)模型,主要貢獻如下:①提出一種融合字、詞性、字形結(jié)構(gòu)并顯示學習邊界信息的多粒度特征融合古文命名實體識別模型架構(gòu)(以下簡稱MG-NER)。②設計了一種用于共享實體邊界信息并啟發(fā)式學習實體構(gòu)詞規(guī)律的Transfer交互器。

2" 相關研究/Related research

2.1" 早期命名實體識別技術發(fā)展研究

命名實體識別技術歷史悠久,針對其特定任務的深度學習技術已經(jīng)被廣泛提出。較早解決命名實體識別任務的神經(jīng)網(wǎng)絡由J. Hammerton[3]提出,該模型采用的是LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡。R. Collobert等[4]提出了CNN-CRF(Convolutional Neural Network-Conditional Random Field)的模型架構(gòu),取得了優(yōu)于統(tǒng)計模型的效果。相較于單向LSTM僅使用過去時刻信息來預測當前的結(jié)果,Z. Huang等[5]提出BiLSTM-CRF(Bidirectional Long Short Term Memory-Conditional Random Field)作為命名實體識別任務的神經(jīng)網(wǎng)絡模型,取得了比單向LSTM神經(jīng)網(wǎng)絡更優(yōu)異的結(jié)果。J. P. C. Chiu等[6]使用BiLSTM-CNNs(Bidirectional Long Short Term Memory-Convolutional Neural Networks)進行命名實體識別,進一步推動了該領域的發(fā)展。而A. Akbik等[7]則探討用于序列標注的上下文字符串嵌入方法,為命名實體識別的研究提供了另一種視角。

2.2" 基于預訓練語言模型的命名實體識別技術

通過研究領域命名實體識別下游任務特點設計模型,并結(jié)合微調(diào)上游預訓練語言模型的方法,可以有效提升領域化的命名實體識別精度。2018年10月谷歌AI團隊發(fā)布新的預訓練語言模型BERT(Bidirectional Encoder Representation from Transformers)[8]刷新包括命名實體識別等11項自然語言處理任務記錄。預訓練語言模型作為編碼層并結(jié)合下游任務微調(diào)逐漸成為主流的文本挖掘方法。其后,一系列基于BERT改進的預訓練語言模型出現(xiàn)。Z. Lan等[9]提出一種基于BERT的輕量級自監(jiān)督學習模型ALBERT,通過分解詞嵌入和跨層參數(shù)共享技術解決了BERT模型參數(shù)規(guī)模過大和訓練下游任務時間長的問題。Y. Liu等[10]則使用更大規(guī)模的數(shù)據(jù)文本及參數(shù)量訓練出性能優(yōu)秀的預訓練語言模型RoBERTa。中文預訓練語言模型普適性雖強,但在面對特定領域文本的自然語言處理任務時,其功能的發(fā)揮容易受限。由于古文命名實體識別技術發(fā)展較晚,因此對于古文命名實體識別任務,領域化的深度預訓練語言模型成為提高古文文本實體識別效果的關鍵技術。2022年劉江峰等[11]基于《四庫全書》繁體語料在BERT和RoBERTa上進行繼續(xù)訓練得到SikuBERT和SikuRoBERTa預訓練語言模型,其設計面向《左傳》語料的命名實體識別等任務,驗證了SikuBERT和SikuRoBERTa在古文詞法、句法和語境學習以及泛化能力方面具有較強的能力。此外SikuBERT和SikuRoBERTa被第一個古漢語領域NLP工具評估比賽EvaHan 2022[12]作為封閉環(huán)境下的預訓練模型。P. Wang等[12]在BERT預訓練模型的基礎上,使用了較SikuBERT和SikuRoBERTa更大規(guī)模的古文數(shù)據(jù)集訓練得到了Bert-Ancient-Chinese模型,進一步豐富了古文領域化的深度預訓練語言模型。

2.3" 基于融合字詞信息的命名實體識別技術

早期的命名實體識別模型通常以一個字或一個單詞作為特征輸入的單位。但通常一個中文詞語是由多個中文符號構(gòu)成,中文語句又由多個具有實際含義的字或詞構(gòu)成,僅僅以字作為輸入單位會損失詞語特征信息。因此,在模型輸入階段如何同時有效利用字和詞信息成為提高中文命名實體識別模型性能的關鍵。許多學者和專家探究了不同的字信息和詞信息融合方法。Y. Zhang等[13]提出了Lattice-LSTM模型,該模型同時對輸入的字序列以及該字在詞典中匹配得到的所有詞序列進行編碼,并將潛在的詞匯信息融合進字信息當中,從而使得模型在獲得字信息的同時,也可以有效地利用詞的先驗信息。但由于Lattice-LSTM模型擁有特定的復雜格子結(jié)構(gòu),很難完全利用GPU的并行計算能力,導致有著比較低的推理速度。隨后,X. Li等[14]提出了面向中文的FLAT(Flat-lattice Transformer)模型,其針對Lattice結(jié)構(gòu)設計了一種巧妙的編碼方式,將Lattice轉(zhuǎn)為平面結(jié)構(gòu),以此提高模型的推理速度。FLAT模型在古文命名實體識別中的優(yōu)越性也被證實。謝靖等[15]以《黃帝內(nèi)經(jīng)·素問》為研究對象、以FLAT結(jié)構(gòu)為微調(diào)模型,構(gòu)建了中醫(yī)文獻中病癥、病理等命名實體識別任務。實驗結(jié)果證明,該微調(diào)模型可以同時有效利用字和詞信息,提高古代中醫(yī)命名實體的識別效率。M. Peng等[16]根據(jù)字符在其所有匹配詞的位置劃分4種集合,并將其整合對應到字符中,也有效降低了Lattice-LSTM方法的復雜程度。雖然,在特征輸入階段有效融合了字詞信息,但大多方法忽略了如何利用模型充分提取、學習這些有效信息。

2.4" 基于特征抽取的命名實體識別技術

中文或古文字符本身存在著一些實際含義,其字形結(jié)構(gòu)、拼音信息、偏旁部首等的特定規(guī)律特征可以被模型學習,以此提高命名實體識別模型的效果。Z. Sun等[17]將每個字符的仿宋、行楷和隸書3種字形信息與拼音信息融合,在大規(guī)模語料上訓練出中文預訓練模型ChineseBERT,在命名實體識別任務中取得了優(yōu)異的結(jié)果。尹成龍等[18]提出一種將詞嵌入、字嵌入和部首嵌入相融合的新方法,該方法充分利用不同粒度的語義信息,提高了模型的識別效果。孫紅等[19]提出了MF-NER方法,通過編碼漢字中每個字部件,并使用注意力機制使得文本序列中的字啟發(fā)式地融合細粒度信息,賦予模型獲取中文字形特征的能力。上述方法均從漢字本身特點出發(fā),賦予模型更多可學習的規(guī)律和特征。此后,基于聯(lián)合輔助任務的命名實體識別技術也被廣泛提出。C. Chen等[20]利用圖注意力網(wǎng)絡層捕捉句子中詞間關系,并將實體首尾詞匯的預測看作是兩個獨立的二分類問題,作為輔助任務加入訓練,緩解了詞邊界沖突的問題。Y. Gu等[21]在加入預測實體頭尾輔助任務的同時,進一步利用注意力機制讓模型學習實體內(nèi)字與字間的關聯(lián)關系,并探索實體的命名規(guī)律性,在多個數(shù)據(jù)集取得了當年最好的結(jié)果。

目前,現(xiàn)有的古文命名實體識別研究在模型輸入表征層未能有效融合字形信息、詞性信息及字信息的特征表示。模型特征提取設計較為單一,未能有效探究實體邊界及實體構(gòu)詞規(guī)律。針對以上問題,筆者將融合多重粒度的嵌入表示,并聯(lián)合輔助任務預測實體頭尾的同時使用注意力機制啟發(fā)式學習實體構(gòu)成規(guī)律,從而有效地提高古文命名實體識別任務的性能。

3" 理論與模型/Theory and model

筆者提出了適用于古文命名實體識別任務的MG-NER模型。MG-NER模型由嵌入層、邊界感知層、特征感知層、CRF[22]4個部分組成,模型結(jié)構(gòu)見圖2。首先,它直接將BERT作為編碼器得到文本當中每個字的向量表示。MG-NER模型將字向量、詞性向量和3種字體的字形結(jié)構(gòu)特征向量融合作為最終的模型輸入表示。其次,將多粒度特征融合向量表示分別送入邊界感知層和特征感知層。邊界感知層在預測實體頭與實體尾的同時,利用Transfer交互器共享實體邊界信息并啟發(fā)式學習實體構(gòu)詞規(guī)律。特征感知層一方面使用BiLSTM[23]抽取序列的依賴關系和時序關系,另一方面使用IDCNN[24]擴張卷積視野,捕獲長遠距離特征信息,學習語句內(nèi)部規(guī)律特征。最后,通過CRF層預測結(jié)果。接下來詳細介紹模型。

3.1" "嵌入設計

3.1.1" 向量

向量是一種在計算機科學和數(shù)學領域廣泛使用的數(shù)據(jù)結(jié)構(gòu),向量可以用來表示各種信息和數(shù)據(jù),是計算機理解人類語言和信息的一種數(shù)據(jù)媒介。通常,在自然語言處理各類任務中,通過預訓練語言模型將字或詞等對象映射成向量形式。預訓練語言模型旨在通過在大量無監(jiān)督語料上進行預訓練,以學習豐富的上下文信息,獲得比較好的語言表示,再將其應用到特定的自然語言處理的下游任務。在具體實驗中,由于古文數(shù)據(jù)文本與通用領域數(shù)據(jù)文本有較大差異,因此使用Bert-ancient-Chinese[12]作為預訓練語言模型。Bert-ancient-Chinese模型使用雙向注意力機制在詩部、史部、醫(yī)部等大規(guī)模的無監(jiān)督古文語料庫上進行預訓練從而獲得預訓練語言模型。相比SikuBERT和SikuRoBERTa[25]等古文預訓練語言模型Bert-ancient-Chinese擁有更大的詞表,收錄了更多的生僻字,因此更有利于提升模型在下游任務的表現(xiàn)性能。

3.1.2" 字嵌入

MG-NER模型通過已有的BERT預訓練模型在命名實體識別任務上進行微調(diào)(Fine-tune)操作,從而優(yōu)化句子中每個字的上下文表示信息。給定一個輸入序列,每一個字符的向量表示如公式(1)所示:

公式(1)

3.1.3" 詞性嵌入

已有的研究表明,結(jié)合詞性的字特征作為模型的輸入表示可以有效提高模型的學習能力。為了提高輸入特征表示,強化模型對實體邊界信息的識別能力,將詞性向量拼接到字向量之后。一個詞由一個字符或多個字符組成,為了對齊詞與詞性的粒度,筆者根據(jù)一個詞包含字的個數(shù)復制詞性。例如,“長安君”由“長”“安”和“君”3個字組成。“長安君”的詞性為“NR”,因此將“NR”分別嵌入到“長”“安”和“君”3個字中,詞性嵌入過程見圖3。給定一個字級別向量序列和一個詞性向量序列 ,對于融合后的向量表示如公式(2)所示:

公式(2)

3.1.4" 字形結(jié)構(gòu)嵌入

漢語是一種符號語言,很多字符屬于象形字,字符的符號蘊含著豐富的語義信息和學習價值,例如,“液”“河”和“湖”都有“氵”,表示這些字符都與“水”的語義相關。因此,將字形結(jié)構(gòu)融合模型中可以增強漢語自然語言模型的表現(xiàn)力。

受ChineseBERT啟發(fā),筆者采用仿宋、行楷和隸書3種字體。通過3種不同的字體對比和學習,可以使模型更好地從圖像角度理解

字符表達的含義。在特征輸入階段,通過多角度學習語句特征,有助于提高模型對于語料內(nèi)容理解和學習的能力。分別將每個漢字進行20×20的圖形向量化,然后將其分別拉平成1 200維向量,拼接后輸入全連接層,最終得到融合3種字體的字形結(jié)構(gòu)向量。仿宋、行楷、隸書3種字形結(jié)構(gòu)嵌入的流程見圖4。給定字與詞性融合向量序列和融合3種字體的字形結(jié)構(gòu)向量序列,對于嵌入后的向量表示如公式(3)所示:

公式(3)

3.2" "網(wǎng)絡層

3.2.1" 雙向長短時記憶網(wǎng)絡

BiLSTM是由雙向LSTM網(wǎng)絡組合而成,通過對輸入的文本序列做順序和逆序的計算,提取序列中的上下文信息[26],得到向量序列。實現(xiàn)其功能的主要單元為LSTM,LSTM通過選擇性遺忘上一時刻的細胞狀態(tài)中的信息以及記憶下一時刻新的信息得以傳遞,而無用的信息被釋放丟棄,并在每個時間步都會輸出隱層狀態(tài),其中遺忘、記憶與輸出由通過上個時刻的隱層狀態(tài)和當前輸入計算出的遺忘門、記憶門、輸出門來控制。

3.2.2" Transfer交互器

實體頭與實體尾的預測可以有效挖掘嵌入特征的語義和實體邊界等潛在信息。此外,實體構(gòu)詞也存在著一定規(guī)律性,這一規(guī)律性代表了某一類型的實體。例如,“籃球隊”“足球隊”都是以“隊”字結(jié)尾,其都代表了組織團隊這一類實體,“夏四月”“正月”“初月”都是以“月”字結(jié)尾,其都代表了時間這一類實體。預測實體頭與實體尾的同時,啟發(fā)式地學習這些字間規(guī)律特征,可以提升模型的整體性能。通過兩個獨立的BiLSTM網(wǎng)絡及深度全連接網(wǎng)絡層提取實體頭尾特征信息,通過這種方式可以利用模型有效學習實體首尾的構(gòu)詞規(guī)律。此外,在學習實體首尾構(gòu)詞規(guī)律的同時,通過特征交互矩陣計算句內(nèi)字與字間的得分可以啟發(fā)式學習句內(nèi)的規(guī)律特征。為了對齊字間規(guī)律得分及原始語句向量矩陣維度,將得到的字間規(guī)律特征矩陣與特征降維矩陣相互運算,最終得到包含語義信息及字間規(guī)律信息的信息矩陣。啟發(fā)式學習字間規(guī)律特征流程如圖5所示:

筆者提出將Transfer交互器用于交互共享實體頭與實體尾特征信息并啟發(fā)式學習實體構(gòu)詞規(guī)律。Transfer交互器結(jié)構(gòu)包括特征交互矩陣W、特征降維矩陣V、信息矩陣Head_information和Tail_information、激活函數(shù)tanh,輸出矩陣Head_out和Tail_out,其結(jié)構(gòu)如圖6所示:

Transfer交互器核心思想為分別將用于預測實體開頭與實體結(jié)尾的兩個獨立BiLSTM的輸出與特征交互矩陣W相乘并使用tanh函數(shù)激活,充分交互實體頭與實體尾的特征信息。通過特征降維矩陣V,進一步優(yōu)化特征空間,挖掘潛在特征信息。

hi、hj為兩個獨立BILSTM的輸出,將其分別與特征交互矩陣W相乘并用雙曲正切函數(shù)激活,得到包含實體頭與實體尾關聯(lián)特征信息的矩陣Ip、Iq。計算方法如公式(4)、公式(5)所示:

公式(4)

公式(5)

將關聯(lián)特征信息的矩陣Ip、Iq分別與特征降維矩陣V相乘,進一步優(yōu)化特征空間,并對其歸一化得到信息矩陣Qp、Qq。計算方法如公式(6)、公式(7)所示:

公式(6)

公式(7)

hi、hj分別與信息矩陣Qp、Qq相乘,得到包含了實體頭與實體尾特征關聯(lián)關系的輸出矩陣Head_out和Tail_out。計算方法如公式(8)、公式(9)所示:

公式(8)

公式(9)

3.2.3" 輸出層和損失函數(shù)

筆者將邊界感知層學習到的邊界信息與特征感知層學習到的特征信息融合,最終送入CRF進行預測。

邊界信息與特征信息融合計算方式見公式(10)。式中W1、W2、W3分別為可學習參數(shù),可以更好地平衡不同模塊對于模型的貢獻程度。和分別為預測實體頭與實體尾的輸出矩陣,為學習到的特征融合矩陣。

公式(10)

MG-NER最終損失值采用損失合策略,邊界感知層和特征感知層相互學習、相互作用,最終提高模型的準確性。損失合計算方法如公式(11)所示:

公式(11)

4" 實驗/Experiment

4.1" 實驗數(shù)據(jù)集

古文實體語料資源稀缺,獲取難度較大,筆者采用古文數(shù)據(jù)集《左傳》進行實驗分析。《左傳》是第一屆古漢語分詞與詞性標注評測EvaHan2022所使用的數(shù)據(jù)集,包含訓練集8 900條句子,驗證集1 200條句子,測試集1 000條句子,每條句子中包含的實體類型和數(shù)量不等,總計分為三大實體類型,包括人名(Name)、地名(Loc)、時間(Time)。相較于詩歌、散文等其他古文數(shù)據(jù)集,《左傳》語料內(nèi)容豐富,句法復雜,實驗結(jié)果具有一定的參考價值和意義。針對經(jīng)典的文言文的命名實體識別任務,有利于研究目前學界已有古代漢語命名實體識別研究成果,更有利于發(fā)現(xiàn)、探討當前研究進展的問題和不足,一同推動古代漢語命名實體識別技術的研究。表1和表2分別展示了《左傳》語句規(guī)模統(tǒng)計情況、實體分布情況。

《左傳》數(shù)據(jù)集使用BIOES標注體系進行序列標注。在BIOES序列標注體系中,B代表實體的起始位置,I代表實體的中間位置,O代表非實體部分,E代表實體終止位置,S代表單獨字為一個實體。序列標注情況如表3所示:

實驗通過常用的命名實體識別評估指標對構(gòu)建的模型進行性能評估,分別為精準率(Precision,P)、召回率(Recall,R)和F1值(F1)3個指標衡量模型的精準性。計算公式如下:

公式(12)

公式(13)

公式(14)

4.2" 分詞及詞性標注

實驗選取HanLP2.x工具對《左傳》數(shù)據(jù)集進行分詞及詞性標注,HanLP2.x使用了大規(guī)模語料上預訓練的語言模型,這些語料已經(jīng)包括互聯(lián)網(wǎng)上絕大部分的古代漢語和現(xiàn)代漢語。為了進一步提高分詞及詞性標注的準確率,降低由于分詞及詞性標注錯誤導致模型性能下降的風險,筆者對文本人工檢查5 000余字。表4展示了HanLP2.x對《左傳》數(shù)據(jù)集的分詞及詞性標注效果。

4.3" 實驗環(huán)境與實驗參數(shù)設置

實驗環(huán)境為Window11操作系統(tǒng)、CPU Intel Core i7-10700 2.90G Hz、16 GB RAM以及NVIDIA GeForce GTX 1660 SUPER 圖形處理器。模型框架為Python3.9、torch1.13。為了更好地調(diào)整學習率策略,筆者采用等間隔調(diào)整的有序調(diào)整方法,即在每經(jīng)過10輪迭代后,對學習率進行相應的衰減。其他參數(shù)詳如表5所示:

4.4" 實驗結(jié)果與分析

4.4.1" 預訓練模型對比實驗

繼2018年基于Transformer架構(gòu)的預訓練自然語言處理模型BERT出現(xiàn)后,針對各個特定領域的預訓練自然語言模型相繼出現(xiàn)。為得到對古文字編碼效果更優(yōu)的古文預訓練自然語言模型,筆者以《左傳》為研究語料,選取Bert-base-Chinese、Bert-ancient-Chinese、SikuBERT、SikuRoBERTa、GuwenBERT 5種預訓練語言模型進行實驗對比。此外,預訓練語言模型與BiLSTM-CRF結(jié)合已成為命名實體識別任務基礎研究模型,筆者在此基線模型基礎上繼續(xù)研究。實驗結(jié)果如表6所示:

由表6可知,Bert-base-Chinese預訓練模型F1值較Bert-ancient-Chinese預訓練模型下降5.14%。古文和現(xiàn)代漢語在詞義、語法規(guī)則等方面存在顯著差異,因此現(xiàn)有的中文預訓練模型并不適用于古文命名實體識別任務。使用雙向注意力機制在詩部、史部、醫(yī)部等大規(guī)模的無監(jiān)督古文語料庫上進行預訓練,因而獲得的Bert-ancient-Chinese預訓練語言模型的準確率、F1值明顯高于其他預訓練模型。筆者進行了多種基線模型對比實驗,確定Bert-ancient-Chinese + BiLSTM + CRF為最優(yōu)的基線模型組合方式。

4.4.2" 詞性嵌入對比實驗

在基線模型的基礎上,筆者選取jieba、HanLP2.x、HanLP2.x+人工重構(gòu)3種方式對《左傳》數(shù)據(jù)集進行詞性標注。得到標注后的詞性結(jié)果分別與靜態(tài)詞性向量文件匹配,得到50維的詞性特征向量,并將詞性特征向量拼接到字向量之后,進行命名實體識別任務。此外,由于一個詞由一個或多個字符組成,為了對齊詞與詞性的粒度,筆者根據(jù)一個詞包含字的個數(shù)復制詞性。實驗結(jié)果如表7所示:

由表7可知,由于jieba分詞針對古漢語分詞及詞性標注效果不佳,錯誤的詞性特征傳播會導致模型學習到錯誤的特征,其效果不佳。HanLP2.x+人工重構(gòu)的詞性標方式在《左傳》數(shù)據(jù)集的精確率方面不如HanLP2.x,但其召回率較HanLP2.x提升了4.11%,具有顯著的優(yōu)勢。

4.4.3" 實驗對比

在《左傳》數(shù)據(jù)集上,筆者提出的MG-NER模型與已有的多種模型進行對比,實驗證明了提出的MG-NER命名實體識別模型的有效性,實驗結(jié)果如表8所示:

(1)FLAT。X. Li等[14]將Lattice結(jié)構(gòu)轉(zhuǎn)化為由多個跨度組成的平面結(jié)構(gòu),每個跨度對應一個字或詞以及其相對應的原始位置。此外,為了對不同跨度產(chǎn)生交互,筆者提出了跨度的相對位置編碼。該模型解決了模型性能效率低下、引入外部詞匯信息不全或錯誤的問題。

(2)SIMP。M. Peng等[16]提出一種將每個字符的所有匹配詞合并到字符級別NER模型的方法。該方法解決了分詞帶來的錯誤傳播及模型無法完全利用詞信息的問題。通過實驗驗證了所提出方法的有效性。

(3)MECT。S. Wu等[27]利用漢字的結(jié)構(gòu)信息來加強漢字的特征表達,在FLAT基礎上提出使用多元數(shù)據(jù)嵌入來集成漢字特征和部首級嵌入的方法。MECT能夠更好地捕捉漢字的語義信息,為模型提供更多的特征信息。實驗結(jié)果證明了該方法的優(yōu)越性。

(4)HGN。J. Hu等[28]提出一種使用滑動窗口機制提取局部特征和位置信息的方法。該模型將全局信息和局部信息進行融合預測實體標簽,解決了Transformer忽略局部特征信息的問題。

由表8可知,筆者提出的MG-NER模型在《左傳》數(shù)據(jù)集展示出了優(yōu)秀的性能。在不嵌入3種字形特征時,其F1值達到了88.59%,MG-NER在捕捉實體邊界的同時,啟發(fā)式地學習實體字間規(guī)律,有效學習利用了輸入階段的特征信息。加入字形圖像特征時,由于對圖像采用全連接層進行特征提取,雖然提高了一定時間效率,但特征信息相對粗糙,存在一些噪音問題導致精確率下降,提取到了很多非實體片段。加入圖像特征的同時,模型學習到了那些能用字形結(jié)構(gòu)表達字符本身含義的規(guī)律,捕捉到了更多的實體片段,因此召回率有所提升,達到84.32%。FLAT模型提升了詞匯信息質(zhì)量,SIMP模型充分提高了字詞的特征表示能力,MECT模型和MF-NER模型根據(jù)漢字特點引入結(jié)構(gòu)特征,HGN有效捕捉了局部特征,但以上對比模型都沒有充分挖掘潛在特征對于模型的正向反饋以及實體構(gòu)詞規(guī)律的學習,因此其效果不如筆者提出的MG-NER模型。此外,由于古文語料實體分布特殊,一大部分實體均由一個字符構(gòu)成,模型學習其特征規(guī)律較為困難,因此實驗結(jié)果普遍不如通用領域命名實體識別實驗結(jié)果。

4.4.4" 消融實驗

為進一步驗證MG-NER模型各個模塊的有效性,在《左傳》數(shù)據(jù)集中進行不同子模塊消融實驗。其中,對整體模型的6個子模塊消融包括:①在特征輸入階段去掉字形特征;②在特征輸入階段加入字形特征;③保留預測實體頭尾輔助任務,在特征抽取階段去掉IDCNN網(wǎng)絡,僅用BiLSTM網(wǎng)絡對特征進行抽取;④去掉用于啟發(fā)式學習字間規(guī)律的Transfer交互器;⑤在特征輸入階段去掉拼接的詞性特征向量;⑥去掉預測實體頭尾的輔助模塊以及用于啟發(fā)式學習字間規(guī)律的Transfer交互器。實驗結(jié)果如表9所示:

由表9可知,在嵌入層加入字形特征時,由于模型獲取了更多有效特征信息,充分學習了一些可以由字形結(jié)構(gòu)體現(xiàn)字符所表達的含義,捕捉到了更多的實體片段,召回率提升0.75%,但在圖像特征提取時,使用全連接層將圖片結(jié)構(gòu)拉平進行特征提取,提取特征粒度相對粗糙,捕捉到了一些非實體片段,具有一定的噪音導致精確率有所下降。因此,在特征輸入階段加入圖像模態(tài)的特征信息具有一定的積極因素和消極因素。其中去掉IDCNN網(wǎng)絡,在《左傳》數(shù)據(jù)集的F1下降5%。IDCNN網(wǎng)絡采用卷積層和池化層,通過局部感受視野提取特征,更多關注于相鄰字符間的關系,而BiLSTM網(wǎng)絡具有前向和后向兩個LSTM層,更多關注于上下文信息。在特征提取階段,IDCNN網(wǎng)絡與BiLSTM呈現(xiàn)出了互補結(jié)構(gòu),若去掉某一網(wǎng)絡,精確率、召回率和F1值均有明顯的下降趨勢。其中去掉Transfer交互器,在《左傳》數(shù)據(jù)集的F1下降1.52%。Transfer交互器通過特征交互矩陣啟發(fā)式的學習到了實體字間的規(guī)律特征。古文語句的句法結(jié)構(gòu)復雜,字間存在很多值得學習的規(guī)律特征,僅通過預測實體頭尾輔助任務學習實體首尾規(guī)律而忽略實體內(nèi)的字間規(guī)律導致實驗結(jié)果F1值明顯下降。其中去掉詞性特征,在《左傳》數(shù)據(jù)集的精確率、召回率和F1值分別下降2.36%、4.15%、3.68%。一個詞由一個字符或多個字符組成,為了對齊詞與詞性的粒度,在MG-NER模型中,根據(jù)一個詞包含字的個數(shù)復制詞性,并拼接在字向量之后。因此,詞性特征包含了詞語的邊界信息,可以讓模型充分學習詞邊界特征信息。在劃分詞性時對比不同詞性標注工具,選取較為精準的HanLP2.x工具,并人工校驗了5 000余字,因此詞性特征對于MG-NER在各指標的影響十分顯著。其中去掉邊界感知層,在《左傳》數(shù)據(jù)集的F1下降2.73%。邊界感知層旨在顯示識別實體頭尾部分,充分學習詞性特征潛在的邊界信息,邊界感知層與詞性嵌入特征二者相得益彰。實驗結(jié)果證明了本方法的有效性。

5" 結(jié)語/Conclusions

筆者提出了數(shù)字人文視域下多粒度特征融合的古文命名實體識別MG-NER模型。MG-NER模型將字特征、詞性特征、字形特征相互融合,提高模型輸入階段的特征表達。實驗證明,通過多角度學習字詞及字結(jié)構(gòu)特征可以有效提高模型預測實體的性能。雖然通過提高特征輸入方法使得模型性能得到一定提升,但同時需要明確特征種類及特點,調(diào)整模型網(wǎng)絡層的架構(gòu)才能令模型更好地捕捉、學習、掌握這些規(guī)律特征。研究發(fā)現(xiàn),特征輸入階段在加入詞性信息后,其特征向量包含了詞邊界信息,通過加入預測實體頭尾輔助任務讓模型進一步學習實體邊界特征規(guī)律,以此讓模型發(fā)揮最大學習效能。除實體頭尾外,實體內(nèi)的字間也存在一定規(guī)律性,在加入預測實體頭尾輔助任務學習邊界信息的同時,通過Transfer交互器啟發(fā)式學習字間規(guī)律特征,實驗證明了Transfer交互器可以有效計算字間規(guī)律得分,幫助模型掌握字間規(guī)律,提高判別實體段的能力。面向古文領域的語料,一個字代表一類地名實體、時間實體、人名實體較為常見,并且這些字大多由表及意。從字形結(jié)構(gòu)的角度輸入特征,利用BiLSTM網(wǎng)絡和IDCNN網(wǎng)絡聯(lián)合抽取學習文字及圖像多元特征。在加入字形結(jié)構(gòu)特征后,其精確率和F1值下降,但召回率有所升高,說明MG-NER模型學習到了一些有用信息,但由于提取圖像特征粗糙存在一些噪聲,導致了一定的錯誤傳播。因此,可以根據(jù)實際需要選取是否加入字形特征。通過對比實驗及消融實驗,均證明了MG-NER模型的優(yōu)秀性能。

未來筆者將結(jié)合大模型外部知識、大模型數(shù)據(jù)增強等方法繼續(xù)優(yōu)化MG-NER模型以提高古文命名實體識別的性能,并構(gòu)建以MG-NER模型為核心的古文數(shù)據(jù)集實體自動標注可視化系統(tǒng)。

參考文獻/References:

[1] 王東波. SikuBERT:數(shù)字人文下的古籍智能信息處理(專題前言)[J]. 圖書館論壇, 2022, 42(6): 30. (WANG D B. SikuBERT: intelligent information processing of ancient texts in digital humanities(special introduction)[J]. Library tribune, 2022, 42(6): 30.)

[2] GRISHMAN R, SUNDHEIM B. Message understanding conference 6: a brief history[C]// Proceedings of the 16th conference on computational linguistics. Stroudsburg: Association for Computational Linguistics, 1996.

[3] HAMMERTON J. Named entity recognition with long short-term memory[C]// Proceedings of Conference on natural language learning at HLT-NAACL. Stroudsburg: Association for Computational Linguistics, 2003.

[4] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12(1): 2493-2537.

[5] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging: computer science[EB/OL]. [2024-06-20]. https://arxiv.org/abs/1508.01991.

[6] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs: computer science[EB/OL]. [2024-06-20]. https://aclanthology.org/Q16-1026.

[7] AKBIK A, BLYTHE D, VOLLGRAF R. Contextual string embeddings for sequence labeling[C]// Proceedings of International conference on computational linguistics. Stroudsburg: Association for Computational Linguistics, 2018.

[8] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding: computer science[EB/OL]. [2024-06-20]. https://arxiv.org/abs/1810.04805.

[9] LAN Z, CHEN M, GOODMAN S, et al. ALBERT: a lite BERT for self-supervised learning of language representations: computer science[EB/OL]. [2024-07-15]. https://arxiv.org/abs/1909.11942.

[10] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach: computer science[EB/OL]. [2024-07-15]. https://arxiv.org/abs/1907.11692.

[11] 劉江峰, 馮鈺童, 王東波, 等. 數(shù)字人文視域下SikuBERT增強的史籍實體識別研究[J]. 圖書館論壇, 2022, 42(10): 61-72. (LIU J F, FENG Y T, WANG D B. Research on historical entity recognition enhanced by SikuBERT under the perspective of digital humanities[J]. Library tribune, 2022, 42(10): 61-72.)

[12] WANG P, REN Z. The uncertainty-based retrieval framework for ancient Chinese CWS and POS: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/2310.08496.

[13] ZHANG Y, YANG J. Chinese NER using Lattice LSTM: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/1805.02023.

[14] LI X, YAN H, QIU X, et al. FLAT: Chinese NER using Flat-Lattice Transformer: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/2004.11795.

[15] 謝靖, 劉江峰, 王東波.古代中國醫(yī)學文獻的命名實體識別研究——以Flat-lattice增強的SikuBERT預訓練模型為例[J]. 圖書館論壇, 2022, 42(10): 51-60. (XIE J, LIU J F, WANG D B. Research on named entity recognition of ancient Chinese medical literature: a case study of flat-lattice enhanced SikuBERT pre-trained model[J]. Library tribune, 2022, 42(10): 51-60.)

[16] PENG M, MA R, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/1908.05969.

[17] SUN Z, LI X, SUN X, et al. Chinesebert: Chinese pretraining enhanced by glyph and pinyin information: computer science[EB/OL]. [2024-07-26]. https://arxiv.org/abs/2106.16038.

[18] 尹成龍, 陳愛國. 融合多重嵌入的中文命名實體識別[J]. 中文信息學報, 2023, 37(4): 63-71. (YIN C L, CHEN A G. Chinese Named entity recognition with integrated multiple embeddings[J]. Journal of Chinese information processing, 2023, 37(4): 63-71.)

[19] 孫紅, 王哲. 多粒度融合的命名實體識別[J]. 中文信息學報, 2023, 37(3): 123-134. (SUN H, WANG Z. Named entity recognition with multi-granularity fusion[J]. Journal of Chinese information processing, 2023, 37(3): 123-134.)

[20] CHEN C, KONG F. Enhancing entity boundary detection for better Chinese named entity recognition[C]//Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th International joint conference on natural language processing. Stroudsburg: Association for Computational Linguistics, 2021: 20-25.

[21] GU Y, QU X, WANG Z, et al. Delving deep into regularity: a simple but effective method for Chinese named entity recognition[J]. arxiv:2204.05544, 2022.

[22] LAFFERTY J, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International conference on machine learning. San Francisco: Morgan Kaufmann Publishers, 2002.

[23] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th annual meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016.

[24] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions: computer science[EB/OL]. [2024-07-26]. https://arxiv.org/abs/1702.02098.

[25] 王東波, 劉暢, 朱子赫, 等. SikuBERT與SikuRoBERTa: 面向數(shù)字人文的《四庫全書》預訓練模型構(gòu)建及應用研究[J]. 圖書館論壇, 2022, 42(6): 31-43. (WANG D B, LIU C, ZHU Z H. SikuBERT and SikuRoBERTa: research on the construction and application of pre-trained models for the Siku Quanshu (Complete Library of the Four Treasuries)in the Context of Digital Humanities[J]. Library tribune, 2022, 42(6): 31-43.)

[26] 李正輝, 廖光忠.基于多層次特征提取的中文醫(yī)療實體識別[J]. 計算機技術與發(fā)展, 2023, 33(9): 119-125. (LI Z H, LIAO G Z. Chinese medical entity recognition based on multi-level feature extraction[J]. Computer technology and development, 2023, 33(9): 119-125.)

[27] WU S, SONG X, FENG Z. MECT: multi-metadata embedding based cross-transformer for Chinese named entity recogtion[EB/OL]. https://aclanthology.org/2021.acl-long.121.pdf.

[28] HU J, SHEN Y, LIU Y, et al. Hero-gang neural model for named entity recognition[C]//Proceedings of the 2022 conference of the North American Chapter of the Association for Computational Linguistics: human language technologies. Seattle: Association for Computational Linguistics, 2022: 1924-1936.

作者貢獻說明/Author contributions:

孟佳娜:設計研究方案,修改論文;

許英傲:提出研究思路,撰寫論文;

趙丹丹:采集、清洗和分析數(shù)據(jù);

李豐毅:設計實驗,處理數(shù)據(jù);

趙" 迪:修訂論文與定稿。

Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities

Meng Jiana" Xu Yingao" Zhao Dandan" Li Fengyi" Zhao Di

School of Computer Science and Engineering, Danlian Minzu University, Dalian 116600

Abstract:[Purpose/Significance] Leveraging Named Entity Recognition (NER) techniques for the thorough exploration of ancient literary documents not only drives forward the digitization of ancient Chinese texts, including the vital process of Ancient text digitization, which is crucial for historical studies, bolstering cultural confidence, promoting traditional Chinese culture, and advancing Named Entity Recognition (NER) as a foundational task in NLP.[Method/Process] A method for named entity recognition in classical Chinese texts with multi-granularity feature fusion was proposed, Leveraging “Zuo Zhuan” as the research corpus and formulating named entity recognition tasks for personal names, geographical names, temporal entities, etc. Initially, ancient character information, part-of-speech (POS) information, and glyph features were integrated to enhance input feature representation. Subsequently, auxiliary tasks for predicting entity boundaries were introduced, alongside the utilization of a Transfer Interactor heuristic to learn classical Chinese entity formation rules. This was complemented by joint contextual information extraction using BiLSTM and IDCNN (Iterated Dilated Convolutional Neural Network). Finally, learned features were weighted and merged into a CRF (Conditional Random Field) for entity prediction. [Result/Conclusion] Experimental results demonstrate that the proposed method of multi-granularity feature fusion for named entity recognition in classical Chinese texts enhances precision, recall, and F1 score by 5.09%, 13.45%, and 9.87%, respectively, compared to the mainstream BERT-BiLSTM-CRF method. Multi-granularity feature fusion for named entity recognition in classical Chinese texts is crucial for accurately identifying named entities in ancient texts.

Keywords: digital humanities" " classical Chinese" " entity recognition" " multi-granularity feature fusion

Fund project(s): This work is supported by the Humanities and Social Sciences Research Planning Fund project titled “The Research on the Internet Smart Dissemination of Chinese Culture Based on Knowledge Graphs” (Grant No. 23YJA860010) and the Fundamental Research Funds for the Central Universities project titled “Research on Sentiment Analysis Based on Large Models and Knowledge-Driven Approaches” (Grant No. 140250).

Author(s): Meng Jiana, professor, PhD, master supervisor; Xu Ying’ao, master candidate; Zhao Dandan, associate professor, PhD, master supervisor, corresponding author, E-mail: 86313700@qq.com; Li Fengyi, master candidate; Zhao Di, lecturer, PhD.

Received: 2024-07-22" " Published: 2024-12-17

主站蜘蛛池模板: 亚洲人人视频| 重口调教一区二区视频| av一区二区三区高清久久| 亚洲色图另类| 制服丝袜一区二区三区在线| 99尹人香蕉国产免费天天拍| 国产丝袜丝视频在线观看| 欧美天堂在线| 国产在线91在线电影| 久久精品人人做人人综合试看 | 拍国产真实乱人偷精品| 色婷婷成人网| v天堂中文在线| 久草视频精品| 日本三级欧美三级| 国产免费怡红院视频| 亚洲狠狠婷婷综合久久久久| 香蕉视频国产精品人| 欧美国产日韩在线观看| 国产乱人免费视频| 亚洲精品麻豆| 成人小视频网| 亚洲动漫h| 无码AV日韩一二三区| 国产成人精品18| 国产精品亚洲αv天堂无码| 九九免费观看全部免费视频| 国产福利免费在线观看| 91青青草视频在线观看的| 91麻豆精品国产高清在线| 国产视频自拍一区| 夜夜拍夜夜爽| 一级片一区| 欧美午夜视频| 四虎永久在线精品影院| 五月天久久综合国产一区二区| 伊人久久精品无码麻豆精品 | 日本精品中文字幕在线不卡| 国产欧美视频在线| 国产在线八区| 欧美午夜小视频| 好紧好深好大乳无码中文字幕| 色婷婷成人| 国产在线观看第二页| 国产精品尤物在线| 国产爽歪歪免费视频在线观看 | 欧美日韩中文国产va另类| 国产视频 第一页| 一级毛片基地| 国产日韩精品一区在线不卡| 欧美一区中文字幕| 在线看AV天堂| 67194亚洲无码| 国产手机在线ΑⅤ片无码观看| 欧美精品亚洲日韩a| a天堂视频| 国产精品私拍在线爆乳| 亚洲中文字幕在线观看| 成人午夜视频网站| 丁香婷婷激情综合激情| 午夜爽爽视频| 国产精品欧美亚洲韩国日本不卡| 91啦中文字幕| 国产超碰在线观看| 日韩区欧美区| 香蕉精品在线| 国产av剧情无码精品色午夜| 久久视精品| 波多野结衣国产精品| 玖玖精品在线| 久久黄色免费电影| 国内嫩模私拍精品视频| 欧美在线黄| 亚洲大尺码专区影院| 中文字幕一区二区视频| 成人国产三级在线播放| 国产亚洲男人的天堂在线观看| 亚洲大尺码专区影院| 亚洲第一极品精品无码| 国产精品美女在线| 亚洲精品无码抽插日韩| 国产人人干|