999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多任務聯合學習的長白山民間文學實體抽取方法研究

2025-05-01 00:00:00張衛(wèi)東陳希鵬李心怡李奉芮
現代情報 2025年5期

摘 要: [目的/ 意義] 通過對民間文學文本數據進行命名實體識別, 有助于民間文學資料的深度描述和展示, 為構建完整的長白山非遺知識體系夯實根基。[方法/ 過程] 本研究提出了基于多任務聯合學習(BERT-BiG?RU-MHA-CRF)的長白山非遺民間文學實體抽取模型, 引入雙向門控循環(huán)單元BiGRU 更好地處理實體在句子中的長序列依賴性, 解決梯度消失問題; 再聯合多頭自注意力機制MHA 加強對關鍵實體的注意力權重分配, 從而獲得更好的實體識別結果。[結果/ 結論] 通過對比BERT-CRF、BERT-BiLSTM-CRF 主流多任務聯合學習基準模型, 本模型對民間文學命名實體識別的準確率均為最優(yōu), 其精確率達86.76%。本研究初步實現了對民間文學文本的精準實體識別, 有利于對民間文學資料進行深入分析和知識挖掘, 有助于保護和傳承長白山文化記憶。

關鍵詞: 數字人文; 多任務聯合學習; 預訓練模型; 長白山文化; 民間文學; 實體識別

DOI:10.3969 / j.issn.1008-0821.2025.05.003

〔中圖分類號〕TP391. 1; G250. 2 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 05-0015-09

長白山非遺資源是中國文化的重要組成部分,是吉林省獨有的標志性文化。長白山文化的內涵豐富、外延廣闊, 做好長白山文化資源的數智化開發(fā)、保護、研究與傳承, 對于實現吉林文化的繁榮發(fā)展、推動東北全面振興具有重要的意義。國務院辦公廳印發(fā)的《“十四五” 文物保護和科技創(chuàng)新規(guī)劃》中,明確提出加強對非物質文化遺產的保護與傳承。在當前信息時代的高速發(fā)展階段, 如何利用人工智能技術整合長白山非遺資源, 探索非遺資源在當代知識普及、文化展示、社會教育等數智化傳播行為中潛在的巨大價值, 存在一定挑戰(zhàn)性。

近年來, 越來越多的國內外數字人文研究學者通過應用計算、統計等數據處理與分析方法, 在如考古學、文史學、語言學、音樂學等其他的人文學科領域進行跨學科研究。自然語言處理(NaturalLanguage Processing)是人工智能領域的主要研究方向, 探索如何運用計算技術(算法)理解和處理人類自然語言文本, 形成結構化的數據和知識, 是數字人文研究的關鍵技術支撐。當前數字人文的研究涉及多種自然語言處理任務, 如情感分析[1] 、文本分類[2] 、實體識別[3] 、機器翻譯[4] 和詞性標注[5]等。聚焦到非物質文化遺產的數字化開發(fā)與利用研究方面, Barros C 等[6] 以無監(jiān)督的方式預訓練了一個詞嵌入算法, 用于自動解析墨西哥早期殖民的歷史文本和特定地名, 探索歷史語料庫中隱藏的關聯事件和故事內涵; 胡昊天等[7] 利用RoBERTa 模型構建出了基于國家級非物質文化遺產項目申報文本知識庫, 為我國非遺文本自動分詞方面的研究提供了參考。林立濤等[8] 和吳夢成等[9] 分別對典籍中的動物和植物實體進行了命名實體識別研究, 為古籍知識組織提供了新的思路。然而, 針對長白山地區(qū)民間文學的實體抽取研究仍相對缺乏深入探討。

民間文學作為非物質文化遺產的重要組成部分,由數代人民收集和整理而成, 是勞動人民集體智慧的結晶。在非遺資源的智慧化傳承過程中, 對民間文學資料的描述和展示等步驟涉及相關實體概念和特定術語等, 對其實體的抽取是構建完整的非遺知識圖譜和知識庫的關鍵根基[10] 。民間文學中的特定術語構成、類別等將決定非物質文化遺產資源及后續(xù)研究的深度[11] , 其語言表達靈活、地域特色鮮明、實體類別多樣等特點使得傳統實體抽取方法難以滿足當前需求。

基于上述內容的啟發(fā), 本研究以長白山非遺資源中的民間文學為數據源, 運用自然語言處理中的深度學習和預訓練模型等多任務聯合學習的方法,構建基于BERT-BiGRU-MHA-CRF 的長白山非遺民間文化命名實體識別模型, 充分發(fā)揮雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, 簡稱BiG?RU)和多頭自注意力機制(Multi-head Attention, 簡稱MHA)的獨特優(yōu)勢, 在優(yōu)化了Dropout 層和池化層的同時, 有效避免梯度消失、爆炸等問題, 并運用五折交叉驗證(5-Fold Cross-validation)的模型訓練與評估方法, 提高了整個模型的準確性和穩(wěn)健性,實現了對長白山地區(qū)民間文學文本集的高效命名實體抽取。同時, 對比當前主流聯合學習實體抽取方法, 如BERT-CRF、BERT-BiLSTM-CRF 對本數據集的命名實體識別的效果, 來驗證本研究所提方法的先進性和有效性。最后, 本模型的提出有助于民間文學關鍵詞的詞表構建與畫像的可視化呈現, 為民間文學工作者在各民族民間文化搶救工作中提供有力支持。

1 相關研究

1. 1 實體抽取相關研究進展

目前, 自然語言處理領域下的主流信息抽取方法發(fā)展歷程主要從基于規(guī)則的抽取方法、基于傳統的機器學習模型、到基于神經網絡的深度學習模型,演變到多任務聯合學習模型開發(fā), 再到當前基于大語言模型的抽取方法, 相關研究取得了顯著的進展。例如, 在學術文獻實體識別方面, 章成志等[12] 對比了多種混合模型在學術文獻全文中的方法實體細粒度抽取效果, 發(fā)現SciBERT+CRF 模型在性能上最為優(yōu)越, 為特定領域的科研方法選擇提供了參考;張穎怡等[13] 研究了基于ChatGPT 的多視角學術論文實體識別方法, 證明了該方法在F1 值上顯著優(yōu)于傳統的少量樣本訓練的神經網絡模型, 且在不同學科領域的學術論文數據集上表現穩(wěn)定; Wei X 等[14]提出了一個兩階段的基于ChatGPT 的信息抽取工具Chat IE, 用于命名實體識別、關系抽取和事件抽取任務。在典籍方面的實體抽取研究中, 以南京農業(yè)大學為代表的研究團隊分別利用基于SikuRoB?ERTa 預訓練模型和深度學習的自然語言處理技術對典籍動物[8] 、先秦典籍植物[9] 、古代中醫(yī)醫(yī)學文獻[15] 、古代農作物時間分布特征[16] 等實體識別任務進行深入的探討與分析, 形成了完整的典籍知識組織與知識挖掘研究體系。此外, 以吉林大學為代表的研究團隊運用混合深度學習方法構建了面向藏醫(yī)古籍的實體命名識別抽取模型[17] , 彌補了藏醫(yī)古籍的知識組織開發(fā)不足的現狀, 并實現了藏醫(yī)古籍深層次的知識發(fā)現[18] 。雖然大規(guī)模語言模型在復雜垂直領域的實體抽取任務中展現出強大的潛能, 但是如何有效利用大模型并權衡性能、成本和可解釋性仍是未來研究的重要方向。

1. 2 非遺資源實體抽取研究現狀

針對非遺資源的實體抽取的相關研究, 以南京大學為代表的研究團隊通過融合自然語言處理技術,在中國民歌情感識別[19] 、古典詩歌意象術語抽?。郏玻埃?、非遺陶瓷工藝術語抽?。郏玻保?等非物質文化遺產項目中進行語料的術語抽取及新詞發(fā)現, 形成獨特的術語庫, 以便后續(xù)數字人文領域內相關研究的開展與理論實踐[22] 。在文學領域的實體抽取相關研究中,賈玉祥等[23] 提出, 融入篇章信息的命名實體識別模型, 對金庸小說中的四類實體進行高效識別, 體現了人文領域實體識別的研究應用價值; Barros C 等[24]利用有監(jiān)督機器學習的二元分類任務, 對童話故事中的人物角色進行實體識別; 郭順利等[25] 基于BERTBiLSTM-CRF 模型和改進的Apriori 算法實現了對游記文本的關聯知識挖掘及聚合。

然而, 當前在文學領域命名實體識別的研究尚未形成完整體系, 研究力度相對薄弱, 主要原因在于高質量的訓練語料以及算力資源匱乏等。以往傳統的民間文學工作者多數通過傳統閱讀和手頭分析的方法對民間文學進行分析, 大部分研究存在主觀判定的問題, 缺乏全面、客觀、條理的數據和文本分析, 導致出現對民間文學語義理解不深入、文化價值挖掘不到位等情況。目前普遍流行的實體識別算法對民間文學文本中的部分俗語、方言、特定地名、虛擬神話人名等實體的識別不夠精準, 難以有效解決民間文學語言復雜性所帶來的研究瓶頸。對于像民間文學這樣的口述歷史, 其獨特的敘事方式客觀上造成了高質量訓練語料的不足, 導致現有的命名實體識別模型對民間文學實體的高效準確識別存在一定的挑戰(zhàn)。同時, 當前對口述歷史資源進行知識組織的相關研究[26] 大多運用傳統的知識圖譜構建流程, 無法全面地挖掘、分析目標語料的深層次價值。

1. 3 相關研究評述

綜上所述, 雖然大部分數字人文相關研究(如古籍、中醫(yī)等方面)證實了多任務聯合學習在各自特定領域的實體識別任務中發(fā)揮了潛在的優(yōu)勢, 但是此類研究多數基于傳統CNN 模型聯合長短期記憶(LSTM)神經網絡的方法, 實體識別效果仍有較大的提升空間。在模型訓練方面, 大多數研究都按照傳統的8 ∶1 ∶1的比例隨機劃分訓練集、驗證集和測試集, 影響最終模型的識別效果。為了解決單一卷積神經網絡(CNN)和長短期記憶(LSTM)網絡在提取文本特征時無法確定文本中每個實體的重要性以及時間復雜度高的問題, 彌補當前研究鑒于民間文學領域命名實體識別研究領域的不足, 本研究旨在融合雙向門控循環(huán)單元(BiGRU)和多頭自注意力機制(MHA)構建專屬民間文學命名實體識別模型,同時運用五折交叉驗證的模型訓練與評估方法, 有利于高效精準識別民間文學文本中的實體, 有利于對民間文學資料進行深入分析和知識挖掘, 有利于進一步完善口述歷史資源體系, 保護和傳承東北文化記憶。

2 研究方法

2. 1 研究框架

本研究旨在為民間文化機構開展文化遺產資源智慧性保護與傳承工作提供決策支持, 提取長白山非遺資源內容中潛藏的中華文化元素、符號和標識,為今后開展文化遺產數據開發(fā)利用工作提供可參考路徑。在此基礎上提出了本研究框架, 包括民俗文本語料處理、BERT-BiGRU-MHA-CRF 模型、實體識別模型評估3 個模塊。

2. 2 模型提出

作為口述歷史資源的一種, 民間文學通常包含獨特的語言和結構特征[27] , 其故事情節(jié)往往跨越多個句子, 存在較長的語義跨度, 且包含大量特定的人物、地名、物品等實體類別, 要求模型能夠處理長距離的上下文依賴關系, 并有效識別各類實體。相比于傳統的LSTM, GRU 在處理長序列時表現更佳, 能更好地捕獲長距離依賴, 雙向GRU 可以同時考慮前后文信息, 這對于識別跨句子出現的實體(如人名、地名等)尤為重要。因此, 本研究針對民間文學內容的特殊性, 提出了有針對性的命名實體識別方法, 即基于BERT-BiGRU-MHA-CRF 的長白山非遺民間文學領域的實體抽取模型。通過融合基于BERT 的雙向循環(huán)單元BiGRU 和多頭自注意力機制MHA 的模型, 以提高實體抽取的高效性與準確性。為此, 本研究所提出的方法解決了短文本實體識別向量化的挑戰(zhàn)。與只考慮單向信息的傳統語言模型不同, 所提出的BERT 模型是一種雙向建模語言模型, 同時捕捉上下文中的信息, 使得生成的詞向量更富語義。此外, BiGRU-MHA 網絡層有效過濾了有限文本空間內的重要信息, 并為過濾后的詞向量分配不同的權重, 以增強其“關注力”,這樣的融合共同提高了命名實體識別模型的性能。

BERT-BiGRU-MHA-CRF 模型的架構如圖2 所示, 分為輸入層、BERT 編碼層、BiGRU 層、Multihead-ATT 層、全連接層、CRF 層和輸出層。①在輸入層中, 輸入句子中的每個詞都通過嵌入函數轉為詞向量, 其中原始詞向量代表BERT 的輸入。②在BERT 編碼層中, 原始詞向量通過雙流自我關注進行處理, 并在兩個通道中同時計算向量: 內容流和查詢流。由于查詢流包含位置信息, 因此在預測過程中用作BERT 的輸出。③BiGRU 層用于提取深層實體特征, 它包含前向和后向的GRU。通過BiG?RU, 詞向量可以更全面地學習上下文之間的關系并進行語義編碼。④Multi-head-ATT 層為不同的詞向量分配對應的概率權重, 以進一步提取文本特征并突出文本的關鍵信息。⑤全連接層將前層(卷積、池化等層) 計算得到的特征空間映射樣本標記空間。⑥最后, 輸出層是一個CRF 連接層, 并使用Softmax 函數提供命名實體識別結果。接下來, 筆者將討論BERT-BiGRU-MHA-CRF 模型主要模塊在民間文學領域的優(yōu)勢所在。

1) BERT[28] 。深度預訓練語言模型是一種基于大規(guī)模無監(jiān)督語料, 通過自監(jiān)督的方式訓練而得到的含有語料中詞法、句法、上下文信息的語義表示模型。基于BERT 是一種只需要提取輸入文本序列的語義關系的預訓練模型, 因此其優(yōu)勢在于模型的主要結構由Transformer 的編碼器組成。本研究使用的是12 層BERT BASE 模型, 由12 個編碼器的堆棧構成。此外, Transformer 是基于注意力機制的深度網絡, 有助于后續(xù)多頭自注意層的文本處理。

2) BiGRU[29] 。門控循環(huán)單元(GRU)是一種輕量級的循環(huán)神經網絡, 由于其內部的門結構而與其他神經網絡有所不同。BiGRU 的核心引入了門控機制來動態(tài)控制信息流, 通過更新門和重置門的協同作用, 在建模長距離依賴關系方面具有獨特的優(yōu)勢。這種獨特的結構使網絡能夠確定民間文學各實體間的相關性, 既促進了網絡內的有效數據傳輸,也有效地控制了冗余信息。本研究利用雙向門控循環(huán)單元(BiGRU)有助于提取更有效的實體特征, 這些特征可以通過隱藏層并使用注意力機制關注當前和先前的狀態(tài), 為重要信息提供不同的權重, 從而增強對重要信息的“關注”, 進而提高詞向量的質量和命名實體判斷的準確性。

3) Multi-head ATT[30] 。多頭自注意力機制是傳統注意力機制的改進, 減少了對外部信息的依賴,更擅長捕獲數據信息的內部關聯。展開來講, MHA機制首先將輸入序列映射為多個子空間, 然后分別應用自注意力機制學習序列中不同位置的相關性,最后將多個子空間的輸出拼接起來形成最終的特征表示。本文通過引入自注意力機制層來重新分配經Bi-GRU 處理的輸出向量的權重。這種方法可以有效避免Bi-GRU 層的輸出向量直接傳遞到全連接層而導致的特征信息浪費, 并間接提高模型捕獲關鍵信息的能力, 提高模型的預測效率。因此, 本研究利用多頭自注意力機制, 關注民間文學本身中的重要的實體或組合, 有助于提高模型的性能。

4) CRF[31] 。條件隨機場是一種判別概率模型。CRF 具有強大的推理能力, 可以充分利用上下文信息, 通過相鄰標簽之間的關系得到最優(yōu)的預測序列。本文將CRF 層與BiGRU-MHA 層相連接, 結合BiG?RU-MHA 獲取信息的優(yōu)勢, 獲得更好的預測序列。

2. 3 數據來源與預處理

中國民間故事集成通過全國范圍普查, 遵循“科學性、全面性、代表性” 的編纂原則, 基本能夠全面反映中國民間故事狀況, 具有一定的權威性。鑒于長白山在我國境內的行政區(qū)劃隸屬吉林省內,本研究以《中國民間故事集成———吉林卷》為數據來源, 彰顯獨具北方民族特色的長白山區(qū)域文化[32] 。該數據集是中國民間文學集成全國編輯委員會、中國民間文學集成吉林卷編輯委員會編纂的地方志。該故事集成囊括長白山民間文學集合, 具有全面性和科學性。本研究通過對《中國民間故事集成———吉林卷》的電子掃描版進行OCR 文本識別, 形成原始語料庫, 并進行專業(yè)人工校對, 剔除錯字、重復字詞、無關格式等, 確保高質量的語料構建, 為模型高效訓練夯實基礎。經篩查, 共收集了289 篇有關長白山地區(qū)的民間文學。

2. 4 實體類別定義與標注

以民間文學為文本數據的命名實體是具有特定意義的實體, 主要包括人物、地點、組織、專有名詞等?!吨袊耖g故事集成》中常見的文學類別, 多數由神話、傳說、人物傳記、動植物傳說等構成。民間文學作品篇幅簡短, 各類實體的表述如人物集合、親屬稱謂、籠統地點、物品統稱等均在實體標注的范圍, 以確保對故事內容當中關鍵實體的提取。鑒于當前民間文學研究領域尚未形成專有的實體詞表可供參考, 為此筆者邀請了在數字人文領域內從事民間文學研究的3 位專家。專家A 和B 均是某知名大學數字人文領域的專家, 在非遺資源開發(fā)與利用方面的研究有超過15 年的經驗, 專家C 是省級民間文學學會主席, 曾主持多個國家級社科基金,多以民間文學研究領域為主。這3 位專家的多元背景確保了實體類別定義的全面性和準確性。通過與3 位專家進行實體類別的討論, 總結了民間文學特有的命名實體類別, 即人物、地點、物品、動物、植物5 種專有實體類別, 如表1 所示。根據本研究所提出的民間文學實體類別, 在開源文本標注平臺針對預處理過的語料進行人工高質量標注。為確保數據標注的質量, 首先, 對3 位全日制信息資源管理碩士研究生進行了標注前培訓, 確保充分理解標注規(guī)則與要求; 其次, 采取雙重預標注方式, 對前10 篇文本進行獨立標注, 然后進行對比, 對于存在分歧的標注, 由上述3 位專家進行審核和最終決策;第三, 以修訂后的標注規(guī)范為依據, 進行剩余文本的正式標注; 最后, 依據標注工具所提供的一致性檢驗功能, 得出本次數據的標注一致性(CohensKappa 系數)均達到了0. 85 以上, 確保了標注數據的高質量。

本研究團隊進行為期15 天的標注與校對任務,標簽體系采用序列標注集合{B,I,E,S,O}來識別民間文學實體, 最終共標注了14 787個有效實體, 其中人物實體5 923個, 地點實體2 289個, 物品實體2 796個, 動物實體2 515個, 植物實體1 264個, 形成了長白山民間文學標注語料庫。

3 實驗與結果分析

3. 1 實 驗

3. 1. 1 實驗設定

實驗基于遠程A800 服務器運行, 其操作系統為Ubuntu20. 04."5 LTS, GPU 為NVIDIA GeForceRTX 3090, 顯存為24GB, 開發(fā)語言為Python3. 8,基于Pytorch 框架開發(fā)。在長白山民間文學實體抽取實驗中, 選?。拢牛遥裕茫遥?和BERT-BiLSTM-CRF 模型作為基線模型, 本模型的關鍵超參數設置數值如表2 所示。不同于傳統的模型數據集訓練方式, 即按照8 ∶1 ∶1的比例隨機劃分訓練集、驗證集和測試集來進行模型的訓練, 本次實驗的訓練方式運用五折交叉驗證[33](5-Fold Cross-validation)評估方法,將原始民間文學文本數據集分成5 個相等大小的子集(或折疊), 利用4 個子集作為訓練集訓練模型,而剩下的1 個子集用于測試模型。通過5 次重復訓練, 每次選擇不同的1 個子集作為測試集, 其余的作為訓練集。最后, 將5 次的性能評估結果取平均值以得到最終評估結果, 從而高效評估模型的性能和泛化能力。

3. 1. 2 基準模型選擇

為驗證本研究所提出的模型在長白山非遺民間文學文本集中對各類實體知識的準確性和有效性,選取了以下主流模型BERT-CRF 和BERT-BiLSTMCRF進行對比實驗。①BERT-CRF 模型: 此模型架構由1 個BERT 模型和1 個token 分類器組成, 通過BERT 編碼進行語義信息的輸入, 再通過線性CRF 用于從非結構化文本數據中識別和提取命名實體。②BERT-BiLSTM-CRF 模型[34] : 此模型首先將預先訓練好的語言模型用作BiLSTM-CRF 模型的詞嵌入層, 然后使用帶有CRF 層的BiLSTM 層對原文進行標記, 進而得到預測的實體分割結果, 最后利用監(jiān)督學習方法對分詞結果進行迭代學習, 從而提高模型的性能, 獲得準確的分詞結果。

3. 1. 3 測評指標選擇

在命名實體識別中最常用的指標是準確率、精確度、召回率和F1 分數。其中, 準確率最為簡單直觀, 是指正確預測的實例數與實例總數之比。精確度是指預測正確的實體數與預測實體總數之比。召回率是指正確預測的實體數量與所有實體總數的比率。F1 分數是準確率和召回率的調和平均值。在這4 個指標中, 精確度會遇到各類型實例比例不均的情況, 這將導致精確度容易受到大比例實例的影響。因此, 本研究在長白山非遺民間文學資源實體抽取模型的評價指標中選擇精確度(P)、召回率(R)和F1 分數作為評價模型的指標, 如式(1) 所示:

其中, Tp 表示為正確預測的實體數量, Fp 表示為錯誤預測的實體數量, FN 表示實際上屬于這個實體類別但被預測為不屬于這個實體類別的數量。

3. 2 結果分析

3. 2. 1 各模型整體實體識別效果分析

對比模型評估結果, 各模型在長白山非遺民間文學領域的命名實體識別預測任務中表現出不同的識別性能, 如表3 所示。在民間文學實體識別任務中, 本研究所運用的多任務聯合學習模型在精確率P、召回率R 和F1 值分別達到86. 76%、84. 07%和85. 39%, 表明本模型的綜合性能均優(yōu)于其他兩種模型。與僅使用CRF 相比, BiLSTM-CRF 模型和BiGRU-CRF 模型的識別效果得到了大幅度提升。這是因為BiLSTM-CRF 模型和BiGRU-CRF 模型都屬于雙向循環(huán)神經網絡, 能夠同時從輸入序列的兩端出發(fā)來捕捉上下文信息, 學習整個句子的特征, 從而識別出更多的實體。此外, 基于BiGRU-CRF 模型在引入多頭自注意力機制后, 對比BiLSTM-CRF 模型, 其準確率和召回率得到了明顯的提高, 整體F1值提升了8. 73%。因此, 在本模型引入自注意力機制后, 對文本實體關鍵特征的強化, 使得準確率、召回率和F1 值得到了大幅度的提升, 可以使下級識別任務表現得更好, 體現出本模型的優(yōu)勢所在。

3. 2. 2 各模型對不同實體類型識別效果分析

在對比完各模型的整體識別結果之后, 分析各模型對不同實體類別的識別效果也至關重要。由表4可得出, 本模型在各個實體類別上的識別效果, 即精確度、召回率和F1 值均高于其他兩個模型, 證實了本模型的高效實體識別效果。在細粒度的效果分析下, 本模型在“人物” 實體類別上的預測效果最佳, 其F1 值為75 42%。其次是“物品” 類別,其F1 值為72. 78%。主要原因在于單個民間文學的構成以人物和物品居多, 其他實體類別的占比相對較低, 導致其他實體類別的實體數量偏少, 存在降低實體分類能力。

3. 2. 3 最優(yōu)模型的錯誤識別實例分析

1) 實體邊界識別錯誤

例句1: 原文: “長白山天池是朝鮮族的圣地”。

錯誤識別: [長白山]: 地點; [天池]: 地點

正確識別: [長白山天池]: 地點

在例句1 中, 模型將“長白山” 和“天池” 錯誤地分割為兩個獨立的地點實體, 未能識別它們共同構成一個完整的地名。

2) 實體類別混淆

例句2: 原文: “黃郎中說: 你光知道江里三寶有三花, 鳊花、鯽花和鱉花”。

錯誤識別: [鳊花]植物; [鯽花]植物; [鱉花]植物

正確識別: [鳊花]動物; [鯽花]動物; [鱉花]動物

在例句2 中, 模型將帶有花的詞語錯誤地歸類為植物類別, 未能準確識別其作為當地特色的魚類品種。

3) 罕見實體識別失敗

例句3: 原文: “他到哪兒, 哪疙瘩棒槌就多”。

錯誤識別: 未識別出任何實體

正確識別: [棒槌]植物

在例句3 中, 模型未能識別出“棒槌” 這一在長白山民間文學中人參的別稱, 該實體在通用文學作品中是相對比較罕見的植物實體。

基于以上的錯誤識別實例分析, 本研究提出了以下改進建議: 首先, 在優(yōu)化實體邊界的識別過程中, 可通過引入基于規(guī)則的后處理步驟, 如利用地名詞典輔助校正地名實體的邊界, 并在預訓練階段加入更多此類樣本來增強模型對復合地名的學習;其次, 在改進實體類別的分類方面, 構建特定領域(如長白山民間文學)的實體詞典, 輔助模型識別罕見或地區(qū)特色專有實體; 最后, 引入上下文語義深度理解, 進一步優(yōu)化注意力機制, 使模型能更好地捕捉長距離語義依賴, 從而理解實體在整個故事情節(jié)中的角色和屬性。

3. 2. 4 綜合結果分析

從以上結果分析來看, 基于BiGRU 的本模型在所有實體類別上的F1 值都高于采用BiLSTM 的基準模型, 證實了BiGRU 在建模長距離依賴關系方面的優(yōu)勢。其主要原因在于, 在民間文學命名實體識別任務中, 故事情節(jié)往往跨越多個句子, 存在較長的語義跨度。BiGRU 的機理恰好能夠處理這種長距離的上下文依賴關系。例如, 在識別人物實體的過程中, 人名可能在前后多個句子中多次出現,BiGRU 通過更好地利用這些跨句子的上下文線索,準確地將分散出現的人名歸類為同一個實體。類似地, 對于識別物品、動物、植物等實體類別, BiG?RU 也能夠挖掘相隔較遠的上下文詞之間的語義聯系, 提高識別的準確性。特別是對于人物、地點等在故事中頻繁出現、語義跨度大的實體類別, BiG?RU 的識別性能提升更為顯著。這表明BiGRU 能夠更好地適應民間文學的語言特點, 充分挖掘上下文信息, 提高命名實體識別的整體性能。相比之下,BiLSTM 雖然也能捕獲雙向的上下文信息, 但在處理長序列時容易出現梯度消失的問題, 導致難以建模長期依賴關系。同時, BiLSTM 對前后信息的利用效率相對較低, 容易受到近距離上下文的主導, 而忽略了距離較遠的關鍵信息。這可能是導致BiL?STM 在處理長篇民間故事時識別性能不如BiGRU的主要原因。

本模型加入多頭自我注意力機制MHA, 重點關注故事語句本身包含的重要的命名實體或組合, 從多個角度提取實體的判別性特征, 有助于提高整體模型的擬合能力。以地點實體為例, 地名通常與特定的方位詞、場景描述等緊密相連。MHA 機制優(yōu)勢在于自動關注圍繞實體的上下文詞, 減輕無關詞的干擾, 從而提高地點實體的識別準確率。相比之下, 傳統的注意力機制缺乏對不同角度特征的考慮, 容易受到數據噪聲的影響。因此, 本研究選用BERT-BiGRU-MHA-CRF 作為長白山民間文學實體抽取任務的模型。

綜上所述, BiGRU 和MHA 的融合使得本模型能夠在雙向序列特征提取和自適應權重分配這兩個方面實現傳統多任務聯合模型的優(yōu)化, 極大地提升了對民間文學文本中各類實體的識別能力。特別是對于語義復雜, 上下文依賴性強的人物、地點等實體類別, 展現出了明顯的性能優(yōu)勢, 通過這些細粒度的結果分析進一步驗證了本文模型的有效性和先進性。

4 結 論

在數字時代, 借助新興的數字技術實現文化數據資源的創(chuàng)造性轉化與創(chuàng)新性發(fā)展, 已經成為凝聚民族認同、繁榮學術研究、促進文化傳播、助推產業(yè)升級、構建人類命運共同體的重大戰(zhàn)略需求。本研究通過構建基于BERT-BiGRU-MHA-CRF 的長白山非遺民間文學領域實體抽取模型, 在實驗階段對比以BiLSTM 為主的多任務聯合學習模型, 證實了以BiGRU-MHA 為主的模型的先進性、高效性、準確性, 以更好地處理長序列依賴性和有效避免梯度消失的問題。本模型通過精準識別民間文學中的人物、地點、物品、動植物等關鍵實體要素, 為挖掘長白山地區(qū)豐富的民間文學資源奠定了基礎。在實踐應用方面, 通過系統梳理這些散落在民間故事中的文化元素, 可以更全面地認識和理解長白山獨特的地域文化特色, 為文旅資源的創(chuàng)新性開發(fā)利用提供素材和靈感, 以促進文旅產業(yè)與其他產業(yè)的深度融合[35] 。同時, 也為未來文化工作, 如民間文學文化領域專業(yè)術語庫的構建、文化領域內專業(yè)信息檢索、文化領域內知識整合等提供了路徑指南。在接下來的研究中, 筆者會增加相關高質量民間文學數據, 繼續(xù)訓練實體識別模型, 從而達到更精準的識別效果; 重點持續(xù)關注在長白山地區(qū)不同非遺資源的知識組織與知識挖掘的方法探討與理論實踐, 為全面振興東北、保護和傳承長白山文化作出相應的貢獻。

參考文獻

[1] Tunca S, Sezen B, Wilk V. An Exploratory Content and Senti?ment Analysis of the Guardian Metaverse Articles Using Leximancerand Natural Language Processing [J]. Journal of Big Data, 2023,10 (1): 82.

[2] 秦賀然, 劉瀏, 李斌, 等. 融入實體特征的典籍自動分類研究[J]. 數據分析與知識發(fā)現, 2019, 3 (9): 68-76.

[3] Erdmann A, Wrisley D J, Allen B, et al. Practical, Efficient,and Customizable Active Learning for Named Entity Recognition inthe Digital Humanities [C] / / Proceedings of the 2019 Conferenceof the North. Minneapolis, Minnesota. Stroudsburg, PA, USA:Association for Computational Linguistics, 2019: 2223-2234.

[4] Li L, Tayir T, Han Y F, et al. Multimodality Information Fusionfor Automated Machine Translation [J]. Information Fusion, 2023,91: 352-363.

[5] Tian Y H, Song Y, Xia F, et al. Improving Chinese Word Seg?mentation With Wordhood Memory Networks [C] / / Proceedings ofthe 58th Annual Meeting of the Association for Computational Lin?guistics. Online. Stroudsburg, PA, USA: Association for Compu?tational Linguistics, 2020: 8274-8285.

[6] Barros C, Vicente M, Lloret E. Tackling the Challenge of Compu?tational Identification of Characters in Fictional Narratives [C] / /2019 IEEE International Conference on Cognitive Computing( IC?CC). July 8-13, 2019, Milan, Italy. IEEE, 2019: 122-129.

[7] 胡昊天, 鄧三鴻, 張逸勤, 等. 數字人文視角下的非物質文化遺產文本自動分詞及應用研究[J]. 圖書館雜志, 2022, 41 (8):76-83.

[8] 林立濤, 王東波, 劉江峰, 等. 數字人文視域下典籍動物命名實體識別研究———以SikuBERT 預訓練模型為例[J]. 圖書館論壇, 2022, 42 (10): 42-50.

[9] 吳夢成, 林立濤, 齊月, 等. 數字人文視域下先秦典籍植物知識挖掘與組織研究[J]. 圖書情報工作, 2023, 67 (12): 103-113.

[10] 潘曉蝶. 人工智能與文化數字化戰(zhàn)略雙向驅動的檔案文化遺產開發(fā)研究[J]. 山西檔案, 2024 (2): 158-160.

[11] 白潔, 馬嘉悅. 檔案記憶觀下非物質文化遺產檔案化保護研究[J]. 山西檔案, 2022 (6): 74-80.

[12] 章成志, 謝雨欣, 張恒. 學術文獻全文內容中的方法實體細粒度抽取及演化分析研究[J]. 情報學報, 2023, 42 (8): 952-966.

[13] 張穎怡, 章成志, 周毅, 等. 基于ChatGPT 的多視角學術論文實體識別: 性能測評與可用性研究[J]. 數據分析與知識發(fā)現,2023, 7 (9): 12-24.

[14] Wei X, Cui X, Cheng N, et al. Zero-shot Information ExtractionVia Chatting with Chatgpt [EB/ OL]. [2025-02-20]. https: / /arxiv.org/ abs/2302.10205.

[15] 謝靖, 劉江峰, 王東波. 古代中國醫(yī)學文獻的命名實體識別研究———以Flat-lattice 增強的SikuBERT 預訓練模型為例[J]. 圖書館論壇, 2022, 42 (10): 51-60.

[16] 崔斌, 王東波, 黃水清. 基于典籍文本的農作物時間分布及演化特征研究———以《食貨志》為例[J]. 圖書情報工作, 2021,65 (14): 90-100.

[17] 劉佳, 邊俊伊. 基于混合深度學習的藏醫(yī)古籍命名實體識別研究[J]. 現代情報, 2023, 43 (11): 37-46.

[18] 沈旺, 梁世豪, 李昕娛, 等. 數字人文視角下藏醫(yī)學古籍知識發(fā)現研究———以《四部醫(yī)典》為例[J]. 現代情報, 2023, 43(11): 21-36.

[19] 趙萌, 王昊, 李曉敏. 中國民歌多情感識別及情感變化規(guī)律分析研究[J]. 數據分析與知識發(fā)現, 2023, 7 (7): 111-124.

[20] 張衛(wèi), 王昊, 李曉敏, 等. 數字人文視角下古詩意象知識抽取及其文化圖式構建研究[J]. 圖書情報工作, 2022, 66 (24):104-117.

[21] 汪琳, 王昊, 李曉敏, 等. 融合學習擴展的非遺陶瓷工藝領域術語庫構建及應用[J]. 圖書館論壇, 2024, 44 (2): 66-78.

[22] 張海, 陳宇軒, 王東波. 信息資源管理領域數字人文研究特征、研究體系及構建路徑[J]. 情報理論與實踐, 2024, 47 (2):70-76.

[23] 賈玉祥, 晁睿, 昝紅英, 等. 融入篇章信息的文學作品命名實體識別[J]. 中文信息學報, 2023, 37 (11): 100-109.

[24] Barros C, Vicente M, Lloret E. Tackling the Challenge of Compu?tational Identification of Characters in Fictional Narratives [ C] / /2019 IEEE International Conference on Cognitive Computing(ICCC).IEEE, 2019: 122-129.

[25] 郭順利, 蘇新寧, 房旭輝. 融合NER 和Apriori 算法的游記文本關聯知識挖掘及推薦服務研究[ J]. 現代情報, 2023, 43(11): 123-134.

[26] 王阮, 鄧君. 數字人文視域下口述記憶資源知識圖譜構建研究[J]. 現代情報, 2022, 42 (2): 22-33.

[27] Lwin S M. Using Folktales for Language Teaching [J]. The Eng?lish Teacher, 2015, 44 (2): 74-83.

[28] Devlin J. Bert: Pre-training of Deep Bidirectional Transformersfor Language Understanding [EB/ OL]. [2025-02-20] https: / /arxiv.org/ abs/1810.04805.

[29] Dey R, Salem F M. Gate-Variants of Gated Recurrent Unit(GRU)Neural Networks [C] / /2017 IEEE 60th International Midwest Sympo?sium on Circuits and Systems(MWSCAS). IEEE, 2017: 1597-1600.

[30] Tao C Y, Gao S, Shang M Y, et al. Get the Point of My Utter?ance! Learning Towards Effective Responses with Multi-Head Atten?tion Mechanism [C] / / Proceedings of the Twenty-Seventh Interna?tional Joint Conference on Artificial Intelligence. July 13-19, 2018.Stockholm, Sweden. California: International Joint Conferences onArtificial Intelligence Organization, 2018: 4418-4424.

[31] Zheng S, Jayasumana S, Romera-Paredes B, et al. ConditionalRandom Fields as Recurrent Neural Networks [C] / / Proceedings ofthe IEEE International Conference on Computer Vision, 2015: 1529-1537.

[32] 劉厚生. 長白山文化的界定及其他[J]. 中國邊疆史地研究,2003, 13 (4): 71-75.

[33] Wong T T, Yeh P Y. Reliable Accuracy Estimates From K-FoldCross Validation [ J]. IEEE Transactions on Knowledge and DataEngineering, 2020, 32 (8): 1586-1594.

[34] Liu Y F, Wei S Q, Huang H J, et al. Naming Entity Recognitionof Citrus Pests and Diseases Based on the BERT-BiLSTM-CRF Model[J]. Expert Systems with Applications, 2023, 234: 121103.

[35] 尹良鑫. 數字人文視域下鄉(xiāng)村檔案文化建設: 生成邏輯、價值體現與路徑選擇[J]. 山西檔案, 2023 (4): 110-116.

(責任編輯: 楊豐僑)

基金項目: 國家社會科學基金項目“面向數字人文的檔案文獻數據組織與知識發(fā)現研究” (項目編號: 19BTQ094)。

主站蜘蛛池模板: 在线欧美a| 国产美女主播一级成人毛片| 999精品免费视频| 99热最新在线| 欧美日韩v| 久久精品最新免费国产成人| 精品福利视频导航| 四虎永久免费地址在线网站| 国产浮力第一页永久地址| 一区二区三区高清视频国产女人| 亚洲另类色| 欧美不卡视频一区发布| 久久成人免费| 亚洲日韩精品无码专区97| 国产精品永久不卡免费视频| AV在线天堂进入| 天堂网亚洲系列亚洲系列| 无码中文AⅤ在线观看| 女人爽到高潮免费视频大全| 久久久久人妻一区精品| 成人免费午夜视频| 国产综合在线观看视频| 免费jjzz在在线播放国产| 五月天在线网站| 五月婷婷中文字幕| 亚洲国产欧美国产综合久久 | 国产一区二区三区夜色| 99热精品久久| 99精品伊人久久久大香线蕉| 人与鲁专区| 国产精品中文免费福利| 国产精品亚洲五月天高清| 日韩中文无码av超清| 国产精品刺激对白在线| 99re这里只有国产中文精品国产精品| 国产欧美日韩在线一区| 国产精品分类视频分类一区| 理论片一区| 亚洲午夜综合网| 国产免费a级片| 国产精品2| 最新国产你懂的在线网址| 久久亚洲高清国产| 国产国产人在线成免费视频狼人色| 在线另类稀缺国产呦| 中文字幕在线一区二区在线| 91青草视频| 国产精品私拍99pans大尺度| 四虎永久免费网站| 国产午夜小视频| 久久久久九九精品影院 | 91日本在线观看亚洲精品| 亚洲中文字幕手机在线第一页| 精品无码人妻一区二区| 中文字幕在线播放不卡| 亚洲欧美不卡中文字幕| 免费av一区二区三区在线| 亚洲天堂视频网站| 55夜色66夜色国产精品视频| www.狠狠| 婷婷亚洲综合五月天在线| 国产成人一区二区| 欧美在线伊人| 精久久久久无码区中文字幕| 在线观看视频99| 亚洲成av人无码综合在线观看| 日韩无码视频专区| 国产精品hd在线播放| 国产精品自在在线午夜区app| 99精品免费在线| 国产成人1024精品| 欧美精品导航| a网站在线观看| 奇米影视狠狠精品7777| 美女国产在线| 日本一区中文字幕最新在线| 色吊丝av中文字幕| 一本综合久久| 国产日韩精品一区在线不卡| 欧日韩在线不卡视频| AV不卡无码免费一区二区三区| 精品免费在线视频|