




















摘要:[目的/意義]利用命名實體識別技術深入挖掘古籍文獻,推動中文古籍數字化進程,對于推動歷史學習、增強文化自信以及弘揚中國傳統文化具有重要意義。[方法/過程]提出多粒度特征融合的古文命名實體識別方法,以《左傳》為研究語料,構建人名、地名、時間等命名實體識別任務。首先,將古文字信息、詞性信息及字形特征融合,提高輸入特征表示能力;然后,在加入預測實體頭尾輔助任務學習古句邊界信息的同時利用Transfer交互器啟發式學習古文實體構詞規律,并用BiLSTM和IDCNN聯合抽取上下文信息;最后,將學習到的多種古文特征加權融合,輸入CRF中進行實體預測。[結果/結論]實驗結果表明,多粒度特征融合的古文命名實體識別方法,相比主流的BERT-BiLSTM-CRF模型,精確率、召回率和F1值分別提升5.09%、13.45%和9.87%。多粒度特征融合的古文命名實體識別方法能夠精準地實現對古籍文本的命名實體識別。
關鍵詞:數字人文;古文;實體識別;多粒度特征融合
分類號:TP391.1
引用格式:孟佳娜, 許英傲, 趙丹丹, 等. 數字人文視域下多粒度特征融合的古文命名實體識別[J/OL]. 知識管理論壇, 2024, 9(6): 533-546 [引用日期]. http://www.kmf.ac.cn/p/411/. (Citation: Meng Jiana, Xu Yingao, Zhao Dandan, et al. Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities[J/OL]. Knowledge Management Forum, 2024, 9(6): 533-546 [cite date]. http://www.kmf.ac.cn/p/411/.)
1" 引言/Introduction
中華文明悠久源遠,歷經千年歲月,蘊含著無數珍貴的智慧和經驗。千古典籍,如明珠般閃爍著歷史的光芒,描繪了一幅幅精彩紛呈的歷史畫卷。以人為鑒,能夠領悟得失之道;以史為鑒,能夠洞悉興衰之勢。汲取中華文明上下五千年的歷史智慧和經驗,乃是實現人民幸福、國家興盛、中華民族偉大復興的重要法寶。……