





關鍵詞:大語言模型;知識圖譜;自動化構建
中圖分類號:G250 文獻標識碼:A
文章編號:1009-3044(2025)03-0006-03 開放科學(資源服務) 標識碼(OSID) :
0引言
隨著社會的發展和信息技術的進步,人類社會面臨的各種突發事件愈發頻繁和復雜。群體性突發公共事件作為一種特殊的突發事件[1],其事件演化路徑錯綜復雜,具有不確定性和多路性。突發事件通常以新聞文本和摘要等非結構化形式存在,讀者在從文本中提取信息時,由于篇幅限制及多義字詞的影響,難以準確連貫地把握事件中的實體與關系演化。而對于事件及其關系演化,采用知識圖譜能夠更直觀地表示各實體之間的邏輯關系。
傳統實現自動化實體關系抽取[2]的模型多采用深度學習的方式進行實體識別、關系提取和知識融合。Socher等[3]運用RNN分析標記好的文本句子的句法結構,挖掘句法特征。Shen等[4]提出基于注意力機制的CNN模型,分別利用詞嵌入、詞性標注嵌入和位置嵌入信息,能夠充分提取文本的潛在語義特征。Google提出的BERT模型[5]采用雙向Transformer編碼器來捕捉文本的上下文信息。然而,上述方法均需要大量文本語義標注樣本,消耗大量人力和算力,且提取效果與標注質量和模型訓練的各種參數密切相關。
近年來,大語言模型在NLP任務中展現了極大的潛力。馮志偉等[6]指出,大語言模型展現出掌握世界知識和理解自然語言的強大能力。田萍芳等[7]通過大語言模型實現了更精準的實體及關系識別,并將其應用于司法命名實體識別。通過為大語言模型提供少量的微調樣本,可簡化抽取模型中樣本標注及訓練的過程,從而有效解決非結構化文本中實體泛化和實體關系正確推理的問題,這是圖譜構建中的難點與重點。
基于大語言模型(LLM)的圖譜自動化構建系統充分利用其推理特性,實現了圖譜自動化構建的目標。系統采用多輪Prompt提示工程,并結合少量模型微調,提供抽取背景,充分提取海量非結構化文本中的語義信息,同時融合特征進行實體關系匹配,從而提高圖譜構建過程中實體及關系抽取的準確率。系統以Django為主要開發框架,實現了集請求預處理、服務響應、數據清洗、前后端數據傳輸于一體的圖譜構建流程。通過異步抽取機制,進一步提高了圖譜數據抽取的效率。該系統實現了基于大語言模型的圖譜自動化構建過程,為圖譜構建系統的實現提供了一種可行的新方案。
1系統架構設計
基于大語言模型的圖譜自動化構建系統,依據圖譜構建流程進行了系統架構的設計。針對數據層面,需要實現非結構化文本到結構化文本的簡化映射及持久化存儲;針對業務邏輯層面,需要實現多種大語言模型API的兼容管理及相關功能的交互;針對可視化層面,需要實現數據的實時動態傳輸及動態可視化的交互界面。
依據功能需求,系統劃分為應用層、數據加載層、模型管理層和渲染控制層。其中,模型管理層是系統的核心模塊,通過對模型的管理,用戶可以靈活地進行圖譜的自動化構建。其系統架構如圖1所示。
1.1模型管理層
模型管理層負責實現大語言模型的對接,并聯合數據加載層為應用層提供服務。其主要包括通用API模塊與模型微調模塊。通用API模塊提供基礎大語言模型API接口,用戶無須關注細節處理,只需完成不同模型的接入及部分參數調整,即可實現圖譜數據的獲取。模型微調模塊提供接口支持用戶自主部署模型,用戶可上傳特定數據集,對上傳的大模型進行微調[8],以達到最佳的關系與實體抽取效果。在執行圖譜自動化抽取任務時,采用異步流程,實現多個構建任務的并發處理,從而提高構建效率,并對圖譜構建任務進行進一步的封裝與優化。最終,任務執行結果將被組合并返回給數據加載層。
1.2數據加載層
數據加載層主要面向實時圖譜抽取過程中的數據任務,包含數據清洗、數據切片[9]、Prompt嵌入和第三方擴展模塊。數據清洗模塊負責對系統輸入的提示詞轉換及模型輸出數據的規范化處理,如剔除冗余數據等。數據切片模塊實現對用戶輸入的非結構化長文本的切分與標記,便于后續模型更精確地提取語義中的實體及關系。Prompt嵌入模塊支持在多輪Prompt中調整圖譜抽取策略,實現圖譜數據的漸進式抽取。第三方擴展模塊負責數據的持久化存儲,并通過擴展數據接口的方式支持批量圖譜抽取任務。數據加載層旨在對大語言模型抽取的圖譜原始數據進行有效的接入、轉換、清洗和持久化存儲。通過數據加載層,系統能夠對數據流通進行進一步處理與封裝,為后續服務請求及數據資源管理提供可靠的數據基礎。
1.3應用層應用層
基于其他層的功能實現與用戶交互,是系統的應用管理模塊。該層提供模型選擇、文件加載、可視化數據及圖譜生成服務。用戶通過鑒權認證后,可手動添加模型參數(如Key模型授權令牌、Tempera?ture生成結構參數等)進行調整。在執行圖譜抽取任務時,用戶可手動輸入原始文本數據,或通過文件加載的方式導入Word、TXT、PDF等格式文件,從而實現原始數據的輸入。系統隨后按照流程處理數據并生成可視化結果,供用戶查看與分析。
1.4渲染控制層
渲染控制層負責管理和控制圖譜渲染過程中的各種參數配置,以確保最終渲染結果符合預期的質量和性能。該層基于Echarts和Bootstrap實現圖譜及原始圖表數據的可視化呈現,并通過Ajax實現與后端的實時交互,保證系統的動態性和實時性。用戶可通過交互式界面調整圖譜的可視化效果,例如節點大小、關系圖路徑樣式、交互按鈕的呈現等。通過參數配置,渲染控制層實現了系統的動態界面及功能交互,并支持對關系實體圖譜的高質量可視化呈現。
2系統流程實現
2.1請求服務的設計
2.1.1圖譜數據請求API設計
接口設計是構建高效、穩定和安全的Web服務的關鍵環節。基于Django框架,利用通用API完成本系統的基礎服務,通過API的形式簡化圖譜構建流程,從而實現圖譜數據的實時獲取。其請求參數如表1所示。
2.1.2微調模型API設計
微調API旨在構建更加專業化、領域化的知識圖譜。管理員可自主上傳大語言模型權重文件及數據集,選擇模型參數,對模型進行微調訓練。通過自主模型訓練,可以更好地適應特定領域的圖譜任務,滿足用戶的個性化需求。其API參數如表2所示。
2.2圖譜數據清洗
數據清洗是圖譜構建過程中的重要環節,主要目的是消除所獲取圖譜數據中的錯誤、冗余和不完整部分,從而提高圖譜的質量和準確性。
2.2.1錯誤類型定義
根據圖譜渲染框架與實體單一原則,我們將錯誤劃分為數據異常類(如空值、1)、實體誤差類(如經抽取后實體不一致)和匹配誤差類等錯誤。在抽取過程中,我們依據錯誤類型進行一系列邏輯判斷,并采用相應的策略對數據進行進一步優化,從而提高數據處理的準確性,最終提升圖譜數據抽取的準確性。
2.2.2數據處理
在圖譜構建流程中,圖譜數據多以實體關系元組的形式存在,其定義如下所示:
式中:ID為唯一數據標識,S為源實體,T為目標實體,R為兩者實體間的關系。依據數據處理流程,首先需對數據進行去重處理,刪除重復記錄,保證實體的單一性。同時對數據進行格式化處理,確保所有數據遵循相同的格式標準,便于后期渲染及存儲。對于缺失值部分,采用回溯抽取的方法,重新抽取所缺失的實體或關系,并對數據中的非法字符進行剔除。
2.3圖譜渲染
圖譜渲染基于Echarts框架實現。Echarts是一款基于JavaScript的數據可視化圖表庫,能夠提供直觀、生動、可交互且可個性化定制的數據可視化圖表。通過其數據項及配置項的靈活配置,可滿足圖譜數據的可視化需求。在進行圖譜渲染時,我們對關系實體數據進行進一步清洗,將其作為數據項用于圖譜渲染。
3抽取模式設計
3.1提示詞設計
大語言模型具有強大的推理能力,其理想結果通常與用戶輸入的提示詞密切相關。本文針對關系和實體設計了提示詞,旨在實現實體關系的精準抽取,其提示詞設計如表3所示。
3.2多輪提示詞實體關系匹配
多輪提示詞用于指導模型生成初始響應,并影響后續交互內容的連貫性。這類提示詞通常需要包含足夠的上下文信息,以便模型能夠理解對話的整體脈絡,并生成連貫的響應。當發起任務請求時,系統將原始文本作為輸入,通過多輪提示詞抽取,最終獲取多組實體關系。其匹配模式流程如圖2所示。
在圖2中,語料數據通過實體和關系提取,生成實體和關系數據流,并將該數據流作為下一輪實體關系匹配融合的輸入。根據數據流所攜帶的序列標識,完成實體關系特征的匹配。最終,通過進一步處理,得到實體關系(RE)元組。
3.3異步并發抽取
asyncio是Python標準庫中的一個模塊,用于支持異步編程和并發執行。它提供了豐富的API,包括異步函數、異步I/O操作、異步任務調度等。本系統采用即時請求服務的方式來實現對圖譜數據的抽取及檢索,其任務具有實時性。然而,在多輪提示詞輸入推理過程中,使用同步大語言模型API往往需要耗費大量時間成本。
通過asyncio異步方式,可以實現多個實體關系抽取任務的并發執行。同時,采用序列化的方式,將數據切片與背景原文進行匹配,增強抽取語段的上下文語義,保證切片段文本的語義連續性,從而提高圖譜抽取過程中實體及關系的準確性。通過序列化的方式匹配當前被抽取語句的上下文語義,能夠進一步確保圖譜數據的上下文語義連續性。
4結束語
知識圖譜自動化構建系統旨在利用大語言模型的推理能力,充分挖掘非結構化文本中的實體關系數據,實現圖譜的自動化構建流程。通過多級Prompt工程,明確任務指令,增強抽取結果的準確性。同時,系統將數據以可視化形式呈現,為用戶提供簡潔的交互界面。
與傳統圖譜實現技術不同,本系統采用生成式模式構建圖譜,用戶可以通過多輪交互實現圖譜的生成與構建。在圖譜內容生成方面,系統具有高度的彈性。
目前,大語言模型仍然被視為黑箱,其推理邏輯尚未完全明確。但未來,隨著對大語言模型研究的深入,它必將在圖譜構建領域發揮更重要的作用。大語言模型技術的發展將推動更加智能化、自動化的圖譜構建方法的出現,這不僅為知識圖譜的普及和應用奠定了堅實基礎,也將進一步推動人工智能技術在各個領域的廣泛應用。