摘要:在快速發展的智能技術領域,生成式人工智能(Generative Artificial Intelligence,GAI)已展現出在多種應用場景中模擬人類思維過程的巨大潛力。知識圖譜作為一種復雜的數據結構,通過組織和整合廣泛信息,支持機器理解和推理,成為實現智能化信息處理的關鍵技術。[2]"探討了生成式人工智能在科技檔案知識圖譜構建中的具體應用路徑,旨在展示其在提高科技檔案管理效率和知識發現能力中的實際價值。
關鍵詞:生成式人工[A3]"智能;智能技術;科技檔案;知識圖譜
Research on the Application Path of Generative Artificial Intelligence in the Construction of Knowledge Graph of Scientific and Technological Archives
HUA Xinxin[4]"[5]
Zhengzhou Preschool Education College, Zhengzhou, He’nan Province, 450000 China[6]
Abstract: In the rapidly developing field of intelligent technology, Generative Artificial Intelligence (GAI) has shown the potential to simulate human thinking processes in a variety of application scenarios. As a complex data structure, knowledge graph supports machine understanding and reasoning by organizing and integrating a wide range of information, and becomes the key technology to realize intelligent information processing. This paper discusses the specific application path of generative artificial intelligence in the construction of science and technology archives knowledge graph, aiming to show its practical value in improving the efficiency of science and technology archives management and knowledge discovery ability.
Key Words: Generative artificial intelligence; Intelligence technology; Technology archives; Knowledge graph
生成式人工智能(Generative Artificial Intelligence, GAI)[A7]"技術能夠模擬人類創造性思維過程的算法,以產生新的、具有實際應用價值的信息內容。在科技檔案管理和知識圖譜的構建中,GAI[A8]"展示了其獨特的潛力和重要性。知識圖譜作為組織和鏈接廣泛知識實體的結構化知識庫,不僅增強了信息的可搜索性和可接入性,還通過語義關聯增進了機器的理解能力,進一步推動了智能決策支持系統的發展。
1科技檔案與知識圖譜概念
科技檔案涵蓋了廣泛的信息,包括科研數據、項目報告、技術說明書等,這些檔案記錄了科技發展的歷史和現狀,對科研、教育、商業等領域具有重要的參考價值。知識圖譜的構建基于對科技檔案內容的深入分析,將文本中的關鍵信息如實體、概念及其相互關系提取出來,形成結構化的數據。這一過程涉及自然語言處理、機器學習等多個領域的先進技術。
2 GAI的應用[A9]
某生物醫藥研究中心成立于2001年,主要聚焦于創新藥物的研發、遺傳病治療研究和新型疫苗的開發。該研究中心擁有超過20年的歷史,期間積累了大量的實驗數據、臨床試驗結果和科研項目報告。目前,該研究中心保存了超過100 000[10]"份科研文檔,包括研究論文、實驗記錄、項目報告,以及與全球科研機構的合作資料。雖然該研究中心已經實施了一套基礎的文檔管理系統,但該系統主要側重文檔的存儲和分類,并沒有實現高效的跨文檔內容檢索和知識抽取。
2.1數據采集與預處理
數據采集需要從這些海量資料中提取出有用的數據。數據預處理涉及格式標準化、噪聲數據清理和數據融合。例如[A11]":所有文檔的文本格式需要統一為UTF-8編碼,以支持國際字符的處理,并且文本清洗過程中,需要去除所有非結構化文檔中的格式符號,如頁腳、頁眉和特殊格式文本。數據的標準化處理將所有數據轉換為機器可讀和可解析的格式。例如[A12]":生物醫藥領域內常用的數據格式(如FASTA格式的基因序列)需要轉換為統一的XML或JSON格式,以便于基于GAI技術的深度學習模型更好地處理和學習[1]。
2.2知識抽取技術
2.2.1實體識別
從文本中檢測出具有特定意義的信息片段,如藥物名稱、基因名稱或疾病名稱。采用了基于深度學習的命名實體識別(Named entity Recognition,NER[13]")模型,利用BERT(Bidirectional Encoder Representations from Transformers)預訓練模型進行微調,以適應生物醫學領域的特殊術語。在實際應用中,該模型在實體識別準確率上達到了93.5%,比傳統的條件隨機場(conditional random field,CRF)模型高約12%。
2.2.2關系抽取
在識別出的實體基礎上,進一步識別它們之間的語義關聯,如“治療”或“引起”。這一步驟采用基于圖卷積網絡(Graph Convolutional Network,GCN)的方法,該方法能夠考慮到實體在句子中的上下文關系,提高關系抽取的精確性[2]。
2.3知識表示與圖譜構建
知識表示采用本體模型來形式化定義實體和關系。本體模型使用OWL語言,并定義如下實體及其屬性,其關系如圖1所示。
在這個框架中,藥物D可以治療疾病P,基因G可以導致疾病P等。[15]
2.4" 圖譜的動態更新
為了維護知識圖譜的時效性和準確性,采用了自動化的更新流程,該流程依托于GAI來識別新的知識并將其整合入現有圖譜結構中。首先,通過定期監測科技檔案數據庫和相關的科研出版物數據庫,系統自動檢索與當前圖譜主題相關的新文檔[4]。例如[A18]":系統設置每周自動掃描1次,通過API從PubMed和其他科研數據庫中拉取最新發布的文檔,平均每次檢索到的新文檔約為200篇。
在新文檔被檢索后,應用自然語言處理技術來抽取文檔中的關鍵信息,如新的實體和實體間的關系。這一步驟利用了改進的BERT模型,該模型針對生物醫藥領域進行了特別的預訓練,使其對專業術語的抽取準確率達到90%以上。接下來,通過一個實體解析模塊,將抽取的實體與圖譜中現有的實體進行匹配,以確定是否為新實體或更新的關系[5]。
圖譜的實際更新操作由一個圖譜管理系統執行,該系統負責將驗證后的新實體和關系添加到圖譜中。系統采用事務性更新機制,確保更新過程中數據的一致性和完整性。更新操作每次成功執行后都會自動備份當前狀態,以便恢復和回溯。在1個月度周期內,圖譜平均新增實體約500個,關系更新約1 000條。
3" 成效評估
評估主要通過定量分析和定性反饋兩個維度來執行,涉及多個具體的評估指標,包括查詢效率、用戶滿意度、知識發現能力等。評估指標和方法包括[19]"以下3個方面。(1)查詢效率。通過測量在圖譜實施前后,相同查詢操作的響應時間來評估。此指標反映了圖譜優化對科研人員日常工作流程的實際影響[20]"。(2)用戶滿意度。通過用戶調查問卷收集科研人員對知識圖譜的使用體驗和滿意度。問卷設計包含了對圖譜易用性、信息完整性和更新頻率的評價。(3)知識發現能力。評估圖譜中新增知識點的數量及這些知識點幫助科研人員發現新見解和關聯的頻率。
評估方法采用了混合方法,結合實際操作數據分析和用戶反饋調查,確保評估結果的全面性和客觀性。定量數據通過系統日志和操作記錄自動收集,而定性數據則通過定期的用戶訪談和問卷調查獲得。
從結果來看,圖譜的實施顯著提高了查詢效率,平均查詢時間從12.5[23]" s減少到3.4[24]" s,改進比例達到72.80%;用戶滿意度從實施前的平均3.2分提高到4.6分,改進比例達到43.75%。這表明科研人員對知識圖譜的易用性和信息完整性感到更加滿意;知識發現能力方面,評估顯示知識圖譜的使用增加了科研人員發現新見解和關聯的事件數量,從45個增加到120個,改進比例達到166.67%。這一成果突出了知識圖譜在促進科學發現和創新方面的關鍵作用。
4" 結語[25]
在科技檔案知識圖譜構建中,GAI的應用展現了顯著的效益,尤其體現在提高查詢效率、增強用戶滿意度、加強知識發現能力等方面。通過自動化的數據采集與預處理、精準的知識抽取和動態的圖譜更新,GAI不僅優化了知識的結構化表示,還確保了圖譜的實時更新和信息的準確性。此外,通過圖譜的系統優化與驗證,進一步增強了數據的一致性和可靠性,為科研人員提供了一個高效、可信的知識探索工具。
參考文獻
[1]張軍,苑占江,楊忠明,等.《人工智能應用導論》知識圖譜構建與應用研究[J].網絡安全技術與應用,2023(6):96-99.
[2]明巖.面向多任務的多模態知識圖譜嵌入方法研究[D].濟南:齊魯工業大學,2024.
[3]季增彥.基于機器學習和知識圖譜的可解釋故障預測研究[D].濟南:山東師范大學,2024.
[4]陳功娥.淺談知識圖譜技術有效推動企業檔案工作創新[J].四川檔案,2022(5):28-29.
[5]張瑩,李春紅,郭祥,等.人工智能在鐵路工程檔案管理中的應用[J].鐵路技術創新,2023[A26]"(4):84-87.