999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語言模型融合知識圖譜的問答系統研究

2023-10-29 04:20:40張鶴譯韓立帆陳子睿
計算機與生活 2023年10期
關鍵詞:文本語言模型

張鶴譯,王 鑫+,韓立帆,李 釗,陳子睿,陳 哲

1.天津大學 智能與計算學部,天津 300354

2.天津中醫藥大學 循證醫學中心,天津 301617

問答系統(question answering,QA)能夠自動回答用戶提出的自然語言問題,是信息檢索和自然語言處理的交叉研究方向。將知識圖譜(knowledge graph,KG)與問答系統融合,正確理解用戶語義是一大挑戰[1]。雖然知識圖譜問答能夠通過對問題進行分析理解,最終獲取答案,但面對自然語言的靈活性與模糊性,如何處理復雜問題的語義信息,如何提高復雜推理問答的高效性仍是研究難點[2]。

近年來,大語言模型(large language models,LLM)在多種自然語言處理任務[3-4]上取得了顯著的成果,并表現出若干涌現能力[5]。InstructGPT[6]、ChatGPT(https://openai.com/blog/chatgpt/)、GPT4[7]等自回歸大語言模型[8]通過預訓練、微調(fine-tuning)等技術理解并遵循人類指令,使其能夠正確理解并回答復雜問題。LLM 在各種自然語言處理任務上表現卓越,甚至能夠對未見過的任務表現出不錯的性能,這為正確處理復雜問題展示了能夠提供統一解決方案的潛力。然而,這些模型都存在一些固有的局限性,包括處理中文能力較差,部署困難,無法獲得關于最近事件的最新信息以及產生有害幻覺事實(halluci-natory fact)[9]等。由于這些局限性,將大語言模型直接應用于專業領域問答仍然存在諸多問題。一方面難以滿足大語言模型對于硬件資源的要求;另一方面,面對專業領域,大語言模型的能力仍然有所不足。

面對專業領域的問題,大語言模型的生成結果可能缺乏真實性和準確性,甚至會產生“幻覺事實”。為了增強大語言模型應對專業領域問題的能力,很多工作采取數據微調的方式修改模型參數,從而讓大模型具有更高的專業能力。然而一些文獻指出這些數據微調的方法會產生災難性遺忘(catastrophic forgetting)[10],致使模型原始對話能力喪失,甚至在處理非微調數據時會出現混亂的結果。為了應對這些問題,本文結合大語言模型與知識圖譜,設計了一種應用于專業領域的問答系統。該問答系統通過將知識庫(knowledge base,KB)中的文本知識、知識圖譜的結構化知識、大語言模型中的參數化知識三者融合,生成專業問答結果,因此無需使用數據微調的方式修改模型參數,就能夠理解用戶語義并回答專業領域的問題。同時,通過采用類似于ChatGLM-6B這樣對硬件資源要求較低的模型,以降低硬件對系統的約束。

另外,隨著大語言模型技術的發展,認知智能范式的轉變將是接下來的研究重點,如何將大語言模型與知識圖譜進行有效結合是一個值得研究的課題。因此,本文參照研究問答系統的形式,進一步研究“大語言模型+知識圖譜”的智能信息系統新范式,探索知識圖譜與大語言模型的深度結合,利用專業性知識圖譜來增強LLM的生成結果,并利用LLM理解語義抽取實體對知識圖譜進行檢索與增強。

本文的主要貢獻有兩點:

(1)提出大語言模型+專業知識庫的基于提示學習(prompt learning)的問答系統范式,以解決專業領域問答系統數據+微調范式帶來的災難性遺忘問題。在提升大模型專業能力的同時,保留其回答通用問題的能力。在硬件資源不足的情況下,選擇較小的大模型部署專業領域的問答系統,實現能和較大的大模型在專業領域相媲美甚至更好的效果。

(2)探索了大語言模型和知識圖譜兩種知識范式的深度結合。實現了將大語言模型和知識圖譜的雙向鏈接,可以將易讀的自然語言轉換為結構化的數據,進而和知識圖譜中的結構化數據匹配,以增強回答專業性;可以將KG中的結構化知識轉換為更易讀的自然語言知識來方便人們理解。

本文相關代碼開源在https://github.com/zhangheyi-1/llmkgqas-tcm/。

1 相關工作

隨著以ChatGPT 為代表的大語言模型表現出令人震驚的能力,國內諸多廠商紛紛投入構建中文大語言模型,并涌現出了一系列的模型,如百度的文心一言、阿里的通義千問、華為的盤古大模型等。這些模型雖然具有一定的問答能力,但是正如上文所言,它們在專業領域都有著巨大的局限性。GLM(general language model)[11]是清華提出的預訓練語言模型,它的底層架構是通用語言模型,在超過4 000億個文本標識符上進行預訓練。本文系統的應用示例同樣是基于GLM。

在垂直領域存在很多的工作,它們主要采用的方法仍然是數據+微調的范式,即使用不同的專業數據對預訓練語言模型進行微調,如P-tuning[12]、Ptuning v2[13]等,以獲取語言模型在相應領域的專業能力。通過更新少量參數,減少了對硬件資源的要求。雖然減弱了微調產生的災難性遺忘問題,但是此問題仍然存在。PMC-LLaMA[14]提出一種基于生物醫學文獻的預訓練語言模型,通過對LLaMA模型進行微調,注入醫療知識以增強其在醫療領域專業的能力,從而提高其在醫療問答基準測試中的表現。Med-PaLM[15]針對醫療領域,提出了MultiMedQA 醫學問題回答基準,涵蓋了醫學考試、醫學研究和消費者醫學問題?;贔lan-PaLM 進行指令微調(instruction tuning),在多個方面縮小了與臨床醫生的差距,證明了指令提示調整的有效性。ChatDoctor[16]使用醫療領域知識對LLaMA 模型進行微調獲取醫療聊天模型,其根據在線醫療咨詢網站的10萬真實世界患者-醫生對話,對模型進行了微調,添加了自主知識檢索功能,通過構建適當的提示在大語言模型中實現具體檢索功能。華佗(本草)[17]基于中文醫學知識的LLaMA 微調模型,采用了公開和自建的中文醫學知識庫,主要參考了中文醫學知識圖譜CMeKG(https://github.com/king-yyf/CMeKG_tools)。DoctorGLM[18]是基于ChatGLM-6B 的中文問診模型,由ChatGPT生成與醫學知識內容與邏輯關系相關的若干問題構建訓練數據,再通過“文本段-問題”對的方式讓ChatGPT回答問題,使ChatGPT生成含有醫學指南信息的回答,保證回答的準確性。從以上工作可以總結出,垂直領域的范式還是通過不同來源的數據+不同的模型基座進行微調,仍然無法避免微調的固有缺陷,而本文使用的專業知識庫+大語言模型的新范式能夠解決這一問題。

LangChain(https://www.langchain.com/)是一 個強大的框架,旨在幫助開發人員使用語言模型構建端到端的應用程序,可以為LLM 的開發利用提供有力支撐。它提供了一套工具、組件和接口,可以簡化創建由LLM 或聊天模型提供支持的應用程序的過程。LangChain可以輕松管理與大語言模型的交互,將多個組件鏈接在一起,并集成額外的資源。利用LangChain,本文設計的問答系統可以輕松建立知識庫與大語言模型間的鏈接,將知識注入到大語言模型當中。

2 系統概述

本文提出的專業問答系統基于大語言模型與知識圖譜,旨在探索大語言模型+專業知識庫的問答系統范式,探索大語言模型與知識圖譜的深度結合,以實現專業的垂直領域問答效果,并為用戶提供專業問答服務和友好交互服務。

基于以上目標系統實現了以下功能:信息過濾、專業問答、抽取轉化。

為了實現這些功能,系統基于專業知識與大語言模型,利用LangChain 將兩者結合,設計并實現了大語言模型與知識圖譜的深度結合新模式。

信息過濾模塊旨在減少大語言模型生成虛假信息的可能性,以提高回答的準確性。專業問答模塊通過將專業知識庫與大語言模型結合,提供專業性的回答。這種方法避免了重新訓練大語言模型所需的高硬件要求和可能導致的災難性遺忘后果。

抽取轉化是指從自然語言文本抽取出知識圖譜結構化數據,將知識圖譜結構化數據轉化為自然語言文本,是為了進一步探索問答系統新范式而設計的。一方面基于大語言模型提取出專業知識,將知識圖譜結構化數據轉化為自然語言文本,易于用戶理解;另一方面利用知識抽取出三元組和知識圖譜對比驗證,可以增強大語言模型回答的專業性,同時抽取出的三元組在經專家驗證后可以插入知識圖譜中以增強知識圖譜。除此之外,本系統還實現了用戶友好的交互服務。

如圖1所示,系統交互流程如下:(1)用戶向系統提出問題,問題通過信息過濾后,與知識庫中的相關專業知識組成提示,輸入到專業問答模塊中得到答案;(2)信息抽取模塊從回答中提取出三元組,與知識圖譜進行匹配,獲取相關節點數據;(3)這些節點數據經用戶選擇后,同樣以提示的形式輸入專業問答模塊得到知識圖譜增強的回答。這種雙向交互實現了大語言模型和知識圖譜的深度結合。

圖1 問答系統流程圖Fig.1 Flow chart of Q&A system

總而言之,本文提出的專業問答系統通過大語言模型與知識圖譜深度結合,實現了專業的垂直領域問答效果,并且提供用戶友好的交互服務。系統的信息過濾模塊減少了虛假信息生成的可能性,專業問答模塊提供了專業性的回答,抽取轉化模塊進一步增強了回答的專業性,并可以對結構化數據進行解釋,降低用戶理解難度,同時可用專家確認無誤的知識進一步增強知識圖譜。這種新的問答系統范式為用戶提供了更準確、更專業的答案,同時保持了用戶友好的交互體驗。

3 系統構建方法

本文從數據構造與預處理、信息過濾、專業問答、抽取轉化四方面,以中醫藥方劑領域的應用為例,介紹如何構建系統。

本文針對專業領域,收集相關領域數據進行預處理,設計流程來訓練一套易于部署的專業領域問答系統,并探索大語言模型與知識圖譜的融合。

圖2 以中醫藥方劑專業領域為例展示了該系統的問答流程。首先,對輸入的中醫藥方劑相關問題文本進行信息過濾,即文本分類,判斷出該文本是否與中醫藥方劑相關。其次,通過LangChain在知識庫中檢索與文本相關的知識,以提示的方式和問題一起輸入大模型,如:ChatGPT、ChatGLM 等,大模型通過推理生成具備專業知識的答案。然后,對該回答進行知識抽取,從回答中抽取出三元組。將抽取出的三元組和已有的方劑知識圖譜進行匹配,以驗證回答的專業性,同時將知識圖譜中的節點以問題的形式輸入大模型,獲取易讀的自然語言解釋,從而實現了大模型和知識圖譜的雙向轉換。

圖2 大語言模型融合知識圖譜問答流程示例Fig.2 Example of question-answer process for integrating knowledge graph in a large language model

3.1 數據構造與預處理

本系統的實現需要收集整理專業數據集,以支持系統的實現。本文基于多種數據構造系統所需的數據集、知識庫,并對這些數據進行數據預處理。

(1)基于已有的專業領域數據集。本文直接搜集專業領域已有的相關數據集,參考其構成,從中整理篩選出所需的數據。對于中醫藥方劑領域,參考MedDialog[19]、CBLUE[20]、COMETA[21]、CMeKG 數 據集,整理并構建相關專業數據。相關介紹如表1所示。

表1 相關專業數據集Table 1 Related professional datasets

(2)權威數據。權威數據從專業書籍或權威網站收集。這部分數據來自于相關領域的專業書籍和權威網站,用于構建知識庫,為大模型的回答提供專業知識支撐。對于中醫藥方劑領域,主要基于方劑學等專業書籍構建了中醫藥方劑專業知識庫,同時從NMPA(國家藥品監督管理局)、藥融云-中醫藥數據庫群、TCMID中醫藥數據庫、中醫藥證候關聯數據庫等專業權威網站收集中醫藥方劑領域的相關數據知識。

(3)問題數據。問題數據用來訓練信息過濾模型。由于某些專業領域存在問題數據缺失的情況,本文設計了一種基于提示的方法,使用大模型生成問題數據(圖3 所示)。首先從相關數據中選擇一條數據用來生成提示,將提示輸入大模型生成一條數據,重復以上述步驟,直到相關數據被選完。

圖3 基于LLM生成數據方法Fig.3 Method for generating datasets based on LLM

算法1基于LLM生成數據

輸入:相關文本D,LLM(如ChatGPT)的API_KEY。

輸出:基于LLM生成的問題數據R。

其中D表示所有的相關數據,d表示一條相關數據,R表示所有生成的問題數據,r表示一條生成的數據。create 根據用戶提供的API_KEY 創建與LLM(如ChatGPT)的鏈接,select表示選擇一條數據,P表示根據數據生成合適的提示,llmresult表示獲取LLM 生成的回復,abstract 表示從生成回復中提取出問題數據并進行匯總。

在中醫藥方劑領域,如表2中P1所示,將提示P1輸入LLM 中,生成相關問題。中醫藥方劑領域問答系統的問題數據,80%來自于現有的問答數據集,如MultiMedQA[15]、CMRC2018[22]、CMedQA-System[23]、cMedQA2(https://github.com/zhangsheng93/cMedQA2)等,本文從中整理相關問題,并按照是否為中醫藥方劑專業領域添加標簽。20%的中醫藥方劑相關問題使用大模型生成的方式構建。

表2 提示示例Table 2 Prompt example

(4)激活知識抽取能力的微調數據。如圖3 所示,使用基于提示的方法,通過讓LLM 回答問題,生成合適的微調數據。提示如表2 中P2所示,結合信息抽取示例,將P2輸入LLM 生成25 條微調數據,利用這些數據微調大模型以激活大模型的信息抽取能力。

系統使用(1)、(2)中的數據構建知識庫,知識庫支持多種形式的數據,包括txt、html、pdf 等格式。使用(3)中的數據訓練信息過濾模型。使用(4)中的數據訓練知識抽取模型。

3.2 信息過濾

針對專業領域的問答,大語言模型無需回答其他領域的問題,為此本系統添加了基于BERT(bidirectional encoder representations from transformers)[24]的文本過濾器對問題進行過濾,以限制大模型可以回答的問題范圍。

其他模型在面對專業領域的邊界問題或交叉問題時往往會產生微妙的幻覺事實,生成錯誤文本。盡管使用微調的形式同樣也可以使得大模型具備一定的問題甄別能力,但是這種能力在面對與微調數據集中相似的其他問題時,仍然會被迷惑,甚至對于原本可以正確回答的問題也會生成錯誤的答案。因此需要單獨設計文本過濾器以對信息進行過濾。

假設可輸入大模型的所有的問題集合為Q,大模型在某一專業領域可以回答的問題集合為R,可以生成專業回答的問題集合為D,顯然有Q>R>D。使用微調方式限制將使得R→D,會讓模型回答能力減弱1)>表示包含關系,若A>B,則A →B 表示集合A 的范圍向集合B 的范圍縮小。。而使用過濾器的形式,使得Q→R,將盡可能保證詢問的問題在R的范圍之內,雖然會有部分R之外的數據進入大模型,但是由于本文設計的專業增強問答系統仍然保留一定的通用能力,對R之外的問題也可以進行無專業驗證的回答。

信息過濾將保證本系統盡可能回答在系統能力范圍以內的問題,以減少產生幻覺事實的可能。

訓練過程如圖4所示,將訓練數據輸入BERT,再將BERT的結果輸入全連接層(fully connected layer,FCL)得到對本文的分類結果[CLS]。根據數據集中的標簽,訓練時只需要更新全連接層的參數即可。

圖4 信息過濾模型的訓練過程Fig.4 Training process of information filtering model

一般來說使用BERT進行文本分類任務,會采用BERT 結果的分類詞向量H,基于softmax 做一個簡單的分類器,預測類別的標簽L的概率:

這里W是分類任務的參數矩陣,最終通過最大化正確標簽的對數概率來微調BERT 和W中的所有參數。將其修改為使用全連接層得到每個標簽的概率:

訓練時輸入全連接層的向量維度為768,具有兩個隱藏層,維度分別為384、768,輸出維度為類別個數,這里是一個二分類任務,因此為2。最終選擇概率更大的標簽作為分類的結果[CLS]。在中醫藥方劑學領域中,[CLS]為問題是否與中醫藥方劑相關,通過過濾問題,減少生成幻覺事實的可能,并同檢索結果一起判斷能否進行專業回答。

3.3 專業回答

為了使得大模型知識圖譜問答系統的回答更具備專業性,本文通過提示的方式注入知識庫中專業知識,增強回答的專業性。通過檢索知識庫,大模型可以回答其本身能力之外的專業問題,使得大語言模型支持的問題邊界擴大。這種方式和引入專業數據的微調方法對比,無需重新訓練就可以部署一個專業領域大語言模型。

如圖5 所示,在中醫藥方劑領域,本文使用LangChain+LLM,生成更具備專業知識的回答。本系統基于LangChain 在知識庫中檢索與問題相關的專業知識,然后專業知識和問題文本一起構成P4(表2 所示)輸入LLM,最終得到答案文本。這里可以選擇使用ChatGLM-6B、ChatGPT等作為大模型。

圖5 基于LangChain+LLM的問答流程圖Fig.5 Question-answer flow chart based on LangChain+LLM

假設知識庫中的第i個文件為Fi(i=1,2,…,n),基于LangChain 進行檢索會將各個文件中的文本進行分塊,Dij(i=1,2,…,n;j=1,2,…,m)表示第i個文件的第j個文本塊。然后對每一塊文本建立向量索引Vi(i=1,2,…,n×m),在檢索時將問題文本向量化,得到問題文本向量Q,最后通過向量相似度計算出和Q最相似的k個向量索引,并返回對應的文本塊。將匹配到的專業知識文本D和問題文本以P4的形式拼接,最終輸入LLM 中得到大模型生成的專業回答。該過程的偽代碼如下所示:

算法2向量化索引檢索問答

輸入:問題文本q,知識庫文件f。

輸出:大模型的回答文本result。

算法中q表示問題文本,f表示知識庫文件,d表示知識文本塊,Q表示問題文本向量,V表示文本塊的向量索引,split表示劃分文本塊的過程,trans表示從文本轉化為向量,de_trans表示從向量轉化為文本,score 將返回k個最相似的向量索引,model(P4(q,dk))表示將問題文本和專業知識文本以P4形式輸入大模型ChatGLM-6B。

3.4 抽取轉化

本節探索大語言模型和知識圖譜的深度結合。大模型的回答是易讀的自然語言數據,而知識圖譜的數據是結構化的知識。為了將兩者交互結合,需要實現兩者的相互轉換:(1)實現對自然語言的結構化;(2)可將結構化的知識轉換為自然語言。前者是信息抽取的任務,后者可以通過提示的方式輸入大模型轉換成自然語言文本。

以中醫藥方劑領域的應用為例進行分析:

(1)對于信息抽取,使用P-tuning v2 微調的方式強化LLM 的信息抽取能力。具體來說,在語言模型的每一層上將l個可訓練的注意力鍵和值嵌入連接到前綴上,給定原始的鍵向量K∈Rl×d和值向量V∈Rl×d,可訓練的向量Pk、Pv將分別與K和V連接。注意力機制頭的計算就變為:

其中,上標(i)代表向量中與第i個注意力頭對應的部分,本文通過這種方法來微調大語言模型,第3.1 節描述了如何構建微調數據。如圖1所示,將大模型生成的自然語言答案文本,輸入經過信息抽取增強微調后的大模型中,提取出結構化的三元組信息,并與知識圖譜進行匹配,在專家驗證后,可以存儲到方劑知識圖譜中。

(2)對于結構數據的易讀化,使用提示的方式(提示構造如表2的P3所示),將知識圖譜相關節點轉換為P3后,再將P3輸入大模型得到自然語言的回答。

本文嘗試將專業知識圖譜與大語言模型結合,利用大模型生成自然語言回答,抽取出專業的結構化知識,并和已有的專業方劑知識圖譜進行知識匹配,以進行專業驗證。同時可以將知識圖譜中的結構化知識轉化成易讀的自然語言。

4 實驗

本章為系統的效果提供了實驗證據,分為三部分:(1)不同模型回答效果展示;(2)性能評估;(3)大語言模型和知識圖譜的相互轉換。本文實驗模型采用ChatGLM-6B 在MindSpore1.10.1 環境下,基于Ascend910硬件運行。

4.1 不同模型回答效果展示

表3 是不同模型對相同中醫藥方劑相關問題的一些回答結果。ChatGPT沒有開源,也沒有透露任何訓練細節,因此無法保證評估數據是否被用于訓練它們的模型,從而它們的結果在這里只能作為參考,而不應該被用來進行公平的比較[14]。

表3 不同模型結果對比Table 3 Comparison of results of different models

對于問題1,由于知識庫中存在相關的知識,專家問答系統可以進行專業回答,ChatGLM 則無法生成方劑學的專業回答,相比于ChatGPT的回答,專家問答系統更精細,不僅有方劑名稱,適用范圍還有具體的方劑信息。對于問題2,此問題是數學和方劑學的交叉問題,知識庫中并沒有相關信息,直接由ChatGLM 回答,會生成幻覺事實。專業問答系統可以判斷無足夠專業知識進行回答,進而避免生成幻覺事實。這些結果表明,本文設計的系統具備良好的專業回答能力,同時也能對自身無法專業回復的問題表示拒絕。專業問答系統仍然保留ChatGLM本身的能力,能對一些繞過信息過濾的問題進行回答,這種能力能夠保證在面對專業領域邊界問題或交叉問題時可以進行較好的回答。

4.2 性能評估

為了評估系統的性能,本節從主觀評估與客觀評估兩方面驗證了在中醫藥方劑學領域的專業效果,并通過消融實驗驗證了各個模塊都具備相應的提升系統性能的能力。

4.2.1 主觀評估

本實驗請三個中醫藥方面的專家對不同模型的回答進行評估,用以驗證系統效果。將100個問題分別輸入三個不同的模型生成答案,然后把來自不同模型的每個問題的結果,交給專家進行評估,比較對于同一個問題,專家更喜歡哪一個模型的回答。如圖6所示,橫坐標表示不同的專家,縱坐標表示最滿意問題所占問題總數的比例。模型1 是本文所提專業問答系統,模型2表示ChatGLM,模型3表示ChatGPT。由于是對比三個模型的結果,因此只需專家最滿意比例大于總體1/3 就可以證明專業問答系統的回答更好。專家們對模型1 的回答結果最滿意總個數分別是37、42、42,都超過總問題個數的1/3,因此本文設計的系統更受專家喜歡。

圖6 專家評估Fig.6 Expert evaluation

實驗過程中,問題被分為兩類,一種是普通問題,另一種是專業問題,兩者分別有50個問題,共100個問題。普通問題是相對常見的問題,對專業知識需求較低;專業問題是考驗式問題,類似于考試題,回答專業問題需要具備更多的知識。專家總體評估如圖6(a),簡單問題評估如圖6(b),專業問題評估如圖6(c)。

在圖6(a)中,模型1 取得了最高的滿意率,可以看出本系統提出的方法更受中醫藥專家的喜歡。對于簡單問題,如圖6(b)所示,遠遠優于其他兩個模型,對于專業問題,如圖6(c)所示,雖然ChatGPT 取得最優的結果,但是模型1相對于模型2仍更受專家喜歡。相對于其他模型,模型1 的回復更加詳細,會補充更多專業知識。但是當問題難度上升,回答問題需求知識更多,當知識庫中沒有這部分知識時,模型1 的回答專業性就不如ChatGPT。這可能是因為ChatGPT 訓練時所用的語料中涉及專業問題,所以ChatGPT在回答專業問題時更具備優勢。

結果表明,總體上本文所提系統更受專家喜歡。雖然面對復雜問題時,表現不如ChatGPT,但是相對基線模型ChatGLM-6B仍保持更高的滿意率,表明了本文所提系統的有效性。

4.2.2 客觀性能評估

為了客觀驗證系統的問答性能,讓系統回答專業相關的選擇題,可以客觀驗證系統性能。此實驗收集并整理了50 條方劑學不同難度的選擇題,讓不同模型進行回答,計算不同模型對不同問題的得分情況,以評估系統的客觀性能。

實驗過程中,問題按照問題的難度分為三類,分別為簡單題(simple question,SQ)、中等題(medium question,MQ)、困難題(difficult question,DQ)。準確率以正確問題個數除以總問題個數進行計算。

在表4中,小括號中的數字表示正確回答問題的個數。從其中結果看,顯然隨著問題難度提升,回答的正確率依次下降。對于平均正確率而言,專業問答系統顯著高于ChatGLM-6,略低于ChatGPT。說明專業問答系統能夠顯著提升大模型的專業能力,甚至能夠達到和ChatGPT相媲美的結果。

表4 選擇題客觀性能評估Table 4 Objective evaluation of multiple choice question

結果表明,和ChatGLM-6B相比專業問答系統答對題目的數量更多,從客觀上驗證了系統的性能。

4.2.3 消融實驗

本文進行消融實驗,進一步驗證信息過濾、專業問答、知識抽取與知識圖譜相互轉換三個模塊的功能。

對于信息過濾模塊而言,其作用并非是增強回答專業性,而是對問題進行過濾,減少生成幻覺事實的可能性,因此為了驗證其能力,需要使用問題數據集單獨進行測試;對于專業問答模塊,其本質是利用知識庫增強回答專業性,因此對該模塊需要測試性能;對于知識抽取與知識圖譜相互轉換模塊,可以通過去除和知識圖譜交互重新生成答案部分,以驗證增強回答專業性,同樣需要測試性能。因此在消融實驗中,對信息過濾模塊單獨使用問題數據集驗證其信息過濾能力,對后兩者使用客觀性能評估的數據集驗證性能提升。

實驗過程中,為了驗證信息過濾模塊的能力,將輸入的問題按照相關程度劃分為三種類型的問題,分別為無關問題(completely unrelated question,CUQ)、部分相關問題(some related question,SRQ)、完全相關問題(completely related question,CRQ)。對于部分相關問題,是在無關問題的基礎上增加相關的信息或在相關問題的基礎上增加無關信息,作為干擾。通過將無關信息和相關信息混合的方式制造部分相關問題,可以驗證信息過濾的魯棒性。準確率使用正確過濾問題個數除以問題總個數進行計算。

在表5 中,RIF(remove information filter)表示去除信息過濾,RKB(remove knowledge base)表示去除知識庫,RKG(remove knowledge graph)表示去除知識圖譜交互。去除信息過濾模塊后,專業問答系統可以通過合適的提示機制進行信息過濾,從結果看,專業問答-RIF的過濾準確率低于專業問答系統的過濾準確率,說明了去除信息過濾模塊后系統的信息過濾能力有所降低,驗證了信息過濾模塊的有效性。對于簡單問題的回答,專業問答-RKB的準確率與ChatGLM-6B 基本相同,專業問答-RKG 的準確率與專業問答系統基本相同,說明對于SQ,大模型本身具備一定的回答能力,其增幅主要依靠知識庫,知識圖譜進行交互增強不明顯。對于困難問題,專業問答-RKB和專業問答-RKG的準確率低于專業問答系統,高于ChatGLM-6B,可見對于MQ、DQ,通過知識圖譜進行交互發揮一定的作用,猜測這可能是因為知識圖譜能夠注入相關知識或輔助大模型進行推理,激活大模型的邊緣知識??傮w來說RKB、RKG都會使得專業問答系統的回答準確率下降,并且高于ChatGLM-6B的準確率,由此驗證了系統各個模塊均發揮作用。

對于簡單問題知識圖譜作用不明顯,這是由于回答問題相對簡單時,所需要知識是孤立的,無需通過深度推理得出,當不存在相應知識時,就無法通過知識圖譜輔助推理得到正確的答案,因此知識圖譜交互對回答的增強不明顯。

4.3 大語言模型和知識圖譜的相互轉換

本實驗通過展示系統的用戶界面截圖,體現了系統用戶交互服務,同時還體現了本文所設計的系統具備的大語言模型與知識圖譜之間的交互能力。

本文實現了知識圖譜與大模型的雙向鏈接,探索了大語言模型和知識圖譜的深度結合。用戶向系統提出問題,系統進行回答,并通過圖的方式,展示知識圖譜相關數據節點,用戶可以選擇其中相關節點,再次輸入大模型得到更多的解釋。

圖7 來自系統界面截圖,展示了系統問答、圖譜數據易讀化、自然語言回答結構化的效果。左上角的問答截圖是用戶向系統發出提問,系統生成答案,然后對答案進行結構化,生成三元組,并和已有的知識圖譜進行匹配后,展示出右上角的知識圖譜節點。如圖7 右下角所示,用戶可以選擇相關節點,系統將其轉化為問題再次生成答案,最終兩個答案相結合就是系統的回復。這樣既為用戶提供了良好的交互服務,也實現了大語言模型與知識圖譜的雙向交互。

圖7 中醫藥方劑大模型回答與知識圖譜相互轉換Fig.7 Mutual transformation between large model answer and knowledge graph of traditional Chinese medicine formulas

在中醫藥方劑領域,系統生成的回復有一定的參考價值,但是由于中醫藥方劑領域本身的一些特性,系統還具有很多可以改進的地方,比如加入中醫如何開方的數據和相關問診的多模態數據,如患者的舌苔、脈象、氣色等。該系統針對不同的領域,需有相應的調整。

5 結束語

在大模型時代,激活大模型中的“涌現”能力并將其適配到具體領域場景是未來在垂直領域建立競爭力的關鍵,其中高質量領域數據與知識不可或缺。垂直領域的數據與知識可以有兩種利用方式:(1)在LLM預訓練過程中,注入垂直領域知識并進行相應架構與工程的優化,或者使用微調方法修改模型參數向其中注入專業知識;(2)結合垂直領域數據與知識圖譜,設計合適的提示機制,充分激發基座大模型的能力,實現垂直領域任務能力的“躍遷”。本文從第二種方式開始,研究大語言模型+專業知識庫的問答系統范式,探索將專業知識圖譜與大語言模型深度結合,實現了大語言模型與知識圖譜的雙向交互,同時實現了文本知識庫、知識圖譜、大語言模型三種知識的融合。

大模型知識圖譜問答系統是對大模型與知識圖譜結合的探索工程,仍然存在著很多值得完善的部分。在該系統中目前僅實現了在中醫藥方劑領域的應用,其設計思路還可以應用在不同的領域,如法律、金融、教育等垂直領域。除此之外,在系統效果的驗證方面還缺少一項標準的評估系統專業能力的基準,因此在后續工作中,將開發一個專門用于評估垂直領域問答系統性能的基準。

猜你喜歡
文本語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 91在线精品麻豆欧美在线| 国产91视频观看| 亚洲午夜天堂| 成人在线亚洲| 国产一区二区免费播放| 欧美精品一二三区| m男亚洲一区中文字幕| 日本一区二区三区精品国产| 国产在线自揄拍揄视频网站| 国产日产欧美精品| 亚洲中文在线视频| 麻豆精品国产自产在线| 色综合网址| 国产欧美视频在线观看| 亚洲国产看片基地久久1024| 四虎精品国产永久在线观看| 精品国产自在现线看久久| 一本久道久久综合多人| 看你懂的巨臀中文字幕一区二区 | 亚洲欧洲AV一区二区三区| 亚洲成人一区在线| 久久黄色免费电影| 亚洲第一综合天堂另类专| 88av在线播放| 久久性视频| 91国内在线观看| 999精品视频在线| 波多野吉衣一区二区三区av| 亚洲乱伦视频| 高清亚洲欧美在线看| 色妺妺在线视频喷水| 亚洲欧美另类久久久精品播放的| 欧美在线一级片| 日韩第九页| 美美女高清毛片视频免费观看| 亚洲天堂2014| 91免费国产高清观看| 亚洲成aⅴ人在线观看| 先锋资源久久| 欧美啪啪网| 亚洲va欧美va国产综合下载| 欧美成人午夜影院| 亚洲一区二区在线无码| 亚洲国产日韩在线观看| 91亚瑟视频| 欧美精品综合视频一区二区| 免费人成在线观看视频色| 视频二区中文无码| 亚洲欧美日韩色图| 在线欧美国产| 99在线国产| 亚洲一级毛片在线观| 久996视频精品免费观看| 国产一区免费在线观看| 91人人妻人人做人人爽男同| 国产精品香蕉在线观看不卡| 亚洲福利视频网址| 欧美中文字幕在线二区| 日韩国产一区二区三区无码| 亚洲精品第一页不卡| 伊人欧美在线| 欧美日韩资源| 亚洲av色吊丝无码| 91视频首页| 99热这里只有精品在线观看| 国产亚洲男人的天堂在线观看| 一级黄色网站在线免费看| 国产成人精品18| 亚洲欧美一区二区三区麻豆| 国产在线视频福利资源站| 国产精品一区二区久久精品无码| 久操线在视频在线观看| 婷婷六月天激情| 精品久久久无码专区中文字幕| 亚洲高清在线播放| 亚洲美女高潮久久久久久久| 国产91成人| 一区二区日韩国产精久久| 一区二区三区高清视频国产女人| 91视频精品| 国产午夜精品一区二区三区软件| 漂亮人妻被中出中文字幕久久|