




摘要:隨著人們對(duì)醫(yī)療服務(wù)需求的日益增長,醫(yī)療行業(yè)正面臨人力資源短缺和資源分布不均的雙重挑戰(zhàn)。為應(yīng)對(duì)此挑戰(zhàn),該研究設(shè)計(jì)了一種面向中文電子病歷的醫(yī)療問答系統(tǒng)。研究利用自然語言處理(NLP) 技術(shù)構(gòu)建中文電子病歷知識(shí)圖譜,并結(jié)合大語言模型整合醫(yī)學(xué)知識(shí),以支持疾病推理和醫(yī)療決策。系統(tǒng)通過深度學(xué)習(xí)解析用戶問題的語義,從知識(shí)圖譜中檢索信息,并結(jié)合經(jīng)過前綴微調(diào)和高級(jí)檢索增強(qiáng)生成技術(shù)(Advanced RAG) 優(yōu)化的大模型輔助生成答復(fù),從而實(shí)現(xiàn)更精準(zhǔn)、高效的醫(yī)療輔助服務(wù)。
關(guān)鍵詞: 醫(yī)療問答;醫(yī)療知識(shí)圖譜;大語言模型;前綴微調(diào);Advanced RAG
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)01-0012-04 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
當(dāng)前,AI 技術(shù)迅猛發(fā)展,醫(yī)療行業(yè)也逐步邁向信息化。面對(duì)服務(wù)需求增長以及人力不足、資源分布不均的挑戰(zhàn),迫切需要開發(fā)智能醫(yī)療問答系統(tǒng)。醫(yī)療智能問答系統(tǒng)不僅能夠減輕醫(yī)護(hù)人員的工作壓力,提高醫(yī)療服務(wù)的效率和質(zhì)量,還能跨越地理限制,為不同地區(qū)的用戶提供即時(shí)的醫(yī)療咨詢服務(wù)。通過智能化手段,該系統(tǒng)優(yōu)化了醫(yī)療資源配置,推動(dòng)了醫(yī)療信息化和人工智能技術(shù)的發(fā)展,從而實(shí)現(xiàn)醫(yī)療服務(wù)的均衡發(fā)展和全民健康覆蓋。
本設(shè)計(jì)旨在通過自然語言處理技術(shù)構(gòu)建中文電子病歷知識(shí)圖譜,并結(jié)合大語言模型整合醫(yī)學(xué)知識(shí),以支持疾病推理和醫(yī)療決策,為醫(yī)生提供直觀的醫(yī)療決策支持。系統(tǒng)能夠根據(jù)患者的癥狀信息,自動(dòng)推薦可能的疾病診斷結(jié)果和相應(yīng)的檢查項(xiàng)目,從而提高診斷的準(zhǔn)確性和效率。患者和醫(yī)生可以通過系統(tǒng)進(jìn)行交互,詢問關(guān)于疾病的癥狀、治療方法、藥物用法用量等問題,系統(tǒng)能夠迅速給出準(zhǔn)確的答案,提供便捷、高效的醫(yī)療咨詢服務(wù)。
1 相關(guān)工作
電子病歷系統(tǒng)是現(xiàn)代醫(yī)療信息化的基石,通過加速服務(wù)流程、輔助決策、支持研究與教育、保障患者安全以及優(yōu)化資源分配等方面,顯著提升了醫(yī)療服務(wù)的效率和質(zhì)量。起源于美國的電子病歷系統(tǒng)[1],現(xiàn)已在全球范圍內(nèi)推廣應(yīng)用。中國的電子病歷系統(tǒng)[2]自2010 年起在政策推動(dòng)下取得了顯著進(jìn)展。這些系統(tǒng)的發(fā)展為智能問答系統(tǒng)提供了豐富的數(shù)據(jù)基礎(chǔ),使得依托自然語言處理和深度學(xué)習(xí)技術(shù)分析醫(yī)療文本并提供高效信息服務(wù)成為可能。
問答系統(tǒng)作為人工智能領(lǐng)域的關(guān)鍵組成部分,其主要任務(wù)是準(zhǔn)確解析、處理并回應(yīng)用戶以自然語言提出的問題。谷歌公司提出的基于知識(shí)圖譜的問答系統(tǒng)[3],利用知識(shí)圖譜的強(qiáng)大能力,為問答系統(tǒng)的研究與應(yīng)用開辟了新的方向。此外,洪海藍(lán)等[4]開發(fā)了基于多模態(tài)知識(shí)圖譜的中藥智能問答系統(tǒng),拓展了問答系統(tǒng)的應(yīng)用,并為知識(shí)服務(wù)工具提供了新的范例。
知識(shí)圖譜由谷歌公司于 2012 年提出,其理論基礎(chǔ)根植于數(shù)學(xué)圖論,旨在通過圖形結(jié)構(gòu)表示知識(shí)并描繪實(shí)體間的相互關(guān)系。張吉祥等人[5]研究了知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù),包括抽取、融合和推理,并分析了深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用挑戰(zhàn)。Lin 等[6]使用知識(shí)圖譜和圖演化元學(xué)習(xí)框架快速推理新疾病癥狀,實(shí)現(xiàn)了通過少量對(duì)話進(jìn)行疾病診斷的目標(biāo)。
近年來,大型語言模型(LLMs) 的研究與開發(fā)已成為自然語言處理領(lǐng)域的顯著趨勢(shì)。OpenAI 的 GPT 系列[7]、Google 的 BERT[8]和 T5 等模型不斷刷新自然語言處理任務(wù)的性能記錄[9]。然而,盡管醫(yī)學(xué)領(lǐng)域?qū)χR(shí)問答系統(tǒng)的需求日益增長,目前尚未出現(xiàn)專門針對(duì)該領(lǐng)域的大型語言模型。
2 理論基礎(chǔ)及相關(guān)技術(shù)
2.1 自然語言處理
自然語言處理(NLP) 是一門促進(jìn)人機(jī)通過自然語言進(jìn)行有效交流的交叉學(xué)科,目前在人工智能醫(yī)學(xué)領(lǐng)域備受關(guān)注。NLP 主要包括自然語言理解和自然語言生成兩部分,前者使計(jì)算機(jī)能夠理解文本的含義,后者則允許計(jì)算機(jī)用自然語言表達(dá)特定意圖。其基本原理涉及語言學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué),在具體實(shí)現(xiàn)過程中需要進(jìn)行多層次處理,包括語言模型的構(gòu)建、詞向量表示、語義分析以及深度學(xué)習(xí)技術(shù)的應(yīng)用。
NLP 在智能醫(yī)療問答系統(tǒng)中發(fā)揮著核心作用。在本研究中,NLP 通過信息抽取、命名實(shí)體識(shí)別、問答系統(tǒng)開發(fā)、文本理解、語義搜索、診斷輔助和實(shí)體對(duì)齊等關(guān)鍵功能,使系統(tǒng)能夠理解和處理復(fù)雜的醫(yī)療文本,提供準(zhǔn)確的醫(yī)療咨詢和決策支持,從而提高醫(yī)療服務(wù)的效率和質(zhì)量,推動(dòng)醫(yī)療信息化的發(fā)展。
2.2 ChatGLM3-6B
ChatGLM3 由智譜 AI 與清華大學(xué) KEG 實(shí)驗(yàn)室聯(lián)合開發(fā),標(biāo)志著第三代對(duì)話預(yù)訓(xùn)練模型的重大進(jìn)步。該系列中的 ChatGLM3-6B 模型不僅繼承了前代產(chǎn)品的高效對(duì)話能力和低部署難度,還引入了顯著的技術(shù)革新。
ChatGLM3-6B 的特點(diǎn)包括:大規(guī)模預(yù)訓(xùn)練賦予其廣博的知識(shí)和深刻的語言理解能力;上下文感知能力使其能夠根據(jù)對(duì)話歷史提供更精準(zhǔn)的回答;多領(lǐng)域知識(shí)覆蓋,使其能夠解答涉及編程、科技、文化、歷史等問題;以及支持交互式對(duì)話,能夠與用戶進(jìn)行深入的交流和探討。這些特性共同提升了 ChatGLM3-6B 在自然語言處理領(lǐng)域的應(yīng)用潛力。
ChatGLM3-6B 采用了全新設(shè)計(jì)的 Prompt 格式,除了支持正常的多輪對(duì)話外,還原生支持工具調(diào)用(Function Call) 、代碼執(zhí)行(Code Interpreter) 和 Agent 任務(wù)等復(fù)雜場(chǎng)景。這些功能對(duì)于構(gòu)建一個(gè)能夠執(zhí)行多任務(wù)的智能醫(yī)療問答系統(tǒng)至關(guān)重要。
當(dāng)前,眾多杰出的預(yù)訓(xùn)練大型語言模型已經(jīng)問世,如 ChatGPT-3.5、LLaMA 2、T5 和 ChatGLM 等,具體如表 1 所示。
表 1中的參數(shù)量,即模型中可訓(xùn)練參數(shù)的總數(shù),涵蓋了神經(jīng)網(wǎng)絡(luò)中的權(quán)重與偏置,是衡量模型規(guī)模和復(fù)雜性的關(guān)鍵指標(biāo)。它不僅反映了模型的大小,也是評(píng)估其容量和性能的重要依據(jù)。一般來說,參數(shù)量越大的模型,其表示能力越強(qiáng),能夠更精確地捕捉輸入數(shù)據(jù)的復(fù)雜特征和結(jié)構(gòu)。然而,這也意味著模型需要更多的計(jì)算資源和存儲(chǔ)空間,因此在模型性能與資源效率之間需要做出權(quán)衡。
最大支持 token 數(shù)指的是大型語言模型能夠處理的 token 上限。如果輸入文本超出這一限制,可能會(huì)導(dǎo)致上下文信息的丟失,從而影響模型回答的相關(guān)性和準(zhǔn)確性。因此,了解和控制模型的最大 token 數(shù)對(duì)于確保模型輸出質(zhì)量至關(guān)重要。
綜合考慮 SuperCLUE 針對(duì)中文通用大模型在知識(shí)百科、上下文對(duì)話等多種能力上的排名,是否開源可商用,模型訓(xùn)練與部署所需的人力和時(shí)間成本,以及確保模型的使用符合相關(guān)法規(guī)和政策要求等因素,最終選擇 ChatGLM3-6B 作為基座預(yù)訓(xùn)練模型。
2.3 微調(diào)技術(shù)
大模型微調(diào)技術(shù)是一種機(jī)器學(xué)習(xí)方法,通過在特定領(lǐng)域的數(shù)據(jù)集上進(jìn)一步訓(xùn)練已預(yù)訓(xùn)練的大型模型,以優(yōu)化其在特定任務(wù)上的性能。這種方法利用預(yù)訓(xùn)練模型的泛化能力,增強(qiáng)其對(duì)特定任務(wù)的適應(yīng)性,使其更符合醫(yī)學(xué)領(lǐng)域的需求。
本研究采用前綴微調(diào)方法[10],這是一種軟提示技術(shù),與提示詞微調(diào)類似,通過在模型輸入的嵌入向量前添加可學(xué)習(xí)的前綴序列來適應(yīng)任務(wù)。前綴微調(diào)進(jìn)一步將這些可學(xué)習(xí)序列擴(kuò)展到所有隱藏層狀態(tài)的前端(如圖 1 所示) ,從而優(yōu)化模型性能。
然而,直接優(yōu)化這些前綴序列可能會(huì)引起模型訓(xùn)練的不穩(wěn)定。為了解決這一問題,前綴微調(diào)采用了一種方法:通過一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(FFN) 轉(zhuǎn)換這些前綴序列,然后將轉(zhuǎn)換后的結(jié)果附加到嵌入向量或隱藏狀態(tài)的前端。在模型訓(xùn)練期間,利用梯度下降法在下游任務(wù)的數(shù)據(jù)集上對(duì)前綴序列和 FFN 中的參數(shù)進(jìn)行優(yōu)化。在模型推理階段,F(xiàn)FN 部分將被移除。
2.4 檢索增強(qiáng)生成技術(shù)
在檢索增強(qiáng)生成(RAG) 框架中,核心流程分為檢索和生成兩個(gè)階段。檢索階段從外部信息源提取相關(guān)信息,生成階段則利用這些信息生成精準(zhǔn)回答。Advanced RAG 在此基礎(chǔ)上增加了新模塊和范式,集成了重新排序、自動(dòng)合并和高級(jí)過濾等算法,以優(yōu)化檢索和生成流程,提高信息檢索效率。
Advanced RAG 通過以下方式提升性能:1) 重新排序算法:優(yōu)先展示最相關(guān)信息; 2) 自動(dòng)合并功能:整合多數(shù)據(jù)源信息,提供全面視角;3) 高級(jí)過濾技術(shù):排除無關(guān)數(shù)據(jù),增強(qiáng)結(jié)果相關(guān)性。
Advanced RAG 能有效處理復(fù)雜查詢,整合多樣化數(shù)據(jù)資源,構(gòu)建高度情境感知的 AI 系統(tǒng),提供快速準(zhǔn)確的信息檢索服務(wù),并在內(nèi)容生成中實(shí)現(xiàn)高效率和相關(guān)性,滿足信息質(zhì)量和響應(yīng)速度的需求。其運(yùn)作流程詳見圖 2。
圖2展示了Advanced RAG的信息檢索增強(qiáng)和生成過程。用戶首先輸入查詢文本,系統(tǒng)通過預(yù)檢索階段對(duì)查詢進(jìn)行路由、重寫和擴(kuò)展,隨后執(zhí)行檢索操作。檢索完成后,系統(tǒng)會(huì)對(duì)結(jié)果進(jìn)行重排序、總結(jié)和融合,以優(yōu)化輸出。在此過程中,系統(tǒng)還會(huì)提示凍結(jié)大型語言模型,以確保輸出的穩(wěn)定性和一致性。最終,系統(tǒng)生成并輸出處理后的結(jié)果。該過程旨在提供更準(zhǔn)確、全面和個(gè)性化的信息檢索服務(wù)。
3 問答系統(tǒng)架構(gòu)設(shè)計(jì)
本設(shè)計(jì)專注于中文電子病歷這一特定領(lǐng)域,將其作為深入研究的對(duì)象。研究的核心目標(biāo)是創(chuàng)新性地結(jié)合先進(jìn)的大語言模型和精準(zhǔn)的知識(shí)圖譜技術(shù),以構(gòu)建一個(gè)高效能的智能醫(yī)療問答系統(tǒng)。該系統(tǒng)旨在通過智能化手段提升醫(yī)療服務(wù)質(zhì)量,不僅能夠?yàn)獒t(yī)生和醫(yī)療工作者在臨床診療過程中提供科學(xué)的理論支持,還能為患者提供更加人性化的服務(wù)。通過該系統(tǒng),可以確保醫(yī)療決策更加準(zhǔn)確,患者咨詢更加高效,從而在實(shí)際醫(yī)療服務(wù)中發(fā)揮關(guān)鍵的技術(shù)保障作用,推動(dòng)醫(yī)療服務(wù)向智能化、精準(zhǔn)化發(fā)展。
研究設(shè)計(jì)的智能問答系統(tǒng)整體架構(gòu)如圖 3 所示:
1) 數(shù)據(jù)采集與預(yù)處理:系統(tǒng)首先進(jìn)行數(shù)據(jù)采集,包括電子病歷等醫(yī)療相關(guān)數(shù)據(jù)。隨后,通過數(shù)據(jù)預(yù)處理模塊,對(duì)原始數(shù)據(jù)進(jìn)行清洗、標(biāo)準(zhǔn)化和格式化,以便于后續(xù)的分析和處理。
2) 知識(shí)獲取與構(gòu)建:系統(tǒng)構(gòu)建了一個(gè)醫(yī)學(xué)知識(shí)體系,該體系能夠?qū)︶t(yī)療領(lǐng)域的數(shù)據(jù)模式進(jìn)行定義和理解。這一步驟涉及基于深度學(xué)習(xí)的語義解析和命名實(shí)體識(shí)別,以確保系統(tǒng)能夠準(zhǔn)確識(shí)別和理解醫(yī)療文本中的關(guān)鍵信息。
3) 知識(shí)存儲(chǔ):系統(tǒng)使用 Neo4j 圖數(shù)據(jù)庫來存儲(chǔ)和管理醫(yī)療知識(shí)圖譜,其中節(jié)點(diǎn)代表醫(yī)療概念,節(jié)點(diǎn)之間的關(guān)系通過圖數(shù)據(jù)庫的邊來表示。這種結(jié)構(gòu)化的知識(shí)存儲(chǔ)方式有助于系統(tǒng)進(jìn)行高效的信息檢索和知識(shí)推理。
4) 意圖識(shí)別與查詢語句轉(zhuǎn)換:系統(tǒng)通過意圖識(shí)別模塊理解用戶的查詢意圖,并將其轉(zhuǎn)換為查詢語句。
這一過程涉及自然語言處理技術(shù),使系統(tǒng)能夠?qū)⒂脩舻淖匀徽Z言輸入轉(zhuǎn)換為結(jié)構(gòu)化查詢。
5) 自動(dòng)問答與多輪對(duì)話:系統(tǒng)利用大模型和知識(shí)圖譜實(shí)現(xiàn)自動(dòng)問答功能。它能夠與用戶進(jìn)行多輪對(duì)話,并通過檢索增強(qiáng)技術(shù)提供更加精準(zhǔn)和個(gè)性化的醫(yī)療建議。
6) 前端頁面展示:最終,系統(tǒng)通過前端頁面展示模塊,將處理后的信息以用戶友好的方式呈現(xiàn)給用戶,使用戶能夠輕松訪問和理解醫(yī)療問答系統(tǒng)提供的內(nèi)容。
3.1 醫(yī)療知識(shí)圖譜構(gòu)建
在醫(yī)學(xué)領(lǐng)域,數(shù)據(jù)的精確性與可靠性對(duì)于維護(hù)人類健康和保障生命安全具有至關(guān)重要的意義。因此,在醫(yī)學(xué)數(shù)據(jù)的收集、記錄和處理過程中,必須確保數(shù)據(jù)的準(zhǔn)確性、完整性和可靠性,以防止因數(shù)據(jù)錯(cuò)誤導(dǎo)致錯(cuò)誤的診斷、治療或研究結(jié)論。
在數(shù)據(jù)采集階段,首先對(duì)醫(yī)學(xué)問題進(jìn)行分類,并明確疾病的名稱、癥狀、預(yù)防措施、病因以及相應(yīng)的掛號(hào)科室等關(guān)鍵屬性。這些屬性各自對(duì)應(yīng)特定的關(guān)鍵詞,通過這些關(guān)鍵詞進(jìn)行檢索,可以有效地收集和豐富數(shù)據(jù)集的內(nèi)容。通過這種方法,確保數(shù)據(jù)采集的針對(duì)性和系統(tǒng)性,從而提高醫(yī)學(xué)數(shù)據(jù)的整體質(zhì)量和實(shí)用性。在數(shù)據(jù)清洗方面,采用了基于規(guī)則的方法來識(shí)別和糾正數(shù)據(jù)中的不一致性和錯(cuò)誤。
由圖 3 可見,在構(gòu)建醫(yī)療知識(shí)圖譜的過程中,本研究使用“尋醫(yī)問藥”網(wǎng)站和電子病歷等來源的醫(yī)療數(shù)據(jù)作為數(shù)據(jù)源,以構(gòu)建提供檢索支持的醫(yī)療知識(shí)圖譜。利用網(wǎng)絡(luò)爬蟲技術(shù)抓取所需內(nèi)容,通過人為設(shè)定相關(guān)規(guī)則與網(wǎng)頁內(nèi)容匹配,從而獲取所需數(shù)據(jù),并存儲(chǔ)于本地。
從這些數(shù)據(jù)源中提取數(shù)據(jù)后,對(duì)其進(jìn)行數(shù)據(jù)清洗,以剔除無關(guān)和缺失數(shù)據(jù)。按照知識(shí)圖譜中數(shù)據(jù)模式的定義形式組織并構(gòu)建重要的醫(yī)療知識(shí)體系,并將其存儲(chǔ)在 Neo4j 圖數(shù)據(jù)庫中,便于后續(xù)利用圖譜中的知識(shí)參與用戶問題解析,以構(gòu)建 Cypher 語句并檢索相關(guān)知識(shí)。
基于深度學(xué)習(xí)的語義解析層用于解析用戶問題,其功能是分析用戶輸入的問題,并從中提取出用于指導(dǎo)知識(shí)檢索過程的關(guān)鍵動(dòng)作指令與語義信息。在問題解析階段,首先采用實(shí)體提取與意圖分類模型,以識(shí)別序列和句子級(jí)別的特征,進(jìn)而執(zhí)行實(shí)體識(shí)別和意圖分類任務(wù)。隨后,對(duì)話管理引擎應(yīng)用其內(nèi)部策略和可用信息,對(duì)未來的交互動(dòng)作進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果(即動(dòng)作指令和語義信息) 傳遞至問答系統(tǒng)層,以便生成響應(yīng)并檢索相關(guān)知識(shí)。這一流程確保了系統(tǒng)能夠準(zhǔn)確捕捉用戶查詢的意圖,并以結(jié)構(gòu)化的方式響應(yīng)用戶的信息需求。
3.2 醫(yī)療問答系統(tǒng)實(shí)現(xiàn)
問答系統(tǒng)層承擔(dān)著執(zhí)行既定動(dòng)作的職責(zé),其核心功能在于從圖數(shù)據(jù)庫中檢索必要的知識(shí),以便對(duì)用戶提出的問題做出響應(yīng)。在此層級(jí)的操作中,問答系統(tǒng)依據(jù)對(duì)話管理引擎所預(yù)測(cè)的動(dòng)作指令,啟動(dòng)知識(shí)檢索過程。對(duì)于常規(guī)性質(zhì)的查詢,問答系統(tǒng)傾向于采用預(yù)定義的模板來快速生成查詢語句。這些模板是根據(jù)以往類似問題的回答模式精心設(shè)計(jì)的,以確保回答的一致性和準(zhǔn)確性。對(duì)于更為復(fù)雜或開放性的問題,問答系統(tǒng)則依賴于大型語言模型的生成能力,利用其涌現(xiàn)特性來構(gòu)建查詢語句,從而應(yīng)對(duì)更為廣泛的查詢類型。一旦生成了適當(dāng)?shù)牟樵冋Z句,問答系統(tǒng)便將其應(yīng)用于圖數(shù)據(jù)庫,執(zhí)行精確的知識(shí)檢索,以收集回答用戶問題所需的信息。
在獲取到相關(guān)的結(jié)構(gòu)化信息后,問答系統(tǒng)將采取兩種策略之一來組織和呈現(xiàn)這些信息:一是使用回復(fù)填充模板,將檢索到的信息以預(yù)定義的格式組織起來,以確保回復(fù)的清晰和條理;二是使用優(yōu)化后的大型語言模型,通過模型的高級(jí)文本生成能力,將知識(shí)組織成自然語言形式的回復(fù)。
基于模板的答案生成策略依賴于預(yù)定義的模板來快速生成回答。模板實(shí)例化是將自然語言問句與知識(shí)圖譜中的本體概念進(jìn)行映射的過程,確保模板中的實(shí)體、類型和謂詞能夠準(zhǔn)確對(duì)齊到知識(shí)圖譜中相應(yīng)的結(jié)構(gòu)。例如,“{疾病}的癥狀包括{癥狀列表}。”當(dāng)用戶詢問特定疾病的癥狀時(shí),系統(tǒng)只須將疾病名稱和相關(guān)癥狀填入模板即可生成答案。
基于大型語言模型的答案生成策略則利用其涌現(xiàn)特性來構(gòu)建查詢語句。大型語言模型(ChatGLM3-6B) 能夠理解用戶的查詢意圖,并生成相應(yīng)的查詢語句。Advanced RAG 結(jié)合了檢索和生成兩個(gè)階段,以生成更準(zhǔn)確和信息豐富的答案。在檢索階段,模型利用檢索系統(tǒng)找到與問題最相關(guān)的信息片段。在生成階段,將檢索到的信息片段用作生成答案的上下文。
3.3 大語言模型優(yōu)化
優(yōu)化大模型階段整合了大模型微調(diào)技術(shù)和檢索增強(qiáng)技術(shù),以增強(qiáng)問答系統(tǒng)的理解和生成能力。本文設(shè)計(jì)使用的大模型為 ChatGLM3-6B。這是一個(gè)強(qiáng)大的模型,能夠處理復(fù)雜的語言任務(wù)。為了進(jìn)一步優(yōu)化該模型,采用了前綴微調(diào)(Prefix-Tuning) 方法。該方法通過在模型的輸入嵌入向量前添加可學(xué)習(xí)的前綴序列,并將其擴(kuò)展到所有隱藏層狀態(tài),從而使模型能夠更好地適應(yīng)特定的下游任務(wù)。此外,還引入了 Ad?vanced RAG 技術(shù)。該技術(shù)通過檢索相關(guān)信息并將其融入生成過程中,進(jìn)一步增強(qiáng)了模型的生成能力,使其能夠提供更加豐富和準(zhǔn)確的回答。
通過這些技術(shù)的集成,系統(tǒng)能夠在前端頁面直觀地展示自動(dòng)問答和多輪對(duì)話的結(jié)果,為用戶提供一個(gè)易于交互的平臺(tái)。整個(gè)系統(tǒng)的設(shè)計(jì)旨在通過高度集成的技術(shù)棧,提供一個(gè)高效、準(zhǔn)確的醫(yī)療信息咨詢服務(wù),以輔助臨床診療并改善患者服務(wù)。
4 結(jié)論與展望
本研究設(shè)計(jì)了一個(gè)旨在提高醫(yī)療服務(wù)效率和質(zhì)量的醫(yī)療智能問答系統(tǒng)。該系統(tǒng)通過結(jié)合自然語言處理技術(shù)和大語言模型,生成中文電子病歷知識(shí)圖譜,構(gòu)建醫(yī)療智能問答系統(tǒng),以支持疾病推理和醫(yī)療決策。文章闡述了系統(tǒng)的架構(gòu)設(shè)計(jì),包括醫(yī)療知識(shí)圖譜的構(gòu)建、醫(yī)療問答系統(tǒng)的實(shí)現(xiàn)以及大語言模型的優(yōu)化。系統(tǒng)利用深度學(xué)習(xí)技術(shù)和語義解析來理解用戶問題,并從知識(shí)圖譜中檢索相關(guān)知識(shí),結(jié)合大模型技術(shù)生成準(zhǔn)確且豐富的回答。此外,系統(tǒng)還采用了前綴微調(diào)和 Advanced RAG 技術(shù),以提升大語言模型對(duì)特定任務(wù)的適應(yīng)性和生成能力。
隨著人工智能技術(shù)的不斷進(jìn)步,未來的醫(yī)療智能問答系統(tǒng)將更加精準(zhǔn)和高效。未來可以持續(xù)擴(kuò)大和更新知識(shí)圖譜的規(guī)模及覆蓋范圍,增強(qiáng)模型對(duì)復(fù)雜問題的理解和推理能力,進(jìn)而減少對(duì)大型語言模型的依賴。同時(shí),隨著人工智能技術(shù)在醫(yī)療領(lǐng)域的深入應(yīng)用,必須從人本性、主體性和公眾性等方面強(qiáng)化正向倫理規(guī)約,以保護(hù)患者隱私并克服道德主體困惑。這要求在設(shè)計(jì)和部署醫(yī)療人工智能系統(tǒng)時(shí),將倫理原則納入考量,并確保技術(shù)的發(fā)展與人類價(jià)值觀和社會(huì)目標(biāo)相一致。
參考文獻(xiàn):
[1] 蔣家偉.基于深度學(xué)習(xí)模型預(yù)測(cè)ICU患者死亡率的可解釋性研究[D].成都:電子科技大學(xué),2020.
[2] 李瑞瑤,鮑瀛.基于電子病歷系統(tǒng)應(yīng)用水平分級(jí)評(píng)價(jià)的醫(yī)療數(shù)據(jù)質(zhì)量管理實(shí)踐探討[J].中國數(shù)字醫(yī)學(xué),2022,17(11):17-22.
[3] 袁博,施運(yùn)梅,張樂.基于知識(shí)圖譜的問答系統(tǒng)研究與應(yīng)用[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2021,31(10):134-140.
[4] 洪海藍(lán),李文林,楊濤,等.基于知識(shí)圖譜的海洋中藥智能問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2023,25(6):1935-1941.
[5] 張吉祥,張祥森,武長旭,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)工程,2022,48(3):23-37.
[6] LIN S, ZHOU P, LIANG X D, et al. Graph-evolving metalearningfor low-resource medical dialogue generation[J].Pro?ceedings of the AAAI Conference on Artificial Intelligence,2021,35(15):13362-13370.
[7] LEIPPOLD M. Thus spoke GPT-3: interviewing a largelanguagemodel on climate finance[J].Finance Research Letters,2023,53:103617.
[8] DEVLIN J,CHANG M W,LEE K,et al.BERT:pre-training ofdeep bidirectional transformers for language understanding[EB/OL].2018:1810.04805.https://arxiv.org/abs/1810.04805v2.
[9] ZHOU C, LI Q, LI C, et al. A comprehensive survey on pre?trained foundation models: A history from BERT to ChatGPT[EB/OL]. (2023-02-25) [2024-05-21]. https://arxiv. org/abs/2302.09419. DOI:10.48550/arXiv.2302.09419.
[10] 丁鑫,鄒榮金,潘志庚.基于高效參數(shù)微調(diào)的生成式大模型領(lǐng)域適配技術(shù)[J].人工智能,2023,10(4):1-9.
【通聯(lián)編輯:唐一東】
基金項(xiàng)目:安徽省科研編制計(jì)劃項(xiàng)目重點(diǎn)項(xiàng)目(2022AH050224) ;質(zhì)譜關(guān)鍵技術(shù)研發(fā)與臨床應(yīng)用安徽省聯(lián)合共建學(xué)科重點(diǎn)實(shí)驗(yàn)室開放課題(2023ZPLH07)