一、前言
隨著人工智能技術(shù)的飛速發(fā)展,大模型技術(shù)已成為研究的焦點(diǎn)。大模型作為一種神經(jīng)網(wǎng)絡(luò)模型,擁有數(shù)十億乃至數(shù)萬(wàn)億級(jí)別的參數(shù)量,具備執(zhí)行復(fù)雜自然語(yǔ)言理解、圖像識(shí)別、語(yǔ)音合成等任務(wù)的能力。它能夠自動(dòng)解析海量文本,精準(zhǔn)查詢并匯總信息,撰寫高質(zhì)量文章,還能進(jìn)行復(fù)雜對(duì)話交互,極大地提升了工作效率與使用體驗(yàn)。大模型技術(shù)的進(jìn)步,為提高藥品安全性、優(yōu)化監(jiān)管手段提供了新契機(jī),也預(yù)示著藥品智慧監(jiān)管即將邁人全新階段。
二、人工智能技術(shù)
在人工智能技術(shù)持續(xù)演進(jìn)的大背景下,大語(yǔ)言模型正日益凸顯其關(guān)鍵地位,逐漸成為人工智能領(lǐng)域的核心技術(shù)以及備受矚目的研究方向。大模型技術(shù)廣泛應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域。在自然語(yǔ)言處理領(lǐng)域,被大量應(yīng)用于智能客服、文本生成和情感分析等任務(wù)。在計(jì)算機(jī)視覺領(lǐng)域,實(shí)現(xiàn)了圖像分類、目標(biāo)檢測(cè)和圖像生成等任務(wù)的高精度處理。在語(yǔ)音識(shí)別與合成領(lǐng)域,顯著提升了語(yǔ)音轉(zhuǎn)文本及文本轉(zhuǎn)語(yǔ)音的準(zhǔn)確性。在技術(shù)演進(jìn)歷程中,知識(shí)相關(guān)技術(shù)歷經(jīng)了知識(shí)表示、知識(shí)融合和動(dòng)態(tài)增強(qiáng)等不同發(fā)展階段。Bordes等人[提出了TransE模型,首次將知識(shí)圖譜嵌人低維向量空間,支持實(shí)體關(guān)系的可計(jì)算性推理,啟發(fā)了知識(shí)圖譜與深度學(xué)習(xí)的結(jié)合。Lewis等人提出RAG框架,將非參數(shù)化外部知識(shí)檢索與生成模型結(jié)合,驗(yàn)證知識(shí)增強(qiáng)對(duì)生成質(zhì)量的提升。DeepSeek Team3通過組相對(duì)策略優(yōu)化(GroupRelativePolicy Optimization,GRPO)算法實(shí)現(xiàn)知識(shí)推理能力增強(qiáng),推動(dòng)知識(shí)增強(qiáng)與強(qiáng)化學(xué)習(xí)的深度結(jié)合。
三、藥品監(jiān)管與AI應(yīng)用現(xiàn)狀
(一)藥品監(jiān)管概述
國(guó)務(wù)院辦公廳《關(guān)于全面深化藥品醫(yī)療器械監(jiān)管改革促進(jìn)醫(yī)藥產(chǎn)業(yè)高質(zhì)量發(fā)展的意見》(國(guó)辦發(fā)【2023]9號(hào))提出構(gòu)建“智能監(jiān)管新基建”戰(zhàn)略,以監(jiān)管科技創(chuàng)新破解“質(zhì)量一效率一創(chuàng)新”三元悖論。文件圍繞藥品全生命周期監(jiān)管,推進(jìn)監(jiān)管數(shù)字化轉(zhuǎn)型,利用人工智能、大數(shù)據(jù)等提升效能。明確要建立“風(fēng)險(xiǎn)一效益”動(dòng)態(tài)評(píng)估模型,將AI輔助決策系統(tǒng)嵌入全流程:研發(fā)階段評(píng)估臨床試驗(yàn)方案,生產(chǎn)環(huán)節(jié)監(jiān)控質(zhì)量,流通領(lǐng)域追蹤流向,上市后分析不良反應(yīng)并預(yù)警,以提升監(jiān)管智能化、精準(zhǔn)化水平。值得關(guān)注的是,現(xiàn)行監(jiān)管體系存在著動(dòng)態(tài)監(jiān)管與知識(shí)更新效率失衡、數(shù)據(jù)安全與隱私保護(hù)矛盾、專業(yè)問答的精準(zhǔn)性與合規(guī)性挑戰(zhàn)等核心痛點(diǎn),具體來說有以下兩點(diǎn)。第一,動(dòng)態(tài)監(jiān)管與知識(shí)更新效率失衡:藥品監(jiān)管法規(guī)、技術(shù)指南等更新頻率較高,給藥品監(jiān)管帶來了巨大挑戰(zhàn)。數(shù)據(jù)安全與隱私保護(hù)矛盾:藥品研發(fā)數(shù)據(jù)、不良反應(yīng)數(shù)據(jù)等信息均涉及商業(yè)機(jī)密與患者隱私,而云端傳輸面臨重重風(fēng)險(xiǎn)。第二,專業(yè)問答的精準(zhǔn)性與合規(guī)性挑戰(zhàn):藥品監(jiān)管問答必須同時(shí)兼顧法律嚴(yán)謹(jǐn)性與醫(yī)學(xué)準(zhǔn)確性。法律嚴(yán)謹(jǐn)性要求能精準(zhǔn)匹配《中華人民共和國(guó)藥品管理法》條款及司法解釋(如藥品安全委員會(huì)對(duì)于“重大風(fēng)險(xiǎn)”的判定標(biāo)準(zhǔn))。醫(yī)學(xué)準(zhǔn)確性則涵蓋藥代動(dòng)力學(xué)參數(shù)、不良反應(yīng)因果關(guān)系評(píng)估等專業(yè)領(lǐng)域,錯(cuò)誤回答極有可能引發(fā)監(jiān)管處罰或臨床風(fēng)險(xiǎn)。
圖1藥品監(jiān)管問答系統(tǒng)架構(gòu)

(二)AI應(yīng)用現(xiàn)狀
近年來,AI技術(shù)在藥品監(jiān)管領(lǐng)域取得了一定的進(jìn)展。GrayM等人4創(chuàng)新性地利用BERT模型實(shí)現(xiàn)跨格式藥物標(biāo)簽文檔的自動(dòng)標(biāo)準(zhǔn)化分類,首次驗(yàn)證了AI在監(jiān)管文檔結(jié)構(gòu)化整合中的高效性和泛化能力,為全球藥物安全審查提供了統(tǒng)一的信息處理框架。WuL等人5開發(fā)了RxBERT,針對(duì)FDA藥物標(biāo)簽文檔預(yù)訓(xùn)練的領(lǐng)域?qū)S肁I模型。此模型在藥物不良反應(yīng)識(shí)別和標(biāo)簽分類任務(wù)中顯著優(yōu)于通用NLP模型,首次驗(yàn)證了定制化語(yǔ)言模型在提升藥物監(jiān)管文本分析效率和準(zhǔn)確性上的可行性。
美國(guó)食品藥品監(jiān)督管理局(FoodandDrugAdministration,F(xiàn)DA)制定了《關(guān)于使用人工智能支持藥物及生物制品監(jiān)管決策的考慮》,提出了七步風(fēng)險(xiǎn)評(píng)估框架,指導(dǎo)行業(yè)在藥物全生命周期中合理使用人工智能輔助監(jiān)管決策,強(qiáng)調(diào)數(shù)據(jù)質(zhì)量、模型透明度及風(fēng)險(xiǎn)適配驗(yàn)證,并鼓勵(lì)利益相關(guān)方與監(jiān)管機(jī)構(gòu)早期溝通以確保AI應(yīng)用的可信度與安全性。國(guó)家藥品監(jiān)督管理局積極推進(jìn)藥品監(jiān)管現(xiàn)代化,通過構(gòu)建由“大平臺(tái)、大系統(tǒng)、大數(shù)據(jù)”組成的智慧監(jiān)管平臺(tái),成功實(shí)現(xiàn)藥品全生命周期的高效管理。
四、智能問答系統(tǒng)
(一)業(yè)務(wù)需求
在藥品監(jiān)管數(shù)字化轉(zhuǎn)型進(jìn)程中,智能問答系統(tǒng)作為人工智能技術(shù)的關(guān)鍵應(yīng)用載體,已成為優(yōu)化企業(yè)服務(wù)、提升監(jiān)管效能的重要工具,其需求體現(xiàn)在三個(gè)方面。
一是法規(guī)與政策咨詢的自動(dòng)化響應(yīng)需求。智能問答系統(tǒng)要實(shí)現(xiàn)對(duì)監(jiān)管法規(guī)的動(dòng)態(tài)解析與精準(zhǔn)匹配。通過構(gòu)建垂直領(lǐng)域大語(yǔ)言模型,并嵌人《藥品管理法》《疫苗管理法》《藥品經(jīng)營(yíng)質(zhì)量管理規(guī)范》等法規(guī)知識(shí)庫(kù),結(jié)合自然語(yǔ)言處理技術(shù),系統(tǒng)能夠自動(dòng)解答企業(yè)在注冊(cè)申報(bào)流程、審評(píng)標(biāo)準(zhǔn)、合規(guī)性要求等方面的疑問。此外,系統(tǒng)還需具備多輪對(duì)話引導(dǎo)功能(如借助預(yù)設(shè)問題模板輔助企業(yè)完成材料補(bǔ)正),從而提升咨詢服務(wù)的規(guī)范性與效率。
二是審評(píng)審批流程的智能化輔助需求。系統(tǒng)需深度融入藥品全生命周期監(jiān)管場(chǎng)景,達(dá)成審評(píng)材料的自動(dòng)化處理與決策支持,具體包含:形式審查自動(dòng)化,依靠大語(yǔ)言模型對(duì)電子申報(bào)材料進(jìn)行合規(guī)性審查,自動(dòng)甄別文件缺失、數(shù)據(jù)邏輯矛盾等問題,進(jìn)而生成《不予受理通知書》或《補(bǔ)正通知書》草稿;關(guān)鍵信息提取,運(yùn)用結(jié)構(gòu)化處理技術(shù),從藥品注冊(cè)資料中精準(zhǔn)提煉成分、用途、檢驗(yàn)結(jié)果等核心數(shù)據(jù),助力審評(píng)人員快速定位風(fēng)險(xiǎn)點(diǎn);歷史數(shù)據(jù)比對(duì),利用AI文本比對(duì)功能,分析企業(yè)補(bǔ)充材料與原申報(bào)內(nèi)容的差異,提示審評(píng)重點(diǎn),有效減少重復(fù)性勞動(dòng)。
三是多維度數(shù)據(jù)融合與風(fēng)險(xiǎn)預(yù)警需求。通過整合藥品研發(fā)、臨床、注冊(cè)、生產(chǎn)、經(jīng)營(yíng)全流程的數(shù)據(jù),匯聚品種檔案、企業(yè)信用檔案、上市后監(jiān)管、投訴舉報(bào)、不良反應(yīng)報(bào)告等結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)全鏈條風(fēng)險(xiǎn)預(yù)警與精準(zhǔn)監(jiān)管。
(二)系統(tǒng)設(shè)計(jì)
根據(jù)藥品監(jiān)管的業(yè)務(wù)需求,提出了基于本地化知識(shí)增強(qiáng)的藥品監(jiān)管問答系統(tǒng)架構(gòu),如圖1所示,系統(tǒng)采用模塊化設(shè)計(jì),主要由知識(shí)庫(kù)構(gòu)建子系統(tǒng)與智能問答子系統(tǒng)兩大部分組成,通過分層處理機(jī)制實(shí)現(xiàn)法規(guī)數(shù)據(jù)的智能解析與精準(zhǔn)服務(wù)輸出。
圖2技術(shù)架構(gòu)

知識(shí)庫(kù)構(gòu)建子系統(tǒng)首先對(duì)接多源異構(gòu)監(jiān)管數(shù)據(jù),包括國(guó)家藥品監(jiān)督管理局(NMPA)發(fā)布的法規(guī)文件(《藥品注冊(cè)管理辦法》《藥品生產(chǎn)監(jiān)督管理辦法》等)、企業(yè)提交的藥品生產(chǎn)工藝文檔以及結(jié)構(gòu)化數(shù)據(jù)庫(kù)中的不良反應(yīng)監(jiān)測(cè)報(bào)告。針對(duì)藥品監(jiān)管文本的特性,切分前可采用OCR技術(shù)解析PDF文件,并通過基于規(guī)則的正則表達(dá)式抽取法規(guī)條款的元數(shù)據(jù)(如頒布日期、效力狀態(tài)、適用對(duì)象等),也可采用語(yǔ)義分塊算法將文檔按最小監(jiān)管單元切割,以確保知識(shí)片段的獨(dú)立性與可檢索性。最后對(duì)塊進(jìn)行向量化,并存到向量數(shù)據(jù)庫(kù)中。
智能問答子系統(tǒng)能夠部署本地化大語(yǔ)言模型作為生成引擎,以此構(gòu)建端到端的閉環(huán)服務(wù)流程。當(dāng)用戶提交自然語(yǔ)言形式的查詢時(shí),系統(tǒng)首先會(huì)對(duì)用戶輸入的文本進(jìn)行向量化處理。隨后,系統(tǒng)會(huì)利用向量化后的結(jié)果對(duì)向量數(shù)據(jù)庫(kù)發(fā)起查詢,從而獲取與提問信息相關(guān)的上下文內(nèi)容。之后,系統(tǒng)會(huì)將所獲取的上下文與用戶的提問進(jìn)行合并,將合并后的結(jié)果作為輸入傳遞給本地化大語(yǔ)言模型。最終,大語(yǔ)言模型會(huì)基于此輸入生成相應(yīng)的答案并返給用戶。
(三)原型實(shí)現(xiàn)
AnythingLLM作為一款高效、可定制的開源知識(shí)管理與問答系統(tǒng),它能將各類文檔、資源或內(nèi)容片段轉(zhuǎn)化為大語(yǔ)言模型聊天時(shí)可用的相關(guān)上下文,為用戶提供準(zhǔn)確全面的回答。Ollama是開源的大型語(yǔ)言模型服務(wù)工具,支持用戶在自身硬件環(huán)境中便捷地部署和使用大規(guī)模預(yù)訓(xùn)練模型,主要通過在Docker容器內(nèi)對(duì)大型語(yǔ)言模型進(jìn)行部署與管理,助力用戶快速在本地運(yùn)行模型。DeepSeek作為國(guó)內(nèi)首個(gè)全面對(duì)標(biāo)GPT-4技術(shù)架構(gòu)的AI大模型,其系列覆蓋從7B到超千億參數(shù)的完整模型矩陣,在數(shù)學(xué)推理、代碼生成、多輪對(duì)話等核心能力上達(dá)國(guó)際領(lǐng)先水平,已衍生出DeepSeek-R1、DeepSeek-V2、DeepSeek-V3 等多個(gè)版本,廣泛應(yīng)用于智能客服、教育輔助、金融分析等垂直領(lǐng)域。
本系統(tǒng)原型由知識(shí)庫(kù)構(gòu)建子系統(tǒng)和智能問答子系統(tǒng)構(gòu)成,其核心借助AnythingLLM技術(shù)棧,實(shí)現(xiàn)知識(shí)增強(qiáng)生成的全流程。同時(shí),充分利用Ollama、DeepSeek等開源項(xiàng)目資源,采用Python語(yǔ)言進(jìn)行定制化開發(fā),技術(shù)架構(gòu)如圖2所示。
知識(shí)庫(kù)構(gòu)建子系統(tǒng)選用Lancedb向量庫(kù)。智能問答子系統(tǒng)的核心處理單元運(yùn)用Ollama框架,實(shí)現(xiàn)模型推理全生命周期管理。借助Ollama提供的接口,系統(tǒng)能夠動(dòng)態(tài)加載DeepSeek大語(yǔ)言模型。當(dāng)用戶提交自然語(yǔ)言查詢時(shí),系統(tǒng)會(huì)先對(duì)查詢文本進(jìn)行量化處理,隨后在Lancedb向量庫(kù)中執(zhí)行查詢操作。查詢結(jié)果將被輸入DeepSeek模型進(jìn)行領(lǐng)域適配性生成,最終輸出結(jié)果會(huì)通過AnythingLLM服務(wù)返回至用戶。
藥品監(jiān)管智能問答系統(tǒng)借助DeepSeek大模型提供的基礎(chǔ)生成能力,得以處理復(fù)雜的語(yǔ)言任務(wù)。系統(tǒng)通過知識(shí)增強(qiáng)技術(shù),不斷更新和完善知識(shí)儲(chǔ)備,確保所提供信息的準(zhǔn)確性與及時(shí)性。此外,系統(tǒng)還可通過精心設(shè)計(jì)的提示詞,進(jìn)一步提升對(duì)特定藥品監(jiān)管任務(wù)的適配性,從而更高效精準(zhǔn)地服務(wù)于藥品監(jiān)管工作。
表1案例對(duì)比

為檢驗(yàn)系統(tǒng)原型的有效性,本文針對(duì)知識(shí)增強(qiáng)前后開展了案例對(duì)比測(cè)試,結(jié)果見表1。經(jīng)知識(shí)增強(qiáng)后的系統(tǒng)能夠更專業(yè)地回應(yīng)相關(guān)問題,顯著提升了回答的專業(yè)精準(zhǔn)度,有力地驗(yàn)證了系統(tǒng)原型在知識(shí)增強(qiáng)策略下的積極效用。
五、結(jié)語(yǔ)
本文深入剖析了藥品監(jiān)管領(lǐng)域所面臨的痛點(diǎn)以及現(xiàn)有方案存在的局限性,進(jìn)而提出了一種基于RAG和AI大模型的知識(shí)增強(qiáng)型智能問答系統(tǒng)。通過實(shí)踐驗(yàn)證了基于Ollama、DeepSeek和AnythingLLM等開源項(xiàng)目開發(fā)智能問答系統(tǒng)的可行性。該系統(tǒng)能夠切實(shí)有效地滿足藥品監(jiān)管領(lǐng)域?qū)τ诟呔取⒏甙踩詥柎鸬男枨螅瑸閷?shí)現(xiàn)智能化合規(guī)提供了切實(shí)可行的落地路徑。展望未來研究方向,本地部署雖可滿足藥品監(jiān)管數(shù)據(jù)的合規(guī)要求,但會(huì)導(dǎo)致硬件成本上升,因此需要在隱私保護(hù)與效率之間進(jìn)行權(quán)衡。此外,后續(xù)還將進(jìn)一步構(gòu)建藥品監(jiān)管知識(shí)圖譜,以增強(qiáng)系統(tǒng)的推理能力,推動(dòng)該領(lǐng)域的持續(xù)發(fā)展與完善。
參考文獻(xiàn)
[1]Bordes A.Usunier N,Garcia-Duran A,et al.Translating Embeddings for Modeling Multi-relational Data[J].Curran Associates Inc,2013(26):2787-2795.
[2]Lewis P,Perez E,Piktus A,etal.Retrieval-Augmented
Generation for Knowledge-Intensive NLP Tasks[J].2020 (33):9459-9474.
[3]DeepSeek Team.(2025).DeepSeek-R1:Enhancingreasoning capabilitiesof largelanguagemodelsviareinforcementlearning[EB/ OL].(2025-01-22)[2025-01-30].https://arxiv.0rg/abs/2501.12948.
[4]Gray M,Xu J,Tong W,et al.Classifying free texts into predefined sections using AI in regulatory documents: acase study with drug labeling documents[J].Chem Res Toxicol,2023,36(08):1290-1299.
[5]WuL,GrayYM,Dang O.et al.RxBERT:enhancing drug labeling textmining and analysiswith AI language modeling[J].Exp Biol Med,2023,248(21):1937-1943.
[6]FDA.Considerations forthe Use of Artificial IntelligenceTo Support Regulatory Decision-Making for Drugand Biological Products [EB/0L].(2025-01-06)[2025-01-20].https://www.fda.gov/regulatoryinformation/search-fda-guidance-documents/considerations-useartificial-intelligence-support-regulatory-decision-making-drugand-biological.
[7]國(guó)家藥品監(jiān)督管理局.國(guó)家藥品監(jiān)督管理局關(guān)于加快推進(jìn)藥品智慧監(jiān)管的行動(dòng)計(jì)劃[EB/0L].(2019-05-24)[2025-01-20].https:/www.nmpa.gov.cn/xxgk/fgwj/gzwj/gzwjzh/20190524175201644.html.
基金項(xiàng)目:江蘇省藥品監(jiān)督管理局2023年度藥品監(jiān)管科學(xué)科研計(jì)劃“藥品監(jiān)管領(lǐng)域數(shù)據(jù)治理體系研究”項(xiàng)目(項(xiàng)目編號(hào):202311)
作者單位:江蘇省藥品監(jiān)督管理局信息中心
責(zé)任編輯:張津平 尚丹