999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中醫疫病古籍文本自動分詞的藥物規律挖掘研究

2025-02-16 00:00:00劉嘉宇李賀于琳時倩如侯力鐵
現代情報 2025年2期

摘 要: [目的/ 意義] 數字人文背景下的中醫疫病古籍文本自動分詞和基于分詞結果的藥物規律挖掘, 是促進古籍知識活化與支持臨床診療的重要途徑。[方法/ 過程] 本文提出了一種基于中醫疫病古籍文本自動分詞的藥物規律挖掘框架, 該框架包含了數據獲取層、序列標注層、自動分詞層和應用服務層, 通過4 層協作聯動最終實現了疫病古籍文本的自動分詞和藥物規律挖掘應用。[結果/ 結論] 實證結果表明, 框架包含的基于BiLSTMCRF的中醫疫病古籍文本自動分詞效果綜合性能達92%。在分詞結果基礎上統計方劑中各類劑型、常用中藥和常用藥對等藥物規律挖掘結果, 為未來疫情防控指導、診療決策輔助提供了支持。

關鍵詞: 數字人文; 文本分詞; BiLSTM-CRF; 中醫疫病; 知識挖掘

DOI:10.3969 / j.issn.1008-0821.2025.02.002

〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 02-0017-09

疫病是人類社會長期以來面臨的重大威脅之一。作為傳統醫學的重要組成部分, 中醫積累了豐富的疫病防治經驗, 其遺留的古籍記載了大量有關疫病的描述和治療方法, 對于研究疫病的起源、傳播規律以及藥物治療等具有重要價值[1] 。數字人文背景下, 利用現代科技手段實現傳統醫學知識的數字化表達與活化再現, 可提高對中醫疫病古籍內容的理解和分析能力, 發掘其中隱含的藥物規律, 明晰中醫藥在疫病防治中的特點和優勢, 為現代疫病防治提供參考借鑒。作為自然語言處理的基礎任務之一,文本分詞是挖掘中醫疫病古籍中蘊含的疫病治療經驗的前提[2] 。

但現有針對中醫疫病古籍文本自動分詞及藥物規律挖掘的研究存在以下問題: 第一, 缺乏專門結合人工標注而構建的大規模中醫疫病古籍文本語料庫。第二, 可用于中醫疫病古籍文本自動分詞的機器學習或深度學習模型的分詞訓練精度有待提升。第三, 現有的中醫疫病古籍文本自動分詞結果對基于古籍文本的藥物規律挖掘應用支持有限[3] 。上述問題阻礙了中醫疫病古籍的創造性轉化和創新性發展。為解決這些問題, 需要建立大規模的中醫疫病古籍文本語料庫, 并結合人工標注進行深度學習模型訓練, 提高分詞和挖掘的精準度。同時, 也需要加強對中醫疫病古籍文本的語義理解和知識推理能力, 以提高中醫疫病古籍文本的藥物規律挖掘效果。

綜上, 本文提出了基于中醫疫病古籍文本自動分詞的藥物規律挖掘研究, 旨在借鑒古籍領域的分詞規范標準, 通過對中醫疫病古籍文本的序列標注,構建適用于中醫疫病領域的古籍文本分詞和藥物規律挖掘語料庫, 并利用基于深度學習中的BiLSTMCRF實現疫病古籍文本的自動分詞和分詞基礎上的藥物規律挖掘, 發揮古籍助力中醫邁向數字化循證的作用, 輔助中醫疫病學家和從業者通過抽取、發現和分析以詞為單位的疫病知識, 為當代及未來疫情防控提供決策支持。

1 相關工作

本文核心工作為中醫疫病古籍文本自動分詞和基于分詞結果的疫病藥物規律挖掘, 是數字人文視角下的古籍文本自動分詞技術在中醫疫病領域的具體實踐。此外, 現有的中醫古籍文本分詞主要用于構建能夠高效準確地抽取中醫文獻潛在臨床經驗和用藥規律的計算機算法模型。因此, 本文文獻綜述主要圍繞古籍文本的自動分詞及基于中醫文獻的藥物規律挖掘研究展開。

1.1 古籍文本自動分詞相關研究

古籍文本自動分詞是將古文獻中有實義的文字片段進行切分, 將連續文字序列分割成有意義詞語的過程[4] 。既往對古籍文本自動分詞的方法技術包含基于規則、基于統計、基于字典和基于深度學習的方法。例如, 張素華等[5] 提出一種根據字符連通度實現中醫古籍無監督分詞的規則式自動分詞技術。Fu X J 等[6] 基于HMM 的統計式詞性標注方法, 構建了中醫專用詞性標注方法, 并以Ansj 為核心的分詞算法開發了一個中文古籍分詞系統。李筱瑜[7] 在基于《漢書》識別未登錄詞基礎上, 結合古代漢語詞匯表、古代人名詞表和古代地名表構建了古籍文本分詞詞典, 對《漢書》實現了分詞處理。在基于深度學習的古籍文本自動分詞方面, 鐘昕妤等[8] 面對針灸古籍中的大量通假字、歧義詞和專業術語等限制分詞性能問題, 提出了基于CmabBERT-BiLSTMCRF的針灸古籍分詞技術并取得了良好的性能成果。

1. 2 基于中醫文獻的藥物規律挖掘相關研究

基于中醫文獻的藥物規律挖掘是通過對中醫文獻中藥物的相關信息進行分析和整理, 尋找藥物規律和特點的環節。用藥規律分析、藥方挖掘與整理、組方配伍規律分析等是目前基于中醫文獻的藥物規律挖掘的幾個聚焦方向。例如, 姜威等[9] 通過收集中醫藥知識服務平臺中治療便秘的中成藥, 在頻次統計的基礎上挖掘了中成藥治療便秘的用藥規律。馬洪微[10] 借助文獻檢索、逐本閱讀梳理的方法, 從方劑劑型、藥物性味歸經、配伍等方面研究了民國時期中醫醫籍痹證內服方藥。李妮等[11] 運用中醫傳承輔助系統提供的中藥藥類分析、藥物頻次分析、關聯規則分析和復雜系統聚類分析等功能, 分析了白志軍教授治療腎病蛋白尿的組方用藥規律。總之,基于中醫文獻的藥物規律挖掘通過研究中醫文獻中包含的中藥性味、歸經及中藥間相互配伍關系, 為促進中醫走向循證治療發揮了積極作用。

中醫疫病古籍文本既具有一般漢語古籍的表達結構及語言特點, 又擁有大量的醫學專業術語。由于古籍文本的語言風格與現代漢語有所不同, 因此需要特殊的方法和工具進行分詞, 結合人工標注和深度學習中BiLSTM-CRF 的古籍文本自動分詞在既往研究中表現出了卓越的性能。此外, 融合中醫疫病古籍文獻和現代數據挖掘技術以研究古代醫家治療疫病時的方藥應用規律, 可以幫助深入理解前人在防疫抗疫時的用藥經驗, 并為未來疫情防控提供有益的指導。綜上, 本文提出了基于深度學習的中醫疫病古籍文本自動分詞模型, 并實現了基于分詞結果的藥物規律挖掘研究。

2 基于中醫疫病古籍文本自動分詞的藥物規律挖掘框架

本文提出的基于中醫疫病古籍文本自動分詞的藥物規律挖掘框架主要功能在于實現中醫疫病古籍文本自動分詞以及基于分詞結果的藥物規律挖掘(方劑中各類劑型、常用中藥和常用藥對統計)兩大任務。二者之間存在緊密的依賴關系: 第一, 自動分詞作為一項基礎技術, 主要用于將連續的文本數據拆分成有獨立意義的詞匯, 該步驟是理解和分析古籍文本內容的前置條件, 也是后續進行深入藥物規律挖掘的基礎。第二, 通過自動分詞技術可以有效地識別和提取方劑中的相關信息, 如各類劑型、使用的中藥材名稱等, 上述信息為后續的方劑中各類劑型、常用中藥和常用藥對統計提供了原始材料。研究人員可以對分詞后的中藥材名稱進行頻率統計,分析哪些藥材在疫病治療中被頻繁使用, 或者哪些藥對是常見的組合, 以及它們在不同劑型中的分布情況等。總之, 分詞提供了準確的數據基礎, 而深入分析這些數據則進一步揭示了中醫藥物使用的內在規律和治療原則, 二者相輔相成, 共同推動著中醫學的傳承和發展。

基于中醫疫病古籍文本自動分詞的藥物規律挖掘框架主要包括數據獲取層、序列標注層、自動分詞層和應用服務層。通過上述4 層協作, 可以將海量的中醫疫病古籍文本數據轉化為離散的詞語或短語等結構化且機器可處理的數據形式, 以便后續實現以詞或短語為單位的常用方劑中的各類劑型統計、常用中藥統計和常用藥對統計分析等, 進而在這些藥物規律挖掘工作基礎上實現中醫疫病領域古籍文本的用藥規律和臨床經驗抽取。具體內容如圖1 所示。

2. 1 數據獲取層

數據獲取層目標是構建中醫疫病古籍文本分詞語料庫, 以保證語料庫擁有大量疫病領域的古籍文本數據, 為后續中醫疫病古籍文本自動分詞和藥物規律研究提供可靠的底層數據支持。該層主要工作包含以下兩個方面: ①數據采集: 通過各種渠道,如圖書館借閱、數字圖書館或古籍數據庫線上閱覽、中醫古籍數字化項目咨詢、中醫領域學者專家撰寫學術論文和專著等的釋讀, 收集包括經典著作、醫案、方劑等大量中醫疫病古籍相關文本數據。②數據清洗和預處理: 對收集到的疫病古籍文本數據使用正則表達式、文本處理庫等工具進行清洗。針對以文檔網頁為主的非/ 半結構化中醫疫病古籍文本數據, 主要通過噪聲數據去除、格式轉換、非中文字符刪除等工作實現預處理[12] ; 針對結構化中醫疫病古籍文本數據則是以數據解析、文件導入與讀取以及結構化存儲為主, 最終確保疫病古籍文本語料庫的完整性和一致性。

2. 2 序列標注層

序列標注層的主要作用在于中醫疫病古籍分詞規范標準構建和中醫疫病古籍文本序列標注實施,目標是形成一套統一且完整的中醫疫病古籍文本分詞規則和標注規則, 以指導疫病古籍文本的人工標注, 為基于深度學習的自動分詞提供高質量的訓練和測試語料數據。

2. 2. 1 中醫疫病古籍分詞規范標準構建

先前關于中醫疫病文本的標注數據集較少, 無法實現本文的研究目標。因此, 基于付璐等[13] 提出的中醫古籍分詞規則并結合中醫疫病領域古籍特色,本文構建了中醫疫病領域古籍分詞規則。該規則同樣包含了詞性語法規則和語義類型原則兩個部分。其中, 詞性語法規則主要是根據古代漢語的詞性特點進行分詞細則的擬定, 以提高中醫疫病古籍文本分詞準確性和語法正確性。在該原則指導下, 需要綜合考慮文本中涉及的名詞、動詞、形容詞、副詞、數詞和虛詞等均在何種情況下需要切分, 何種情境下不需要切分。中醫疫病領域有著獨特的專業術語和語言表達方式, 因此, 語義類型原則主要是在分詞時對這些特點進行考慮。本文考慮了與疫病相關的生理、癥狀、證候、病理因素、病理產物、功效、治法、經絡腧穴、四診、中藥、方劑、性味、毒性、炮制、禁忌、煎服法和涉及的專有詞等相關術語內容。

2. 2. 2 基于BMES 的中醫疫病古籍文本序列標注

數據標注是實現基于深度學習自動文本分詞的基礎工作。BMES 是一種用于中文命名實體識別的序列標注方法, 該方法將每個字標注為4 個標簽,即B、M、E 和S[14] 。本文在基于深度學習的中醫疫病古籍文本自動分詞訓練語料標注過程中, 采用BMES 四位序列標注法。具體操作過程如下: 首先,將每個語句劃分為不同的片段, 然后根據詞語的位置和關系使用BMES 標記法對每個片段進行標注,最后將人工標注的語料結果提供給領域專家檢查,以確保人工標注語料的有效性和準確性。

2. 3 自動分詞層

自動分詞層主要采用深度學習模型BiLSTMCRF實現中醫疫病古籍文本自動分詞。作為一種適用于中文文本分詞的模型, BiLSTM-CRF 由輸入層、BiLSTM 層和CRF 層組成。基于該模型的中醫疫病古籍文本自動分詞的原理流程如下:

2. 3. 1 輸入層

鑒于神經網絡只能處理數值型數據, 而中醫疫病古籍文本是以文字形式存在的。因此, 輸入層的作用是將文本數據轉化為神經網絡可以處理的數值表示, 以便后續的神經網絡模型進行處理。此外,輸入層通過將每個字或詞轉化為向量表示后, 還可以捕捉到字或詞表達的語義信息。因此, 在后續的BiLSTM 和CRF 層就可以利用這些語義信息更好地進行分詞任務。

2. 3. 2 BiLSTM 層

BiLSTM 層是雙向長短期記憶網絡(Bidirection?al Long Short-Term Memory)的縮寫, 它的作用是對輸入的疫病古籍文本進行序列建模, 從而捕捉上下文信息。相較LSTM, BiLSTM 擺脫了只能依據先前時刻的時序信息來預測下一時刻輸出的限制, 能更好地結合上下文進行輸出。具體而言, BiLSTM 層通過堆疊前向和后向兩個LSTM 網絡, 分別對輸入疫病文本序列進行正向和反向處理, 然后將兩個方向的隱藏狀態進行拼接得到更全面的上下文表示, 可以更好地捕捉疫病古籍文本序列中的長程依賴關系[15] 。

2. 3. 3 CRF 層

CRF 層代表了條件隨機場(Conditional RandomField), 其作用是對分詞結果進行建模, 通過考慮標簽之間的相互依賴關系, 來完成分詞的預測[16] 。該層可以對BiLSTM 層的輸出進行標注, 將標注結果作為模型的輸出。在訓練過程中, CRF 層會根據訓練數據的標簽序列來學習標注過程中定義的約束條件(如BMES 的標簽序列), 通過最大化訓練數據的對數似然函數來優化轉移矩陣。因此, CRF 層可以通過學習這些約束條件來提高模型的性能, 并且在預測時可以保證輸出的標簽序列滿足這些約束條件。

2. 4 應用服務層

應用服務層建立在疫病古籍文本自動分詞基礎上, 旨在實現疫病古籍文本的詞匯級應用, 聚焦藥物規律挖掘的決策輔助和知識抽取方向。借鑒目前幾款受歡迎的中醫知識挖掘數據平臺的應用功能,在了解現有診療實踐中業務需求的基礎上, 本文的藥物規律挖掘主要包含疫病古籍文本中記載相關方劑中的各類劑型、常用中藥和常用藥對的統計分析等內容。通過統計分析古籍中的方劑劑型、常用中藥和常用藥對的使用情況, 可以了解古代醫家在治療疫病時的用藥經驗和偏好, 這些經驗可以為現代臨床實踐提供參考, 指導醫生在治療疫病時選擇合適的劑型和藥物組合。此外, 通過統計分析方劑中常用中藥和常用藥對的使用頻率與組合情況, 可以揭示中醫藥的藥物組合的規律和特點。依據這些規律, 有助于深入理解中藥的藥理作用和相互作用機制, 為中藥復方的合理設計和優化提供依據。同時, 這些應用還有助于整理、歸納和總結中醫藥經典著作中關于疫病治療的藥物組合和用法, 促進中醫藥知識的傳承和發展。

3 實證研究

為驗證上文提出的基于中醫疫病古籍文本自動分詞的藥物規律挖掘框架的合理性和實用性, 本文通過收集疫病古籍文本語料數據, 在中醫疫病古籍分詞規范標準構建和文本序列標注的基礎上, 計算了基于BiLSTM-CRF 的中醫疫病古籍文本自動分詞結果, 并實現了中醫疫病古籍文本自動分詞基礎上的藥物規律挖掘。

3. 1 數據來源及預處理

清代吳瑭所著的疫病古籍《溫病條辨》在醫學界影響廣泛, 是中醫疫病學的重要著作。該書系統地總結了中醫疫病學中溫病的理論和實踐經驗, 對于后世醫學家的學習和研究具有重要的參考價值[17] 。同時, 吳瑭在《溫病條辨》中也提出了一些獨特的觀點和治療方法, 對疫病學發展和臨床實踐起到了積極推動作用。綜上, 本文以《溫病條辨》作為分詞實驗原始數據。在數據預處理環節, 將原文轉換為以句子為單位的語料格式后, 形成了中醫疫病古籍文本自動分詞小型語料庫, 語料庫的規模和相關信息如表1 所示。

3. 2 中醫疫病古籍分詞規范標準構建和文本序列標注

3."2. 1 中醫疫病古籍分詞規范標準構建結果

經過兩位領域專家對分詞規范標準修改調整,例如“脾胃” 在某些語境下是一個整體詞, 在某些語境下則需切分成人體的兩個不同部位, 在分詞規范標準中需要考慮具體情境等, 本文最終構建了中醫疫病古籍分詞規范標準。

表2 以“癥狀類” 語詞為例, 解釋中醫疫病古籍分詞規范標準中的分詞規則。如表2 所示, 當一個名詞短語完整地描述一個人體疾病的癥狀時, 此短語可不作切分。例如, “耳聾” “腰痛” “身熱”“咳喘” 等病癥可作為一個整體來處理。同樣, 對于“名詞+名詞+形容詞” (如“心腹痛”“邪熱結”)和“名詞+形容詞+形容詞” (如“心煩懊” “腹滿泄”)結構也可以不做切分, 以保持癥狀描述的完整性。不同的是, 對于含有復合癥狀的“名詞+形容詞+名詞+形容詞” 結構應進行分詞, 以表明各個癥狀的獨立性。例如, “神迷肢厥” 可以切分為“神迷/ 肢厥”, “頭痛面赤” 可以切分為“頭痛/ 面赤”, 這樣的分詞方式有助于更清楚地表示各個癥狀的獨特性, 并有助于診斷的精確性。

基于上述規則, 本文對語料庫進行分詞標注,分詞標注結果由領域專家檢查后, 修改了部分未結合語義或術語識別不清的切分錯誤。例如, 將“風溫/ 咳嗽” 修改為“風溫咳嗽”。最終得到包含64 666個語詞的標注數據, 總字數95 125字, 最大詞長為6。標注樣例如下:

神昏/ 譫語/ 者/ ,/ 清宮湯/ 主/ 之/ ,/ 牛黃丸/ 、/紫雪丹/ 、/ 局方至寶丹/ 亦/ 主/ 之/ 。/

溫病/ 忌汗/ 者/ ,/ 病/ 由/ 口鼻/ 而/ 入/ ,/ 邪/ 不在/ 足太陽/ 之/ 表/ ,/ 故/ 不得/ 傷/ 太陽經/ 也/ 。/

3. 2. 2 基于BMES 的文本序列標注結果

為訓練模型實現自動化分詞, 本文采用BMES序列標注方法對語料實現了序列標注。作為一種四位序列標注法, 采用BMES 序列標注獲得的標簽示例如表3 所示。鑒于本文基于BMES 文本序列標注由兩位標注者人工進行, 本文借鑒Kappa 系數這一統計指標, 以衡量標注者之間在序列標注任務中的一致性水平。當Kappa 值大于或等于0."80 時, 則通常被認為是幾乎完全一致, 標注結果質量被認為非常好。經計算, 本文標注人員基于BMES 的文本序列標注結果的Kappa 值為0. 83, 說明不同標注者之間一致性較強, 標注結果質量良好。

3. 3 基于BiLSTM-CRF 的中醫疫病古籍文本自動

3. 3. 1 實驗過程

將經過序列標注的語料數據作為深度學習模型的輸入, 并基于評價指標判斷基于BiLSTM-CRF模型的中醫疫病領域古籍文本自動分詞效果。深度學習模型在Pytorch 1 6 0 環境下運行。此外, 實驗中將中醫疫病古籍文本數據集按7 ∶3 的比例設為訓練集和測試集, 表4 報告了實驗過程中深度學習模型BiLSTM-CRF 的最優參數。

3. 3. 2 實驗測評

為驗證基于BiLSTM-CRF 的中醫疫病古籍文本自動分詞的有效性, 本文在選擇評價指標與基線模型對比的基礎上, 測評了深度學習模型應用于疫病古籍文本自動分詞任務的效果。

1) 評價指標

采用精確率(Precision, P)、召回率(Recall,R)、調和平均值(F-measure, F)作為基于深度學習模型的中醫古籍疫病文本自動分詞效果的評價指標。其中, P 和R 分別體現了分詞模型的準確性和全面性, F 則是調和了前兩個評價指標的綜合性指標。

2) 基線模型

本文設定CRF、CNN 和BERT 為基線模型, 以判別本文提出的中醫疫病古籍文本分詞效果。其中,BERT(Bidirectional Encoder Representations from Trans?formers)是Google 于2018 年發布的一種預訓練的自然語言處理模型, 其優點在于它能夠學習到上下文相關的詞向量表示, 即同一個詞在不同上下文中可能有不同的語義[18] 。這種上下文敏感的表示在文本分類、命名實體識別、語義角色標注等自然語言處理任務中均表現出卓越性能。例如, 劉暢等[19] 利用SikuBERT 和BERT 等預訓練模型, 對記載春秋至魏晉歷史最具有代表性的6 部官修史籍實現了文本分詞, 結果表明, BERT 在基于原始的語料中分詞性能最佳。此外, BiLSTM-CRF 結合了LSTM 對長距離依賴關系的建模能力與CRF 對序列標注的精確建模能力, 而CNN 能夠從序列數據中捕捉到局部重要信息, 如古籍中特有的詞匯結構和短語模式, 在處理非連續文本特征上具有顯著優勢。因此,本文將CRF、CNN 和BERT 等模型視為基線以判斷本文使用模型的優越性。實驗環節, 各基線模型實驗參數設置如表5 所示。

3. 3. 3 分詞結果與評價

基于BiLSTM-CRF 模型的中醫疫病古籍文本分詞結果如表6 所示。由表6 可知, BiLSTM-CRF模型在P、R 和F 上的指標均大于基線, 其分詞效果優于BERT、CRF 和CNN 模型。這表明基于深度學習模型中的BiLSTM-CRF 可以基本實現中醫疫病古籍文本的自動分詞, 這對輔助中醫疫病學家等從業者實現疫病領域古籍文本的自然語言處理提供了良好的方法工具。

3. 4 基于中醫疫病古籍文本自動分詞的藥物規律挖掘

中醫領域的藥物規律挖掘主要從聚類分析、詞頻統計、關聯規則分析和組方配伍規律分析幾個方面實現[20] 。現有的古今醫案云平臺、中醫傳承輔助平臺等是中醫藥領域常用的數據挖掘工具, 上述功能均包含在內[21] 。因此, 本文基于中醫疫病古籍文本自動分詞的藥物規律挖掘主要統計了語料庫所含方劑中的各類劑型、部分常用中藥和部分常用藥對。其中, 中醫疫病古籍自定義詞典構建和基于自定義詞典的方劑與中藥類詞語自動抽取是實現中醫疫病古籍文本藥物規律挖掘的前提。

3. 4. 1 中醫疫病古籍自定義詞典構建

上述自動分詞實驗表明, BiLSTM-CRF 模型在處理中醫疫病古籍時效果更優。在此基礎上, 本文利用該模型相繼完成了《溫熱經緯》《溫疫論》兩本中醫經典疫病古籍文本的自動分詞, 并將分詞結果與《溫病條辨》融合形成了新的中醫疫病古籍文本語料庫。人工刪除語料庫中的停用詞后, 參考《中國中醫藥學主題詞表》《中醫大辭典》和《中藥大辭典》等, 本文選擇方劑、中藥兩個大類構建了中醫疫病古籍領域的“方劑類” 和“中藥類” 自定義詞典, 為后文基于自定義詞典抽取與方劑和中藥類下的名詞術語實現藥物規律挖掘提供參考。本文構建的中醫疫病古籍中“方劑類” 和“中藥類” 自定義詞典如圖2、圖3 所示。其中, “方劑類” 詞典提供了512 種成熟的中醫治療配方的相關詞匯, 而“中藥類” 詞典提供了1 678味中藥材名稱。

3. 4. 2 基于自定義詞典的方劑與中藥類詞語自動抽取

中醫疫病古籍文本中描述了大量方劑配制方法和中藥使用情況, 對其自動抽取可以分析藥物的用藥規律和組方配伍規律。基于上文構建的自定義詞典, 本文通過詞典匹配的方式實現了基于自定義詞典的方劑與中藥類詞語自動抽取。抽取的過程如下:首先, 將疫病文本語料庫在自動分詞后轉換為列表格式; 其次, 采用詞典匹配的方式將列表中的詞語與自定義詞典匹配, 并篩選出匹配到的結果; 第三,將抽取出的中藥和方劑相關詞匯轉存為新的列表,并將每個詞語定義為一條完整的方劑內容, 該內容包含方劑名稱與所含的中藥名稱; 最后, 共抽取出128 個方劑詞匯(不包含未描寫具體內容的方劑)和337 個中藥詞匯, 并以此作為后文的藥物規律挖掘基礎。

3. 4. 3 藥物規律挖掘結果

為體現本文研究對中醫藥診療和研究的輔助決策支持, 本文分別統計了方劑中各類劑型、方劑中部分常用中藥、方劑中部分常用藥對, 具體的藥物規律挖掘結果如下:

1) 方劑中各類劑型統計

如表7 所示, 在《溫病條辨》《溫熱經緯》和《溫疫論》三本經典的中醫疫病古籍構建的疫病古籍文本語料庫包含的128 個方劑中, 占比最多的是湯劑, 其次是散劑和丹劑。統計結果顯示, 古代醫家在治療疫病時更常使用湯劑這種劑型。湯劑是指將藥物煎煮后的藥液, 常用于治療內科疾病; 散劑是將藥物研磨成粉末后使用, 常用于治療外科疾病,具有消腫、止痛、止血等作用; 丹劑是將藥物研磨成細粉后加入其他藥物制成丸劑, 常用于治療虛勞、氣血不足等疾病, 具有補益、固澀、安神等作用[22] 。這些方劑類型的占比情況可以為研究中醫疫病治療提供一些參考, 同時也反映了古代醫家在治療疫病時的用藥特點和經驗。

2) 方劑中部分常用中藥統計

如表8 所示, 疫病古籍文本語料庫中的337 味中藥在128 個方劑中出現的總頻數為869 次, 使用頻次最多的是甘草, 其次是黃芩、人參等中藥, 說明這些中藥在古代醫家治療疫病時被廣泛應用, 并且具有一定的療效。

3) 方劑中部分常用藥對統計

統計方劑中常用藥對組方配伍規律挖掘、藥物相互作用和方劑優化具有一定的指導意義。如表9所示, 甘草—黃芩是疫病方劑中常搭配出現的藥對,其次是柴胡—黃芩和白芍—黃芩。這些藥對的搭配常用于疫病方劑中, 能夠協同作用, 增強療效, 對于治療疫病具有一定的作用, 這為日后治療疫病用藥選方提供了參考。

4 結 論

在疫病文本語料庫構建的基礎上, 構建文本序列標注和分詞規范標準, 實現中醫疫病古籍文本的自動分詞和分詞基礎上的藥物規律挖掘研究, 對促進中醫疫病古籍活化、挖掘中醫藥治病經驗和用藥規律、提升中醫藥臨床應用水平和促進中醫藥高質量發展具有積極的意義。鑒于此, 本文提出并構建了一個包含數據獲取層、序列標注層、自動分詞層和應用服務層的基于中醫疫病古籍文本自動分詞的藥物規律挖掘框架, 實現了疫病領域古籍文本的自動分詞和分詞基礎上的藥物規律挖掘。具體來說,本文主要貢獻如下:

1) 構建了適用于中醫疫病領域的古籍文本自動分詞小型語料庫。在獲取經過句讀和電子化的《溫病條辨》《溫熱經緯》和《溫疫論》基礎上, 構建了中醫疫病領域的古籍文本分詞和藥物規律挖掘語料庫, 該語料庫進一步豐富了數字人文領域的語料庫資源, 為促進多領域、大規模的古籍智能化工作提供了底層數據資源。

2) 提出了基于深度學習的中醫疫病古籍文本自動分詞模型。基于深度學習的分詞技術是目前準確率最高的分詞方法, 為滿足中醫疫病領域文本實現詞匯級分析需求, 本文提出了基于BiLSTM-CRF的中醫疫病古籍文本自動分詞研究。與基線相比,該自動分詞模型在各項評價指標上都表現出了卓越性能, 表明結合了雙向長短期記憶網絡和條件隨機場的序列標注模型, 在提取疫病古籍文本中的上下文信息發揮出顯著的優勢, 適用于中醫疫病古籍文本的自動分詞任務。

3) 實現了基于中醫疫病古籍文本自動分詞的藥物規律挖掘研究。基于語料庫分詞結果, 本文通過方劑中的各類劑型統計、部分常用中藥統計和部分常用藥對統計, 實現了初步的中醫疫病領域古籍文本詞匯級藥物規律挖掘應用, 這為日后疫情防控、診療決策輔助和人文計算工具的智慧化開發應用提供了一定的參考價值。

參考文獻

[1] 白明, 李楊波, 苗明三. 基于古籍數據挖掘的中醫防治疫病用藥規律分析[J]. 中藥藥理與臨床, 2020, 36 (1): 32-36.

[2] 胡昊天, 鄧三鴻, 張逸勤, 等. 數字人文視角下的非物質文化遺產文本自動分詞及應用研究[J]. 圖書館雜志, 2022, 41 (8):76-83.

[3] 李盼飛, 張楚楚, 李海燕. 科技賦能中醫古籍精華傳承與創新

[4] 歐陽劍. 面向數字人文研究的大規模古籍文本可視化分析與挖

[5] 張素華, 葉青, 程春雷, 等. 面向中醫古籍文本的領域自適應性無監督分詞[J]. 軟件導刊, 2022, 21 (1): 96-100.

[6] Fu X J, Yuan T, Li X B, et al. Research on the Method and Sys?tem of Word Segmentation and POS Tagging for Ancient ChineseMedicine Literature [C] / / IEEE International Conference on Bioin?formatics and Biomedicine(BIBM), San Diego, CA, USA. IEEE,2019: 2493-2498.

[7] 李筱瑜. 基于新詞發現與詞典信息的古籍文本分詞研究[ J].軟件導刊, 2019, 18 (4): 60-63.

[8] 鐘昕妤, 李燕, 徐麗娜, 等. 基于CmabBERT-BILSTM-CRF 的針灸古籍分詞技術研究[J]. 計算機時代, 2023, (4): 11-15.

[9] 姜威, 李敬華, 于琦, 等. 基于數據挖掘的中成藥治療便秘用藥規律研究[J]. 中國中醫藥圖書情報雜志, 2023, 47 (5): 91-94.

[10] 馬洪微. 民國時期中醫醫籍痹證內服方藥文獻挖掘與整理研究[D]. 合肥: 安徽中醫藥大學, 2023.

[11] 李妮, 張倩, 李芳, 等. 基于中醫傳承輔助系統腎病蛋白尿防治組方配伍規律的數據挖掘研究[J]. 藥學研究, 2023, 42(8): 620-626.

[12] 李豪, 周爽. 基于三維知識超圖的電力智庫知識服務平臺建設[J]. 智庫理論與實踐, 2022, 7 (3): 84-92, 99.

[13] 付璐, 李思, 李明正, 等. 以清代醫籍為例探討中醫古籍分詞規范標準[J]. 中華中醫藥雜志, 2018, 33 (10): 4700-4705.

[14] Meng W C, Liu L C, Chen A Y. A Comparative Study on Chi?nese Word Segmentation Using Statistical Models [ C] / /2010IEEE International Conference on Software Engineering and ServiceSciences, Beijing, China. IEEE, 2010: 482-486.

[ 15] Ma J, Ganchev K, Weiss D. State-of-the-Art Chinese Word Seg?mentation with BI-LSTMs [C] / / Proceedings of the 2018 Confer?ence on Empirical Methods in Natural Language Processing, Brussels,Belgium. New York, USA: Association for Computational Linguistics,2018: 4902-4908.

[16] Huang Z H, Xu W, Yu K. Bidirectional LSTM-CRF Models forSequence Tagging [J]. arXiv: 1508.01991, 2015.

[17] 錢琳琳, 張美倫, 馬曉北. 《溫病條辨》中溫熱類病證用藥規律探究[J]. 陜西中醫, 2022, 43 (3): 380-383.

[18] Cui Y M, Che W X, Liu T, et al. Pre-Training with WholeWord Masking for Chinese BERT [J]. IEEE/ ACM Transactions onAudio, Speech, and Language Processing, 2021, 29: 3504-3514.

[19] 劉暢, 王東波, 胡昊天, 等. 面向數字人文的融合外部特征的典籍自動分詞研究———以SikuBERT 預訓練模型為例[ J]. 圖書館論壇, 2022, 42 (6): 44-54.

[20] 孫曉花. 基于聚類分析探討中醫藥干預腫瘤疾病的用藥規律[J]. 中醫藥管理雜志, 2023, 31 (5): 119-121.

[21] 鄭婉婷, 李敬華, 田少磊, 等. 基于數據挖掘的李軍祥治療潰瘍性結腸炎用藥規律分析[J]. 中國中醫藥信息雜志, 2022, 29(9): 59-64.

[22] 劉洋. 探討逍遙散湯劑和散劑治療肝郁脾虛證的臨床效果[J].中國現代藥物應用, 2022, 16 (19): 168-170.

(責任編輯: 郭沫含)

基金項目: 國家社會科學基金冷門絕學專項研究項目“本草典籍整理、知識組織與智慧化建設研究” (項目編號: 23VJXT024)。

主站蜘蛛池模板: av无码一区二区三区在线| 亚洲精品动漫| 国产精品入口麻豆| 丰满人妻中出白浆| 欧美精品一区二区三区中文字幕| 欧美在线伊人| 2021国产乱人伦在线播放| 国产免费高清无需播放器| 国产99久久亚洲综合精品西瓜tv| 免费毛片网站在线观看| 国产屁屁影院| P尤物久久99国产综合精品| 国产黄网站在线观看| 欧美成人亚洲综合精品欧美激情| 日韩欧美高清视频| 人妻出轨无码中文一区二区| 国产无遮挡猛进猛出免费软件| 亚洲欧美国产高清va在线播放| 欧美午夜视频在线| 日韩大片免费观看视频播放| 最新国产你懂的在线网址| 国产精品9| 人妻91无码色偷偷色噜噜噜| 国产视频你懂得| 无码一区二区三区视频在线播放| 一级片免费网站| 人人澡人人爽欧美一区| 日韩资源站| 亚洲男人的天堂久久香蕉| 蝴蝶伊人久久中文娱乐网| 欧美精品亚洲二区| av手机版在线播放| 少妇露出福利视频| 成人在线第一页| 国产成人综合久久精品尤物| 69国产精品视频免费| 成人欧美日韩| 国产精品自在在线午夜| 日韩欧美中文| 在线观看免费国产| 2022国产无码在线| 91在线高清视频| 天堂成人在线| 亚洲日本www| 国产熟女一级毛片| 亚洲美女久久| 天天综合亚洲| 久久精品欧美一区二区| 久久国产精品麻豆系列| 国产精品免费电影| 国产v精品成人免费视频71pao | 欧美一区精品| 在线精品视频成人网| 国产成人亚洲精品无码电影| 亚洲中文无码av永久伊人| 99热最新网址| 亚洲精品第1页| 91小视频在线| 欧美第二区| 久久国产高清视频| 国产视频欧美| 精品国产黑色丝袜高跟鞋 | www欧美在线观看| 国产精品视频系列专区| 亚洲第一视频区| 欧美视频免费一区二区三区| 在线毛片免费| 亚洲天堂精品视频| 无码中字出轨中文人妻中文中| 亚洲精品日产精品乱码不卡| 亚洲经典在线中文字幕| 午夜性刺激在线观看免费| 99久久精品无码专区免费| 欧美国产日韩一区二区三区精品影视| 东京热av无码电影一区二区| 国产成人乱无码视频| 麻豆国产精品| 亚洲欧洲天堂色AV| 欧美性猛交xxxx乱大交极品| 美女一区二区在线观看| 国产精品免费电影| 国产一级视频在线观看网站|