王 東,王益民,張伯禮
(天津中醫藥大學,天津 300193)
近年來,關聯規則、聚類分析、貝葉斯網絡、神經網絡、復雜網絡分析等數據挖掘技術為名老中醫學術思想傳承工作提供了新的方法學基礎[1-5]。但對許多中醫背景的傳承人來說,數據挖掘作為多學科交叉的新產物難以熟練運用[6]。
針對這一現狀,為探尋更加實用、高效的數據挖掘方法,本研究組基于復雜網絡分析和關聯規則分析創建“組方配伍網絡分析法”,對天津中醫藥大學張伯禮教授治療胸痹的處方進行可視化網絡重建及用藥規律分析。總結出的重點藥物、治法及學術特點,與相關文獻[7-13]結論基本一致,得到了張教授本人認可。
相關研究[14-15]指出,關聯規則分析法在支持度與置信度的參數設置上缺乏統一標準,不僅影響處方數據挖掘效率,甚至會造成挖掘結果與中醫理論相悖。
為體現中醫思維,在挖掘組方思路時,借助復雜網絡分析軟件記錄藥物的錄入順序,模擬傳統師承的“抄方學習模式”,以體現專家遣方用藥思路的連續性、系統性;在挖掘配伍思路時,借助關聯規則分析法,以獲得不同藥物間具體的配伍概率。最終,整合兩類數據構建“組方配伍網絡”,既能從縱向體現組方思路,又能從橫向展示配伍關系。
2.1 數據來源 張伯禮教授的處方數據調取自天津中醫藥大學附屬保康醫院門診系統(2016年),具體內容包括:數據入庫順序、就診時間、處方編號、患者編號、患者姓名、錄入藥物、錄入順序、藥物劑量、用藥周期、ICD診斷名、診斷備注、藥物金額及醫師姓名。
2.2 處方納入標準 納入標準定為:1)ICD診斷名為“胸痹”。2)無第二診斷。3)無其他診斷備注。
按上述標準,共369個胸痹處方被納入。
2.3 處方排除標準 為保證研究結論能夠體現組方思路的連續性,排除標準如下:1)處方藥物錄入起始序號不為1。2)處方藥物錄入順序不連續(缺項)。
最終,13個不合要求的處方被剔除,保留合格處方356個。
2.4 數據編輯與處理
2.4.1 建立處方庫 使用Excel 2016(以下簡稱Excel)從原始資料中提取處方編號、錄入藥物、錄入順序進行建庫。
2.4.2 數據處理 網絡的構建及分析采用Gephi 0.9.2[16](以下簡稱Gephi)完成,由介數中心性、K-殼分解法[17-19]發現網絡中的重要節點和篩選核心網絡,社團模塊由Gephi自帶的社區探測算法(基于Louvain算法)[20-21]進行劃分。頻數統計與關聯分析依靠R軟件(以下簡稱R)的關聯規則分析包實現。
1)組方數據挖掘:組方數據挖掘借助復雜網絡分析軟件完成,并以組方網絡圖的形式呈現。
將處方庫中的數據轉制為Gephi可調用的CSV格式,所有處方的“首尾”加入“開始”和“結束”標記,即“A-B-C-D-E”轉為“開始-A-B-C-D-E-結束”,以避免兩個不同處方“首尾”的藥物節點生成連接。
數據導入Gephi生成組方網絡后:①使用內置工具統計介數中心性;②使用內置模塊化工具完成分類;③以不同顏色區分不同模塊;④以介數中心性降序決定節點大小和節點名稱漢字大小;⑤以K-殼分解法提取核心群。
2)配伍數據挖掘:配伍數據挖掘借助R的關聯規則工具箱和復雜網絡分析軟件共同完成,以配伍網絡圖的形式呈現。
為收集所有的“兩兩藥物組合”情況,本次研究將支持度和置信度的值均設為0,獲得32 400個組合。剔除17 760個頻數為0的組合及7 230個鏡像關聯情況,最終獲得7 230個共現頻次至少為1的“兩兩藥物組合”,用于構建配伍網絡。
將篩選完畢的關聯數據轉制為Gephi可調用的CSV格式,導入Gephi生成配伍網絡后,網絡參數調節同“組方網絡”。
3)建立組方配伍網絡:組方配伍網絡的數據可以由組方、配伍網絡的CSV文件直接拼接獲得,導入Gephi生成組方配伍網絡后,網絡參數調節同“配伍網絡”。
2.5 比較與驗證
2.5.1 模型比較 參考頻次統計結果,從網絡概況、節點、社團模塊、鏈路4個方面,將組方網絡、配伍網絡、組方配伍網絡及各自核心群進行對比,評價組方配伍網絡及其核心群能否如實反映處方信息,體現組方思路和配伍關系。
2.5.2 文獻驗證 以“張伯禮”、“胸痹”、“學術思想”為關鍵字,分別在知網、萬方、維普三大檢索平臺進行期刊文獻檢索,經去重和剔除無關文獻后,保留繼承總結張伯禮教授學術思想的相關文獻7篇。結合文獻內容,評價組方配伍網絡及其核心群的鏈路、社團模塊、節點能否反映張伯禮教授治療胸痹的學術思想、治則治法、重點藥物。
2.5.3 專家確認 經相關文獻驗證后,將組方配伍網絡以圖片輸出,并對各社團模塊、節點、鏈路的內容及其意義向張伯禮教授做說明,確認分析結果是否能得到專家本人認可。
3.1 頻數統計 借助R內置的關聯規則分析包,統計不同藥物的使用頻次、藥物組合的共現頻次。截取部分頻數統計結果制成表1、表2進行展示。

表1 不同藥物使用頻次前20名

表2 藥物組合使用頻次前20名
3.2 網絡模型對比
3.2.1 概況對比 本次研究共構建了6個網絡,分別是組方網絡、配伍網絡、組方配伍網絡及其各自的核心群。具體參數見表3。

表3 網絡概況對比
組方網絡節點連接相對稀疏,核心群最小,模塊數最多;配伍網絡和組方配伍網絡節點連接較緊密,核心群較大,模塊數方面組方配伍網絡比配伍網絡多。
3.2.2 節點對比 介數中心性能夠反映所評價節點連接其他節點的能力,即所評價藥物與其他藥物的配伍關系是否密切。各網絡介數中心性前10的藥物如下:1)組方網絡及其核心:柴葛根、夏枯草、杜仲、知母、黃芩、茯苓、生龍齒、玉竹、桑寄生、干姜。2)配伍網絡和組方配伍網絡為:丹參、郁金、茯苓、黃連、麥門冬、生龍齒、生牡蠣、首烏藤、半夏、延胡索。3)配伍網絡核心和組方配伍網絡核心為:郁金、丹參、茯苓、延胡索、柴葛根、降香、黃連、麥門冬、生龍齒、首烏藤。
參考頻次統計情況,組方網絡(及其核心群)重要節點與頻次統計結論的一致性較差,而配伍網絡、組方配伍網絡(及其核心群)較好。
3.2.3 模塊對比 社區探測算法可以依據節點連接的疏密情況,將整個網絡劃分為若干網絡模塊。基于方劑學理論,中醫處方至少應包括“君臣佐使”4個基本模塊。結合表3各網絡的模塊數來看,組方網絡及其核心的模塊數較多,而配伍網絡及其核心的模塊數較少,只有組方配伍網絡及其核心的模塊數較為符合預期。
從連接情況來看:1)組方網絡的各模塊內部連接較緊密,而模塊之間連接較稀疏。2)配伍網絡中只有1個模塊內部連接緊密,其余模塊及模塊間連接較為稀疏。3)組方配伍網絡各模塊內部、模塊間的連接都較為緊密。
3.2.4 鏈路對比 藥物節點相連構成的鏈路反映了不同藥物間存在的配伍關系。從鏈路的節點構成來看:1)組方網絡及其核心群的鏈路可體現某一用藥目的,如丹參、郁金、元胡、降香體現了活血化瘀、行氣止痛的用藥目的,但不同鏈路間是否存在聯系難以確定。2)配伍網絡及其核心群的鏈路反映使用頻次較高的藥物組合,但各鏈路內部藥物重復率高。3)組方配伍網絡及其核心群的鏈路節點重復較少,不同鏈路間部分節點相互連接,既可以反映不同藥物組合的用藥目的,又可以觀察到不同藥物組合間的協同關系。
3.3 比較與驗證 通過不同網絡模型之間的比較,經文獻驗證和與專家本人確認,研究認為組方配伍網絡能夠如實反映處方信息,張伯禮教授治療胸痹的學術思想、治則治法、常用藥物可從組方配伍網中的鏈路、社團模塊和節點中得到反映。具體內容詳見圖1,圖中藥物節點的字號大小與使用頻次高低正相關,節點間連線的粗細與配伍概率大小正相關,不同的模塊以不同顏色區分。
4.1 結果分析 在對相關文獻[7-13]研究中發現,張伯禮院士治療胸痹的特點可概括為:1)理論上以“痰瘀學說”為基礎,主張“痰瘀并治”,重視痰瘀在疾病發展各階段的變化。2)治法上依患者具體情況,采取活血化瘀(丹參、郁金、延胡索、降香、三七粉、五靈脂)、益氣養陰法(生地、沙參、麥門冬、黨參、黃精)、健脾祛濕(黨參、茯苓、白術)、通經活絡(雞血藤、桑枝)等方法。3)用藥上根據不同病情條件下的痰瘀特點,選取相應的對(隊)藥予以治療(濕邪重用萆薢、蒼術、蠶砂,濕邪化熱用茵陳蒿、知母、黃連、大黃,痰火盛用黃芩、浙貝母,痰濕蘊肺用細辛、干姜、半夏)。4)兼顧氣、血、陰、陽及諸臟功能的平衡(女貞子、旱蓮草、杜仲、牛膝、當歸、何首烏),注重調養心神(酸棗仁、柏子仁、夜交藤、生龍齒、生牡蠣)。

圖1 2016年度張伯禮教授治療胸痹的組方配伍網絡圖
參照張伯禮教授治療胸痹的特點[7-13],結合組方配伍網絡的節點、鏈路、社團模塊情況,本研究組認為:1)社團模塊及其內部介數中心性高的節點,能夠反映特定的用藥目的,如:模塊1體現了健脾祛濕法(黨參、茯苓、白術)。模塊2以牛蒡子、射干、橘紅、浙貝母等化痰藥為主,體現了治痰的用藥變化。模塊3體現了活血化瘀法(丹參、郁金、延胡索、降香、三七粉、五靈脂)。模塊4以柴葛根、杜仲、夏枯草、雞血藤等藥物為主,包含藥物最多,是兼顧氣、血、陰、陽及諸臟功能的臨證加減用藥模塊。模塊5以首烏藤、生龍齒、柏子仁、酸棗仁等為主,體現了注重調養心神。2)不同模塊間重點藥物的連接,能夠反映專家治療某一疾病的學術特點,如:本研究中,模塊1與模塊3的重點藥物及其構成的鏈路,體現了張伯禮教授治療胸痹的“痰瘀學說”。
4.2 組方配伍網絡的優勢 基于藥物錄入順序構建的組方網絡及其核心,有利于體現組方思路,但缺乏關聯數據支撐;基于關聯分析構建的配伍網絡及其核心,有利于挖掘核心配伍組合,但會使處方信息碎片化,難以揭示組方思路。
作為組方網絡和配伍網絡的有機結合體,組方配伍網絡既可以直觀展示組方思路,又可以在關聯數據的基礎上明確具體的藥物配伍關系。以鏈路、社團模塊反映理論和治法,基于介數中心性篩選重點藥物,符合“理、法、方、藥”的中醫臨床思維。
4.3 問題與展望 名老中醫經驗的存在形式既有顯性的,也有隱性的。單純照搬某種方法的分析結果,很難得到名老中醫本人的認可。因此,需要在中醫理論指導下綜合運用多種方法,對名老中醫經驗方進行系統、全面地挖掘和總結[22-23]。
作為一種多分析方法綜合應用的嘗試,“組方配伍網絡”在參考傳統師承“抄方”的基礎上,綜合運用關聯分析、復雜網絡分析兩種方法,為總結名老中醫治療某一病證(疾病)的“理、法、方、藥”提供了一套較為完備的解決方案。
但完備并不等于完美,它也存在一些問題需要深入探討,例如:如何確定社團模塊劃分的最優解析度。析其原因,復雜網絡分析法雖已應用于中醫藥數據挖掘領域,但具體操作中相關參數設置尚無統一標準可以借鑒。因此,需要在大量數據實驗的基礎上,由相關研究人員共同尋找最優參數,制定統一標準。