余萍,劉歡,李剛*(.四川省醫學科學院·四川省人民醫院藥學部,成都 6007;.四川省交通運輸廳公路局醫院,成都 673)
我國2 型糖尿病(T2DM)患者血糖達標率僅為47.7%[1],導致我國約20%~40%的糖尿病患者合并糖尿病腎病[2],糖尿病已成為慢性腎疾病和終末期腎病進展的主要原因[3]。對T2DM 腎病進展的影響因素進行全面分析,針對性地加強重要影響因素的自我管理,是提高血糖控制率、延緩糖尿病腎病進展的重要手段[4]。由于糖尿病腎病患者年齡、病程、降糖方案未調整時間等個體差異大,降糖藥物種類多、用藥方案復雜,影響因素變量多,不易分析,且多種影響因素間可能存在交互作用,傳統基于概率論與數理統計的方法難以甄別關鍵因素。本研究通過數據挖掘技術結合數理統計,研究影響T2DM 腎病進展的重要因素以及重要因素之間的關系,并建立糖尿病腎病進展的預測模型,為T2DM患者的個體化管理提供證據支持,為糖尿病腎病影響因素全面分析和預測研究的模式提供新思路。
本研究為患者長期使用降糖藥物控制血糖的T2DM 腎病進展的真實世界研究,研究數據為2010年1月-2015年12月在四川省人民醫院住院并經明確診斷的T2DM,超過1年未監測血糖也未改變過用藥方案的166例T2DM 患者的數據。剔除了重復住院者、肝臟功能不全者、在住院日期起12 個月內訪問過任何醫療機構(藥店除外)的患者、非化學藥物治療T2DM 者(包括未接受治療者,接受過減肥手術、針灸、中藥等治療的患者)。由兩名研究者獨立完成病例篩選及提取數據,保障數據的準確性、完整性、一致性,并隱藏患者的姓名、電話號碼、家庭住址等隱私信息,保障患者數據安全。每個病例包括患者基本信息(性別、年齡、遺傳史、病程等)、用藥行為(包括用藥數量、種類、降糖方案未調整時間等)、血糖控制情況及腎功能等主要內容。
結合醫藥專業知識對原始數據進行填充、歸約、清洗,將用于構建模型的數據轉換為統一格式。閱讀病歷根據醫藥專業知識填充缺失值,設定缺失值范圍,根據矩陣算法填充最可能的值缺失值;根據腎小球濾過率(eGFR)對慢性腎臟病(CKD)分期[5]并對腎功能分級;根據2017ADA[6]不同糖化水平聯用藥物的標準對糖化血紅蛋白分級;根據2016 中國成人血脂異常防治指南[7]對血脂異常分級;考慮糖尿病發病進展情況[4],結合年齡分布聚類分析對年齡進行分段;結合疾病進展對糖尿病病程和降糖方案未調整時間分段,精簡、優化數據;藥物分類根據藥學先驗知識對藥物進行有效合并、新建字段和特征聚類;通過歸約數據,提高挖掘效率。選取特征數據,使用特征選擇模型發現存在數據質量問題的特征項,過濾噪聲。
使用IBM 公司的SPSS Modeler 18.0 作為數據挖掘工具,使用SAS 9.21 軟件進行統計。
數據挖掘技術(data mining,DM)是從大量的、不完全的、隨機的、有噪聲的數據信息之中挖掘出潛在有價值的信息的一個過程[8]。本研究按照跨行業數據挖掘標準(CRISP-DM)進行,包括準備數據;對收集的數據進行數據預處理;利用特征篩選模型排除如單個類別大于95%或缺失值大于50%的字段;使用分區工具將數據分為訓練集(70%)、測試集(15%)、驗證集(15%),有效評估模型的性能;利用自動建模篩選出最優的幾個模型,綜合考慮整體準確性、曲線下面積和使用字段數進行模型篩選;影響因素最終使用CART、SVM、貝葉斯網絡、QUEST、類神經網絡5 種挖掘模型分別建模,然后調整模型參數,采用傾向性評分控制混雜因素、均衡各對比組間各特征變量的可比性[9],通過boosting 學習增強準確度,bagging學習增強穩定性,組合系列模型提高總體準確率,以達到最佳預測模型(見圖1)。所得到的預測結果可為前瞻性研究及臨床實際工作提供方向與思路。

圖1 T2DM 腎病進展的影響因素數據挖掘流程圖Fig 1 Data mining flow chart of influencing factors for the progression of T2DM nephropathy
使用SAS 統計軟件對發生T2DM 腎病組(病例組)與未發生組(對照組)的性別、遺傳史進行卡方檢驗,并對年齡、糖尿病病程、降糖方案未調整時間、糖化血紅蛋白、血脂異常進行Cochran-Armitage趨勢檢驗。性別、年齡分段、糖尿病病程分段、遺傳史、降糖方案未調整時間分段、血脂異常、糖化血紅蛋白分段、不同藥物與腎功能分級分布情況見表1。

表1 腎功能分級分布Tab 1 Grading of renal function
2.2.1 影響不良反應是否發生的重要因素 使用CART、SVM、貝葉斯網絡、QUEST、類神經網絡5 種挖掘模型的整體準確性較好(訓練集100%、測試集71.43%、驗證集68.75%),曲線下面積(訓練集100%、測試集82.5%、驗證集76.6%),并對模型性能進行ROC 評估[10],ROC 性能優良(見圖2),可見模型結果可靠。影響T2DM 腎病進展的重要因素前5 位分別為降糖方案未調整時間、注射類降糖藥種數、糖尿病病程、口服+注射聯用降糖藥物、口服降糖藥種數,重要性分別為0.27、0.25、0.19、0.11、0.07(見圖3)。降糖方案未調整時間、糖尿病病程、藥物因素重要性較大,與T2DM 進展關系密切。故接下來對這3個因素進行深入挖掘。

圖2 T2DM 腎病進展的影響因素預測模型ROC 性能評估Fig 2 ROC performance evaluation of the predicting model of influencing factors for the progression of T2DM nephropathy

圖3 T2DM 腎病進展的影響因素預測變量重要性圖Fig 3 Significance chart of influencing factors and predictors of the progression of T2DM nephropathy
2.2.2 降糖方案未調整時間與T2DM 腎病進展的關系 降糖方案未調整時間越長,T2DM 患有并發癥的數量越多;病程愈久,T2DM 患有并發癥的數量愈多。降糖方案未調整時間≥3年的T2DM 患者中,3 ~5年病程的并發癥數量高于6 ~10年病程(見圖4)。

圖4 降糖方案未調整時間、病程與T2DM 并發癥數的熱力圖Fig 4 Thermal chart of unadjusted time of regimen,course of disease and number of T2DM complications
降糖方案未調整時間在2~3年對在病程3~5年的患者發生T2DM 腎病影響顯著,提示病程≥3年患者若2年以上未調整用藥方案,血糖控制率僅為12.90%,應加強血糖、血脂監測,必要時及時就醫調整用藥方案,以防血糖控制不佳造成糖尿病腎病的發生。患者若未調整降糖方案時間<2年,病程>5年開始發生T2DM 腎病可能性顯著提高,提示對于糖尿病病程>5年的患者來說,盡管未調整降糖方案時間<2年,但其亦開始出現控制不佳的情況,血糖控制率為18.68%,也應加強血糖等監測,強化血糖控制(見圖5)。

圖5 降糖方案未調整時間、病程與T2DM 腎病是否發生的氣泡圖Fig 5 Bubble diagram of unadjusted time,course of disease and occurrence of T2DM nephropathy
降糖方案未調整時間對T2DM 腎病程度僅在糖尿病病程3 ~5年,2年以上未調整用藥方案時影響較大,其余時間影響較小(見圖6)。

圖6 降糖方案未調整時間、病程與T2DM 腎病進展程度的氣泡圖Fig 6 Bubble diagram of unadjusted time of regimen,course and progression of T2DM kidney disease
2.2.3 影響T2DM 腎病是否發生的重要藥物因素 T2DM 腎病進展的藥物因素預測模型整體準確性較好(訓練集84.07%、測試集76.19%、驗證集65.62%),藥物因素中按重要性前5 位分別為降糖藥物總數、二甲雙胍、賴脯胰島素(優泌樂)、西格列汀(捷諾維)、甘精胰島素(來得時),重要性分別為0.25、0.15、0.15、0.10、0.05(見圖7)。

圖7 T2DM 腎病進展的藥物因素強度分析圖Fig 7 Drug-factor intensity in the progression of T2DM nephropathy
如何使用適當的數據挖掘技術對T2DM 復雜的臨床數據進行深度分析,查找影響T2DM 腎病發生、進展的重要因素及因素之間的相互作用,是糖尿病個體化、精細化管理的難點問題。臨床數據可靠性、數據規范化、數據挖掘模型的選擇和算法的優化對數據挖掘的準確性有重要影響。本研究利用數據挖掘技術結合數理統計,并融合醫藥專業知識對數據進行填充、歸約、清洗,保證數據的真實性、準確性、一致性,并通過調試模型參數,有效提高挖掘探測的精確性和模型性能。
降糖方案未調整時間對T2DM 腎病程度僅在糖尿病病程3 ~5年且2年以上未調整用藥方案時段影響較大,其余時間影響較小。可能是病程≥3年且2年以上未調整用藥方案的患者血糖控制率不佳,發生糖尿病腎病的可能較大,這個時間段是發生T2DM 腎病的關鍵時期。一旦發展成T2DM 腎病,用藥方案未及時調整,易發展到T2DM 腎病嚴重狀態。
降糖藥物種數影響較大的原因一方面很可能與臨床未根據糖尿病疾病程度選擇合并藥物種數有關,根據2017ADA 指南[6],糖化血紅蛋白在>9%時開始聯用藥物,>10%時才開始聯合胰島素治療。從另一方面來看,在合并用藥時,未按照藥物代謝動力學特點對其劑量進行適當調整亦是一個重要原因。如二甲雙胍是T2DM 治療的基礎藥物,使用頻繁,雖然二甲雙胍本身無腎臟毒性,但腎功能受損時可能在體內蓄積,應及時調整用藥[11]。西格列汀是二肽基肽酶Ⅳ(DPP-4)抑制劑,2013 IDF老年2 型糖尿病防治全球指南指出DPP-4 抑制劑可作為一線治療藥物[12],西格列汀87%經腎臟排泄,腎損傷時需調整用藥劑量[13]。賴脯胰島素屬于超短效胰島素,即使在腎功能差別很大的T2DM 患者中,藥代動力學基本保持不變[14],可在腎病患者中使用[15]。甘精胰島素屬于特慢長效胰島素,可用于晚期糖尿病腎病患者的治療[16]。此外,從研究結果來看,雖然注射降糖藥物和T2DM 腎病關聯,但可能是使用注射降糖藥物時T2DM 患者一般疾病程度較重,已經患有T2DM 腎病。
利用數據挖掘技術結合數理統計,融合醫藥專業知識研究了影響T2DM 腎病進展的重要影響因素,探討患者用藥行為、病程、藥物等因素與T2DM 腎病進展之間的關系。降糖方案未調整時間與糖尿病病程是T2DM 腎病發生發展的重要影響因素。病程≥3年且2年以上未調整用藥方案的患者,血糖控制率很可能不佳;糖尿病病程>5年且未調整方案時間<2年的患者血糖亦開始控制不佳,應加強血糖等的監測,針對性地對T2DM 患者強化血糖控制,進行精準化管理,延緩T2DM 腎病的發生發展。本研究為T2DM 腎病的個體化管理提供了證據支持;為T2DM 腎病進展的影響因素和預測分析的模式提供了新思路:按照CRISP-DM 進行糖尿病精細化管理模式的探索。但本研究也存在一定局限性,限于客觀條件,研究僅采集了2010-2015年的病例資料,數據較為陳舊,但糖尿病與腎功能受損的基本規律大致一致,仍具有一定的參考意義。此外,T2DM數據挖掘的預測模型有待臨床實踐進一步驗證,同時結合飲食、運動等生活方式對T2DM 患者用法用量精確化的個體化管理預測的數據挖掘是一個需要探索的重點領域。