孔忠順 劉京銘 高孟秋 黃麥玲
?
臨床診斷決策樹方法用于結核性胸膜炎診斷的初探
孔忠順 劉京銘 高孟秋 黃麥玲
目的 利用臨床診斷決策樹的方法建立結核性胸膜炎(tuberculous pleurisy, TBP)綜合診斷策略,并探討其對TBP的診斷價值。方法 采用回顧性研究方法,根據自行制定的結核性胸膜炎及惡性胸腔積液的入組標準,收集首都醫科大學附屬北京胸科醫院2014年1月至2015 年12月符合入組標準的住院患者病歷資料,共314例,分為TBP組(205例)和惡性胸腔積液組(109例)。采用隨機數的生成方法將綜合數據按照3∶1比例,分為訓練樣本數據集及驗證樣本數據集,然后進行決策樹算法(CART)分析,生成結核性胸膜炎的臨床診斷決策樹,最后將生成的決策樹模型對驗證樣本數據集進行驗證并計算出檢測效應值,以完成對TBP綜合診斷策略的驗證。結果 對25項用于構建臨床診斷決策樹的指標進了單因素統計分析顯示,其中有16項指標在TBP組和惡性胸腔積液組差異有統計學意義。以獨立構建的臨床診斷決策樹工作流程為基礎,進行1000次模擬實驗,全部循環構建的1000棵決策樹平均利用的評判因素為(8.57±1.63)個。對實驗結果進行相關評價指標的計算,結果顯示臨床診斷決策樹用于TBP診斷的敏感度為98.14%,特異度為93.64%,符合率為95.01%。對決策樹中各項指標的貢獻得分排序顯示,排名前9項指標依次是胸腔積液腺苷脫氨酶、血紅細胞沉降率、發熱、胸腔積液C反應蛋白、年齡、血結核抗體、血T細胞斑點試驗B、性別、乏力等。結論 臨床診斷決策樹方法是TBP與惡性胸腔積液有效鑒別診斷策略之一。
結核,胸膜; 診斷; 決策樹
結核性胸膜炎(tuberculous pleurisy, TBP)是臨床上常見的肺外結核之一,同時在某些國家也是造成胸腔積液的首要病因[1]。在結核病高流行地區,約有50%患者胸腔積液由TBP引起[2]。然而,TBP的發病原因并非都是由結核分枝桿菌(Mtb)直接感染造成的局部炎癥,大多是由Mtb引起的遲發變態反應所導致,很難直接在TBP患者的胸腔積液中直接找到Mtb的細菌學證據[3]。因此,TBP的診斷目前仍是亟待解決的臨床問題。筆者收集首都醫科大學附屬北京胸科醫院TBP及惡性胸腔積液病例資料,采用回顧性研究的方式,利用數據挖掘和機器學習的方法建立TBP與惡性胸腔積液臨床診斷決策樹,探討決策樹方法用于TBP診斷的可行性。

圖1 臨床診斷決策樹分析工作流程
1.患者選擇:采用回顧性研究方法,根據自行制定的結核性胸膜炎及惡性胸腔積液的入組標準,收集首都醫科大學附屬北京胸科醫院2014年1月至2015年12月符合入組標準的住院患者病歷資料,共314例,分為TBP組(205例)和惡性胸腔積液組(109例)。
2.納入及排除標準:參考文獻[4]及有關文獻進行制定。(1)TBP組納入標準:臨床診斷為TBP,同時胸腔積液有直接細菌學證據(涂片抗酸染色或培養)或胸膜活檢病理有典型的特征性結核病理表現者;或臨床診斷為TBP,同時有痰細菌學證據(涂片抗酸染色或培養),或肺部有明確結核病灶,且抗結核并抽胸腔積液治療后胸腔積液得以吸收者。(2)惡性胸腔積液組納入標準:胸腔積液患者,于胸腔積液細胞學或胸膜組織病理學找到惡性細胞者。(3)排除標準(兩組患者均需排除):①結核病同時并發惡性腫瘤;②診斷為TBP或惡性胸腔積液同時并發嚴重肝病、腎病、心功能不全、嚴重低蛋白血癥、結締組織疾病、自身免疫性疾病、HIV感染或艾滋病、長期應用免疫抑制劑等。
3.數據處理:在數據錄入之前制定收集數據項目及數據類型的標準。根據數據分析預實驗從患者一般情況、癥狀及實驗室檢查等3方面共25項指標納入后期診斷模型的構建。數據錄入采取獨立雙錄入的原則,保證數據的可靠性。數據分析之前進行異常值的篩選,缺失項的復合等數據清理工作。對清洗后的數據根據分組標準分為TBP組及惡性胸腔積液組,并將數據總和作為綜合樣本數據。之后,編寫相關的計算機程序,并構建分析程序工作流程。應用專門的生物信息分析平臺BioKepler[5]及R3.1[6]構建臨床診斷決策樹分析工作流程(work flow),見圖1。該流程首先進行數據讀取,之后進行數據清理,并采用隨機數的生成方法將綜合數據按照3∶1比例,隨機分為訓練樣本數據集及驗證樣本數據集,然后進行決策樹算法(CART),生成TBP的臨床診斷決策樹,最后將生成的決策樹模型對驗證樣本數據集進行驗證并計算出檢測效應值,該程序將上述流程進行了模塊化,并且根據研究工作流程進行串聯,完成標準化的目的,同時可以實際運行并直接輸出相應的結果。
采用R3.1[6]軟件完成全部決策樹及統計分析。對清洗后的相關數據進行兩組間各影響因素差異的統計學分析。計量資料采用M(Q1~Q3)表示,應用秩和檢驗進行比較;計數資料的比較采用χ2檢驗,不滿足χ2檢驗條件者采用Fisher 精確概率法進行檢驗;以P<0.05為差異有統計學意義。
1.基本情況:TBP組205例,包括男164例(80.0%),女41例(20.0%),平均年齡(46.73±19.47)歲。惡性胸腔積液組109例,包括男65例(59.6%),女44例(40.4%),平均年齡(60.92±11.10)歲。兩組比較顯示,TBP組男性患者構成比明顯高于惡性胸腔積液組(χ2=14.95,P<0.01);TBP組的平均年齡明顯低于惡性胸腔積液組(t=7.02,P<0.01)。在臨床癥狀方面,共納入7項指標,其中5項指標TBP組與惡性胸腔積液組比較存在差異,見表1。

表1 研究對象臨床特征在結核性胸膜炎組和惡性胸腔積液組間的比較

續表1
注 表中計數資料括號外數值為“患者例數”,括號內數值為“構成比(%)”;計量資料括號外數值為中位數(M),括號內數值為第25百分位數~第75百分位數(Q1~Q3)
2.TBP臨床診斷決策樹的生成與檢驗:因本次納入研究的患者信息相對較少,會出現決策樹生成不穩定的情況。為客觀的評價決策樹策略用于TBP診斷的可行性,對已構建的臨床診斷決策樹分析工作流程進行1000 次循環模擬,全部循環構建的1000棵決策樹平均利用的評判因素為(8.57±1.63)個。以約登指數(Youden index)進行從大到小排列,將約登指數為1的前5棵決策樹以圖的形式顯示于圖2。
3.決策樹的檢驗:應用經1000次循環構建的決策樹對驗證組進行預測,對預測結果進行了10 項臨床試驗檢測指標的驗證,10項臨床試驗檢測指標的分布情況見表2。

表2 結核性胸膜炎決策樹檢測指標
4.決策樹中各指標的貢獻得分:決策樹中各項指標的貢獻得分是指各項指標在進行決策樹診斷時所起的作用,即位于決策樹頂端的指標,對診斷的作用較大。為探索對TBP診斷更為重要的因素,利用決策樹分析將各指標的貢獻得分進行加和與排序(圖3)。由此可以看出排序前9位的指標對診斷的貢獻最大。
TBP是最常見的肺外結核,其診斷金標準是從病灶或胸腔積液中找到直接的細菌學證據。然而,目前臨床能夠拿到直接細菌學證據的診斷病例很少。目前,臨床診斷主要依靠癥狀、體征及臨床實驗室檢查,并憑借醫生的經驗綜合判定,而關于綜合性診斷研究尚少。張義宏等[7]利用年齡<37歲、體溫>37.8 ℃、胸腔積液腺苷脫氨酶>45 U/L或>30 U/L、胸腔積液C反應蛋白>26 mg/L為截點,建立積分模型,利用積分模型作為判斷結核性胸腔積液的依據。結果以積分模型分值≥7分作為預測結核性胸腔積液的截點,其敏感度為95.4%、特異度為96.6%、準確性為96.0%,取得了理想的結果。此外,采用構建臨床診斷決策樹的方法對難以獲得直接證據的疾病進行診斷也是一種嘗試。Porcel等[8]采用決策樹方法進行的TBP綜合性診斷策略研究中也證實,由他們制定的TBP診斷決策樹對TBP與惡性胸腔積液鑒別診斷的敏感度為92.2%、特異度為98.3%、受試者工作特征曲線(ROC曲線)下面積為97.6%。臨床診斷決策樹與醫生在進行臨床診斷時的思維模式非常類似,因此可以作為一種診斷經驗的實體形式,同時決策樹又可以基于“大數據”而產生,從而提高了對疾病診斷的準確性。本研究以此為切入點,主要探討這種研究方式的可能性及需要解決的問題。

“1”:代表“結核性胸膜炎”;“2”:代表“惡性胸腔積液”
圖2 約登指數為1的前5棵決策樹型圖

圖3 結核性胸膜炎各診斷因素貢獻得分
本研究首先解決的問題是,利用臨床的一些常規數據來生成可以用于TBP診斷的臨床診斷決策樹。決策樹的創建采用數據挖掘和機器學習的方法,因為機器學習的方法與臨床思維有類似之處,容易為臨床醫生所接受。具體方法是以R語言中標準的CART決策樹算法為核心,同時構建了包括數據的讀取、數據清理、數據隨機化分組、CART決策樹構建、檢測指標的構建及相應結果輸出的標準化流程,并在此基礎上以BioKepler生物信息學分析平臺為基礎,構建TBP診斷決策樹的工作流程。經對該工作流程進行千余次演算沒有發現漏洞,且應用普通電腦可以在30 s左右計算出結果,因此初步解決了決策樹在TBP診斷中的技術層面問題,為之后的研究奠定了基礎。
第二個問題即所構建的臨床診斷決策樹能否達到一定程度的臨床準確性。由于本次研究收集的患者例數較少,為提高所構建決策樹診斷準確性,筆者應用已建立的工作流程,進行了1000次的模擬實驗,并且對這1000次模擬實驗的相應診斷實驗檢測指標進行了均值及標準差的計算。通過1000次循環模擬生成的決策樹,對TBP與惡性胸腔積液鑒別診斷的敏感度均值為98.14%,特異度均值為93.64%。因此,初步顯示應用臨床診斷決策樹的方法是可以達到一定的臨床診斷準確性。
臨床信息來源于多個渠道,如病史、查體和各種臨床檢測項目,本研究納入了25項指標。哪些指標對診斷最有意義,直接關乎臨床診斷結果。筆者首先對納入的25項指標進行了組間比較,其中16項指標在兩組之間差異具有統計學意義。而這16項指標在兩種疾病鑒別時均有一定意義,是臨床醫師對兩種疾病進行鑒別診斷時需要考慮到的指標。而哪些指標對疾病鑒別診斷的意義更大,利用單因素分析不能明確,而利用決策樹分析,通過指標的貢獻得分則可以給出答案。筆者對模擬1000次生成的臨床診斷決策樹所包含的各項指標的貢獻得分進行了排序。由于平均每個決策樹需要9個指標作為決策因素,因此,筆者對貢獻得分排名前9個指標進行了比較,發現其差異均存在統計學意義,因此,筆者從這兩個方面驗證了這9個指標對TBP的診斷價值更大。
通過決策樹示意圖可以看到,對TBP做出診斷的過程與臨床醫生的診斷過程非常相似,是綜合了臨床的各項指標給出的診斷,而不是某一項指標就能決定的。同時,決策樹的生成可以并且應該基于大數據產生,這樣生成的決策樹會更加符合實際情況,對疾病診斷的準確性更高。陳藹祥和陳智鋒[9]利用機器學習方法構建的決策樹用于結節病和肺結核的鑒別,準確性達到96.15%。另外,利用決策樹方法進行疾病診斷時簡便直觀,只需要根據取得的臨床數據來對照決策樹,按照決策樹分支一步步做出診斷。以圖1為例簡單說明診斷過程。首先看胸腔積液腺苷脫氨酶是否大于44 U/L,根據是與否分別沿左右兩個分支繼續前進,直到符合某個診斷為止。同時,決策樹所用到的指標為臨床上容易獲得的指標,即使是最基層醫院也可以做到。因此,臨床診斷決策樹方法對于基層醫院或經驗不足的醫生更有幫助。
由于本研究只是將決策樹方法應用于TBP與惡性胸腔積液鑒別診斷的一次初步探索,目的是探討利用決策樹方法診斷TBP的可行性,還存在眾多不足。(1)入選病歷的局限性。本研究病歷均為住院患者,這部分患者多年齡偏大,病情較重,以鑒別診斷病歷較多。因此,患者的代表性較差。(2)本研究為回顧性研究,所收集的部分患者資料存在缺失問題,因此在統計學分析時會造成分析結果的不準確性。(3)樣本量有限,因此不能形成較為穩定的臨床決策樹,盡管應用重復模擬的策略彌補了對決策樹評價方面的缺陷,但仍不能解決篩選穩定決策樹進一步在臨床進行前瞻性研究的問題。(4)患者僅來源于同一家醫療機構,致使所形成的決策樹外推性不能得到有效的驗證。(5)對照組選擇單一。僅選擇了惡性胸腔積液作為對照組,盡管該病為TBP最重要的鑒別診斷疾病之一,但是只有對多種相關的疾病進行比較,才能形成真正有效的臨床診斷決策樹。(6)沒有設立其他用于TBP診斷試驗作為對照,因此對于臨床診斷決策樹診斷TBP的實際效力還不能最終明確。盡管如此,根據本研究得到的相應的研究結果,我們認為已經達到了研究之初設定的研究目標,并且為今后的臨床研究提供了相關的研究線索及依據。
綜上所述,臨床診斷決策樹方法是診斷TBP的有效臨床策略之一,如進一步進行相關的循證醫學研究,有望解決目前TBP診斷手段缺乏和主觀偏移性等問題。
[1] Light RW. Update on tuberculous pleural effusion. Respirology, 2010, 15(3):451-458.
[2] Thomas R, Lee YC. Causes and management of common benign pleural effusions. Thorac Surg Clin, 2013, 23(1): 25-42.
[3] 陳紅兵, 周志紅, 賀潤年, 等. 熒光定量PCR 技術在結核桿菌檢測中的應用. 實用醫學雜志, 2008, 24(21):3765-3767.
[4] 貝政平, 蔡映云. 內科疾病診斷標準.2版. 北京:科學出版社, 2006.
[5] Wang J, Crawl D, Altintas I. A framework for distributed data-parallel execution in the kepler scientific workflow system. Procedia Computer Science,2012,9(11):1620-1629.
[6] 明鶴, 張應應. 基于R軟件分析兩組專家對五個葡萄酒樣品的評分數據. 統計學與應用, 2014, 3(4): 133-140.
[7] 張義宏, 張紅梅, 沈景昊, 等. 用積分模型診斷結核性胸膜炎的價值研究. 中華醫院感染學雜志,2014,24(18):4512-4514.
[8] Porcel JM, Alemán C, Bielsa S, et al. A decision tree for differentiating tuberculous from malignant pleural effusions. Respir Med, 2008, 102(8):1159-1164.
[9] 陳藹祥, 陳智鋒. ADST: 用機器學習方法鑒別結節病和肺結核. 計算機科學, 2014, 41(S1): 103-109,138.
(本文編輯:李敬文)
A preliminary study of decision tree in clinical diagnosis of tuberculous pleurisy
KONGZhong-shun,LIUJing-ming,GAOMeng-qiu,HUANGMai-ling.
TheSecondWardofTBDepartment,BeijingChestHospital,CapitalMedicalUniversity,Beijing101149,China
HUANGMai-ling,Email:huangmailing@163.com
Objective To form comprehensive diagnosis strategy of tuberculous pleurisy (TBP) using the decision tree in the clinical, and to evaluate the value of decision tree in diagnosis of TBP. Methods Based on inclusion criteria of TBP and malignant pleural effusion, 314 patients from Beijing Chest Hospital affiliated to Capital Medical University between January 2014 to December 2015 were retrospectively studied. These patients were divi-ded in to TBP group (205 cases) and malignant pleural effusion group (109 cases). And the comprehensive data were randomly divided into the training sample data set and validation sample data set according with the ratio of 3∶1 using random number statistics, and then a diagnosis tree for clinical diagnosis of TBP were builded, which was used to verify validation sample data and calculate detection effect value, in order to verify the comprehensive diagnosis strategy. Results A single factor statistical analysis was made on 25 indexes of constructing decision tree in the clinical and it was found that, 16 indexes were statistically significant between TBP group and malignant pleural effusion group. A total of 1000 simulated experiments were carried out based on the clinical decision tree, the avera-ge utilization of the 1000 decision trees constructed by the whole cycle is 8.57±1.63. According to the algorithm of relevant evaluation indexes of the experimental results, the sensitivity for diagnosis of TBP by the constructed clinical decision tree was 98.14% and the specificity was 93.64%, the accuracy was 95.01%. According to the contribution of the indexes in the decision tree, the front 9 indexes were the pleural effusion, erythrocyte sedimentation rate, fever, pleural effusion C-reactive protein, age, blood tuberculous antibody, blood T lymphocyte spot test B, sex and fatigue,etc. Conclusion The clinical decision tree is one of the effective methods for differentiating TBP from malignant pleural effusion.
Tuberculosis, pleural; Diagnosis; Decision trees
10.3969/j.issn.1000-6621.2016.06.005
101149 首都醫科大學附屬北京胸科醫院內二科
黃麥玲,Email:huangmailing@163.com
2016-02-22)