999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹及支持向量機與深度學習模型在肝癌鑒別診斷中的比較研究

2023-12-29 00:00:00黃辛迪黃慧劉佳俊丁長松
醫學信息 2023年15期

摘要:目的" 使用數據挖掘技術研究肝功能檢查數據,分析肝功能檢查指標與肝癌診斷的關聯,探究肝癌早診斷、早治療的輔助數據分析方法。方法" 構建決策樹C4.5模型并提取決策方法,并以Bagging方法優化;采用網格劃分法和粒子群優化算法優化支持向量機模型;構建多層感知機(MLP)和卷積神經網絡(CNN)進行性能比較。基于決策樹和SVM模型進行特征屬性分析和最優特征子集選擇。結果" Bagging決策樹模型、SVM、MLP模型的10交叉檢驗準確率分別為95.18%、95.60%、90.17%,測試準確率分別為94.34%、93.40%、89.78%。在肝功能檢查指標中,堿性磷酸酶、谷丙轉氨酶、天門冬氨酸轉氨酶、年齡、直接膽紅素是主要貢獻指標,三指標聯合診斷對肝癌預測率達86.08%。結論" 決策樹、支持向量機、多層感知機建立的肝癌分類器模型都可用于肝癌輔助診斷,SVM模型略優,預測模型對肝癌早期鑒別有較好的輔助作用。

關鍵詞:肝癌;決策樹;支持向量機;深度學習;多層感知機;卷積神經網絡

中圖分類號:R735.7" " " " " " " " " " " " " " " " "文獻標識碼:A" " " " " " " " " " " " " " " " "DOI:10.3969/j.issn.1006-1959.2023.15.012

文章編號:1006-1959(2023)15-0070-05

Comparative Study of Decision Tree, Support Vector Machine and Deep Learning Model

in Differential Diagnosis of Liver Cancer

HUANG Xin-di1,HUANG Hui1,LIU Jia-jun1,DING Chang-song1,2

(1.School of Information Science and Engineering,Hunan University of Chinese Medicine,Changsha 410208,Hunan,China;

2.Big Data Analysis Laboratory of Traditional Chinese Medicine in Hunan Province,Changsha 410208,Hunan,China)

Abstract:Objective" To study liver function test data with data mining technology, analyze the correlation between liver function test indicators and liver cancer diagnosis, and explore methods for early diagnosis and early treatment of liver cancer.Methods" The decision tree C4.5 model was constructed and the decision method was extracted and optimized by Bagging method. The grid division method and particle swarm optimization algorithm were used to optimize the support vector machine model. Multi-layer perceptron (MLP) and convolutional neural network (CNN) were constructed for performance comparison. Based on decision tree and SVM model, feature attribute analysis and optimal feature subset selection were carried out.Results" The 10-cross-check accuracy rates of Bagging decision tree model, SVM, and MLP model were 95.18%, 95.60%, and 90.17%, respectively, and the test accuracy were 94.34%, 93.40%, and 89.78%, respectively. Among the liver function test indicators, alkaline phosphatase, alanine aminotransferase, aspartate aminotransferase, age and direct bilirubin were important indexes in the diagnosis of liver cancer with three-index combined diagnosis up to 86.08% in accuracy.Conclusion" The liver cancer classifier models established by decision tree, support vector machine and multilayer perceptron can all be used in diagnosis of liver cancer, SVM model slightly better. The prediction models are supplementary measures for early identification of liver cancer.

Key words:Liver cancer;Decision tree;Support vector machine;Deep learning;Multi-layer perceptron;Convolutional neural network

原發性肝癌(primary hepatic carcinoma)是全球最常見的惡性腫瘤之一,占癌癥發病總數的4.7%和癌癥致死總數的8.3%,也是腫瘤致死病因的前3位,嚴重威脅民眾健康[1]。原發性肝癌具有病情進展快、腫瘤轉移速度快、術后復發率高等臨床特點,早診斷、早干預、早治療是降低肝癌死亡率的有效方法[2,3]。近年來,現代醫學研究在肝癌致病因素、血清學生物標志物、基因組學、代謝組學、病理、生存分析等方面積累了大量相關數據[4,5],而大數據、人工智能等技術的發展為肝癌的危險因素分析[6]、有效診斷[7]、分型[8]、輔助治療[9]等提供了有效輔助手段。臨床常應用血清甲胎蛋白(a-fetoprotein,AFP)、GGT、GGT/ALT[10,11]等標志物篩查判斷肝癌,但AFP不高者也不能排除患有肝癌的可能性,有30%~40%的肝癌患者AFP呈陰性[12]。加之醫學影像檢查費用高、肝癌患者早期癥狀不明顯、就診意識薄弱[13],因此體檢常規肝功能檢查對肝癌診斷更具大眾化、方便快捷的優勢[14],對增加肝癌早期診斷的靈敏性和普及性具有重要作用。本研究使用數據挖掘技術研究肝功能檢查數據,分析肝功能檢查指標與肝癌診斷的關聯,探究肝癌早診斷、早治療的輔助數據分析方法。

1資料與方法

1.1資料來源" 研究數據來自印度Ramana、Babu等教授公布的印度肝癌患者數據集,共583條,其中肝癌患者數據416條,非肝癌患者數據167條。數據集中男性患者數據441條,女性患者數據142條。數據集有10個屬性特征和1個標記位,見表1。

1.2方法

1.2.1數據預處理" ①處理缺失值:屬性10 A/G存在4個(1%)空缺值,采用均值補全;②屬性age采用等寬離散化,age離散化用于決策樹算法中計算信息增益;③由于數據集中的正反例數據不平衡,采用隨機抽樣緩解數據不平衡問題;④采用隨機抽樣方法劃分訓練集與測試集;⑤使用PCA主成分分析法,計算屬性的方差貢獻率進行數據降維。

1.2.2機器學習方法" ①決策樹算法:采用決策樹C4.5算法以最大信息增益率的屬性作為分裂條件,對屬性設置規則,使得分支節點所包含的樣本盡可能屬于同一類別,最終自底向上剪枝構建決策樹[15]。使用WEKA3.8.0軟件,運用決策樹C4.5算法進行模型構建與預測,調試相關參數得到實驗結果。基于sklearn運用Bagging算法構建多棵決策樹并行,提高決策準確率;②支持向量機算法:SVM使用超平面對數據集進行分類,本研究采用最小化經驗風險和結構風險的線性組合和隨機梯度下降求解最優分割超平面,實現支持向量到決策超平面的距離最大化[16]。SVM在不同核函數下構建的分類模型性能不同,本研究選用RBF徑向基函數性能最優。基于Python和sklearn,采用網格劃分方法和粒子群優化算法對算法參數懲罰因子C和核參數g進行優化構建SVM模型;③深度學習方法:MLP輸入輸出層中包含多個隱層,以全連接神經網絡對信息特征進行提取和整合實現數據分類;CNN中使用權值共享卷積核層級式特征提取的神經網絡實現數據分類。深度學習模型經過超參數和參數調試和優化,確定最終模型。使用Pytorch完成深度學習模型的構建,深度學習模型采用多層感知機(MLP)和卷積神經網絡(CNN)。

1.2.3特征屬性分析" ①屬性重要性分析:采用基于Bagging的決策樹模型,對每棵決策樹計算特征不純度再取平均,根據平均不純度大小對特征重要性排序,不純度使用Gini值;對每棵決策樹加入隨機噪聲,計算前后的平均袋外數據誤差,即對樣本的準確率的影響,根據準確率對特征的重要性進行排序;②特征子集選擇:使用SVM模型作為學習器和Wrapper包裝法,采用循環刪除單個重要性低的特征和循環加入重要性高的特征相結合的混合搜索方式。

2結果

2.1數據預處理結果" 缺失值處理:A/G有4個空缺值,以該項均值0.947補全。age屬性離散化用于決策樹判別,age分成3組采用等寬離散化,取值范圍分別為[min,32.7]、[32.7,61.3]、[61.3,max]。緩解正反例數據不平衡:采用隨機抽樣得到正反兩類類別分別為402例和181例,使正反比例接近于2∶1。建立訓練集和測試機:采用隨機抽樣得到477例為訓練集,106例為測試集,用于后續建立判別模型。數據降維:使用PCA降維,經計算得前9個屬性的方差貢獻率達到99.438%,故刪去方差貢獻率最低的屬性ALB,見圖1。

2.2決策樹算法預測" 采用C4.5算法建立決策樹,對置信度、葉子節點最小實例數、子樹上升3個參數進行調節,確定對應取值為0.25、2和True時,隨機抽樣下決策樹的總準確率為92.45%。提取的決策規則見表2,基于此規則采用Bagging算法構建決策樹模型,訓練后模型過擬合,在訓練集上準確率達到100.00%,且采用Bagging算法的決策樹預測結果高于單一決策樹模型,見表3。

2.3支持向量機SVM預測" 由于支持向量機選擇只有2個參數,使用網格劃分方法準確率十分接近,綜合考慮最終選擇結果穩定的網格劃分方法得出的參數,即(C,g)=(1,222.8609)。10折交叉檢驗和測試集的預測結果見表4、圖2。

2.4深度學習模型預測" MLP模型包含3個隱層,隱層節點數分別為20、40、20,學習率設置為0.003。CNN模型包含2個隱層,隱層節點數為30,卷積核大小為5,步長為1,padding為3,學習率為0.001。模型的訓練和測試采用10折交叉驗證,結果顯示3層MLP和2層CNN模型基本已達到預測功能,見表5。

2.5基于Bagging的決策樹模型特征屬性分析" 根據不純度和準確率2種方式,建立模型來對特征的重要性排序,結果顯示age特征比較重要,而特征TP、ALB、sex和ALB重要性較低。此外,特征DB在基于不純度的方法中重要性排名靠后,而在基于準確度的方法中排名靠前,見圖3、圖4。

2.6支持向量機SVM特征子集選擇" 通過循環搜索策略,結果顯示ALP、ALT和AST三個指標的聯合診斷和age、ALP和ALT三指標的聯合診斷的性能都達到最優,陽性檢出率為86.08%,約登指數為0.641,見表6。

3討論

近年來,基于醫學影像、生化指標的疾病預測研究顯示,運用機器學習、深度學習、遷移學習等建立診斷模型具有較高的診斷價值[17,18]。在小數據樣本上,機器學習預測模型預測準確率相較于深度學習模型有一定差異,在醫療診斷逐漸電子智能化的背景下對于疾病診斷的效率及準確率具有輔助作用。

本研究中單一決策樹的10折交叉檢驗準確率為89.10%,決策樹結合Bagging算法的10折交叉檢驗準確率為95.18%。因為決策樹結合Bagging算法強強制約構建多棵決策樹,通過投票機制可以解決決策樹容易過擬合的問題,提高模型的準確率,可并行化提高建模速度。但是由于創建了多棵決策樹,使用的多數投票規則會使得模型變得更加復雜,剝奪了單棵決策樹直觀可解釋性,且易過擬合,其泛化性能需進一步研究。

SVM模型的10折交叉檢驗準確率為95.60%,且所有評估指標都優于單一決策樹模型,與Bagging+決策樹模型的判斷效果差異不大。以上結果提示,參數選擇時使用交叉檢驗的準確率作為評優標準有利于提高泛化能力。本研究結果還發現,不均衡類問題對算法的性能優劣有較大的影響,提示預測模型只能作為輔助作用而不能完全依賴,對于診斷結果還要依據實際情況分析。

另外,深度學習模型一般需要大量數據進行特征學習,而本研究的數據集有限,模型極易產生過擬合和欠擬合。在本研究數據集特征較為有限的情況下,結果顯示3層MLP和2層CNN模型基本已達到預測功能,準確率在90%左右,與本研究中的單一決策樹模型基本相當,略低于基于Bagging的決策樹模型和SVM模型。可見,多層感知機MLP在本研究小數據集和小模型規模下已達到較高的準確率,另外可能由于樣本中每個特征本身較獨立,因此MLP在本研究中優于CNN模型。王鈺涵等[19]在基于決策樹和神經網絡的高血壓病危險因素研究中也發現,決策樹和MLP神經網絡的準確率較優。

從本研究中決策樹的判別條件來看,提取的反例判別方法主要為ALP、ALT、TB、DB、age的值域判別組合。在R5、R6規則中,ALP≥194時,聯合AST、TB、A/G等進行多重判別,也可排除其肝癌可能。ALP、ALT和AST在決策樹和SVM模型中都是排名較前的重要特征。相關研究也顯示[20],AFP聯合血清酶可提高原發性肝癌的診斷陽性率。多指標的聯合診斷效果優于單指標的效果,本研究中ALP+ALT+AST、age+ALP+ALT、sex+DB+ALB三個指標的聯合診斷的性能在所有指標集合中診斷效果較好,也就是說肝癌的判別指標中ALP、ALT、AST、age是主要影響因素,陽性檢出率達到86.08%,對于肝癌預測和診斷具有一定的輔助作用。基于準確率的Bagging決策樹模型中,age特征比較重要,而特征TP、ALB、sex和A/G重要性較低,特征DB在基于不純度的方法中重要性排名靠后,而在基于準確度的方法中排名靠前,可能因為TB和DB存在較大相關性。

綜上所述,決策樹、支持向量機、多層感知機建立的肝癌分類器模型都可用于肝癌輔助診斷,SVM模型略優,預測模型對肝癌早期鑒別有較好的輔助作用。

參考文獻:

[1]劉宗超,李哲軒,張陽,等.2020全球癌癥統計報告解讀[J].腫瘤綜合治療電子雜志,2021,7(2):1-14.

[2]中華人民共和國國家衛生健康委員會.原發性肝癌診療指南(2022年版)[J].腫瘤防治研究,2022,49(3):251-276.

[3]Singal AG,Pillai A,Tiro J.Early detection, curative treatment, and survival rates for hepatocellular carcinoma surveillance in patients with cirrhosis: a meta-analysis[J].PLoS Med,2014,11(4):e1001624.

[4]王敏,陳澤峰,韓志偉,等.基于TCGA數據庫分析肝細胞肝癌組織中HMMR表達與患者臨床特征及預后的相關性[J].現代腫瘤醫學,2021,29(7):1173-1178.

[5]王玉,楊雪,靳曉杰,等.基于中醫藥整合藥理學平臺、GEO數據庫芯片及分子對接探討大黃抗肝癌的作用機制[J].中草藥,2020,51(20):5207-5219.

[6]Ibragimov B,Toesca DAS,Chang DT,et al.Deep learning for identification of critical regions associated with toxicities after liver stereotactic body radiation therapy[J].Med Phys,2020,47(8):3721-3731.

[7]Nishida N,Yamakawa M,Shiina T,et al.Current status and perspectives for computer-aided ultrasonic diagnosis of liver lesions using deep learning technology[J].Hepatol Int,2019,13(4):416-421.

[8]Owens AR,McInerney CE,Prise KM,et al.Novel deep learning-based solution for identification of prognostic subgroups in liver cancer (Hepatocellular carcinoma)[J].BMC Bioinformatics,2021,22(1):563.

[9]Zheng C,Chen L,Jian J,et al.Efficacy evaluation of interventional therapy for primary liver cancer using magnetic resonance imaging and CT scanning under deep learning and treatment of vasovagal reflex[J].Journal of Supercomputing,2021,77(7):7535-7548.

[10]胡仁智,趙世巧,申波,等.血清甲胎蛋白及其異質體和異常凝血酶原對原發性肝癌的診斷價值[J].中華肝臟病雜志,2019,27(8):634-637.

[11]趙曉玲,王晶晶,趙巧玉,等.甲胎蛋白異質體比率在原發性肝癌鑒別診斷中的應用[J].國際檢驗醫學雜志,2016,37(9):1228-1229,1231.

[12]中華人民共和國衛生部.原發性肝癌診療規范(2011年版)[J].臨床肝膽病雜志,2011,27(11):1141-1159.

[13]張子梅.利用機器學習方法識別肝癌早期診斷標志[D].成都:電子科技大學,2021.

[14]鐘銳,張俊.肝功能指標在原發性肝癌中的診斷價值[J].中國現代醫學雜志,2015,25(8):102-105.

[15]聶斌,李歡,羅計根,等.融合GINI指數的C4.5算法的分類研究[J].江西師范大學學報(自然科學版),2019,43(5):469-472.

[16]藺軻,謝俊卿,胡永華,等.支持向量機在ICU急性腎損傷患者住院死亡風險預測中的應用[J].北京大學學報(醫學版),2018,50(2):239-244.

[17]余美慧,袁泉,曾書娥,等.基于超聲圖像的遷移學習模型在乳腺腫塊良惡性鑒別診斷中的價值[J].臨床超聲醫學雜志,2022,24(9):652-656.

[18]吳樹才,王新舉,紀俊雨,等.基于深度學習卷積神經網絡的肺結核CT診斷模型效能初探[J].中華結核和呼吸雜志,2021,44(5):450-455.

[19]王鈺涵,段鵬喆,張鑫,等.基于決策樹和神經網絡的高血壓病危險因素研究[J].世界科學技術-中醫藥現代化,2021,23(8):2784-2794.

[20]趙斌,趙經川,李昭宇.AFP聯合三項血清酶對原發性肝癌的診斷評價[J].寧夏醫學雜志,2010,32(1):20-21.

收稿日期:2022-08-29;修回日期:2022-10-31

編輯/杜帆

基金項目:1.湖南省中醫藥科研計劃重點課題(編號:2020002);2.長沙市自然科學基金項目(編號:kq2202265);3.湖南中醫藥大學校級科研項目(編號:2019XJJJ029)

作者簡介:黃辛迪(1987.10-),女,湖南長沙人,碩士,講師,主要從事中醫藥信息學、大數據技術的研究

主站蜘蛛池模板: 在线永久免费观看的毛片| 欧美亚洲国产日韩电影在线| 国产91丝袜在线播放动漫 | 国产区人妖精品人妖精品视频| 国产成人亚洲精品无码电影| 国产一级二级三级毛片| 国产乱子伦手机在线| 91国内视频在线观看| 亚洲综合片| 国产成人精品三级| 国产一区二区精品高清在线观看 | 无码国内精品人妻少妇蜜桃视频| 亚洲国产看片基地久久1024| 亚洲综合色婷婷| 国产精品hd在线播放| 亚洲一区二区精品无码久久久| 超清无码一区二区三区| 亚洲 欧美 日韩综合一区| 综合天天色| 欧美成人在线免费| 亚洲成人高清在线观看| 国产美女无遮挡免费视频网站| 欧美成人免费一区在线播放| 99免费在线观看视频| 欧美精品aⅴ在线视频| 亚洲欧美不卡视频| AV网站中文| 亚洲国产清纯| 成人毛片在线播放| 97国产在线视频| 亚洲AV无码不卡无码| 日韩123欧美字幕| 国产精品人人做人人爽人人添| 国产噜噜噜| 久久久久国产一级毛片高清板| 亚洲视频免| 日本爱爱精品一区二区| 一级香蕉人体视频| 精品综合久久久久久97超人| 精品人妻AV区| 欧洲熟妇精品视频| 国产手机在线观看| 日本精品视频一区二区| 色老头综合网| 伊人成人在线视频| 欧洲熟妇精品视频| 国产无码制服丝袜| 天堂中文在线资源| AV老司机AV天堂| 99久久国产综合精品2020| 精品国产免费人成在线观看| 在线五月婷婷| 在线日韩一区二区| 国产精品色婷婷在线观看| 97视频在线精品国自产拍| 一级毛片在线播放免费| 中文字幕在线观看日本| 亚洲精品第五页| 日本三区视频| 欧美在线精品一区二区三区| 白浆视频在线观看| 免费人成在线观看成人片| 国产又粗又猛又爽| 91精品亚洲| 999国内精品久久免费视频| 1024国产在线| 国产福利免费在线观看| 亚洲色欲色欲www在线观看| a欧美在线| 四虎国产精品永久一区| 一区二区理伦视频| 在线va视频| 亚洲精品在线影院| 伊人精品视频免费在线| 在线视频亚洲色图| www.国产福利| 国产成人亚洲精品蜜芽影院| 国产精品美女免费视频大全| www.狠狠| 亚洲精品动漫| 亚洲码一区二区三区| 色屁屁一区二区三区视频国产|