999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的口咽癌死亡預測模型構建與研究

2024-06-03 09:11:36潘逸菲
現代信息科技 2024年6期
關鍵詞:機器學習

收稿日期:2023-07-28

DOI:10.19850/j.cnki.2096-4706.2024.06.019

摘? 要:采用機器學習對口咽癌患者一年生存情況構建預測模型,通過比較找到最優模型,以期為相關疾病預后提供可靠的參考指標。選取SEER數據庫中2020年的口咽癌患者2 636例,數據經過SMOTE算法優化后,運用八種機器學習方法建立預測分類模型比較分析。基于隨機森林、決策樹算法的模型相對來說預測性能更佳。機器學習算法建立的預測模型能夠較好地輔助口咽癌臨床診療及預后相關行為。

關鍵詞:口咽癌;機器學習;預測模型;SEER數據庫;SMOTE算法

中圖分類號:TP39;TP301.6;R780.1 文獻標識碼:A? 文章編號:2096-4706(2024)06-0082-05

Construction and Research on Oropharyngeal Cancer Death Prediction Model

Based on Machine Learning

PAN Yifei

(Stomatological College of Nanjing Medical University, Nanjing? 210003, China)

Abstract: Machine Learning is used to construct a prediction model for the annual survival situation of oropharyngeal cancer patients. In order to provide a reliable reference index for the prognosis of related diseases, the optimal model is found through comparison. And 2 636 patients with oropharyngeal cancer in 2020 from the SEER database are selected. After the data are optimized by SMOTE algorithm, eight Machine Learning methods are used to establish a predictive classification model for comparative analysis. The Models based on Random Forest and Decision Tree algorithm have better predictive performance, relatively. The prediction model established by the Machine Learning algorithm can effectively assist the clinical diagnosis and treatment of oropharyngeal cancer and prognostic behaviors.

Keywords: oropharyngeal cancer; Machine Learning; prediction model; SEER database; SMOTE algorithm

0? 引? 言

口咽癌指發生在舌根部、扁桃體、軟腭及咽后壁黏膜的癌性病變,與口腔癌并稱為世界第六大最常見的癌癥[1]。在過去十年內,伴隨著人乳頭瘤病毒因素比例的上升,口咽癌在頭頸部鱗癌中的占比正穩步提高[2],因此迫切需要采取相關措施來預測并降低口腔和口咽癌的發病率及死亡率。

近年來,隨著人工智能的迅速發展,越來越多的領域開始在機器學習的基礎上構建預測模型,在分析大規模數據等方面替代傳統方法,表現出良好的準確率和穩定性。如醫療領域中,面對復雜高維度的醫療數據,機器學習技術可通過建模訓練,學習數據中的內在統計模式和結構,達到預測疾病預后、尋找疾病診斷指標等可輔助臨床診療的目的。

因此國內外許多研究在對疾病的診療探索中已將機器學習作為重要的輔助手段。如Sajjadian等發現機器學習可以較為準確地預測重度抑郁癥的藥物療效,從而輔助抑郁癥的個性化治療[3]。Dong等建立的機器學習模型可為兒科重癥監護急性腎損傷(Acute Kidney Injury, AKI)的診療提供早期預警并采取防治措施[4]。張博超等利用慢性阻塞性肺疾病中急性加重期患者的隨機森林預測模型識別患者肺功能等級[5]。

口腔醫學領域也是如此,Howard等建立的機器學習模型可以較好地預測能從頭頸部惡性腫瘤放化療中獲益的中度風險患者,從而更好地進行治療[6]。吳宇佳等利用基于機器學習構建了可摘局部義齒基牙選擇模型,并對其選擇結果進行合理性評價的方法[7]。此外,機器學習在預測疾病死亡率、3D重建、三維形態計量學、自動化治療計劃和制定個性化手術方案等方面均有廣闊的發展前景。

基于機器學習的廣泛應用和有效性,本研究將采用邏輯回歸(Logistic Regression, LR)、決策樹(Decision Tree, DT)、隨機森林(Random Forest, RF)、樸素貝葉斯(Naive Bayes, NB)、支持向量機(Support Vector

Machine, SVM)、K近鄰(K-Nearest Neighbors, KNN)、梯度提升(Gradient Boosting, GB)、極限梯度提升(Extreme Gradient Boosting, XGBoost)八種機器學習算法建立預測分類模型,通過對比分析,尋找更適合構建口咽癌死亡預測模型的方法,為口咽癌診療預后提供依據。

1? 算法和處理

1.1? SMOTE算法

SMOTE(Synthetic Minority Oversampling Technique)算法指合成少數類過采樣技術。它是在隨機過采樣算法基礎上分析并根據原有少數類樣本人工合成新樣本,從而使訓練集數據分布更均衡[8]。

1.2? 邏輯回歸算法

LR屬于廣義線性回歸模型,可以測量關聯、預測結果和控制混雜變量效應[9]。本研究中,該過程大概為先建立代價函數去代入初步的回歸分類模型,再迭代優化,求解出最優的模型參數,測試驗證模型的好壞。

1.3? 決策樹算法

DT指通過建立可視化的結構圖將每一個決策與對應的結果連接起來,利用一系列的決策節點及其分支條件判斷最后所屬的類別[10]。具體過程為:處理、利用和訓練數據,基于損失函數最小化的原則歸納算法,并建立可讀的規則和決策模型,然后使用決策樹模型對新數據進行預測分析。

1.4? 隨機森林算法

RF是基于分類回歸樹的集成算法。利用自助法重采樣技術,在原始訓練集中,有放回地重復隨機抽取k個樣本生成新的訓練樣本集,再根據自助樣本集生成k個分類樹組成隨機森林。即通過隨機抽樣和在分裂變量中加入隨機性,使樹之間的獨立性增強[11]。

1.5? 樸素貝葉斯算法

NB是以貝葉斯定理為基礎、基于特征條件獨立假設的分類模型。先假設特征詞之間獨立,通過給定的訓練數據集來學習從輸入到輸出過程的聯合概率分布。然后基于學習到的模型,輸入給定的x值,求出使得后驗的概率最大的輸出值Y [12]。

1.6? 支持向量機

SVM的基本模型是定義為特征空間上的間隔最大的線性分類器,其形式為一個凸二次規劃的求解問題。它的目的是在兩個類別之間創建決策邊界,從而能夠從一個或多個特征向量進行預測[13]。

1.7? K近鄰算法

KNN指的是給定一個訓練集,輸入新的實例特征向量,算法識別訓練數據集中具有預定義度量的與該實例最近鄰的k個實例,并從其類別中通過多數表決進行預測及分類[14]。

1.8? 梯度提升算法

GB是提升樹的優化算法,它的基本原理是利用模型損失函數的負梯度信息,得出提升算法中殘差近似值,把新加入的弱分類器訓練后累加擬合到現有的模型中[15],成為新的回歸樹。

1.9? 極限梯度提升算法

XGBoost是一種機器學習算法,它是基于梯度提升算法的若干擴展和改進。它的核心思想是在梯度提升樹算法中引入強化學習技術,通過對目標函數的最優化來提高模型的精度和泛化能力。極限梯度提升原理將多個弱學習器進行串行或并行集成,從而構建強大的集成模型。

2? 資料與方法

2.1? 一般資料

本研究在SEER(Surveillance, Epidemiology, and End Results)數據庫2023年4月發布的“Incidence-SEER Research Data, 17 Registries, Nov 2022 Sub(2000—2020)”中篩選出診斷年份為2020年的患者數據,排除部分信息不全及模糊的數據,最終納入2 636例患者的診療數據。

2.2? 實驗方法

2.2.1? 數據采集及預處理

選取SEER數據庫中2020年就診的2 636例患者信息,進行分析和預處理。在數據處理的過程中,發現生存者和因口咽癌死亡患者分布差別明顯,具體情況如圖1所示。

圖1? 存活者與因口咽癌死亡患者比例

從圖1可知,本研究數據集存在數據不平衡問題,為了保證實驗的合理性和可行性,本文采用SMOTE算法對數據集進行處理。

2.2.2? 特征選擇

本研究考慮到臨床特征的有效性和合理性,選取了與口咽癌預后相關性較大的指標,從流行病學、臨床分期、診療計劃等方面出發,建立了多維度口咽癌死亡預測模型。共選取年齡、性別、種族、原發部位、偏側、TNM分期、淋巴清掃、放化療選擇等22個輸入指征。

2.2.3? 模型構建

用SMOTE算法對數據作不平衡預處理后,先將預處理后的數據以7:3的比例隨機劃分為訓練集及測試集。利用訓練集創建預測死亡預后的模型,然后利用測試集評估模型效果。在Windows 10平臺Python3.8環境下構建LR、DT、NB、RF、SVM、KNN、GB、XGBoost分類預測模型。

2.2.4? 模型評估

在用訓練集構建模型以后,將使用測試集對上述模型的預測進行客觀評價。本研究選取混淆矩陣、準確度、精確度、召回率、ROC曲線面積等多個指標對預測模型作出評價,混淆矩陣如表1所示。

表1? 混淆矩陣評價指標

混淆矩陣 樣本實際類別

正類樣本 負類樣本

樣本預測類別 正類樣本 TP FP

負類樣本 FN TN

基于混淆矩陣,準確度(Accuracy)表示分類正確的樣本數所占比例,如式(1)所示:

(1)

精確度(Precision)表示預測為正類的樣本中真正樣本的數量,是針對“預測結果”的評價指標,如式(2)所示:

(2)

召回率(Recall)是針對“原始樣本”的指標,表示樣本中的分類正確的正例數量,如式(3)所示:

(3)

F1值表示精確度和召回率兩者之間的調和平均值,如式(4)所示:

(4)

Accuracy、Precision、Recall和F1值的值越大,表示機器學習模型的性能越好,預測的效果更為理想。

ROC(Receiver Operating Characteristic Curve)指接受者特征曲線,是反應敏感性及特異性連續變量的一項綜合指標,描述的是分類模型性能隨著其閾值變化而變化的過程。ROC曲線的面積用AUC值表示,是一個重要的評估值。面積值為0.5表示識別能力為0,為隨機分類;面積值越接近于1表示識別能力越強。

3? 評價與分析

對SMOTE算法處理后的數據模型采用Accuracy、Precision、Recall、F1值和AUC進行性能評價后,得到的各項指標值如圖2所示。

圖2? 各算法評價指標值

從圖2結果可以看出,隨機森林、決策樹、梯度提升、極限梯度提升算法在準確度、精確度、召回率、F1值指數方面都優于其他機器學習算法,其中隨機森林和梯度提升算法的優勢更為明顯,分別為98.8%和98.9%,說明這兩種算法預測效果比較準確。

如圖3所示,隨機森林、決策樹、梯度提升、極限梯度提升算法的ROC曲線面積最為理想,其中梯度提升算法最佳。這些算法建立的預測模型可以更好地擬合數據,從而通過部分臨床特征預測口咽癌預后和死亡類型。然而,貝葉斯算法建立的預測模型雖然相對來說AUC值也比較理想,但是,相對于其他算法模型顯得較低,不建議采用。

(a)邏輯回歸算法

(b)決策樹算法

(c)隨機森林算法

(d)樸素貝葉斯算法

(e)支持向量機算法

(f)K近鄰算法

(g)梯度提升算法

(h)極限梯度提升算法

圖3? 各算法ROC曲線

綜上,隨機森林算法和梯度提升算法在多個評價指標上都優于其他機器學習算法,可能是由于兩種算法均屬于集成分類算法,可以較好地適應數據集并減小誤差,具有更優良的性能,從而更好地輔助口咽癌的臨床診療。

本研究討論了多種機器學習方法在口咽癌死亡預測方面的應用和評價,并且從結論可以得出這些機器學習方法均具有較好的統計學意義,但其中不足之處是,機器學習的預測模型缺乏與臨床相關的推理解釋,與臨床特征的診療推斷尚不能達到理論上的融會貫通,還需要進一步的探索。

4? 結? 論

隨著經濟社會的發展和致病因素的流行,口咽癌在頭頸部鱗癌中的占比正穩步提高,因此口咽癌的臨床診療需要得到進一步的優化。本研究通過8種機器學習方法建立口咽癌死亡預測分類模型,SMOTE算法優化后比較分析,發現基于隨機森林、決策樹、梯度提升、極限梯度提升的機器學習模型的性能指標較高,能夠較好地輔助口咽癌臨床診療及預后。其中,隨機森林算法和梯度提升算法在多個評價指標上綜合優于其他機器學習算法,可以在口咽癌死亡和預后的診療中作為良好的輔助診斷工具,為口咽癌的早期診斷和治療提供科學依據,從而為口咽癌患者提供更理想且個性化的治療方案。

參考文獻:

[1] PSYRRI A,PREZAS L,BURTNESS B. Oropharyngeal Cancer [J].Clinical Advances in Hematology & Oncology,2008,6(8):604-612.

[2] MARUR S,D'SOUZA G,WESTRA W H,et al. HPV-associated Head and Neck Cancer: A Virus-related Cancer Epidemic [J].the Lancet Oncology,2010,11(8):781-789.

[3] SAJJADIAN M,LAM R W,MILEV R,et al. Machine Learning in the Prediction of Depression Treatment Outcomes: A Systematic Review and Meta-analysis [J].Psychological Medicine,2021,51(16):2742-2751.

[4] DONG J Z,FENG T,THAPA-CHHETRY B,et al. Machine Learning Model for Early Prediction of Acute Kidney Injury (AKI) in Pediatric Critical Care [J].Crit Care,2021,25(1):288.

[5] 張博超,楊朝,郭立泉,等.基于機器學習的慢性阻塞性肺疾病急性加重預測模型的研究 [J].中國康復理論與實踐,2022,28(6):678-683.

[6] HOWARD F M,KOCHANNY S,KOSHY M,et al. Machine Learning-Guided Adjuvant Treatment of Head and Neck Cancer [J].Journal of Clinical Oncology,2020,3(11):6567.

[7] 吳宇佳,周崇陽,徐子能,等.基于機器學習的可摘局部義齒基牙選擇模型的合理性評價 [J].中國實用口腔科雜志,2023,16(3):333-338.

[8] DABLAIN D,KRAWCZYK B,CHAWLA N V. DeepSMOTE: Fusing Deep Learning and SMOTE for Imbalanced Data [J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(9):6390-6404.

[9] STOLTZFUS J C. Logistic Regression: A Brief Primer [J].Academic Emergency Medicine,2011,18(10):1099-104.

[10] 申泉,羅旭飛,石安婭,等.基于臨床實踐指南決策樹的設計與思考 [J].協和醫學雜志,2022,13(6):1081-1087.

[11] 曹桃云.基于隨機森林的變量重要性研究 [J].統計與決策,2022,38(4):60-63.

[12] 馬剛.樸素貝葉斯算法的改進與應用 [D].合肥:安徽大學,2018.

[13] HUANG S J,CAI N G,PACHECO P P,et al. Applications of Support Vector Machine (SVM) Learning in Cancer Genomics [J].Cancer Genomics Proteomics,2018,15(1):41-51.

[14] GWEON H,SCHONLAU M,STEINER S H. The K Conditional Nearest Neighbor Algorithm for Classification and Class Probability Estimation [J].PeerJ Computer Science,2019,5:e194.

[15] 呂佳.梯度提升回歸樹算法研究及改進 [D].上海:上海交通大學,2017.

作者簡介:潘逸菲(2001—),女,漢族,江蘇淮安人,本科在讀,研究方向:頜面部腫瘤研究與生物信息學結合。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 无码中文字幕精品推荐| 青青青亚洲精品国产| 久久中文字幕2021精品| 久久精品午夜视频| 99久久精品国产综合婷婷| 91久久精品日日躁夜夜躁欧美| 国产第一页亚洲| 国产精品亚欧美一区二区三区| 国产中文在线亚洲精品官网| 国产乱人免费视频| 性喷潮久久久久久久久| 天堂av综合网| 久久精品嫩草研究院| 91精品久久久无码中文字幕vr| 国产欧美中文字幕| 国产成人1024精品下载| 日韩中文无码av超清| 国产亚洲精| 三级视频中文字幕| 毛片久久久| 婷婷开心中文字幕| 精品剧情v国产在线观看| 在线视频亚洲欧美| 日本欧美成人免费| 中日韩一区二区三区中文免费视频 | 麻豆精品在线播放| 2020国产精品视频| 欧美色99| 国产特一级毛片| 制服丝袜亚洲| 久久综合AV免费观看| 欧美亚洲综合免费精品高清在线观看| 国产主播在线一区| 福利小视频在线播放| 国产18在线| 亚洲一区无码在线| 亚洲欧美不卡中文字幕| 国产主播福利在线观看| 亚洲国产精品VA在线看黑人| 无码日韩精品91超碰| 三上悠亚精品二区在线观看| 国产视频大全| 超碰91免费人妻| 高清无码手机在线观看| 国产成人亚洲欧美激情| 久久精品aⅴ无码中文字幕| 欧亚日韩Av| 88av在线| 亚洲天堂在线免费| 国产精品人莉莉成在线播放| 久久女人网| 亚洲欧美在线综合图区| 91精选国产大片| 欧美日韩精品一区二区在线线 | 久久情精品国产品免费| 国产精品不卡永久免费| 最新国产网站| 亚洲男人天堂久久| 亚洲天堂色色人体| 免费jizz在线播放| 国产麻豆精品在线观看| 国产精品成人免费视频99| 久久99国产综合精品1| 色综合a怡红院怡红院首页| 亚洲天堂高清| 免费人欧美成又黄又爽的视频| 成人av专区精品无码国产| 久久久久人妻一区精品色奶水| 国产精品伦视频观看免费| 国产视频入口| 5555国产在线观看| 狠狠色综合网| 日韩高清成人| 综合色天天| 久久亚洲国产一区二区| 亚洲精品你懂的| 国产精品任我爽爆在线播放6080| 国产产在线精品亚洲aavv| 亚洲人成在线精品| 9啪在线视频| 国模私拍一区二区| 999国内精品视频免费|