999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的乳腺癌預測研究

2022-04-29 17:56:08張浪張星錢佳怡楊霜玲
計算機應用文摘 2022年19期
關鍵詞:機器學習相關性乳腺癌

張浪 張星 錢佳怡 楊霜玲

摘要:通過對kaggle官網關于乳腺癌的相關數據集的分析,文章選取了數據集中相關性較強的10個指標,對各個指標進行數據處理,使用隨機森林、XGBoost、相關性分析進行模型建立分析。通過機器學習,得到相關結果以及準確率、精準率、召回率和F1,并通過比較不同算法之間準確率、精確率的差異,得出最優的預測研究方案機制。通過模型對比評價,XGBoost算法的準確率、精確率等均在93.5%以上,隨機森林算法的準確率、精確率等均為92.4%。相比之下,XGBoost模型預測效果較佳。利用機器學習研究乳腺癌的預防預測,并應用于實踐,對乳腺癌早期診斷有著十分重要的意義。

關鍵詞:機器學習;乳腺癌;隨機森林;XGBoost;相關性

中圖法分類號:TP181文獻標識碼:A

Breast cancer prediction research based on machine learning

ZHANG Lang,ZHANGXing,QIANJiayi,YANGShuangling

(Guizhou Medical University,Guiyang 550025,China)

Abstract:Based on the analysis of the data set related to breast cancer on kaggle official website,10 indicators with strong correlation in the data set were selected for data processing.Random forest, XGBoost and correlation analysis were used for model establishment and analysis.Relevant results, accuracy,accuracy,recall and F1 were obtained through machine learning,andtheoptimal prediction research scheme mechanism was obtained by comparingthe difference of accuracy and accuracy among different algorithms. According to the evaluation of model comparison,the accuracy and accuracy of XGBoost algorithm are above 93.5%,and those of random forest algorithm are both 92.4%.XGBoost model has better prediction effect in comparison.It is of great significance for the early diagnosis of breast cancer to study the prevention and prediction of breast cancer with machine learnig and apply it into practice.

Key words: machine learning, breast cancer,randomforests,XGBoost,dependency

1 研究背景

乳腺癌是乳腺細胞在內外環境因素影響下發生了異常細胞增殖反應而最終失控導致癌變的臨床現象。其病變初期常表現出的癥狀為出現乳房腫塊、乳頭溢液、腋窩淋巴結的明顯充血腫大或壓痛感等各種局部癥狀,晚期患者也可能因淋巴結被癌細胞直接感染,導致發生了腫瘤及遠處組織淋巴性轉移,出現了乳腺周圍多部位淋巴器官良性增生及病變,甚至可能威脅乳腺患者的生命[1]。根據醫療數據顯示,全球乳腺癌的發病率逐年升高,這對社會經濟發展造成嚴重影響,乳腺癌的早期診斷,尤其是當病灶尚不能被觸及時,若能及時發現,可以明顯改善預后。人工智能的發展可以協助醫生工作,幫助組織、理順和簡化診斷程序或其他醫療決策過程。利用數學模型以及統計方法分析數據資料,能夠依據乳腺癌的相關特征對乳腺癌進行細致分類,從而應用于臨床,實現對不同個體的診斷和預測。機器學習算法在乳腺癌預測的應用,有利于乳腺癌的風險評估,從而幫助患者了解自身疾病特征,達到預防疾病的目的;對乳腺癌進行分級診斷,從而根據特征施行相對應的治療方案,這對乳腺癌的“對癥下藥”、分級診斷和預防有著特別重要的意義。

2 研究現狀

在以計算機學科為研究對象的背景下,很多學者應用理論與技術的結合,以提高乳腺癌預測的檢測水平。乳腺癌是乳腺上皮細胞在多種致病因子的作用下,發生增殖失控的現象。劉宇等[2]將聚類算法與XGBoost算法結合在一起,應用K?means算法對所收集的數據按照其各自的特征進行了區分,并且利用XGBoost算法對乳腺癌進行了預測和分析。國內外專家學者針對乳腺癌的研究已經取得了一定的成果,隨著醫療信息化的發展,人們開始使用信息技術解決乳腺癌診斷治療中的問題,目前利用特征因素對乳腺癌進行預測是該領域研究的熱門。并且,隨著乳腺癌研究的深入,人們意識到單一的生理指標并不能對乳腺癌做出很好的預測,所以開始基于大量數據來分析、挖掘各種指標之間的聯系以及對結果的影響,從而建立起一些常見的乳腺癌的預警模型[3]。比如,DL 模型幫助患者提前五年預測乳腺癌,實現及早確診、及早治療;我國自主研發的治療乳腺癌抗 HER2單抗創新藥伊尼妥單抗打破進口藥壟斷。

3 數據及可視化

本文數據來源于kaggle官網關于乳腺癌的公開數據。樣本數據共569條,包括10類影響指標,即半徑、紋理、細胞核周長、細胞核面積、平滑程度、緊密度、凹度、凹點、對稱性、分形維數。通過對不同類型數據的整理,使用機器學習算法對數據進行定量和定類分析及訓練。數據變量如表1所列。

圖1為利用各類指標數據構建相的關系數熱力圖,樣本呈現正太分布狀態。組織核的平均面積與半徑和參數的均值呈強正相關;一些參數中度正相關( r 在0.5~0.75之間)的是凹度和面積,凹度和周長等;同樣,可以看到 fractal_ dimension 與半徑、紋理、參數平均值之間存在一些強烈的負相關。由此可以推斷,乳腺腫塊的細針抽吸物(FNA)半徑、周長、面積、緊密度、凹度和凹點的平均值可用于癌癥的分類。這些參數的較大值傾向于顯示與惡性腫瘤的相關性。質地、平滑度、對稱性或分維數的平均值并未顯示出較好的診斷偏好。

4 實驗過程和結果分析

本文選取相關性分析、隨機森林、XGBoost三種機器學習方法對乳腺癌吸針抽物相關特征進行對比分析,以實現對乳腺癌的早期預測。通過統計產品與服務解決方案軟件 SPSS 進行算法分析,建立測試集和訓練集;以預測分析結果中的預測準確度、精確率、召回率、F1為主要評判參考指標;同時,通過建立混淆矩陣,對預測分析模型中的實際可用于預測對象的預測能力水平等進行綜合量化與評判。通過統計產品與服務解決方案軟件 SPSS 進行算法分析可得隨機森林和XGBoost特征重要性的結果分析,結果如圖2所示。

圖2展示了各特征(自變量)的重要性比例。通常情況下,特征越多分類效果就越好。但是,使用過多的特征會大幅增加模型運算量和模型運算的時間、費用等成本,降低整個模型的平均運算效率。因此,本文對相關數據進行了特征選擇,隨機森林和XGBoost按照數值大小呈正比,表現出重要性程度高低,計算出特征重要性。通過隨機森林特征重要性排名進行結果比較,對特征進行分析可知,面積、周長、半徑能夠較為直接衡量細胞核的相關特征,同時凹縫、凹度也屬于重要的特征值,有較強的區分度;對比XGBoost特征可知,凹度、周長、半徑能夠較為直接衡量細胞核的相關特征,同時凹縫、面積也屬于重要的特征值,有較強的區分度。對特征值取平均值,在統計上平均值反映出的是更加普遍的情況,具有更強的可用性。

訓練數據集是指構建模型時使用的樣本集,而測試數據集是指對最終模型進行性能評估的數據集,通過矩陣工廠 MATLAB、統計產品與服務解決方案 SPSS 進行混淆矩陣熱力圖分析。

混淆矩陣利用了準確率 A( Accuracy)、精確率 P (Precision)、召回率 R(Recall)和 F1四個評價指標來進行定量和評估分類器系統的分類效果與性能。準確率表示分類正確的樣本數在整個樣本中所占的比例,準確率越高,則預測越準確;精確率表示分類正確的正類樣本數占分類為正類樣本總數的比例;召回率表示分類正確的正類樣本數占原正類樣本數的比例; F1是精確率和召回率之間的折中,F1測度值越高,則分類效果越好。各指標的計算公式如表2所列。

其中,TP =真正例,TN =真負例,FP =假正例,FN =假負例,ncorrect=TP+TN,ntotal=TP+TN+FP+FN

由表3可知,在相同的數據集下,XGBoost分類的準確率為93.6%,而隨機森林的準確率為92.4%,其準確率越高說明算法越好。由此可見,XGBoost算法比隨機森林精準。F1值綜合了精確率與靈敏度的大小,由表3可知,在 F1值方面,XGBoost分類模型的 F1高于隨機森林分類模型1.2%,精確率高1.1%,召回率高1.2%。本文認為,通過對準確率、F1值、召回率、精確率的對比,XGBoost分類模型比隨機森林分類模型有所提高,因此可以認為該模型對輔助醫生診斷乳腺癌,對乳腺癌分類預測研究具有較大的意義,有較強的可行性。

5 結論

本文著重對乳腺癌的分類預測進行研究,通過對數據的處理,建立相關預測模型,并對模型準確度進行對比評價。模型顯示,乳腺吸針抽物的凹度、周長、半徑、面積對乳腺癌早期監測有較好的指標作用,這對如何實現低成本、檢測快、無副作用的乳腺癌患者的分類預測非常重要。同時,對于慢性疾病管理也具有重要意義,但是由于收集資料和時間有限,未來的研究中,需要從以下方向進行改進:(1)慢性疾病是一類疾病的總稱,本文僅構建了乳腺癌疾病預測和預測系統,接下來可以對其他慢性疾病的預測進行研究:在建模時選取 UCI 公開數據庫里相關數據,一方面在區域性和時限性存在缺陷,另一方面數據量有限,在建立模型時可能導致模型欠擬合,未來可以采用不同的數據集對模型進行修正,以提高預測的準確性;(2)對于慢性疾病患者而言,做好康復和護理是必不可少的一步,這也是醫護人員所關注的重點之一,所以未來可以在該系統上進行功能完善,建立“醫護康”一體化信息平臺,實現對慢性疾病患者的全生命周期管理。

參考文獻:

[1] 祝江濤.分析乳腺癌患者術后睡眠質量及相關影響因素[J].世界睡眠醫學雜志,2021,8(8):1330?1331.

[2]劉宇,喬木.基于聚類和XGboost算法的心臟病預測[J].計算機系統應用,2019,28(1):228?232.

[3]劉亮.機器學習算法在疾病診斷中的應用研究[ D].貴陽:貴州大學,2020.

作者簡介:

張浪(2001—),本科,研究方向:數據分析與圖像處理。

張星(2001—),本科,研究方向:XGBoost與相關性分析。

錢佳怡(2003—),本科,研究方向:隨機森林。

楊霜玲(2001—),本科,研究方向:數據挖掘。

猜你喜歡
機器學習相關性乳腺癌
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
乳腺癌是吃出來的嗎
胸大更容易得乳腺癌嗎
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于Kronecker信道的MIMO系統通信性能分析
科技視界(2016年21期)2016-10-17 17:37:34
小兒支氣管哮喘與小兒肺炎支原體感染相關性分析
腦梗死與高同型半胱氨酸的相關性研究(2)
腦梗死與高同型半胱氨酸的相關性研究
主站蜘蛛池模板: 成人av手机在线观看| 尤物精品国产福利网站| 99精品免费欧美成人小视频| 成人a免费α片在线视频网站| 国产三区二区| 亚洲一区二区三区在线视频| a色毛片免费视频| 99九九成人免费视频精品| 色综合天天娱乐综合网| 亚洲av无码片一区二区三区| 免费人成网站在线观看欧美| 91九色国产porny| 国产女人18毛片水真多1| 欧美特黄一级大黄录像| 成人日韩视频| 9丨情侣偷在线精品国产| 免费激情网址| 国产在线啪| 色亚洲激情综合精品无码视频| 91亚洲国产视频| 亚洲精品国产自在现线最新| 天天综合亚洲| 在线精品欧美日韩| 中文字幕在线不卡视频| 91小视频在线观看| 日韩欧美高清视频| 国产va欧美va在线观看| 久久久久亚洲Av片无码观看| AV在线麻免费观看网站 | 999福利激情视频| 人人艹人人爽| 成人年鲁鲁在线观看视频| 午夜国产理论| 99精品热视频这里只有精品7| 成人在线不卡视频| 午夜日b视频| 97久久人人超碰国产精品| 日韩欧美中文字幕在线精品| 亚洲精品视频免费看| 欧美激情,国产精品| 亚洲国产欧洲精品路线久久| 美女免费黄网站| 国产精品污污在线观看网站| 亚洲国产av无码综合原创国产| 欧美综合一区二区三区| 色妞www精品视频一级下载| 伊人天堂网| 九九热精品在线视频| 久久黄色毛片| 国产成人综合亚洲欧洲色就色| 日本国产精品| 亚洲精品福利视频| 国产乱论视频| 国产精品va免费视频| 欧美有码在线观看| 国产精品九九视频| 国产激情在线视频| 国产成本人片免费a∨短片| 丰满的少妇人妻无码区| 麻豆精品在线播放| 91探花在线观看国产最新| 日本人真淫视频一区二区三区 | 69av在线| 99视频只有精品| 亚洲精品福利网站| 亚洲成a人片在线观看88| 精品午夜国产福利观看| 国产精品视频久| 日韩欧美中文亚洲高清在线| 中文无码精品A∨在线观看不卡| 色婷婷丁香| 亚洲自偷自拍另类小说| 国产精品任我爽爆在线播放6080 | 另类综合视频| 成人一级免费视频| 一本大道AV人久久综合| 久操中文在线| 国产福利免费在线观看| 国产乱人伦精品一区二区| 国产成人久久综合777777麻豆 | 亚洲毛片一级带毛片基地| 乱人伦99久久|