999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于檢驗大數據的多尺度肺惡性腫瘤預測模型研究

2023-08-26 04:13:24王瑩顧大勇
電腦知識與技術 2023年20期
關鍵詞:機器學習大數據

王瑩 顧大勇

關鍵詞:肺惡性腫瘤;醫學檢驗;大數據;機器學習

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2023)20-0040-03

0 引言

肺惡性腫瘤常稱為肺癌(Lung Cancer,LCA) ,LCA 在我國是最常見的高發惡性腫瘤, 發病率和死亡率均位列惡性腫瘤首位,全球近40%的LCA患者來自我國[1]。LCA在發病早期無典型或特殊臨床表現,容易被忽視,多數LCA患者就診時已進入中、晚期,治療效果不佳。因此,LCA的早期診斷對于患者能否及時接受治療顯得十分重要。隨著科技的進步,人工智能、生物標志物和影像學相結合為LCA篩查開辟了新途徑[2],如血清學指標聯合多層螺旋CT可提高LCA檢出率,并且能夠準確區分疾病類型[3]。血液檢驗具有近似無創、安全性高、操作簡單易獲取以及價格低廉等優點,LCA相關血清學腫瘤標志物的檢測推薦為疑似LCA患者的必檢項目之一,但單獨檢測的這些標志物的特異性、靈敏度不高,聯合檢測多項腫瘤標志物已逐漸成為LCA診斷的重要輔助手段[4]。研究表明,應盡可能擴大生物標志物的篩選范圍[5]。異常增殖的腫瘤細胞隨著血液進入各個組織器官,在全身各部位會有不同的表現,分泌的細胞因子及各種功能蛋白會造成各項檢驗指標發生變化,即使檢驗指標處于正常參考值范圍,但指標間相互的關系也可能發生了改變,只是普通人工篩查模式無法發現,通過人工智能技術對人體一系列代謝指標進行數據挖掘,可以發現很多潛在的變化[6]。研究表明,采用隨機森林機器學習算法挖掘277例患者的19項血液常規檢驗項目形成的預測模型能夠識別LCA患者[7],其泛化能力有待進一步驗證。目前缺乏采用多種機器學習算法對包括血液、體液、免疫等全量檢驗項目構建LCA預測模型的進一步研究。

本研究基于多尺度檢驗項目采用4種機器學習算法分別構建LCA預測模型,并研究檢驗項目在LCA預測模型中的價值以及不同尺度對預測能力的影響。

1 研究材料與方法

1.1 研究材料

本研究的原始數據來源于深圳市某綜合性三甲醫院2016年10月1日—2021年09月30日的全量檢驗數據及相應診斷結果。在大數據平臺通過數據集成、數據治理和數據開發形成檢驗大數據。檢驗項目總計1 297項(包括少量來自不同儀器設備重復的相同檢驗項目)。根據LCA相關診斷結果檢索的21 270 例LCA 患者和混合19 841 例健康體檢人員合計41111例人員對應的LCA檢驗大數據。經過數據類型轉換、歸一化成為機器學習數據源。

1.2 方法

采用邏輯回歸二分類(Logistic Regression,LR) 、支持向量機(Support Vector Machine,SVM) 、K 近鄰(KNearestNeighbor,KNN) 和服務器參數可伸縮多元決策回歸樹(Parameter Server-Scalable Multiple AdditiveRegression Tree,PS-SMART) 4 種機器學習算法挖掘全維度檢驗項目與診斷結果的關系。其中LR 的可解釋性強,訓練的參數即為每個特征(檢驗項目)的權重且輸出為概率值,非常適合二分類場景。SVM基于統計學習理論的一種機器學習方法,通過尋求結構風險最小化,提高學習機泛化能力,從而實現經驗風險和置信范圍最小化。SVM屬于強分類器,準確度較高。KNN算法簡單易用,根據距離新的對象最近的K個點的類別預測新的對象對應的類別。GBDT(GradientBoosting Decision Tree) 二分類算法的原理是設置閾值,如果特征值大于閾值,則為正例,反之為負例。PS-SMART是GBDT基于PS實現的迭代算法。4種機器學習算法的原理機制不同,有利于互相佐證。

機器學習業務流程包括數據拆分、模型訓練、模型預測和預測結果評估,同一機器學習數據源被不同機器學習算法對應的數據拆分模塊分別隨機拆分為兩類(本研究采用80%為訓練數據和20%為測試數據的拆分比例),隨機拆分是數據分類差異的唯一因素。機器學習訓練模塊使用機器學習算法基于訓練數據生成預測模型,預測模型對測試數據計算得出預測結果,預測結果分別導入相應的混淆矩陣模塊和二分類評估模塊,對4種預測模型分別進行評估。業務流程如圖1所示,為了有效對比預測模型,所有實驗步驟的設定與實施完全一致。

1.3 預測水平評估指標

評估采用混淆矩陣和二分類評估兩種方法。

混淆矩陣每一列代表一個類的預測情況,每一行表示一個類的實際樣本情況。混淆矩陣采用準確率、精確率、召回率和F1 Score合計4個評估指標[8]。其中F1 Score是為了均衡地評估精確率和召回率而設計的綜合評估指標。

二分類評估主要采用F1 Score和受試者工作特征曲線(Receiver Operating characteristic Curve,ROC) 下面積(Area Under Curve,AUC) 兩個指標,AUC數值為[0,1]區間,越接近1區分能力越高。

2 實驗與分析

2.1 全量檢驗項目預測模型

2.1.1 二分類評估結果

4 種機器學習預測模型的AUC和F1 Score均高于0.980和0.940,如表1所示。表1表明4種機器學習預測模型均有較高的預測能力。

2.1.2 混淆矩陣評估結果

4 種機器學習模型的正樣本的準確率、精確率、召回率和F1 Score共計16項,其中14項高于0.900,剩余2項均高于0.850,如表2所示。

2.1.3 LR 二分類預測模型

LR二分類預測模型由患者年齡、性別、就診類別和1 297項檢驗項目合計1 300項組成,其中權重前20 項如表3所示。

權重為該檢驗項目在LR二分類模型中的系數,權重數值越大,該檢驗項目與目標列對應診斷結果的相關性越大。由于項目編碼缺乏統一規劃的歷史原因,存在項目編碼6465和5316為來自不同儀器設備的相同檢驗項目的情況。缺失率指未做該檢驗項目的患者數量與總計21 270例患者的比率,20項特征列中缺失率大于30%的高達18項,只有年齡和就診類別(住院或門診)兩項缺失率小于30%。

2.2 多尺度預測模型對比分析

將原1 300項特征列分為兩部分:20項權重大的特征列和剩余1 280項特征列,采用4種機器學習算法分別對20項特征列和1 280項特征列訓練生成預測模型,通過混淆矩陣和二分類評估兩種方法評估預測水平。基于全量、20項、1 280項檢驗項目數量形成三種不同尺度的預測模型。

結果表明,全量模型的整體預測水平優于20項特征列模型,20項特征列模型優于1 280項特征列模型。相對整體預測水平,SVM算法生成的預測模型各項指標對比結果完全一致(圖3) ,LR二分類模型的精確率和召回率(圖2) ,PS-SMART 模型的精確率(圖4) ,KNN模型的精確率(圖5) 對比結果略有反差。圖中標注數據均為預測水平相對較低的1 280項預測模型的預測結果。

3 討論

本研究采用4種機器學習算法并行生成的預測模型均具有較高的預測水平,表明預測模型的穩定性和可靠性。以直觀輸出參數、可解釋性強的LR預測模型為例,其中權重較大檢驗項目與診斷結果相關性較大可分為三種情況,第一種是已經具有大量臨床研究,包括年齡、神經元特異性烯醇化酶(Neuron-Specific Enolase,NSE)、紅細胞體積分布寬度、超敏C 反應蛋白、尿蛋白、腫瘤相關物質綜合檢測等18項。研究表明,年齡是LCA發病的重要因素,經過統計21270 例LCA患者中年齡大于40歲為20 529例,大于60歲為12 005例(占比56.4%) 與中國國家癌癥中心調查結果(2005—2014年的10年間,年齡≥60歲肺癌患者比例從41.2%增至56.2%) [9]基本相符。LCA患者年齡分段統計與深圳市LCA發病率在0~29歲年齡段極低,30~49歲年齡段出現緩慢增長,50歲之后發病率隨著年齡增長而迅速上升,在75~84歲年齡段發病率達到最高峰[10]基本相符。Cai-Ming Xu等人[11]研究認為神經元特異性烯醇化酶NSE在各種肺部疾病的診斷、治療監測和預后評估中可以發揮重要作用。第二種數學意義上的相關性,例如21 270例LCA患者其中16 349例為住院患者,4 921例為門診患者。住院患者約占總數的77%,特征相對明顯,故表現出相關性強,也符合多數LCA患者就診時已進入中、晚期的狀況。第三種是有待進一步研究的檢驗項目,例如,目前尚未有二氧化碳結合力與LCA的關系研究,推測LCA患者呼吸功能障礙導致二氧化碳結合力增高,從而表現為二氧化碳結合力與LCA診斷結果強相關。

機器學習預測模型的水平取決于訓練數據的質量,訓練數據盡可能全面覆蓋所代表的真實的數據類型,人為甄選數據會錯失發掘數據潛在價值的機會。例如在數據準備階段,所有檢驗項目中,僅入選缺失值<30%的變量[12-13] ,若參照該標準,則本研究中全量LR二分類模型中的權重前20項特征列中18項檢驗項目均不符合要求而被排除。通過多尺度預測模型的對比,直觀展示了基于全量檢驗項目預測模型的優勢。

4 總結

本研究通過預測模型一方面定量展示了檢驗項目在LCA診斷中的價值,另一方面通過多尺度預測模型的對比分析佐證了基于全量檢驗項目構建預測模型的必要性。本研究使用了近5年的全量檢驗數據作為樣本,采用3種檢驗項目數量尺度,存在一定的局限性。混合對照的健康體檢人員不排除存在LCA患者的可能性,從而導致預測模型存在較小的偏差。后續可以納入多中心的檢驗數據,并結合臨床診斷進一步挖掘檢驗項目與疾病診斷相關的信息。

猜你喜歡
機器學習大數據
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 亚洲日韩日本中文在线| 天堂网亚洲系列亚洲系列| 男人天堂亚洲天堂| 亚洲精品在线91| 九一九色国产| 玩两个丰满老熟女久久网| 久久人人97超碰人人澡爱香蕉 | 国产精品护士| 毛片在线看网站| 中文天堂在线视频| 无码高潮喷水在线观看| 中文字幕无码制服中字| 色欲色欲久久综合网| 亚洲无码不卡网| 久久精品亚洲中文字幕乱码| 四虎在线观看视频高清无码 | 欧美成人A视频| 亚洲第一色网站| 日韩欧美国产另类| 天天综合色天天综合网| 女人18毛片久久| 国产精品欧美激情| 亚洲热线99精品视频| 久青草免费在线视频| 97免费在线观看视频| 午夜欧美在线| 欧美日韩成人在线观看 | 国产玖玖玖精品视频| 99久久国产综合精品2020| 一本色道久久88| 婷婷综合色| 中文字幕乱妇无码AV在线| 久久这里只有精品2| 大香伊人久久| 国产免费高清无需播放器| 精品91视频| 高清不卡一区二区三区香蕉| 亚洲黄色激情网站| 亚洲熟女偷拍| 亚洲综合婷婷激情| 午夜福利网址| 2022精品国偷自产免费观看| 激情国产精品一区| 最新加勒比隔壁人妻| 奇米影视狠狠精品7777| 久久久久88色偷偷| 四虎在线观看视频高清无码 | 久久综合色天堂av| 中文字幕丝袜一区二区| 国产一在线观看| 女人18毛片久久| 啊嗯不日本网站| 囯产av无码片毛片一级| 国产一线在线| 99这里精品| 91无码网站| 亚洲欧美精品日韩欧美| 91极品美女高潮叫床在线观看| 国产爽妇精品| 国产成人亚洲综合A∨在线播放| 91综合色区亚洲熟妇p| 日韩福利在线观看| 日本在线亚洲| 亚洲三级网站| 国产精品美乳| 欧美亚洲国产一区| 精久久久久无码区中文字幕| 亚洲免费人成影院| 欧美高清日韩| 精品久久777| 99手机在线视频| 91 九色视频丝袜| 红杏AV在线无码| 老司机久久99久久精品播放| 国产日韩欧美一区二区三区在线| 亚洲永久免费网站| 久99久热只有精品国产15| 亚洲一区二区黄色| 国产美女视频黄a视频全免费网站| 毛片最新网址| 国产精品va免费视频| 亚洲看片网|