999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的醫療大數據分析與臨床應用

2019-12-12 06:05:16孫濤徐秀林
軟件導刊 2019年11期
關鍵詞:機器學習臨床應用深度學習

孫濤 徐秀林

摘 要:醫療大數據指數目龐大、增長迅速、結構復雜、隱藏價值高的數據。機器學習技術能夠有效分析醫療大數據的內部聯系,對疾病的早期診斷及預后具有重要臨床指導意義。闡述了機器學習技術在醫療大數據中的應用及研究進展,包括在大數據分析中的回歸分析、決策樹、基于內核的算法、降低維度算法等淺層機器學習算法模型,卷積神經網絡、循環神經網絡、自動編碼器、深度信念網絡等深度學習算法模型,以及各個算法模型的臨床應用,分析了機器學習在醫療數據挖掘中的應用前景和存在的技術難題。

關鍵詞:醫療大數據;機器學習;診斷及預后;深度學習;臨床應用

1 醫療大數據

大數據指無法使用傳統工具或方法進行分析處理的、具有復雜關系的龐大數據集合,需要利用縱向信息對數據進行補充分析[1]。醫療大數據是醫療衛生機構產生的一切與生命科學相關的復雜大數據[2]。這些數據數目龐大、增長迅速、結構復雜、隱藏價值高,具備多樣性、時間性、缺失性、冗雜性、隱私性等特性。在醫學信息化時代,挖掘海量醫療大數據的內在信息價值成為服務臨床的一種選擇。

醫療大數據來源不僅僅局限于醫療過程中產生的數據,而是多方式多途徑產生的,來源大體可概括為 [2]:①產生于醫院醫療過程中的電子病歷檔案、影像檢查記錄、檢驗檢查記錄、用藥信息記錄、手術記錄等醫療數據;②醫學科研或疾病監測產生的大數據;③基于物聯網的個人身體體征和活動的自我量化數據;④區域協同衛生服務平臺匯集整合的數據;⑤基因組、單細胞表型、宏基因組、生物醫學圖像等生物醫學大數據。醫療大數據來源的多方式多途徑雖然增加了復雜性,但也為臨床提供了多樣性的研究價值。

2 機器學習

1956年,達特茅斯會議上計算機科學家首次提出了“人工智能”概念[3],期望通過剛剛問世的計算機創造出擁有和人類同等智慧的機器。作為人工智能最重要的技術,機器學習概念由此產生并被人們所認識和接受,其定義為不以代碼編程為直接手段就能讓計算機擁有學習能力的方法總稱。機器學習的生命周期是一個以自主學習、判斷預測為目標,以大數據集為數據支持,建立機器學習算法模型并不斷評估和優化模型,最終利用模型對未知數據組成的事件作出預測,并將預測輸出反饋給模型的過程[4]。機器學習生命周期如圖1所示,分為4個階段:①定義目標和假設、明確問題類型;②數據收集,準備用于訓練模型的歷史數據;③建模和評估,即利用訓練數據建立模型,并對建立的模型進行全面評估,針對評估結果優化模型,提高模型的準確性和可擴展性;④驗證模型在驗證集上的預測效果,檢查模型預測新數據的能力。

3 機器學習算法模型

3.1 淺層機器學習算法模型

為了獲得模型最優解,根據輸入變量類型的不同,可按照學習方式將機器學習分為監督學習、無監督學習、半監督學習、強化學習[5]。監督學習通過一個已明確輸入變量以及期望輸出變量的訓練樣本集去訓練模型,以不提供額外輸出的輸入數據代入模型獲得輸出量,如果實際輸出與期望輸出不一致則繼續調整模型,直到模型產生適當的輸出;無監督學習和監督學習最明顯的差異是,無監督學習的數據集是未記號、不明確的,它比監督學習更寬松。正是由于大量未記號的數據集存在,使無監督學習具有更廣泛的適用性;半監督學習結合了前兩種學習方式特點,一個有樣本集記號,另一個沒有記號,用這兩個樣本集進行模型訓練;在強化學習中,模型通過對不同交互情景采取適當措施對輸入作出期望行為,并對行為作出獎懲,以求最大限度地提高模型績效。

醫療大數據領域中運用的淺層機器學習算法模型有回歸分析、決策樹、基于內核的算法、降低維度算法等。邏輯回歸算法(Logistic Regression,LR)是常用的回歸分析算法,它通過確定單個變量或者多個變量的影響權重建立關系模型。決策樹算法(Decision Tree,DT)是一種遞歸尋優的樹狀模型。基于內核的算法最常用的是支持向量機(Support Vector Machine,SVM),它先建立高階的向量空間,再通過映射關系將數據映射到高階向量空間。降低維度算法常用的是主成分分析法(Principal Component?Analysis,PCA)和偏最小二乘回歸法(Partial Least Squares?Regression,PLSR),兩者皆通過降低特征維度重組數據集。其中回歸分析、決策樹和降低維度算法屬于無監督學習,基于內核的算法屬于監督學習。醫療大數據領域主要使用的淺層機器學習算法模型如表1所示。

3.2 深度學習算法模型

多層感知器計算在當時是一個復雜問題,沒有便捷的解決辦法。20世紀80年代后期出現了一種名為反向傳播(Back propagation,BP)算法,解決了多層感知器大量繁瑣的計算問題[10-13]。但多層感知器也存在令人詬病的問題:雖然有了BP算法支持,然而模型訓練仍需很長時間,而且局部最優解問題在模型訓練優化過程中始終存在,導致優化效果較差。2006年,Hinto[14]提出了“深度置信網絡”概念。在“深度置信網絡”中首次運用了“前訓練”方式,即先逐層尋找權值最優解,再通過“細調”技術對整個模型進行優化,這使得神經網絡各層的初始權值較優,能使整個網絡收斂到理想的局部極值。多層神經網絡的興起使深度學習的學科分支逐漸形成。多層神經網絡結構如圖4所示,在輸入層和輸出層之間增加若干中間層,形成具有多級計算層的神經網絡。

醫療大數據領域中運用的深度學習算法模型主要有卷積神經網絡(convolutional neural network,CNN)、循環神經網絡(recurrent neural network,RNN)、自動編碼器(auto-encoder,AE)、深度信念網絡(deep belief network,DBN)等,如表2所示。

4 機器學習算法臨床應用

4.1 回歸分析算法

回歸分析算法模擬若干個變量之間的依賴關系,建立這種依賴關系的模型稱為回歸關系模型,它的主要優點是體現多個自變量對因變量的影響重要度大小,能準確找出對因變量影響大的那些自變量因子。Direkvandmoghadam等 [15]利用單變量logistic回歸分析和多變量logistic回歸分析研究了2014年伊朗西部伊拉姆衛生中心444名性功能障礙女性患者的患病率與預測變量之間的依賴關系。單變量logistic回歸分析結果顯示,女性性功能障礙與年齡、初潮年齡、妊娠次數、胎次和受教育程度之間存在顯著相關性(P<0.05);多變量logistic回歸分析結果顯示,初潮年齡、受教育水平和妊娠次數是導致女性性功能障礙的主要影響變量。Huang等 [16]利用Logistic回歸分析了544例具有完整臨床數據的食道-賁門癌患者,將是否發生術后吻合口瘺作為結局變量,將潛在危險因素,如年齡、性別、糖尿病史、是否接受腹腔鏡手術、吸煙史等作為自變量代入Logistic回歸模型,結果顯示性別為女性、接受腹腔鏡手術、術后出現低蛋白血癥和術后腎功能不全是導致術后吻合口瘺的重要影響因素。

4.2 決策樹算法

決策樹算法是建立在多個策略抉擇基礎上形成的樹狀預測模型,它顯示特征與分類結果之間的映射關系。Kim等 [17]收集了208例黃疸患兒的核磁共振成像(MRI)數據和超聲(US)數據,其中112例患兒有膽道閉鎖(BA),96例患兒無BA,患兒平均年齡為58.7天。通過比較并評估這兩組患兒的MRI表現和US表現,發現不可見膽總管的MRI表現、膽囊異常以及MRI門靜脈周圍信號最大直徑變化(MR-TCT)是診斷BA的良好鑒別因素,在此基礎上利用決策樹建立了BA診斷模型,測試結果顯示其靈敏度、特異性和準確率分別達到了97.3%,94.8%和96.2%(靈敏度表示模型測試陽性與疾病真實陽性的比值,特異性表示模型測試陰性與疾病真實陰性的比值)。Tayefi等 [18]利用決策樹算法建立了一種冠心病預測模型,實驗收集2 346例數據,其中1 159例數據由健康者提供,1 187例來自接受過冠狀動脈造影患者(其中405例為陰性血管造影,其他782例為陽性血管造影),特征變量采用臨床生物標志物和若干已知的傳統風險因素結合的10個變量組合,包括年齡、性別、低密度脂蛋白(LDL)、空腹血糖(FBG)、甘油三酯(TG)、收縮壓(SBP)、高度敏感的C反應蛋白(hs-CRP)、總膽固醇(TC)、舒張壓(DBP)和高密度脂蛋白(HDL),結果顯示模型識別冠心病風險因素的準確率較高,靈敏度、特異性和準確率分別達到了96%、87%、94%。此外,研究表明生物標志物hs-CRP是第一位的危險因素,其次是FBG、性別和年齡。

4.3 降低維度算法

降低維度算法是一種非監督學習算法。在機器學習中,過多的特征維度會隱藏數據的真實結構,導致模型出現過擬合。因此,降低過多的特征維度有利于解析數據的真實結構,提高模型的泛化能力。臨床上心電圖(ECG)信號的細微變化可用于診斷心臟異常,但在心臟疾病的預后中,由于存在噪聲,導致從心電信號中提取特征極其困難。Kaur等 [19]提出一種結合擴展卡爾曼濾波器和離散小波變換的混合技術降低噪聲,并利用PCA提取ECG信號中R波和QRS波群的特征信號,再利用去噪和特征提取后的ECG信號計算心率,得出心律失常類型。將心率失常分類結果與MIT-BIH心律失常數據庫比對,結果顯示陽性預測率和檢測錯誤率分別達到99.93%、99.98%和0.079%,顯示該方法的靈敏度結果優于其它方法。Zhang等 [20]設計了一種基于縮放頻譜圖和PLSR方法對心音圖(PCG)信號進行分類,研究分為心臟周期評估、頻譜圖縮放、特征降維和模型分類4個步驟。首先將香農能量進行的心音包絡短時平均幅度差作為心臟周期評估標準;其次計算心動周期頻譜圖作為數據特征維度。由于不同PCG信號計算出的頻譜圖大小不同,所以對頻譜圖采用雙線性插值得到大小恒定的縮放頻譜圖,但這些頻譜圖依然存在大量不相關和重復的信息,因此采用PLSR降低頻譜圖的特征維度;最后利用SVM對信號進行分類。結果顯示該方法與傳統的PCG信號分類方法相比,分類效果理想,準確率提高了18%。

4.4 基于內核的算法臨床應用

基于內核的算法主要建立一個高階向量空間,將研究數據通過映射關系輸入到高階向量空間,這樣能更容易解決回歸和分類問題。SVM是應用最廣泛的基于內核的算法模型,它在處理樣本量小、維度高、非線性的數據時有很大優勢。Suvarna 等 [21]利用SVM建立了一種化學性皮膚灼傷分類器,實驗的120例化學性皮膚灼傷圖像數據來自醫院的圖像數據庫。首先提取圖像中灼傷部位的顏色和紋理特征,根據提取特征將灼傷分為表面灼傷、部分灼傷、全灼傷,再將分類好的灼傷圖像數據集均分為3組代入SVM進行訓練及測試,結果顯示二次核SVM分類效果最好且三組測試結果的靈敏度均超過82%,特異性均超過92%。Soares 等 [22]利用二進制SVM研究血液熒光光譜進行結直腸癌 (CRC)識別,然后利用一類SVM(one-class SVM)對之前識別結果中的非CRC樣本(異常樣本)進行檢測,確認異常樣本是否存在非惡性病變。研究數據為12 341個血液熒光光譜波長組成的數據集,實驗結果顯示,CRC檢測的靈敏度和特異性分別為0.87和0.95,非惡性檢測靈敏度和特異性分別為0.60和0.79。與傳統結直腸癌識別方法相比,該方法準確性更高,需要的特征更少,還提供了非惡性病變診斷的擴展檢測方法。

4.5 深度學習算法

深度學習主要應用于醫學影像分析中。Litjens等 [23]利用深度學習的CNN在蘇木素和伊紅(H&E)染色切片圖像中分別鑒定前列腺癌和診斷檢測乳腺癌前哨淋巴結中轉移。樣本數據集為254名患者的活檢切片標本,使用3DHistech Pannoramic 250 Flash II掃描儀將切片標本數字化,再提取相應的小原型圖像區域訓練CNN,使得CNN能識別數據集中的癌癥區域。結果顯示前列腺癌鑒定的受試者工作特征曲線(ROC)下面積(AUC)在切片水平上可達到0.99,乳腺癌前哨淋巴結轉移檢測的AUC達到0.88(AUC是模型分類結果的評價標準,AUC越接近1模型分類越準確)。Xie等 [24]在研究肌肉萎縮疾病的早期診斷中提出了一種空間發條式遞歸神經網絡(空間CW-RNN),該研究的樣本數據量為150張骨骼肌顯微鏡圖像。首先把每個圖像分成一組非重疊的塊狀圖像,并把圖像的2D結構信息編碼到每個塊狀圖像中。同時利用結構化回歸給塊狀圖像分配預測掩碼,進行高效訓練,并利用數字化肌肉顯微圖像測試由空間CW-RNN建立的肌肉分割方法模型。結果顯示,空間CW-RNN學習圖像全局背景信息用于區分肌內膜、肌萎縮和血管的能力優于多層感知、卷積神經網絡等現有技術。

5 結語

人工智能的重要技術之一機器學習廣泛應用于醫療領域,海量的醫療數據完美契合了機器學習技術。相比于傳統臨床診斷,基于機器學習的醫療大數據分析具有時間短、人力資源少、成本低、規避人為誤差、診斷速度快的優點,能提供完善的客觀性評價和準確性描述,所建立的機器學習模型還可通過學習信息數據得到自我改進,有效提高了臨床診療水平,促進醫療健康事業發展。

在醫療大數據中,一個結果變量通常對應高維度的特征變量,如何選擇臨床特征變量是醫療大數據機器學習的重要任務。面對一個確定的結果變量,首先要解決的問題是如何擴大特征范圍,分析特征與結果變量的相關性,保留那些相關性大的特征因子,但這種方法存在一定的局限性,如忽略了特征變量之間的組合關系對于結果變量的影響大小。因此,模型算法的選擇和參數的優化就顯得十分重要。

機器學習模型選擇取決于算法所要實現的目標,分類和預測是主要研究目的。在此基礎上結合數據集的各種屬性,如數據規模、數據結構等,以及現有計算資源、任務進度安排等因素選擇合適的模型算法。此外,醫療數據具有高復雜、不完整、冗余程度高的特性,模型的選擇趨于多向。因此,比較多個算法的優劣是進行模型算法選擇的基礎。

所有機器學習模型算法都有合適的參數范圍。在邏輯回歸中需要確定回歸系數,即模型中各個特征變量的權重大小。在決策樹中需要選擇分類的變量。如何基于特定算法的參數特點尋找最優參數,以此提高模型的泛化能力,是今后研究的重點。

參考文獻:

[1] GUOJIE L. Research status and scientific thinking of big data[J]. Bulletin of Chinese Academy of Sciences, 2012(3):145-149.

[2] 俞國培, 包小源, 黃新霆,等. 醫療健康大數據的種類、性質及有關問題[J]. 醫學信息學雜志, 2014, 35(6):9-12.

[3] 蔡自興,徐光祐. 人工智能及其應用[M]. 北京:清華大學出版社, 2004.

[4] SKILTON M,HOVSEPIAN F. Machine Learning[M]. Berlin:Springer,2018.

[5] SUYKENS J A K. Introduction to machine learning[J]. Academic Press Library in Signal Processing, 2014(1):765-773.

[6] LECUN Y,BENGIO Y,HINTON G. Deep learning [J]. Nature, 2015, 521(7553):436-439.

[7] MCCULLOCH WS,PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of mathematical biology. Springer,1990(5):99-115.

[8] ROSENBLATT F. The perceptron-a perceiving and? recognizing automaton[M]. New York: Cornell Aeronautical Laboratory,1957.

[9] 胡越,羅東陽,花奎,等. 關于深度學習的綜述與討論[J]. 智能系統學報,2019(1):2-9.

[10] LECUN Y. Learning processes in an asymmetric threshold network[M]. Berlin:Springer,1986.

[11] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature,1986(323):533-536.

[12] PARKER DB. Learning logic[R]. Cambridge: Center for Computational Research in Economics and Management Science, Massachusetts Institute of Technology, Technical Report TR-47, MA. 1985.

[13] RUMELHART D, MCCLELLAND J, WILLIAMS R. Learning internal representations by error propagation[M]. Cambridge:MIT Press, 1986:318-362.

[14] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J].? Science, 2006(1):504-507.

[15] DIREKVANDMOGHADAM A,SUHRABI Z,AKBARI M,et al. Prevalence and predictive factors of sexual dysfunction in Iranian women: univariate and multivariate logistic regression analyses[J]. Korean Journal of Family Medicine, 2016, 37(5):293-298.

[16] HUANG J,ZHOU Y,WANG C,et al. Logistic regression analysis of the risk factors of anastomotic fistula after radical resection of esophageal-cardiac cancer[J]. Thoracic Cancer,2017,8(6):1454-1459.

[17] KIM Y H,KIM M J,SHIN H J,et al. MRI-based decision tree model for diagnosis of biliary atresia[J]. European Radiology, 2018(8):665-668.

[18] TAYEFI M,TAJFARD M,SAFFAR S,et al. Hs-CRP is strongly associated with coronary heart disease (CHD):a data mining approach using decision tree algorithm[J]. Computer Methods and Programs in Biomedicine, 2017, 141(6):105-109.

[19] KAUR H,RAJNI R. On the detection of cardiac arrhythmia with principal component analysis[J]. Wireless Personal Communications, 2017(9):361-367.

[20] ZHANG W,HAN J,DENG S. Heart sound classification based on scaled spectrogram and partial least squares regression[J].? Biomedical Signal Processing and Control,2017(32):20-28.

[21] SUVARNA M,VENKATEGOWDA N,DEEPAK L. Classification of chemical skin burn using SVM method[C].? International Conference on Systems in Medicine & Biology,New York:IEEE 2017.

[22] SOARES F,BECKER K,ANZANELLO M J. A hierarchical classifier based on human blood plasma fluorescence for non-invasive colorectal cancer screening[J]. Artificial Intelligence in Medicine, 2017(2): 592-604.

[23] LITJENS G,SáNCHEZ CI,TIMOFEEVA N,et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis[J]. Scientific Reports, 2016(6):262-286.

[24] XIE Y,ZHANG Z,SAPK OTA M,et al. Spatial clockwork recurrent neural network for muscle perimysium segmentation[C]. International Conference on Medical Image Computing & Computer-assisted Intervention,Cham:Springer,2016.

(責任編輯:杜能鋼)

猜你喜歡
機器學習臨床應用深度學習
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
奧美拉唑的藥學藥理分析及臨床應用探討
今日健康(2016年12期)2016-11-17 12:34:21
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
淺析涌泉穴
科技視界(2016年18期)2016-11-03 23:09:08
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
珍珠的市場前景及藥性成分、功效的研究
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 97视频精品全国免费观看| 色综合日本| 亚洲综合欧美在线一区在线播放| 国产精品亚欧美一区二区| 91久久国产综合精品| 久久精品波多野结衣| 欧美怡红院视频一区二区三区| 精品自窥自偷在线看| 婷婷丁香色| 亚洲欧美综合另类图片小说区| jizz亚洲高清在线观看| 日韩区欧美区| 欧美黑人欧美精品刺激| 四虎永久在线| 亚洲一区二区日韩欧美gif| 久久五月视频| 亚洲无码熟妇人妻AV在线| 影音先锋丝袜制服| 成年人久久黄色网站| 国产成人精品视频一区二区电影 | 潮喷在线无码白浆| 欧美黄网在线| 天天干天天色综合网| 国产精品免费电影| 亚洲精品国产成人7777| 亚洲一区二区成人| 亚洲国产成人综合精品2020| 呦女亚洲一区精品| 人妻无码一区二区视频| 在线视频一区二区三区不卡| 五月天丁香婷婷综合久久| 久久免费视频6| 日韩av手机在线| 国产不卡在线看| 波多野结衣一区二区三区四区 | 夜夜拍夜夜爽| 热99re99首页精品亚洲五月天| 亚洲精品在线影院| 99999久久久久久亚洲| 国产黄视频网站| 伊人五月丁香综合AⅤ| 夜夜操国产| 国产青榴视频| 欧美日韩久久综合| 91无码人妻精品一区| 国产在线98福利播放视频免费| 国产成人精品免费av| 国产成人精品一区二区三区| 亚洲无线一二三四区男男| 成人午夜视频免费看欧美| 久久精品只有这里有| 亚洲va在线∨a天堂va欧美va| 国产精品第一区| 美女毛片在线| 精品少妇人妻一区二区| 成人午夜福利视频| 91精品国产91欠久久久久| 久久人妻系列无码一区| 亚洲三级色| 素人激情视频福利| 国产欧美视频一区二区三区| 欧美在线一级片| 日本黄色a视频| 久久精品亚洲中文字幕乱码| 中文字幕欧美日韩| 国产精品九九视频| 制服无码网站| 在线国产你懂的| 国产a网站| 久久久久九九精品影院| 一级毛片免费不卡在线| 欧美一区二区自偷自拍视频| 亚洲精品男人天堂| 亚洲Va中文字幕久久一区| 国产原创自拍不卡第一页| 精品国产成人三级在线观看| 国产精品视频白浆免费视频| 中文字幕 日韩 欧美| 一本久道久综合久久鬼色| 日韩区欧美区| 麻豆国产在线观看一区二区| 99久久精品国产麻豆婷婷|