999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在卒中相關研究中的應用

2018-08-29 03:00:12娜迪熱艾孜熱提艾力劉煜敏
中國卒中雜志 2018年8期
關鍵詞:數據挖掘數據庫特征

娜迪熱·艾孜熱提艾力,劉煜敏

目前全球卒中疾病負擔呈顯著增長趨勢,中國卒中死亡率和疾病負擔居全球之首[1]。卒中相關臨床數據分析可以更加明確卒中流行病學特點,提出診斷及分型依據,評估療效和預后,為卒中防治提供更為準確的證據和方向[2]。隨著信息技術的發展和醫院信息系統的改善,各大醫院積累了大量卒中住院患者臨床數據,如何有效地利用這些珍貴的數據已成為國內外的研究熱點。數據挖掘方法作為智能時代的產物,可以高效處理大規模、高維度的數據,不僅有利于發現更多新的潛在危險因素,還能建立疾病預測模型,指導卒中防治。本文將介紹利用數據挖掘技術分析臨床數據的基本步驟,以及數據挖掘技術在卒中相關研究中的應用。

1 數據挖掘技術基本步驟

數據挖掘是指利用機器學習的方法發現數據中隱藏的規律,以及從數據中抽取知識。為了發揮數據挖掘方法的優勢,需要有大量高質量的數據。為了利用數據挖掘技術深入研究卒中,國內外創建了專業數據庫,比如國內有中國國家卒中數據庫,國外以美國國家卒中研究所數據庫為代表。研究人員利用這些數據庫研究并發表了有關卒中療效、并發癥以及危險因素的論文[3-4]。這些數據庫和醫院信息系統為卒中數據分析提供了數據來源。利用數據挖掘技術分析卒中數據的基本步驟如圖1所示。

1.1 卒中臨床數據收集和預處理 根據研究主題從數據庫或者醫院信息系統中選出需要分析的卒中相關臨床數據,構建實驗數據集。

臨床數據中含有大量的缺失值、不規范值以及噪音。如果數據來源不同,則需要進行格式轉換,統一數據的格式。其中最嚴重的問題在于存在缺失值,臨床數據涉及到個人隱私,無法收集所有數據,或者在錄入數據時漏記或者錄入錯誤等都有可能產生缺失值。文獻[5]在處理缺失值時,針對不同類型的特征采用不同的統計量對缺失值進行填充。對于數值型特征,利用特征的平均值填充;對于有序名義值,利用特征的中位數填充;對于無序名義值,利用特征的眾數填充。該文獻還提出利用線性回歸的方法來填充缺失值,該方法將缺失值作為目標,其余的因素作為特征,構建一個線性回歸模型,將模型的預測值作為缺失值的替代值。缺失值處理方法的合理性可通過最終模型的預測性能來評價,也可以通過均方根誤差(root mean square deviation)、平均絕對離差(mean absolute deviation)、偏差(bias)等統計量來評價。Xiang Li等[6]用數據挖掘技術分析中國心房顫動登記數據庫中數據,建立了心房顫動患者2年內卒中風險預測模型。該文獻處理缺失值時,首先刪除缺失值過多的特征,如二元特征的缺失值超過80%,多元特征的缺失值超過60%時,將這些特征全部刪除。

圖1 數據挖掘的基本步驟圖

數據預處理另一個重要步驟是將非數值數據轉化為數值數據,文獻[7]制訂了統一的轉換規則,將同一種疾病或者相同治療方法的不同名稱轉化成統一的名稱,進而轉化為方便分析的數值代碼。

1.2 特征選擇及相關因素分析 數據庫或者醫院信息系統中往往包含患者的基本信息、病史、治療方案等眾多信息,若在分析時將全部數據納入實驗中,不僅會造成信息冗余,還會減慢模型的訓練速度,降低模型的性能,提高對硬件的要求。因此,需要從所有的數據中選出對目標影響最大的數據,即需要進行特征選擇。

特征選擇一般有兩種方法,即利用專家經驗的人工選擇方法和機器自動選擇方法。人工選擇方法會提高預測模型的敏感度,而機器自動選擇方法會提高模型的準確率[8]。人工選擇方法的缺點是嚴重依賴專家的經驗和能力,而機器自動選擇方法的缺點是依賴訓練數據和測試數據的劃分,不同的劃分方法可以得到不同的結果。不過,該問題可以通過加大數據的規模來解決。機器自動選擇方法的最大優點是不依賴專家知識,不僅可以自動識別重要的特征,還能發現專家仍未發現的潛在的因素。因此,數據挖掘方法中往往使用機器自動選擇方法,專家知識可以用于驗證機器自動選擇方法選出的特征。

特征選擇算法分3種[9],分別為過濾式、包裹式、嵌入式。過濾式特征選擇方法通過一個特征重要性的函數對每一個特征進行打分,按照分數將特征進行排序,選擇重要的特征,常見的評價特征重要性的函數有CHI、信息增益(information gain)、t-test、基于相關性的特征選擇方法等。過濾式特征選擇方法的優點是跟模型無關,計算復雜度比較低,能夠處理大規模的數據,適用范圍最廣,缺點是忽略特征之間的關系,也忽略特征與預測模型之間的關系。包裹式特征選擇方法將模型的預測性能當作評價特征重要性的函數,從而選出最重要的特征子集。嵌入式特征選擇方法將特征選擇與模型的訓練結合在一起。

特征選擇方法選出的特征均為對目標結果相關性最大的特征,因此選出的特征子集就是跟目標結果相關性最大的因素。特征選擇不僅是模型預測的子過程,還能用于相關因素分析中。相關因素分析是模型預測的附帶結果。

1.3 預測模型的構建及評價1.3.1 預測模型的構建 將納入研究的全部數據集的80%作為訓練數據,剩余數據作為測試數據,利用特征選擇算法從訓練數據集中選出重要特征(相關因素),然后在此特征集中利用數據挖掘的分類算法訓練出模型,常見的預測模型有決策樹(decision tree)模型、隨機森林(random forest)模型、樸素貝葉斯(na?ve bayes)模型、k最近鄰(k-nearest neighbor)模型、邏輯回歸(logistic regression)模型、支持向量機(support vector machine)模型、人工神經網絡(artificial neural network)模型等。各模型需要調節的參數、優缺點以及在卒中數據分析中的應用見表1。

決策樹模型指的是根據訓練數據集利用決策樹算法構建出的樹狀結構的決策模型[10]。決策樹根據生成方式的不同有以下的幾種算法:ID3、C4.5以及CART,其中CART既可以用于分類,又可以用于回歸。而隨機森林算法通過訓練多個決策樹并且在數據采樣中加入一定的隨機性有效地避免了過擬合現象,因此在隨機森林模型的誤差率往往比決策樹低[11]。

樸素貝葉斯模型指的是根據貝葉斯公式和獨立性假設將后驗概率轉化為前驗概率的模型。該模型計算目標特征每一個值的概率,并將概率最大的值作為該目標特征的最終結果[12]。K最近鄰模型通過一個數據點周圍最近的K個鄰居來確定數據點的類型,因此K值的確定很重要。邏輯回歸模型在線性回歸的基礎上使用Sigmoid函數將數據分成兩個部分。支持向量機模型改善了邏輯回歸模型,因此準確率比大部分數據挖掘模型都高,而且適用范圍最廣。人工神經網絡模型是根據人腦的特點設計的,是目前最流行的深度學習方法。人腦中成千上萬個神經元相互連接生成一個很復雜的網絡結構實現認知。神經網絡模型中激活函數類似于神經元,激活函數之間的輸入輸出關系類似于神經元之間的連接關系,數據類似于神經元之間的電信號。

表1 常用預測模型

1.3.2 模型性能的評價 一般的數據挖掘任務中直接使用準確率或者錯誤率作為模型預測性能的評價,但卒中臨床數據分析中,數據的分布往往是不平衡的,準確率無法全面地評價模型的性能,因此需要使用敏感度、特異度、受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)值等評價指標。實驗結果的分布見表2。

敏感度(真陽性率)=真陽性(TP)/真陽性(TP)+假陰性(FN)

特異度=真陰性(TN)/真陰性(TN)+假陽性(FP)

假陽性率=假陽性(FP)/假陽性(FP)+真陰性(TN)

AUC指的是ROC曲線(橫坐標為假陽性率,縱坐標為真陽性率的曲線)下的面積,一般情況下0.5<AUC<1。AUC值越大表示模型的預測性能越好。

表2 結果分布表

2 數據挖掘在卒中相關研究中的應用舉例

目前大多數卒中相關臨床性研究中,對醫院信息系統的利用僅僅在于最基本的數據儲存、錄用等層面。本文將介紹如何高效地利用醫院信息系統或卒中數據庫中的海量信息資源為卒中預防、診斷、評估療效及判斷預后提供更科學的依據。

2.1 卒中危險因素研究中的應用 卒中危險因素分析是卒中預防很重要的一部分。探索卒中危險因素、建立卒中發病風險預測模型可以及時篩選高危患者,進行卒中預防。前文介紹數據挖掘基本步驟時提到,數據挖掘技術中特征選擇方法可以用于相關因素分析,因此這種方法也可用于卒中危險因素研究。有研究者利用特征選擇選出了16種卒中相關因素,同時使用支持向量機、邏輯回歸等方法建立了卒中風險預測模型,并且通過準確度、敏感度、特意度、AUC等指標評價了各種模型的性能,認為此類問題中支持向量機模型的預測性能最佳[17]。

2.2 卒中患者病情嚴重程度評估研究中的應用 數據挖掘技術可用于卒中患者病情嚴重程度預測,對卒中重癥治療給予一定的提示,也能用于根據病情嚴重程度自動計算報銷額度,對醫保費用管理也有積極作用。有研究使用數據挖掘技術分析社會醫療保險數據庫中急性缺血性卒中患者信息,發現了影響卒中患者病情嚴重程度的7種影響因素,并以這7種因素作為特征,建立病情嚴重程度預測模型[18]。

2.3 卒中療效評估方面應用 通過分析“是否接受某項治療”這一特征與結果事件的關聯,巧妙利用數據挖掘技術進行療效評估,還可以建立接受某項治療的患者預后預測模型。Yuling Yang等[19]將牛津郡社區卒中數據庫分類系統用于評價卒中患者靜脈溶栓治療安全性和有效性。Matthew McNabb等[20]利用數據挖掘技術預測接受介入取栓術的急性腦梗死患者90 d內預后,介紹了這種新的方法在卒中療效評估中的應用。

2.4 卒中預后影響因素研究中的應用 探討卒中患者預后影響因素是卒中診治的重要部分,尤其在大面積腦梗死等重癥患者中提前預測卒中預后獲益頗大。Jonathan F. Easton等[15]用數據挖掘技術分析急性腦梗死后不同時期預后影響因素,分別從用藥種類、既往病史、卒中亞分型、卒中量表得分及住院期間化驗結果等方面選出了與結果相關性最高的因素,并分別建立了卒中后短期(7 d內)、中期(8~93 d)的預后預測模型。文獻[21]中研究者從國家級疾病數據庫中獲取卒中患者(19 603例)信息,用決策樹C4.5算法建立了卒中后運動障礙預測模型,并用特征選擇方法從397種潛在影響因素中選出了70種與卒中后運動障礙關系最明顯的因素,顯然這種從大量患者信息中尋找潛在關聯因素的方法可以為后期研究提供新方向。

2.5 研究卒中疾病負擔方面的應用 卒中不僅損害患者身體健康,降低生存質量,也為患者家庭帶來巨額的治療費用和長期護理方面的負擔。我國研究者利用神經網絡技術建立腦梗死患者住院費用擬合模型,在此基礎上進行影響因素敏感度分析發現住院天數對費用影響最大,其次為“治療結果”“是否搶救”“年齡”等因素[22]。

2.6 卒中病因分型研究中的應用 卒中病因分型涉及到患者治療及二級預防方案的制定,因此準確地進行卒中病因診斷、確定分型很重要,但臨床上卒中老年患者多種疾病共存的情況對確定卒中病因分型造成困擾。數據挖掘中分類算法可以用于卒中病因分型,國外已有此類嘗試。文獻[23]介紹了韓國學者分析多中心卒中數據庫中急性腦梗死患者(6624例)信息后,建立基于磁共振成像的卒中病因分型系統,作者認為此分型系統有望用于卒中臨床診斷。作為最新的疾病診斷形式,這類研究成果用于臨床仍需更多研究人員進行探索。

【點睛】本文闡述數據挖掘在卒中相關研究中的應用,為卒中臨床研究提供一種全新的數據分析技術。

猜你喜歡
數據挖掘數據庫特征
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: av无码久久精品| 欧美国产日韩在线观看| 无码人妻热线精品视频| 十八禁美女裸体网站| 22sihu国产精品视频影视资讯| 日韩在线影院| 国产剧情一区二区| 欧美精品高清| 999国产精品永久免费视频精品久久 | 国产十八禁在线观看免费| 亚洲国产日韩欧美在线| 一级香蕉人体视频| 欧美成人一级| 啊嗯不日本网站| 久久精品波多野结衣| 亚洲 欧美 偷自乱 图片| 一本大道无码日韩精品影视| 欧美一级在线看| 五月婷婷综合色| 国产精品视频观看裸模 | 香蕉eeww99国产在线观看| 久久人人爽人人爽人人片aV东京热| 日韩在线第三页| 亚洲国产AV无码综合原创| 色悠久久久久久久综合网伊人| 露脸一二三区国语对白| 少妇人妻无码首页| 欧美另类图片视频无弹跳第一页| 欧美精品高清| 中国成人在线视频| 日韩精品无码不卡无码| 国产综合网站| 波多野结衣亚洲一区| 2024av在线无码中文最新| 亚洲欧美日韩综合二区三区| 日韩大片免费观看视频播放| 日韩第九页| 成人第一页| 国产国产人在线成免费视频狼人色| 国产精品欧美激情| 亚洲国产欧美自拍| 综合亚洲网| 国产一级毛片yw| 国产成人综合日韩精品无码不卡| 91麻豆国产在线| 福利小视频在线播放| 欧美日韩中文字幕在线| 亚洲天堂久久新| 国产又大又粗又猛又爽的视频| 国产丰满成熟女性性满足视频| 手机在线看片不卡中文字幕| 国产视频只有无码精品| 亚洲AV电影不卡在线观看| 国产免费久久精品99re不卡| 免费人成黄页在线观看国产| 欧美亚洲激情| 在线日韩日本国产亚洲| 最新精品久久精品| 亚洲高清中文字幕| 人妻精品全国免费视频| 欧美黄网在线| 亚洲伊人天堂| 97成人在线视频| 国产拍揄自揄精品视频网站| 国产欧美日韩18| 久久免费视频播放| 久久中文字幕不卡一二区| 精品国产自在在线在线观看| 精品国产电影久久九九| 91精品国产自产91精品资源| 亚洲欧洲日韩国产综合在线二区| 色欲不卡无码一区二区| 在线免费观看AV| 国产精品第三页在线看| 国产精品综合久久久 | 狠狠色丁香婷婷| 日本高清有码人妻| 伊人查蕉在线观看国产精品| 免费高清自慰一区二区三区| 啊嗯不日本网站| 欧洲成人免费视频| 免费高清自慰一区二区三区|