999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

健康大數據挖掘方法研究綜述

2018-03-26 02:14:46張雷王云光
軟件導刊 2018年3期
關鍵詞:數據挖掘

張雷 王云光

摘要:

為了應對當今社會健康數據持續性爆炸增長的態勢,從健康大數據的概念及特點入手,針對其數據挖掘問題進行了研究,明晰了健康大數據挖掘的基本流程,重點分析比對了傳統與新興數據挖掘算法的異同及其應用范圍,并對健康大數據挖掘的意義及面臨的挑戰進行了闡述。最后得到結論,只有將現有的挖掘算法與新興技術結合起來,才是未來健康大數據挖掘的發展趨勢。

關鍵詞關鍵詞:健康大數據;數據挖掘;健康醫療

DOIDOI:10.11907/rjdk.172481

中圖分類號:TP301

文獻標識碼:A文章編號文章編號:16727800(2018)003000103

英文摘要Abstract:In response to the continuing explosion of health data in today′s society,this paper firstly introduces the concept and characteristics of health big data,and then aiming at the problem of data mining, clearing the health the basic processes of data mining, analysis and compare the similarities and differences between traditional and emerging data mining algorithm and its application scope.Finally,we expounded the significance and challenges of health big data mining, concluded that the existing mining algorithms combined with the emerging technology will be the conclusion of the future trend of healthy big data mining.

英文關鍵詞Key Words:health big data; data mining; health care

0引言

隨著現代科技的進步,尤其是信息技術的高速發展,傳統數據模式已不足以滿足人們的需求,因此大數據引起了人們的廣泛關注。人工智能和數據挖掘技術的成熟也為健康大數據的發展帶來契機,人們身邊無時無刻不在流動著大量有關健康方面的信息,但是這些數據分散在不同的醫院、健康公司甚至個人醫療系統中,而這些系統由不同軟件公司開發,它們之間缺乏聯系,數據結構也不盡相同,從而形成“信息孤島”。因此,需要對這些潛藏于大數據中有價值的健康信息進行分析與挖掘,以使其為健康醫療服務。

1健康大數據概念及特點

實際上,目前對健康大數據的定義尚未形成共識,不同學者對健康大數據的理解不同。本文采用黎建民教授[1]的說法,即健康大數據是指所有與醫療和生命健康相關的,包括患者在受到照護期間產生的所有數據的總合。

舍恩伯格[2]曾經在《大數據時代》一書中講到大數據具有4V 特點:Volume(海量)、Velocity(快速)、Variety(多樣)、Value(價值)。健康大數據除了完全符合這4個特點外(見圖1),還具有健康領域特有的一些特征[3],如:①多態性,健康數據包括純數據、信號、圖像、文字等多種形態;②時序性,患者的就診、疾病發病過程在時間上有一個進度;③隱私性,健康大數據的隱私性極高,如若泄漏將對患者造成嚴重后果;④冗余性,大批相同或相似的健康信息被記錄下來,如與病理特征無關的檢查信息或對一些常見疾病的描述信息等。

2健康大數據挖掘流程

一個完整的數據挖掘流程包括數據收集、數據預處理、數據挖掘與結果理解4 個主要組成部分[4](見圖2),健康大數據的挖掘也不例外,只是在具體環節上采用的算法有所不同。

(1)數據收集:針對所選擇的目標進行數據挖掘,分析與其相關的所有數據,也包括目標外部的數據信息(如天氣、空氣、環境等外部信息會對某些醫療行為產生影響),并選出適應于該挖掘目標的數據。

(2)數據預處理:通過收集得到的數據中通常存在噪聲、不完整和不一致的數據,這是數據倉庫與大型數據庫的共同特點[5]。因此,需要在挖掘之前對這些數據進行預處理,以提高其質量和分析能力。具體步驟有:數據清洗與加工(通過各種方式對所收集數據的準確性、合法性、完整性、一致性、時效性等各方面進行檢查,對質量差的數據進行修正甚至刪除)、數據標準化(為收集的數據建立數據集標準,并按該標準進行數據格式的轉換、采集)、屬性選擇(采用相應算法對數據屬性值進行評估,選取與結果相關性高的屬性)。數據預處理過程十分繁瑣,往往占用整個工作流程一半甚至60%左右的時間。

(3)數據挖掘:又稱為建立模型,需要確定模型的算法和評價方法。對于健康大數據的挖掘主要有2種思路:一是根據之前的經驗人為建立數學模型分析數據,即傳統算法;二是通過近年來興起的人工智能系統,利用大量樣本數據進行訓練,讓機器代替人工獲得從數據中提取知識的能力,即新興算法。模型構建之后需要對模型進行評估和優化,若有必要還需返回上一流程進行參數調整。

(4)結果分析:即對模型的解釋,實際應用效果要反饋給建立的模型,而且要根據應用效果進行模型的相應調整。

3健康大數據挖掘算法

在健康大數據時代,數據的產生和收集是基礎,挖掘是關鍵,數據挖掘是健康大數據研究中最關鍵且最有價值的工作。傳統的挖掘算法有分類、聚類、預測、關聯規則等。這些算法在分析健康大數據時依然可以使用,但是由于大數據的超大規模性和快速增長性,傳統挖掘算法的效率有時跟不上用戶預期,而且在處理非結構和半結構化復雜數據時面臨一定困難。而新興的算法如網絡爬蟲、云計算等挖掘方式效率更高,應用范圍也更廣,處理實時且快速。

3.1傳統算法

3.1.1算法分類

通過找出數據庫中一組數據對象的共同特點即分類標號,然后根據訓練數據集和類標號屬性構建模型,對現有數據及新數據進行分類 [6]。具體分類算法有決策樹、神經網絡、支持向量機、貝葉斯分類等。

其中在健康醫療領域應用比較廣泛的有決策樹算法,決策樹是一種典型的分類算法,其在醫藥大數據的處理中十分常見。決策樹是一種類似于流程圖的樹結構,決策樹算法是通過測試每個屬性的信息增益,選擇具有最大信息增益的屬性作為當前節點的測試屬性,并自上而下對屬性進行遞歸劃分從而構建樹的算法。它可以提高處理多維且數量巨大的醫藥數據的速度,因此為數據量巨大的醫療大數據處理帶來了便利。 而且,此方法也可以用于一些需要長期觀察的慢性病研究,分析疾病的變化趨勢,對疾病作出預測。決策樹算法的最大優點是它可以自學習,在學習過程中,并不需要使用者了解很多背景知識,只要訓練事例能夠用屬性-值的方式表達出來,就能使用該算法進行學習。此外,決策樹算法的健壯性較好,還能夠處理非線性關系。但是它也存在著缺乏伸縮性的缺點,即由于進行深度優先搜索,所以算法受內存大小限制,難以處理大訓練集。

3.1.2聚類

聚類類似于分類,但與分類的目的不同。聚類是把不同的對象集合分成若干個不同類別的模型,每個模型具有相似的對象,有著基本相似的特征,又與其它類別中的對象不同[7]。聚類算法又分為劃分法(如K-MEANS、K-MEDOIDS算法)、層次法(如BRICH算法)與基于密度的方法(如DBSCAN算法)。通過聚類方法可以對醫療大數據進行分類處理,找出與其它病癥不同或類似的病癥,從而能夠分析出同一病種的微小差異, 做到精準治療。如Hastie等[8]通過對疼痛反應結果的聚類分析,完成了對熱性疼痛、壓力性疼痛、缺血性疼痛的誘因分析。聚類分析在醫療健康記錄的關鍵詞分類、生理信號分析中也發揮著重要作用。但是也要注意到目前的許多聚類算法都只是理論上的,經常處于某種假設之下,比如聚類能很好地被分離,沒有突出的孤立點等,但現實中的數據尤其是醫療數據通常很復雜,噪聲也很大。因此,如何有效地消除噪聲影響,提高處理現實數據的能力還有待進一步研究。

3.1.3預測

預測是指基于歷史數據建立模型,運用數據對未來發展趨勢進行測算,以預先了解事情發展的結果。具體預測方法有回歸分析(簡單線性回歸、多元線性回歸、非線性回歸)和時間序列(時序平均數法、移動平均法等)。

其中,回歸分析方法在健康領域應用較多。回歸分析方法反映的是數據庫中屬性值在時間上的特征,其主要研究包括數據序列的趨勢特征、數據序列預測以及數據間的關系等問題。例如對醫院信息系統中醫療風險因素的回歸分析,即分析各個影響因素與醫療風險之間的聯系及引起風險的概率變化,用于指導醫院的風險管理。但有時在回歸分析中,選用何種因子和該因子采用何種表達式只是一種推測,從而影響了因子的多樣性,使回歸分析在某些情況下受到限制。

3.1.4關聯規則

關聯規則是描述數據庫中數據項之間所存在的某種潛在關系的規則,也即可以從一個事務中某些項的出現推導出另一些項在同一事務中也將出現。該方法能夠發現醫療信息數據庫中滿足目的的最小支持度和最小可信度的所有關聯規則,從而揭示隱藏在健康大數據中的關聯關系[9]。在一些存在大量用戶醫療信息的數據庫中,比如個人健康信息、臨床治療信息、臨床診斷信息等,可以通過這一方法進行數據的挖掘處理,實現疾病的臨床決策和特殊疾病診斷[10]。關聯規則算法對患者所表現出的疾病特點及診療過程研究十分有效,但其也存在著在每一步產生侯選項目集時循環產生組合過多的缺點,且沒有排除不應該參與組合的元素,從而產生過多的候選項目集,導致I/O負載大。

3.2新興算法

3.2.1云計算

云計算作為一種高擴展、高彈性、虛擬化的計算模式,為健康大數據挖掘存儲能力及處理速度提升提供了動力支撐。基于云計算的數據挖掘是分布式并行數據挖掘與服務模式,一方面對于同一算法可以分布于多個節點上,另一方面多個算法之間是并行的,多個節點的計算資源可以按需分配。基于云計算的數據挖掘可以將傳統算法,如關聯分析、決策樹、神經網絡等算法結合使用。其主要有以下優點:①減少費用。醫院或醫療機構之間不需要單獨建立一個計算中心,只需要在云平臺上購買所需的服務,從而節省了大量費用;②高可靠性。云計算使用數據多副本容錯、計算節點同構可互換等措施,從而保障了服務的高可靠性,使用云計算比使用本地計算機更加可靠;③移動化。相比于傳統基于本地的服務,云計算可以使人們隨時隨地進行移動辦公。目前,基于云計算的大數據挖掘在健康領域主要應用在醫學圖像診斷、臨床決策支持等方面[9]。

3.2.2網絡爬蟲

運用網絡爬蟲技術打破數據壁壘,對健康大數據進行整理融合,對數據挖掘具有十分重要的意義。而且先進的健康數據大都存在于網頁之中,而運用網絡爬蟲(Web crawler)技術可以快速、準確地獲取大量網頁信息,并實現數據的實時更新[11]。

網絡爬蟲的核心原理為: 通過統一資源定位符(URL)地址,利用超文本傳輸協議 (HTTP) 模擬瀏覽器請求訪問網站服務器的方式,封裝必要的請求參數,獲取網站服務器端的許可,返回原始頁面并解析數據,其一般工作流程如圖3所示。

卞偉瑋、王永超等[12]利用網絡爬蟲技術快速、準確地獲得公共衛生服務系統的醫療數據,并進行數據整理,為建立人群健康風險評估模型提供數據基礎。然而目前基于網絡爬蟲的數據挖掘算法在健康領域的應用還不太廣泛,有待進一步研究。

4健康大數據挖掘面臨的挑戰

目前健康醫療大數據技術還處于早期發展階段,許多專業醫療機構、研究機構、企業都參與其中,推出各種特色的應用方案,以期挖掘健康醫療大數據的價值, 促進健康醫療行業發展。因此,健康醫療大數據將在醫療行業發揮越來越重要的作用。盡管如此,在實際應用中還存在許多問題和挑戰:

(1)數據共享困難。“信息孤島”普遍存在,來自不同醫療機構的數據結構差異性大,比如各個醫院的電子病歷格式都不相同。在這種情況下進行挖掘,會延長挖掘周期,從而大大限制健康醫療數據的應用范圍。

(2)數據標準不統一。各醫療機構通常有自己的信息化系統,且不同廠商的設備標準也不一樣,導致挖掘健康大數據時采用的原始數據質量較差。

(3)隱私保護堪憂。這主要是由于健康大數據的高度隱私性決定的,不同于其它大數據,健康大數據一旦發生泄漏,將損害患者的人格和尊嚴,特別是基因數據。由于每個人的基因數據都不相同,所以一旦泄漏后果不堪設想。如何在數據挖掘和分析過程中保護好患者隱私,是一項巨大的挑戰。

(4)復合型人才不足。醫療行業缺乏既精通醫療業務又擅長信息技術的新型健康管理人才,這已成為阻礙健康大數據挖掘技術應用的一大難題。

5結語

醫療健康與人類生活息息相關,如今正處在健康醫療行業大數據分析的一個重要轉折點,如何更好地利用身邊的大數據,促進人們生活水平的提高,是一個亟待解決的問題。健康大數據的應用,不僅可以為人們帶來更好的醫療健康服務,更重要的是在應用中,利用大數據挖掘算法可以不斷發現新的知識內容,從而促進醫學技術進步。而每一種數據挖掘算法都有其優缺點,適用范圍也不相同,因此在以后的研究中需要比較每種算法的優缺點,并將它們與新興技術結合起來,這將是未來健康大數據研究的重點。

參考文獻參考文獻:

[1]黎健民.大數據時代下的醫療康復與健康[J].中國醫藥導報,2016,13(33):178181.

[2]邁爾舍·恩伯格,肯尼思·庫克耶.大數據時代生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.

[3]許培海,黃匡時.我國健康醫療大數據的現狀、問題及對策[J].中國數字醫學,2017,12(5):2426.

[4]李雨童,姚登舉,李哲,等.基于R的醫學大數據挖掘系統研究[J].哈爾濱理工大學學報,2016,21(2):3843.

[5]JIAWEI HAN,MICHELIN KAMBER.數據挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2008:3031.

[6]SCHAFFER,CULLEN.Selecting a classification method by cross validation[J].Machine Learning, 1993,13(1):135143.

[7]宋波,楊艷利,馮云霞.醫療大數據研究進展[J].轉化醫學雜志,2016,5(13):298300.

[8]HASTILE BA, ROBINSON ME,et al.Cluster analysis of multiple experimental pain modalities[J].Pain,2005,116(3):227237.

[9]孫艷秋,王甜宇,曹文聰.基于云計算的醫療大數據的挖掘研究[J].計算機光盤軟件與應用,2015(2):1113.

[10]FANG Z,FAN X,CHEN G.A study on specialist or special disease clinics based on big data[J].Front Med,2014,8(3):376381.

[11]孫立偉,何國輝,吳禮發.網絡爬蟲技術的研究[J].電腦知識與技術,2010,6(15):41124115.

[12]卞偉瑋,王永超,崔立真,等.基于網絡爬蟲技術的健康醫療大數據采集整理系統[J].山東大學學報:醫學版,2017,55(6):4755.

責任編輯(責任編輯:黃健)

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 草逼视频国产| 国产91色| 97在线公开视频| 亚洲国产精品不卡在线| 久久久久青草大香线综合精品 | 午夜欧美在线| 亚洲天堂网站在线| 亚洲欧美精品日韩欧美| 永久免费精品视频| 伊人激情综合| 色综合中文| 一级成人欧美一区在线观看| 亚洲天堂精品视频| 玖玖精品视频在线观看| 波多野结衣久久精品| 91麻豆国产精品91久久久| 日韩高清一区 | 永久免费AⅤ无码网站在线观看| 国产成人喷潮在线观看| 国产幂在线无码精品| 亚洲人妖在线| 成人一区专区在线观看| 福利在线不卡| 91美女视频在线| 中美日韩在线网免费毛片视频| 天天综合网色| 亚洲色图另类| 人妻免费无码不卡视频| 欧洲高清无码在线| 亚洲美女一区| 久久96热在精品国产高清| 日韩高清无码免费| a级毛片免费网站| 高潮爽到爆的喷水女主播视频| 国产91九色在线播放| 国产福利一区在线| 中文字幕欧美日韩高清| 亚洲综合专区| 午夜精品一区二区蜜桃| 青青青视频91在线 | 91小视频在线播放| 久久夜色精品| 国产精品手机视频一区二区| 尤物午夜福利视频| 日韩专区第一页| 国产经典免费播放视频| 91无码人妻精品一区| 国产欧美日韩va| 久久综合九色综合97网| 精品国产91爱| 色成人综合| 久久午夜影院| 国产爽歪歪免费视频在线观看 | 欧美日韩精品在线播放| 在线看片中文字幕| 欧美在线精品一区二区三区| 精品少妇人妻无码久久| 又爽又大又光又色的午夜视频| 国产久操视频| 97国产在线播放| 日本不卡视频在线| 国产精品福利在线观看无码卡| 伊人久久青草青青综合| 2021国产精品自产拍在线观看 | 国产精品女熟高潮视频| 91久久性奴调教国产免费| 国产成人亚洲精品无码电影| 日韩精品成人网页视频在线| 欧美激情网址| 久久精品国产91久久综合麻豆自制| 伊人福利视频| 日韩a级片视频| 国产凹凸一区在线观看视频| 久久久久免费精品国产| 美女亚洲一区| 国产在线观看99| 综合成人国产| 午夜国产大片免费观看| 五月丁香伊人啪啪手机免费观看| 亚洲伊人久久精品影院| 国产va免费精品观看| 精品一区二区三区视频免费观看|