王艷娥 張拓 楊倩
摘要:隨著大數據技術的不斷發展,醫療大數據的研究也成為我國醫療建設的重要一環,聚類能夠挖掘出醫療大數據中潛在隱藏的信息,協助醫生、醫療管理部門、科研所進行有效工作。研究分析聚類算法K-means和K-medoids在醫療大數據的應用,從優化聚類算法降低時間復雜度、對高維醫療大數據進行特征提取降低維度、通過并行處理平臺加速醫療數據的處理速度方面出發,闡明聚類算法在醫療大數據的數據預處理、數據分類、疾病預測等方面都廣泛的應用。隨著并行處理平臺的建設,聚類算法在醫療大數據的應用也將越來越廣泛。
關鍵詞:聚類算法;K-means;K-medoids;醫療大數據
中圖分類號:TP181 文獻標識碼:A
文章編號:1009-3044(2020)12-0012-02
1聚類與醫療大數據
聚類是數據挖掘中無監督學習分析數據常用的方法之一,通過聚類能夠挖掘出數據集中隱藏的內在的聯系。醫療大數據的研究是我國醫療健康必經之路,通過聚類對醫療大數據進行分析,有效挖掘其隱藏的關聯為臨床診斷和醫療研究等提供有效的信息。根據聚類原理的不同,聚類可分為層次聚類、劃分式聚類、基于密度聚類和基于模型的方法,其中劃分式聚類算法因為原理簡單易于實現得到廣泛的應用。劃分式聚類算法是按照相似性和相異性原則將數據集劃分為k類。采用劃分式聚類算法分析數據時需要提前知道數據集的類數k,初始情況下,隨機選擇k個數據作為初始聚類中心,再按照相似行原則將其余數據劃分給不同的類,然后根據優化目標重新選擇新的聚類中心,直到滿足給定的條件為止。K-means算法和K-medoids算法是劃分式聚類算法的典型代表,其中K-means算法因為運行速度快,在醫療大數據的應用中得到廣泛的應用,K-medoids算法對噪聲點的處理具有較好的效果也得到廣泛的應用。原理簡單、易實現得到廣泛的應用。
1.1聚類算法
K-means算法和K-medoid算法的算法原理基本相同。K-means算法原理是隨機選擇K個數據點作為初始聚類中心,再根據相似性原則進行分類,使用同類數據的均值作為新的聚類中心,如此不斷迭代,直到滿足聚類目標結束。K-medoids算法原理也是隨機選擇K個數據作為初始聚類中心,再根據相似性原則進行分類,使用同類中的最接近中心的實際數據作為初始聚類中心,直到滿足聚類目標結束。兩者的相同點是聚類前需要提前告知聚類的類數K,且初始聚類中心都是隨機選擇。不同點在是K-means算法在迭代聚類中心是選擇的是同類數據的均值,從而導致噪聲點對聚類結果的影響大。K-medoid算法在迭代聚類中心是選擇的是實際的數據,使得噪聲點的影響較小。傳統的K-means算法和K-medoids算法因為其缺陷,往往不直接應用在數據處理中,很多研究學者將這兩種算法進行優化,再將其使用在醫療大數據中。
1.2醫療大數據
醫療大數據是大數據的一種,具有大數據的4V特性:Volume體量大、velocity實時性、variety多樣性、veracity不確定性。醫療大數據的研究對我國臨床醫療、藥物研究、健康醫療和基因研究都有著重要的作用。2018年國家衛生健康委印發了《國家健康醫療大數據標準、安全和服務管理辦法(試行)》,對醫療健康大數據行業從規范管理和開發利用的角度出發進行規范。據前瞻產業研究院發布的《中國醫療信息化行業市場前瞻與投資戰略規劃分析報告》統計數據顯示截止至2017年我國醫療信息化市場規模為448億元,同比增長17.59%。預測2019年我國醫療信息化市場規模將接近600億元。醫療大數據的研究是未來研究的熱點內容。
關于醫療大數據的研究復雜性主要也是從大數據的4V特性出發。聚類算法在醫療大數據的應用涉及醫療圖像處理、醫療費用分析、疾病預測、醫療數據關鍵性的特征提取等方面。
2聚類算法在醫療大數據中的應用
使用聚類算法在處理醫療大數據集,主要的問題是醫療數據體量大。但隨著數據并行處理的不斷發展,對于醫療大數據的可計算問題主要從串行處理和并行處理出發。其中串行處理主要從優化聚類算法提高算法的減少算法運行的時間復雜度或者通過分析醫療大數據的屬性,進行特征提取方法減少醫療大數據的體量,然后進行聚類等;并行處理主要在hadoop環境性使用Mapreduce、spark或者storm計算框架進行并行處理,實現對醫療大數據的聚類分析。
2.1基于串行處理的聚類算法在醫療大數據中的應用
文獻[3-9]通過對聚類算法進行優化,提高算法的運行速度。文獻[3]將優化的k-means算法和K-medoids算法應用在紅斑鱗狀皮膚病的數據中,在提高聚類算法運行速度的同時提高分析的精確度,分析效果良好。文獻[4]將優化的K-means算法應用在檢測膽固醇高低的真實數據集中,優化的k-means算法減少時間復雜度,使K-means算法應用在醫療大數據中,同時聚類效果良好。文獻[5]在癌胚抗原數據中采用優化K-means算法,獲取有價值的診斷信息,協助癌癥的預測和防御。文獻[6]針對乳腺癌組織病理中的關鍵因素腺管密度進行分析,將k-means算法與隨機森林分類算法結合,能夠對乳腺癌的自動分類達到較優的效果。文獻[7]針對醫學圖像中含有重要信息的孤立節點,通過聚類算法將醫學圖片進行分割,將相互孤立的結點轉換為直觀有價值的圖像區域,實現對孤立結點的處理,解決醫療圖像中因為疲勞而對影像出現的一些誤診,提高診斷的準確率。文獻[8]將聚類算法K-means算法應用在醫療費的分析中,分析出影響醫療費用的幾個關鍵因素,通過優化關鍵因素,可以是醫療費用的使用更加合理有效。文獻[9]針對社會醫療保險欺詐行為,通過K-means算法建立醫保欺詐識別的有效模型,有效確認醫保中的欺騙行為。
醫療數據體量大的一個重要因素是很多醫療數據的維度很高,針對高維度的醫療大數據可以通過特征提取減少醫療數據的體量。文獻[10-12]通過使用聚類算法分析醫療大數據的屬性,針對預定的目標分析出關系緊密的屬性,進行特征提取,從而減少醫療大數據的體量。文獻[10]針對醫療大數據中不同屬性具有不同的重要性,將部分對聚類結果沒有或有較少影響的屬性進行約簡,減少醫療大數據的維度,加快醫療大數據的處理速度,同時提高醫療大數據的處理精度。文獻[11]針對大腸早癌研究其診斷方法,通過分析數據特征、數據預處理、訓練數據和分類預測等方面進行研究,在數據特征提取這方面先對聚類算法進行優化,再將優化的算法應用于數據集的特征提取中,取得較好效果。文獻[12]針對醫療大數據的高維度,將聚類算法K-means與粗糙集進行結合,實現醫療大數據的特征提取,并將算法應用在乳腺癌數據集中,取得良好的效果。
2.2并行處理平臺下聚類算法在醫療大數據上的應用
文獻[13-15]是基于Hadoop平臺或Spark平臺下,對k-means算法或k-medoids算法進行優化,處理醫療大數據。文獻[13]針對我國醫療質量評價體系存在的問題,基于X-means進行優化建立Hadoop平臺,在面對大量醫療數據時能夠快速分析和提高醫療質量評價的精確度。文獻[14]針對K-means算法在Hadoop平臺上許多次遍歷所有數據問題,提出優化的M+Kmeans算法,該算法對所有數據秩序遍歷一次,從而加快算法的運行時間,便于醫療大數據的處理。文獻[15]構建Hadoop平臺,在該平臺上對K-means算法進行優化,降低算法時間復雜度、提高算法精確度,使之能夠對海量的數據進行分析和處理。隨著并行處理技術的不斷發展和平臺建設的不斷完善,基于并行處理醫療大數據的聚類算法將會越來越多。
3應用展望
聚類算法能夠有效挖掘醫療大數據中隱藏的重要信息。隨著國家對醫療數據的標準化、醫療大數據平臺的不斷建設,聚類算法在并行化處理平臺上的應用將是未來研究的熱點。