999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的分類算法研究-以乳腺癌TNM分期為例

2018-05-03 08:33:52王鐘廉
電子制作 2018年7期
關鍵詞:數據挖掘乳腺癌分類

王鐘廉

(西安交通大學附屬中學,陜西西安,710000)

0 前言

隨著當今世界經濟、文化、政治等的高速發展,計算機自20世紀50年代產生以來,便經歷著一代又一代的革新前進,并很快的滲透到社會生活的方方面面,為人們的工作、學習帶來了翻天覆地的變化,越來越成為了人們生活中不可分割的一部分。與此同時,近些年來,數據挖掘、大數據、云計算、機器學習,深度學習等最新技術越來越受到科研工作者的青睞[1],引起了廣泛的研究興趣,并在許多領域中得到不同程度的轉化利用,成為促使我國經濟發展與技術革新的一大驅動力量。我們每天被科學數據、醫療數據、金融數據、銷售數據等各式各樣的海量數據所淹沒,如何從大量的、有噪聲的、不完全的、模糊的實際應用數據中提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識成為當前困擾著人們的一大難題。在此大背景之下,數據挖掘技術應運而生。

數據挖掘是20世紀末逐漸形成的一個多學科交叉領域,它是一個融合了人工智能、機器學習、統計學以及知識工程等諸多領域技術的一個多學科交叉領域。目前,已經成功地應用在金融、零售、醫藥、通訊、電子工程、航空等有大量數據和深度分析需求的領域,是當前數據庫和信息決策領域的最前沿研究方向之一[2]。例如,數據挖掘技術在CRM(客戶關系管理)中的應用,成功地將數據庫中的海量數據轉變為極具實用價值的分析依據,為生產新產品提供決策[3],幫助企業確定客戶的特點,提供個性化的服務;利用數據挖掘技術研發的指紋、虹膜,人臉等生物特征識別技術,成功地應用到現實安全加密,人事考勤之中,促進了生產力的發展;分類算法在醫學影像上應用,成功的鑒別出了精神疾病患者區別于健康人的生物標志,促進了醫學研究的不斷進步,在輔助醫師做出正確的診斷,并及時的采取治療措施上取得了巨大成功。在此熱潮的推動下,各行各業都在加緊步伐利用數據挖掘技術發掘潛在價值,創造新的財富。

1 研究內容

中醫藥物治療乳腺癌具有廣泛的適應癥和獨特的優勢。根據臨床醫生的經驗,各項中醫癥素表現與乳腺癌不同分期階段存在一定的關聯關系,中醫癥狀間的關聯關系和諸多癥狀之間的規律性。但是這種單純依靠經驗的診斷方法缺乏統一的規范,難以做到診斷的標準化。其次,疾病的復雜性和體質的差異,造成病人是多種癥素兼夾復合,有時臨床醫師可能會被自身的經驗所誤導。

因此,可以通過一定的規則,挖掘出各中醫癥素與乳腺癌TNM分期之間的關系。探索不同分期階段的乳腺癌患者的中醫癥素分布規律,指導乳腺癌的中醫臨床治療。數據挖掘技術發展較為成熟,具有堅實的理論基礎,充分利用它在處理大數據方面的優勢,通過尖端的算法充分分析復雜無序數據背后潛在的信息。本論文研究的意義在于,通過對臨床醫學數據的分析,以期得到影響乳腺癌不同分期階段與各項中醫癥素的交互關系,并且依據規則分析病因、預測病情的發展以及為未來臨床提供有效借鑒。同時,針對其他類型的實際問題,可以利用類似的研究思想進行分析[4]。

2 研究方法

本實驗的主要目的是利用數據挖掘的算法對數據進行處理,得到六項中醫癥素(肝氣郁結、熱毒蘊含、沖任失調、氣血兩虛、脾胃虛弱、肝腎陰虛)得分與乳腺癌TNM(H1、H2、H3、H4)分期之間的關系。這是一個典型的分類問題,可以見四個乳腺癌TNM分期看作要劃分的類別,六項中醫癥素當作屬性特折,因此可以簡化為利用特征進行分類的問題。在各種分類算法中,我們采取基于樹的分類器方法。具體地,我們擬采用三種最常見的分類方法,分別是決策樹,分類與回歸樹(CART),隨機森林(randomforest)[5]。

■2.1 決策樹

決策樹,其核心是ID3算法,它是最簡單與基礎的分類器。它將一個樣本的屬性特征進行層層分裂,最后得出其分類類別,因其上小下大的形狀酷似一顆倒懸的樹而得名。ID3算法就是在每次需要分裂時計算出每個屬性的信息增益,然后選擇信息增益率最大的屬性進行分裂[6]。

所謂信息增益是針對一個一個特征而言的,系統有它和沒有它時的信息量各是多少,兩者的差值就是這個特征給系統帶來的信息量,即信息增益。計算信息增益首先要計算信息熵,信息上就是一個離散隨機事件出現的概率,一個系統越有序。

假如有變量X其可能的取值有n種,每一種取到的概率為Pi,那么X的熵就定義為:

如果系統中存在m個變量X,那么總的信息熵為:

分裂X所帶來的信息增益為:

通過選取信息增益最大的屬性結點,就可以完成決策樹的構建。

■2.2 分類與回歸樹

分類與回歸樹的英文是Classi fi cation and regression tree,縮寫是CART。分類與回歸樹與簡單的決策樹算法最大的不同在于,CART本質是對特征空間進行二元劃分(即CART生成的決策樹是一棵二叉樹),內部結點特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。對于目標類別大于兩個的實際問題而言,CART算法在進行樹的構建的過程中通過考慮將目標類別合并成兩個超類別,來進行二元劃分。

具體地,CART是通過一種叫做Gini指數的指標進行最優特征的選取。

GINI指數是一種用來度量樣本內分布差異大小的一項指標,最開始來源于經濟學家對某地區的收入分配差異。Gini指數是介于0~1之間的數,0-完全相等,1-完全不相等;總體內包含的類別越雜亂,GINI指數就越大。基尼指數關注目標變量里最大的類,它試圖找到一個劃分把它和其他的類區分開來。

■2.3 隨機森林

隨機森林英文Random Forest顧名思義,Random就是隨機抽取,Forest就是說這里不止一棵樹,而由一群決策樹組成的一片森林,連起來就是用隨機抽取的方法訓練出一群決策樹來完成分類任務。

隨機森林用了兩次隨機抽取,一次是對訓練樣本的隨機抽取;另一次是對變量(特征)的隨機抽取。對樣本的隨機抽取是指在對每一棵樹的模型構建中,通過有放回的抽取與原始樣本大小相等的樣本來作為訓練數據集[7]。一方面解決樣本數量有限的問題,另一方面由于每次抽取的樣本都是隨機的,可以保證構建的樹之間存在差異。而對樣本的隨機抽取,是指每次構建分類樹的時候都從所有特征里抽取相同數量的部分特征,從而使得每棵樹實際用到的特征都不是完全一樣的。RF的核心是由弱變強思想的運用。每棵決策樹由于只用了部分變量、部分樣本訓練而成,可能單個的分類準確率并不是很高。但是當一群這樣的決策樹組合起來分別對輸入數據作出判斷時,可以帶來較高的準確率。有點類似于俗語“三個臭皮匠頂個諸葛亮”。由于構建了多顆決策樹,每棵樹都可以做出分類決策結果,根據少數服從多數的原則,最后的類別由所有樹中票數較高的那個類別所決定。隨機森林有兩個重要的參數一是樹節點預選的變量個數,二是隨機森林中樹的個數。隨機森林相較于前兩種分類器最大的特點是,隨機建立了多棵分類樹,通過投票決定最有優分類,這樣做大大提高了分類的準確性但增大了運算量。

3 實驗分析

圖1所示為四種乳腺癌TNM分期所包含的樣本數量,圖2表示的是六項中醫癥素中存在缺失值的情況。在實際應用中,由于各種不確定因素,數據極易受噪聲、缺失值等因素的影響,導致數據的質量變低。對于樣本量有限的數據而言,基于低質量的噪聲數據構建的模型常常會偏離實際的情況,從而使得模型的通用性變低,不能很好的應用在其他場景之中。運用數據預處理技術,可以顯著的提高挖掘模型的總體質量[8]。

圖1 TNM分期的樣本分布情況

在本試驗中,分別采用了三種不同的分類器算法來對乳腺癌TNM分期階段進行分類研究,并比價了三種算法的分類性能。在這里,分類性能好壞主要是通過分類準確率來進行衡量的。分類準確性即為所有通過算法正確分類的樣本數占總樣本量的比例即:

分類準確率=準確分類數÷參與分類樣本總數×100%

圖2 屬性缺失值的分布情況

為了對缺失值進行數據預處理操作,比較了兩種不同的缺失值替換策略,分別是直接去掉含缺失值的樣本以及利用對應屬性特征的均值替換缺失值。表1所示即為實驗結果,由表可知,三種分類算法中,隨機森林取得了最高的分了性能,說明隨機森林方法在該問題的研究中具有較大的優勢;對于兩種確實只替換策略,取得的結果比較接近,其中去掉缺失值策略稍微高于利用均值替換缺失值,這可能是由于本實驗中包含的樣本相對較多,去掉其中較少的包含缺失值的樣本沒有對構建的模型造成影響。

表1 基于三種分類器算法在不同缺失值替換策略下的分類性能比較

表2 隨機森林中不同數量樹對分類結果的影響

此外,由于隨機森林是一種受包含樹的個數影響較大的算法,因此在此基礎之上,為了研究樹的數量對其分類性能的影響,我們將樹的個數分別設置為10,30,50,100,200,300,500,1000。由表2結果可知,隨著森林所包含的樹越來越多,分類性能由92.01%到96.12%逐漸升高。由此可見構建決策樹的個數越多,分類的準確率也就越高。但是因此所帶的是計算速度的降低。

4 總結

數據挖掘是一種針對海量數據進行處理分析的技術,能夠發現隱藏在數據之中的潛在有價值信息,將數據挖掘的知識應用到臨床實踐當中是一次有意義的嘗試過程。本論文主要利用數據挖掘中的分類算法對乳腺癌不同分期階段進行分類研究,通過對決策樹,分類與回歸樹以及隨機森林三種方法的分析,我們發現隨機森林的分類性能要明顯的高于其他兩種。此外,隨機森林算法的性能受其所包含的樹的個數影響較大,一般情況下樹越多,分類結果越高。這可能是因為隨著樹的增多,隨機采樣的樣本越均勻,最后構建的模型就越穩定,更具有代表性。

在現實生活中,數據挖掘技術處理可用于多種實際問題的分析處理之中,尤其是在醫療領域中的應用可以大大促進理論知識到臨床實踐的轉化。

* [1]趙倩倩, 程國建, 冀乾宇. 大數據崛起與數據挖掘芻議[J]. 電腦知識與技術, 2014, 33): 7831—7833

* [2] 朱建平, 張潤楚. 數據挖掘的發展及其特點[J]. 統計與決策,2002,( 07): 71—72.

* [3] 李寶東, 宋瀚濤. 數據挖掘在客戶關系管理(CRM)中的應用[J]. 計算機應用研究, 2002, 19(10): 71—74.

* [4]彭丹, 謝鵬.大腦認知功能的神經影像學研究現狀[J]. 中國臨床康復 , 2006,38): 133—135.

* [5]趙紫奉,李韶斌,孔抗美.基于決策樹算法的疾病診斷分析[J].中國衛生信息管理雜志,2011,8(05):67—69.

* [6]趙微,蘇健民.基于ID3算法決策樹的研究與改進[J].科技信息(科學教研),2008,(23):383+392.

* [7]方匡南,吳見彬,朱建平,謝邦昌. 隨機森林方法研究綜述[J].統計與信息論壇,2011,26(03):32—38.

* [8]李曉菲. 數據預處理算法的研究與應用[D].西南交通大學,2006.

猜你喜歡
數據挖掘乳腺癌分類
絕經了,是否就離乳腺癌越來越遠呢?
中老年保健(2022年6期)2022-08-19 01:41:48
分類算一算
探討人工智能與數據挖掘發展趨勢
乳腺癌是吃出來的嗎
分類討論求坐標
胸大更容易得乳腺癌嗎
數據分析中的分類討論
別逗了,乳腺癌可不分男女老少!
祝您健康(2018年5期)2018-05-16 17:10:16
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
主站蜘蛛池模板: 亚洲三级视频在线观看| 欧美另类精品一区二区三区| 极品尤物av美乳在线观看| 精品福利视频网| 伊人婷婷色香五月综合缴缴情| 真实国产精品vr专区| 国产情精品嫩草影院88av| 国产精品尤物在线| 亚洲成人一区在线| 欧洲亚洲欧美国产日本高清| 天天色天天操综合网| 久久九九热视频| 精品久久蜜桃| 久久婷婷六月| 亚洲国内精品自在自线官| 亚洲日本精品一区二区| 亚洲视频免费播放| 狠狠综合久久久久综| 制服丝袜 91视频| 国产精品网曝门免费视频| 奇米精品一区二区三区在线观看| 色综合色国产热无码一| 国产区人妖精品人妖精品视频| 成年午夜精品久久精品| 中文字幕日韩丝袜一区| 欧美啪啪一区| 国产av无码日韩av无码网站| 在线播放真实国产乱子伦| 欧美性爱精品一区二区三区| 午夜三级在线| 亚洲精品无码久久毛片波多野吉| 欧美第二区| 久青草免费在线视频| 国产成人久久综合一区| 无码在线激情片| 亚洲码一区二区三区| 在线播放精品一区二区啪视频| 污视频日本| 久久99国产综合精品1| 国产在线一区二区视频| 午夜不卡视频| 无码日韩人妻精品久久蜜桃| 亚洲日本中文字幕天堂网| 九九久久精品国产av片囯产区| 一级毛片免费观看久| 国产人成乱码视频免费观看| 国产成人高清精品免费软件| 国内精自视频品线一二区| 美女毛片在线| 中文毛片无遮挡播放免费| 欧美自慰一级看片免费| 女人毛片a级大学毛片免费| 青青草原国产一区二区| 久久精品aⅴ无码中文字幕| 亚洲精品福利视频| 国产美女91视频| 国产性爱网站| 91色综合综合热五月激情| 亚洲天堂网在线视频| 不卡网亚洲无码| 国产欧美日韩专区发布| 青草娱乐极品免费视频| 色香蕉影院| 中字无码精油按摩中出视频| 伊大人香蕉久久网欧美| 国产一级二级在线观看| 国产视频你懂得| 午夜丁香婷婷| 欧美第二区| 曰AV在线无码| 国产成人精品午夜视频'| 激情成人综合网| 亚洲精品午夜无码电影网| 国禁国产you女视频网站| 亚洲中文字幕日产无码2021| 亚洲av无码久久无遮挡| 国产99视频精品免费观看9e| 亚洲天堂免费观看| 久久久久久久久亚洲精品| 91综合色区亚洲熟妇p| 欧美天堂久久| 国产精品久久久久婷婷五月|