999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種異構集成學習的兒科疾病診斷方法研究

2018-07-05 04:30:56霍東雪尚振宏李潤鑫昆明理工大學信息工程與自動化學院云南昆明650500
計算機應用與軟件 2018年6期
關鍵詞:分類模型

霍東雪 劉 輝 尚振宏 李潤鑫(昆明理工大學信息工程與自動化學院 云南 昆明 650500)

0 引 言

由于我國人口眾多,城鎮化加劇,醫療資源匱乏,每千人所占有的醫生比例不足27名。近年來,醫患關系日趨緊張,導致醫療糾紛愈演愈烈。

信息技術的迅猛發展為醫療行業帶來了新的機會。當前,種類繁多的醫療技術已廣泛地應用于藥物挖掘、醫學影像、醫療診斷等各個領域[1]。隨著科學技術的進步,機器學習在醫療診斷領域中的應用將會越來越廣泛、越來越重要。機器學習中的集成學習算法則是提高分類器準確率的一種有效途徑,已經在很多領域顯示出它優于單個分類器的良好性能,不僅僅包括準確率等,同時還體現在其泛化能力上[2]。文獻[3-5]中展示分別采用異質或者同質的集成方式達到實驗目的,結果表明運用集成學習的策略能夠優于單個弱學習算法分類模型。然而,其中有關兒科疾病推理方面的研究卻少之又少,因此本文將異構模式的集成學習應用于兒科醫療診斷領域,具體來說,即把醫院診斷的每一份病歷作為模型輸入的一個樣本,樣本中的特征便來自于病歷中的主訴、現病史與體格檢查中的內容。對上述內容進行特征提取和數據預處理。樣本中的目標疾病會有多個,并且有先后次序的關系,這是因為醫生在診斷時往往根據其確定程度對初步診斷的多個疾病進行排序。如果暫不考慮疾病確診的順序,就可以將該診斷問題作為機器學習中的多標簽分類問題,即每一份病歷擁有多類疾病標簽。

基于以上思想,本文采用多標簽分類的SVM[6]、決策樹[7]、邏輯回歸[8]和隨機森林[9]算法,對于預先分割的訓練集與測試集,運用上述模型,分別進行訓練,并根據預測的疾病結果,采用模型融合的方法進行集成。實驗的結果表明,該方法能夠較為準確地預測出小兒患者未知樣本的疾病,提高集成模型的預測準確率。

1 Bagging 算法工作原理及流程

1.1 工作原理

Bagging算法于1996年被提出來之后,其正確性以及應用價值得到了迅速的提升,符合集成算法有關數學建模方面的要求,已在很多方面得到了具體而又廣泛的應用。其原理一般可以簡述為多個函數的線性融合,適用于對某些準確率相對較差的算法的提升。經過該算法的一系列處理之后,往往能夠得到一個對準確率有著大幅度提升的新集成學習算法。簡而言之,根據一個弱學習算法和指定的訓練集(x1,y1),(x2,y2),…,(xr,yr),在符合集合條件的多次訓練之后,可以得到對應的函數值的某一序列,最終的評估函數則由以上函數值進行數學上的處理后形成[10]。

弱學習算法是指那些獨立的且精度不要求很高的分類算法。Bagging算法首先提高了各個弱分類器融合后的泛化能力。泛化能力體現了分類器對新事物的適應能力,泛化能力越強,其對新事物的適應能力相對就越強,其次提升了模型的準確率等評價指標[11]。由此可見,使用Bagging算法解決兒科疾病診斷問題是一種切之有效的方法。

文中采用Bagging算法中的異構集成學習方法,它是通過融合多個不同類型算法的弱分類器形成。這是因為相異算法本身具有一定的差異性,融合后會導致生成的分類決策邊界不同,也就是它們在決策時會犯不一樣的錯誤,將其融合后往往能夠得到更加清晰的邊界,從而可以減少整體的分類錯誤,實現更好的預測結果。

1.2 模型融合算法

模型融合是指集成模型最終的預測結果由訓練的N個不同算法模型共同決策,并按照某種原則直至達到最佳的預測效果。其一般思路是在N組結果值中,穿插有不同算法的預測結果,這就確保了結果的多樣性。此種方式是將不同算法的結果進行融合,因為不同算法的結果著眼點不同,能夠滿足多標簽分類中真實的多個結果。

在多標簽分類中,對于其樣本所有類標簽,示例如y1,y2,…,yt,其中t為類標簽個數,在測試集的各組預測結果中,首先對N個算法模型進行分類,判斷哪些模型對某一類預測較為準確,表示其更能較好地學習到某一類所屬的特征,從而建立模型與類之間一對多的映射關系。如果與真實結果相比,該模型有一半以上的數量都能準確地預測出某一類,則把它稱為該類的可信模型。對于一份未知病歷所對應的特征集,如果能夠找到某一類疾病由其可信模型預測得到,說明該特征集有極大可能所屬某一類疾病,那么就把該類疾病添加到最終的預測結果中。反之,對于某些暫無可信模型的類別,或只出現一次的類別,表明算法中的N個模型都較少地學習到該類與特征之間對應的映射關系,就暫按多數原則進行選取。

1.3 算法流程

在本文中,首先采用“自助采樣”的方法,其次利用模型融合的算法,以此對SVM、決策樹、邏輯回歸和隨機森林算法進行分類,使其迭代產生對每個類別的可信模型,隨后選取最終的模型結果。具體描述,如圖1所示。

圖1 異構集成學習算法的流程示意圖

(1) 輸入樣本訓練數據集;

(2) 訓練N個相異算法的多標簽分類模型(N≥2);

(3) 在所有測試樣本中,針對N個模型預測結果的0/1多維行向量,分別與真實結果作對比,取得包含多個類別的可信模型;

(4) 對于測試集,如果能夠找到某一類別由其可信模型預測得到,那么就把該類疾病加入到最終的預測結果中,最后分別對比模型的準確率、召回率與F1值。

2 集成學習訓練模型構造

2.1 數據分析與樣本集構造

本文收集了某三甲醫院兒科患者的病歷樣本,病歷的元組樣式如圖2所示。

圖2 病歷樣本展示

文中采集到樣本總量為1 990份病例,采用特征提取算法從所有病歷樣本中提取到兒科相關的161類病癥(如腹痛、嘔吐、腹瀉、發熱等)和其對應的77類疾病(如呼吸道感染、氣管炎、急性扁桃體炎、發熱等)的序列,發熱、咳嗽等既屬于病癥又屬于疾病。隨后針對每一份病歷,采取數據預處理操作,對于病癥和疾病序列,分別生成161維特征向量和其對應的77維目標向量。其中,如果該病歷中存在該病癥即為1,否則為0。同樣地,該病例中存在該疾病即為1,否則為0。

由于是對某醫院近半年的兒科患者病歷樣本的采集,提取到的各個類別數量可能有所差異,所以會出現樣本分布不均衡的現象。表1為從總體樣本中任意抽取某20例標簽的分布,其中化膿性腮腺炎、咯血等只出現一例,而支氣管肺炎、急性扁桃體炎等則出現多次。因此,為了使訓練集和測試集中的數據分布均衡,采用Bagging中的“自助法”(bootstrapping)方案對樣本進行劃分。

表1 總體中的部分樣本分布

2.2 訓練與預測模型構造

由于樣本數據集屬于多標簽分類問題,因此采用scikit-learn工具包中處理多標簽分類的One-VS-the-Rest策略[13]。

One-VS-the-Rest策略最初是為了解決多分類問題,對于訓練集中的每一個類別訓練一個二分類模型,如果有t個類別,則訓練t個二分類模型。預測時,對每一個二分類模型預測一個類別。因此,對于一個未知樣本,則需要用以上t個二分類模型全部進行預測,從而得出結果。

同樣地,多標簽分類也可以用以上思想實現,如果有t個類別,則對每一類標簽訓練一個二分類模型。預測時,分別使用以上t個二分類模型進行預測。

根據上述思想,本文采用不同算法策略,利用One-VS-the-Rest策略訓練N個多標簽分類模型,隨后采取模型融合策略,根據樣本真實值與各個分類器預測結果的誤差,對分類器進行分類,分別得到各個類的可信模型,進而得出預測結果。

3 實驗結果及分析

本文所收集到的樣本集,總體共77類疾病,每個樣本的目標結果可能有一種到四種疾病,采用自助抽樣算法實現。D為1 990份原始樣本集,D′為1 990份“自助采樣”的訓練集,其中大約有600份病歷未出現在訓練集D′中,即DD′,把它作為測試集。在對目標樣本進行評估分析時,出于確保Bagging集成算法有效性的目的,采取支持向量機算法(SVM)、決策樹算法(Decision Tree)、邏輯回歸算法(Logical regression)和隨機森林算法(Random Forest)為基分類器,建立集成模型,然后與其構成的單個分類器結果做橫向對比。

算法的實現通過采用Python軟件調用scikit-learn工具包編程與梯度下降法優化模型關鍵參數實現,隨后采用One-VS-the-Rest的策略實現多標簽問題的分類。

由于目前將疾病的診斷視為機器學習中的多分類標簽,因此采用式(1)、式(2)、式(3)中的三個指標[14]來評估模型。假設D′為多標簽數據集,|D′|為D′對象總數,標記為(xi,Yi),其中i=1…|D′|,Yi表示真實樣本值,|Yi|記為Yi樣本總數,H為多標簽分類器,Zi=H(xi)表示對樣本特征xi預測的結果集合,|Zi|記為Zi的預測結果總數。

正確率:

(1)

召回率:

(2)

F值:

(3)

為進行充分比較,實驗采用“自助法”劃分訓練集和測試集的方法,對集成模型結果與單個SVM、決策樹、邏輯回歸、隨機森林分別進行比較,計算式(1)、式(2)、式(3),得出各模型的實驗對比結果如圖3所示。

圖3 模型對比結果展示

由圖3很直觀地看出:集成模型與單個分類器相比,準確率、召回率和F1均有不同程度的提高,其中,在單一分類器中,SVM預測準確率最高,為72.79%,召回率和F1決策樹相對較高,分別為69.75%和67.38%,通過模型融合后,準確率、召回率和F1值,為0.784 4、0.741 5和0.732 5,分別與SVM、決策樹相比,大約增長了6%、5%和6%。可以看出集成模型的準確率等效果較為明顯。

4 結 語

本文不同于傳統的單標簽分類算法,采取一種多標簽異構集成的模型分類方法。模型依據集成學習的基本思想,較為顯著地提高了準確率等指標。通過算例表明,本方法能夠有效地提高預測的準確率,降低計算誤差,取得比單一模型更好的預測效果等。對于下一步的工作,需要根據未知樣本結果,如一到四個目標疾病,通過化驗、X光等方面的檢查,獲得詳細數據來進一步明確兒童所患某種疾病。

[1] 范宏. 貝葉斯在醫療診斷系統中的應用研究[D]. 電子科技大學, 2013.

[2] 張翔,周明全,耿國華,等.Bagging算法在中文文本分類中的應用[J].計算機工程與應用,2009,45(5):135- 137,179.

[3] 高峰, 代美玲, 祁瑾. 基于Bootstrap-異質SVM集成學習的肺結節分類方法[J]. 天津大學學報(自然科學與工程技術版), 2017, 50(3):321- 327.

[4] 何鳴, 李國正, 袁捷. 醫學診斷中集成學習技術的研究[J]. 計算機工程與應用, 2006, 42(28):218- 220,224.

[5] 虞凡, 楊利英, 覃征. 異構集成學習中的觀察學習機制研究[J]. 廣西師范大學學報(自然科學版), 2006, 24(4):54- 57.

[6] 劉端陽, 邱衛杰. 基于SVM期望間隔的多標簽分類的主動學習[J]. 計算機科學, 2011, 38(4):230- 232,266.

[7] 晉愛蓮, 耿麗娜, 薄芳芳. 多標簽決策樹分類在數字醫學圖像分類中的應用[J]. 中國數字醫學, 2013, 8(3):90- 92.

[8] 董純潔. 基于實例與邏輯回歸的多標簽分類模型[D]南京大學,2013.

[9] 瞿合祚, 劉恒, 李曉明,等. 基于多標簽隨機森林的電能質量復合擾動分類方法[J]. 電力系統保護與控制, 2017, 45(11):1- 7.

[10] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2):123- 140.

[11] 何鳴, 李國正, 袁捷,等. 基于主成份分析的Bagging集成學習方法[J]. 上海大學學報(自然科學版), 2006, 12(4):415- 418,427.

[12] 周志華. 機器學習[M]. 北京:清華大學出版社, 2016:24- 28.

[13] http://scikit-learn.org/stable/modules/multiclass.html.

[14] Tsoumakas G, Katakis I, Taniar D. Multi-Label Classification: An Overview[J]. International Journal of Data Warehousing & Mining, 2008, 3(3):1- 13.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产高颜值露脸在线观看| 色国产视频| 成人午夜福利视频| 美女视频黄频a免费高清不卡| 美女视频黄又黄又免费高清| 久久青青草原亚洲av无码| 国产欧美网站| 国产一级精品毛片基地| 国产成本人片免费a∨短片| 国产婬乱a一级毛片多女| 亚洲综合色在线| 国产精品视频导航| 麻豆精品久久久久久久99蜜桃| 全免费a级毛片免费看不卡| 亚洲天堂成人在线观看| 国产黄色免费看| 国产一区二区丝袜高跟鞋| 久久特级毛片| 久久婷婷综合色一区二区| 国产成人综合久久| 黄色免费在线网址| 99视频在线观看免费| 视频一本大道香蕉久在线播放| 亚洲一区色| 激情综合激情| 欧美成人免费午夜全| 特级精品毛片免费观看| 国产午夜人做人免费视频中文| 国内精自视频品线一二区| 人人91人人澡人人妻人人爽 | 国产成人亚洲欧美激情| 四虎成人在线视频| 99视频国产精品| 亚洲大学生视频在线播放| 亚洲欧美自拍一区| 国产在线日本| 国产成人无码久久久久毛片| 欧美成人一级| 夜夜拍夜夜爽| 国产视频自拍一区| 欧美不卡视频一区发布| 亚洲黄网在线| 欧洲在线免费视频| 国产喷水视频| 在线免费亚洲无码视频| 成人午夜网址| 国产微拍一区| 福利视频99| 香蕉久久永久视频| 欧美综合中文字幕久久| 亚洲h视频在线| 美女裸体18禁网站| 又粗又大又爽又紧免费视频| 蜜桃臀无码内射一区二区三区| 亚洲成年网站在线观看| 欧美亚洲另类在线观看| 26uuu国产精品视频| 88国产经典欧美一区二区三区| 欧美精品v| 免费又黄又爽又猛大片午夜| 在线观看免费国产| 久久久久久高潮白浆| 国产特级毛片aaaaaaa高清| 国产精品国产主播在线观看| 亚洲日本www| 免费观看国产小粉嫩喷水| 亚洲va在线∨a天堂va欧美va| 欧美激情视频一区二区三区免费| аⅴ资源中文在线天堂| 99ri精品视频在线观看播放| 伊伊人成亚洲综合人网7777| 日本三区视频| 一本无码在线观看| 欧美日韩一区二区在线免费观看| 91美女在线| 最新午夜男女福利片视频| 久久亚洲AⅤ无码精品午夜麻豆| 国产成本人片免费a∨短片| 动漫精品中文字幕无码| 欧美人在线一区二区三区| 国产麻豆永久视频| 成人一级免费视频|