999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SMOTEboost的大腸癌不平衡數(shù)據(jù)集的癥型分類研究

2018-12-25 12:29:34劉芬劉秀峰
醫(yī)學(xué)信息 2018年23期

劉芬 劉秀峰

摘 要:目的 利用機(jī)器學(xué)習(xí)算法處理大腸癌中醫(yī)癥狀與證型數(shù)據(jù),建立適用于大腸癌不平衡數(shù)據(jù)集的虛實(shí)證型分類模型。方法 量化收集的大腸癌中醫(yī)臨床病案數(shù)據(jù)以及文獻(xiàn)檢索數(shù)據(jù),首先采用人工合成過(guò)采樣技術(shù)對(duì)數(shù)據(jù)集進(jìn)行平衡處理,再結(jié)合集成學(xué)習(xí)算法Adaboost,將癥狀作為輸入,證型作為輸出,對(duì)比傳統(tǒng)機(jī)器學(xué)習(xí)算法分類效果,探討大腸癌的SMOTEboost分類模型在虛實(shí)證型中的分類性能。結(jié)果 SMOTEboost分類算法在大腸癌虛實(shí)證型分類模型中,F(xiàn)-mean較Adaboost提高了25.40%,G-mean提高了16.60%,表明構(gòu)建的分類器具有較高的分類性能與泛化能力。結(jié)論 SMOTEboost復(fù)合分類器為大腸癌中醫(yī)證型分類提供很好的計(jì)算機(jī)網(wǎng)絡(luò)模型,也為其他中醫(yī)病癥的臨床證型判定提供借鑒意義。

關(guān)鍵詞:大腸癌;Adaboost;SMOTE;不平衡數(shù)據(jù)集

中圖分類號(hào):TP311.13;R735.3+4 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1006-1959.2018.23.003

文章編號(hào):1006-1959(2018)23-0010-03

Abstract:Objective To establish a classification model of deficiency and solid syndrome type suitable for unbalanced data set of colorectal cancer by using machine learning algorithm to process TCM symptom and syndrome type data of colorectal cancer.Methods The data of TCM clinical records and literature retrieval of colorectal cancer were collected quantitatively.First, the artificial oversampling technique is used to balance the data set, and then the integrated learning algorithm Adaboost, is used to deal with the data set balance.Take symptoms as input, syndrome as output,and then compared the classification effect of traditional machine learning algorithm in order to study the classification performance of SMOTEboost classification model of colorectal cancer in deficiency and solid syndrome.Results In SMOTEboost classification algorithm used in the classification model of colonic carcinoma,F(xiàn)-mean increased 25.40% and G-mean by 16.60% compared with Adaboost which shows that the constructed classifier has high classification performance and generalization ability.Conclusion The SMOTEboost compound classifier can provide a good computer network model for the classification of TCM syndromes of colorectal cancer, and also provide reference for other TCM syndromes.

Key words:Colorectal cancer;Adaboost;SMOTE;Unbalanced dataset

不平衡數(shù)據(jù)集(unbalanced data sets)是指在一個(gè)數(shù)據(jù)集中,某些類的數(shù)量遠(yuǎn)遠(yuǎn)大于其他類別的數(shù)量,其中類別數(shù)量多的為多數(shù)類,類別數(shù)量少的為少數(shù)類[1]。大多數(shù)的機(jī)器學(xué)習(xí)分類算法都是基于平衡數(shù)據(jù)集的假設(shè),然而當(dāng)數(shù)據(jù)集各類別的樣本分布不均勻時(shí),分類器常常會(huì)傾向樣本中的多數(shù)類[2]?,F(xiàn)實(shí)生活中,大多數(shù)屬于不平衡分類問(wèn)題,如疾病診斷、人臉識(shí)別、文本分類、金融風(fēng)險(xiǎn)預(yù)測(cè)等[3]。人們往往需要知道少數(shù)類是否被正確分類,因此不平衡數(shù)據(jù)分類問(wèn)題是近年來(lái)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的研究熱點(diǎn)[4]。

大腸癌(large intestinecancer)是下消化系統(tǒng)中一種常見(jiàn)的惡性腫瘤[5,6],中醫(yī)在降低大腸癌化療毒副反應(yīng),改善臨床證侯,提高生存質(zhì)量,以及預(yù)防復(fù)發(fā)、轉(zhuǎn)移等方面顯示出了一定的優(yōu)勢(shì)[7]。然而大腸癌臨床證型大多存在病例量小、地區(qū)差異、診斷不規(guī)范、各種癥型分布不均等問(wèn)題,故為了實(shí)現(xiàn)大腸癌中醫(yī)癥型的有效分類,使得大腸癌辨病與辨證相結(jié)合,訓(xùn)練大腸癌中醫(yī)癥型的高效分類器將為大腸癌中醫(yī)癥狀與癥型之間的臨床判斷提供便利。

1 資料與方法

1.1數(shù)據(jù)來(lái)源 本文訓(xùn)練分類模型的一部分?jǐn)?shù)據(jù)集來(lái)源于UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù),選用乳腺癌數(shù)據(jù)集(breast cancer)用以算法仿真實(shí)驗(yàn);另一部分?jǐn)?shù)據(jù)集來(lái)源于人工收集的大腸癌數(shù)據(jù)(colorectal-cancer)用以分類器的驗(yàn)證。Breast cancer數(shù)據(jù)集共286例,標(biāo)號(hào)為非復(fù)發(fā)事件(no recurrence events)的數(shù)據(jù)有201例,而類標(biāo)號(hào)為復(fù)發(fā)事件(recurrence events)的數(shù)據(jù)有85例,即兩類樣本量不平衡。

收集的大腸癌數(shù)據(jù)總共338例,其中150例收集于2007年廣東省臨床病案,另外188例來(lái)自文獻(xiàn)數(shù)據(jù),分別來(lái)源于中國(guó)知網(wǎng)全文數(shù)據(jù)庫(kù)(CNKI)、維普全文數(shù)據(jù)庫(kù)(VIP)及萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái),檢索年限為1990~2015年,關(guān)鍵詞為“大腸癌”“病機(jī)”“驗(yàn)案”等。最終篩選出符合大腸癌病理學(xué)納入排除標(biāo)準(zhǔn)的數(shù)據(jù)有218例,其中虛癥143例(包含的證型有脾失健運(yùn)、脾虛夾瘀、氣血虧虛、脾腎陽(yáng)虛和肝脾不調(diào)),實(shí)證75例(包含的證型有濕熱內(nèi)蘊(yùn)、氣滯血瘀、淤毒內(nèi)阻),構(gòu)成了不平衡數(shù)據(jù)集。表1所列為兩組數(shù)據(jù)集描述,不平衡率為少數(shù)類樣本量與多數(shù)類樣本量之比,不平衡率越大,表明數(shù)據(jù)集整體不平衡度越高。屬性為表示數(shù)據(jù)集的特征集,其中Breast cancer數(shù)據(jù)集包含的屬性特征有患者樣本的年齡、乳腺腫瘤大小、位置、是否復(fù)發(fā)等10個(gè);Colorectal cancer數(shù)據(jù)集包含里急后重、大便秘結(jié)、脈沉、舌紅、舌苔厚等28項(xiàng)癥狀屬性特征。

1.2數(shù)據(jù)預(yù)處理 本研究結(jié)合臨床數(shù)據(jù)與文獻(xiàn)數(shù)據(jù),篩選出的癥狀輸入一共有28項(xiàng),包含里急后重、大便秘結(jié)、脈沉、舌紅、舌苔厚等中醫(yī)體征變化,并將收集到的原始數(shù)據(jù)在EXCEL表中進(jìn)性“0”“1”初步量化,有該癥狀賦1,無(wú)該癥狀賦0;同理量化證型輸出,結(jié)合專家意見(jiàn),將大腸癌證型分為8類,分別為氣血虧虛、濕熱內(nèi)蘊(yùn)、氣滯血瘀、淤毒內(nèi)阻、脾失健運(yùn)、脾腎陽(yáng)虛、肝脾不調(diào)、脾虛夾瘀??紤]到分屬于8種證型的樣本數(shù)據(jù)量太小不足以訓(xùn)練模型,故進(jìn)而將這8種證型轉(zhuǎn)變?yōu)樘搶?shí)兩證,探討二分類問(wèn)題。

1.3研究方法

1.3.1 SMOTE算法 最普通的上采樣技術(shù)為隨機(jī)上采樣(random over-sampling,ROS),此種方法實(shí)現(xiàn)簡(jiǎn)單,通過(guò)不斷復(fù)制少類樣本來(lái)擴(kuò)大平衡樣本量,但隨機(jī)上采樣會(huì)使得分類算法過(guò)度擬合從而降低分類器的靈敏度,本文在數(shù)據(jù)層面選用啟發(fā)式的基于“插值”合成少數(shù)類過(guò)采樣技術(shù)(synthetic minority oversampling technique,SMOTE),在數(shù)據(jù)層面對(duì)不平衡數(shù)據(jù)集作出改進(jìn)。合成少類過(guò)采樣技術(shù)(SMOTE)相比隨機(jī)過(guò)采樣,SMOTE中插入的點(diǎn)位于少類樣本點(diǎn)和其周圍的樣本點(diǎn)之間,有效解決了過(guò)擬合問(wèn)題。

1.3.2 Adaboost算法 針對(duì)不平衡數(shù)據(jù)集分類問(wèn)題,目前主要的分類算法有支持向量機(jī)、模糊分類算法、Boosting算法、Fisher線性判別分析方法、代價(jià)敏感學(xué)習(xí)方法、Bagging算法和決策樹(shù)算法等。Boosting算法中存在一種損失函數(shù)為指數(shù)損失的Adaboost(adaptive boosting)算法,它可以根據(jù)所提供的一種框架,在框架內(nèi)可以使用各種方法構(gòu)建子分類器,而且可以使用任何簡(jiǎn)單的弱分類器;此外,Adaboost算法不需要弱分類器的先驗(yàn)知識(shí),最后得到的強(qiáng)分類器的分類精度依賴于所有弱分類器,且不需要預(yù)先知道弱分類器的錯(cuò)誤率上限,它根據(jù)弱分類器的反饋,自適應(yīng)地調(diào)整假定的錯(cuò)誤率從而具有深挖分類器的能力。綜合Adaboost算法在分類上的優(yōu)點(diǎn)以及集成效果,本文在分類算法層面選取以單決策樹(shù)為弱分類器構(gòu)建Adaboost強(qiáng)分類器模型運(yùn)用于不平衡數(shù)據(jù)集的分類研究。

2 結(jié)果

2.1 SMOTE上采樣結(jié)果 在SMOTE算法中我們將鄰域K值設(shè)置為5,數(shù)據(jù)采樣后少數(shù)類比例與原始少數(shù)類比例見(jiàn)表2。可見(jiàn)在經(jīng)過(guò)SMOTE過(guò)采樣后,少數(shù)類比例在某種程度上得到提升,從而起到平衡數(shù)據(jù)集的作用。

2.2不平衡數(shù)據(jù)集評(píng)價(jià)指標(biāo) 我們通常使用預(yù)測(cè)準(zhǔn)確率(ACC)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)估一般數(shù)據(jù)集分類器的性能。但對(duì)于不平衡數(shù)據(jù)集,由于精度會(huì)偏向多數(shù)類,而少數(shù)類很少可以產(chǎn)生影響,故ACC并不能夠正確反映分類器的分類性能。在包含兩類的數(shù)據(jù)集中,我們將樣本數(shù)量少但識(shí)別重要性高的稱為正樣本,反之稱為負(fù)樣本。經(jīng)過(guò)分類,訓(xùn)練樣本分成4 類,構(gòu)成混淆矩陣(confusionmatrix),見(jiàn)表3。

一般來(lái)說(shuō)準(zhǔn)確率和召回率越高,預(yù)測(cè)的結(jié)果越好,但是實(shí)際上有時(shí)兩者會(huì)有矛盾,故采用使用兩者的調(diào)和平均值,更好的估計(jì)分類器對(duì)少數(shù)類的分類性能。G-mean是以少數(shù)類的分類正確率和多數(shù)類的分類正確率為基礎(chǔ),較高的G-mean值說(shuō)明分類器對(duì)于多數(shù)類和少數(shù)類樣本都有不錯(cuò)的分類性能。

2.3建立基于SMOTE法的Adboost分類模型 為減少訓(xùn)練時(shí)間,在導(dǎo)入數(shù)據(jù)之前,利用主成分分析將大腸癌的28個(gè)原始輸入降為10個(gè)。同時(shí)為了選取合適的弱分類器數(shù)目,我們將弱分類器數(shù)目設(shè)定為1~10000中幾個(gè)不同數(shù)字,多次運(yùn)行Adaboost分類過(guò)程,最終根據(jù)錯(cuò)誤率確定弱分類器的個(gè)數(shù)為50。為充分運(yùn)用數(shù)據(jù)集,整個(gè)訓(xùn)練過(guò)程采用5折交叉驗(yàn)證法,循環(huán)訓(xùn)練數(shù)據(jù),當(dāng)分類器錯(cuò)誤率為0或者到達(dá)迭代次數(shù)時(shí)訓(xùn)練終止。表4記錄了采樣后相對(duì)平衡的數(shù)據(jù)集在Adaboost分類器中的F-mean和 G-mean值,可以很直觀感受出SMOTEboost分類器較傳統(tǒng)Adaboost分類器在大腸癌虛實(shí)證型分類性能上得到了很大提升。

3討論

對(duì)于表現(xiàn)好的數(shù)據(jù)集,Adaboost的測(cè)試錯(cuò)誤率會(huì)達(dá)到一個(gè)穩(wěn)定值,并不會(huì)隨著分類器的增多而上升。但本研究在設(shè)定不同的弱分類器數(shù)目時(shí),不平衡數(shù)據(jù)集的測(cè)試錯(cuò)誤率在達(dá)到一個(gè)最小值之后便又開(kāi)始上升,即訓(xùn)練過(guò)程產(chǎn)生了過(guò)擬合。這也進(jìn)一步說(shuō)明了傳統(tǒng)分類算法運(yùn)用于不平衡數(shù)據(jù)集所帶來(lái)的缺陷,故在進(jìn)行分類器訓(xùn)練之前對(duì)不平衡數(shù)據(jù)集進(jìn)行過(guò)采樣等平衡處理是非常必要的。其次,本文采用SMOTE過(guò)采樣技術(shù)對(duì)數(shù)據(jù)集進(jìn)行平衡處理的效果雖有得到提升,但效果依然值得進(jìn)一步商榷改良,原因是它是基于隨機(jī)過(guò)采樣算法的一種改進(jìn)方案,由于隨機(jī)過(guò)采樣采取簡(jiǎn)單復(fù)制樣本的策略來(lái)增加少數(shù)類樣本,這樣容易產(chǎn)生模型過(guò)擬合的問(wèn)題,即使得模型學(xué)習(xí)到的信息過(guò)于特別而不夠泛化。本文雖選取Adaboost集成算法作為分類器的原始模型,但對(duì)不平衡數(shù)據(jù)集而言,為提升分類器性能,考慮不同誤分類情況代價(jià)的差異性對(duì)算法進(jìn)行優(yōu)化也是之后需要深入研究的重要問(wèn)題。

辨證論治是中醫(yī)藥治療大腸癌的核心,目前臨床研究對(duì)中醫(yī)證型的分析缺乏多中心、大樣本的流行病學(xué)研究,為辯證的客觀化、標(biāo)準(zhǔn)化帶來(lái)了一定的困難。癌癥數(shù)據(jù)存在極大的不平衡,準(zhǔn)確率的應(yīng)用更加有限,當(dāng)某些重要類的代表樣本不足時(shí),很容易引起漏診。傳統(tǒng)的學(xué)習(xí)方法以降低總體分類精度為目標(biāo),將所有樣本同等對(duì)待,造成了分類器在多數(shù)類的分類精度較高而在少數(shù)類的分類精度很低,故本文放棄采用單一準(zhǔn)確率作為分類器性能衡量指標(biāo),引入F-mean與G-mean則更具合理性。而由于大腸癌中醫(yī)癥狀與證型之間存在明顯的非線性映射關(guān)系,即癥狀與證型之間并不是簡(jiǎn)單的一一對(duì)應(yīng)關(guān)系,這就說(shuō)明在大腸癌中醫(yī)證型的臨床判別中醫(yī)生很容易根據(jù)經(jīng)驗(yàn)做出判定,缺乏一定的科普性。故將中醫(yī)藥與信息化結(jié)合起來(lái),探討適用于處理臨床領(lǐng)域不平衡數(shù)據(jù)集的計(jì)算機(jī)網(wǎng)絡(luò)模型至關(guān)重要,也為中醫(yī)證型的規(guī)范化帶來(lái)裨益。本文從改善不平衡數(shù)據(jù)集出發(fā),構(gòu)建適用于大腸癌證型分類的網(wǎng)絡(luò)模型,為大腸癌中醫(yī)證型的辯證論治提供計(jì)算機(jī)領(lǐng)域的輔助模型,旨在推動(dòng)大腸癌臨床證型判定的有效性。

參考文獻(xiàn):

[1]胡小生,張潤(rùn)晶,鐘勇.一種基于聚類提升的不平衡數(shù)據(jù)分類算法[J].集成技術(shù),2014,3(02):35-41.

[2]姚宇,董本志,陳廣勝.一種改進(jìn)的樸素貝葉斯不平衡數(shù)據(jù)集分類算法[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2015,32(05):681-686.

[3]閆慈,田翔華,阿拉依,等.基于AdaBoost法在代謝綜合征不平衡數(shù)據(jù)分類中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2017,44(21):3850-3852,3862.

[4]張文東,呂扇扇,張興森.基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的非均衡數(shù)據(jù)分類算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(06):153-156.

[5]駱學(xué)新,李志丹.大腸癌的中醫(yī)藥治療進(jìn)展[J].浙江中醫(yī)雜志,2014,49(10):777-779.

[6]王國(guó)娟,余文燕.大腸癌中醫(yī)證型規(guī)律研究[J].中華中醫(yī)藥雜志,2016,31(03):837-840.

[7]閆霞,鄭佳露,胡兵.大腸癌證候及其現(xiàn)代生物醫(yī)學(xué)內(nèi)涵研究[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2017,19(07):1253-1257.

收稿日期:2018-10-9;修回日期:2018-10-19

編輯/成森

主站蜘蛛池模板: 亚洲成人一区二区三区| 亚洲精品麻豆| 99热这里只有精品免费| 亚洲综合色婷婷| 久久视精品| 国产精品女主播| 国产激情国语对白普通话| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 国产免费好大好硬视频| 美女免费精品高清毛片在线视| 国产精品亚洲αv天堂无码| 国产网站在线看| 精品国产中文一级毛片在线看| 超碰aⅴ人人做人人爽欧美| 91亚洲影院| 欧洲在线免费视频| 国产精品九九视频| 亚洲美女一级毛片| 国产精品yjizz视频网一二区| 国产微拍精品| 麻豆精品在线视频| 免费一级毛片在线观看| 成人夜夜嗨| 亚洲无线国产观看| 亚洲精品在线91| 国产成人亚洲精品蜜芽影院| 操国产美女| 久久香蕉国产线看观看式| 亚洲国产综合自在线另类| 国产欧美在线观看一区| av无码久久精品| 97久久精品人人| 亚洲高清中文字幕| 人妻精品全国免费视频| 她的性爱视频| 免费中文字幕在在线不卡 | 欧美va亚洲va香蕉在线| 成人国产免费| 久久人人爽人人爽人人片aV东京热| 人妻无码中文字幕一区二区三区| 美女扒开下面流白浆在线试听 | 亚洲精品无码av中文字幕| 久草视频福利在线观看| 久久综合色88| 国产精品观看视频免费完整版| 亚洲黄色视频在线观看一区| 91亚洲视频下载| 日韩精品成人网页视频在线| 午夜精品久久久久久久无码软件| 中文成人在线| 欧美中文字幕在线播放| 欧美性爱精品一区二区三区| 欧美日韩一区二区在线播放| 国产精品性| 色综合久久久久8天国| 亚洲人成网7777777国产| 国产青榴视频| 网久久综合| 香蕉精品在线| 国产在线观看精品| 91精品啪在线观看国产60岁| 亚洲日韩国产精品综合在线观看| 亚洲精品综合一二三区在线| 久久窝窝国产精品午夜看片| 亚洲码一区二区三区| 国产香蕉国产精品偷在线观看| 中文无码日韩精品| 亚洲无码电影| 一级毛片免费的| 亚洲va视频| 精品人妻无码中字系列| 精品91视频| 日韩a级毛片| 久久五月视频| 性欧美精品xxxx| 91精品免费久久久| 久久精品免费国产大片| 亚欧美国产综合| 国产v精品成人免费视频71pao| 毛片卡一卡二| 日韩性网站| 99久久精品免费看国产电影|