999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡數(shù)據(jù)集的分類(lèi)研究在醫(yī)療數(shù)據(jù)方面的應(yīng)用

2020-02-01 03:24:30田波沈江明張德鑫曾志勇
電子技術(shù)與軟件工程 2020年9期
關(guān)鍵詞:分類(lèi)模型

田波 沈江明 張德鑫 曾志勇

(1.中國(guó)電信股份有限公司云南分公司 云南省昆明市 650000)

(2.云南省高校數(shù)據(jù)化運(yùn)營(yíng)管理工程研究中心 云南省昆明市 650000 3.云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院 云南省昆明市 650000)

(4.云南財(cái)經(jīng)大學(xué)信息學(xué)院 云南省昆明市 650000)

1 理論知識(shí)

1.1 SMOTE過(guò)采樣

SMOTE 過(guò)采樣技術(shù)是由Chawle[4][3]和他的團(tuán)隊(duì)率先提出,該技術(shù)是通過(guò)在兩個(gè)少數(shù)類(lèi)樣本之間隨機(jī)選擇一個(gè)新樣本作為少數(shù)類(lèi)樣本,以此循環(huán)往復(fù),通過(guò)這種人工合成新樣本的方式不斷擴(kuò)充少數(shù)類(lèi)樣本的數(shù)量,直至樣本數(shù)據(jù)平衡為止。

1.2 ENN欠采樣

ENN 欠采樣屬于一種將多數(shù)類(lèi)樣本進(jìn)行刪減,使得原本的多數(shù)類(lèi)樣本和少數(shù)類(lèi)樣本在數(shù)量上盡可能的保持一定的平衡的欠采樣方法,它主要對(duì)于其中的多數(shù)類(lèi)選定樣本,通過(guò)觀察該樣本附近k個(gè)近鄰點(diǎn),如果附近的k 個(gè)近鄰樣本中有超過(guò)一半的樣本和該樣本不屬于同一個(gè)類(lèi)別,那么就將該樣本進(jìn)行相應(yīng)的剔除。

1.3 隨機(jī)森林算法

隨機(jī)森林算法是集成方法bagging 流派中的典型代表,該算法將原始數(shù)據(jù)集通過(guò)有放回抽樣的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,通過(guò)多個(gè)決策樹(shù)并行運(yùn)算,輸出各自的預(yù)測(cè)值,然后通過(guò)投票選擇法,少數(shù)服從多數(shù)的原則,確定最后的輸出結(jié)果。

1.4 Catboost算法

Catboost 采用特殊的方式處理類(lèi)別型特征,首先對(duì)類(lèi)別特征做一些統(tǒng)計(jì),計(jì)算某個(gè)類(lèi)別特征出現(xiàn)的頻率,之后加上超參數(shù),生成新的數(shù)值型特征。Catboost 還使用了組合類(lèi)別特征,可以利用到特征之間的聯(lián)系,而且基模型采用的是對(duì)稱樹(shù),同時(shí)計(jì)算葉子結(jié)點(diǎn)方式和傳統(tǒng)的boosting 算法通過(guò)平均值的計(jì)算方式也不一樣,由于在這方面做了優(yōu)化,而這些改進(jìn)都能防止模型過(guò)擬合。

1.5 評(píng)價(jià)指標(biāo)

關(guān)于分類(lèi)問(wèn)題的研究,本文將整體分類(lèi)率、查準(zhǔn)率、召回率、f1-度量和auc 值作為模型分類(lèi)效果的評(píng)價(jià)指標(biāo)。

如表1所示,根據(jù)混淆矩陣可以得到以下指標(biāo),準(zhǔn)確率度量的是所有預(yù)測(cè)樣本當(dāng)中預(yù)測(cè)正確的比例,但是在面對(duì)不平衡數(shù)據(jù)集的時(shí)候,準(zhǔn)確率作為最重要的評(píng)價(jià)指標(biāo)[6],就會(huì)缺乏合理性,計(jì)算公式Accuracy=(TP+TN)/(TP+FN+FP+TN)。查準(zhǔn)率主要度量所有預(yù)測(cè)為正類(lèi)的樣本當(dāng)中,被判斷正確的一個(gè)比例值,計(jì)算公式Precision=TP/(TP+FP)。召回率主要度量正類(lèi)樣本當(dāng)中會(huì)有多少是被預(yù)測(cè)為正類(lèi)樣本的,在不平衡數(shù)據(jù)集當(dāng)中,該評(píng)價(jià)指標(biāo)更加關(guān)注的是對(duì)于少數(shù)類(lèi)的預(yù)測(cè)準(zhǔn)確率,計(jì)算公式Recall=TP/(TP+FN)。F1-度量主要是針對(duì)查準(zhǔn)率和召回率的調(diào)和平均指標(biāo),通過(guò)F1-度量可以知道查準(zhǔn)率和召回率兩者的側(cè)重關(guān)系,具體的計(jì)算公式F1=2(Precision*Recall)/(Precision+Recall),針對(duì)不平衡數(shù)據(jù)集,F(xiàn)1-度量作為分類(lèi)模型主要的評(píng)價(jià)指標(biāo),AUC 值是ROC 曲線下的面積值,用來(lái)評(píng)價(jià)分類(lèi)學(xué)習(xí)器的模型泛化能力。

2 數(shù)據(jù)來(lái)源與數(shù)據(jù)不平衡特征

2.1 數(shù)據(jù)來(lái)源

數(shù)據(jù)真實(shí)來(lái)自于醫(yī)院,主要有14 個(gè)特征字段,存在著不平衡的現(xiàn)象,少數(shù)類(lèi)和多數(shù)類(lèi)達(dá)到了2:8 的比例,如果直接進(jìn)行模型訓(xùn)練和預(yù)測(cè),那么即便模型不學(xué)習(xí),只要將結(jié)果全部預(yù)測(cè)為多數(shù)類(lèi),那么整體的準(zhǔn)確率也可以達(dá)到80%,但實(shí)際模型是不具備預(yù)測(cè)功能的。

3 仿真實(shí)驗(yàn)

3.1 SMOTEENN采樣處理

通過(guò)對(duì)原始數(shù)據(jù)集進(jìn)行一系列的數(shù)據(jù)預(yù)處理以及特征工程工作之后,為了測(cè)試訓(xùn)練模型的最終是否具有良好的預(yù)測(cè)效果,因此將已處理好的實(shí)驗(yàn)數(shù)據(jù)集按照7:3 的比例劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集主要用于前期模型的訓(xùn)練學(xué)習(xí),本文通過(guò)SMOTEENN 采樣處理之后的數(shù)據(jù)集數(shù)量結(jié)果如表2所示。

通過(guò)上述結(jié)果可以看出,原始的訓(xùn)練數(shù)據(jù)集存在著不平衡現(xiàn)象,多數(shù)類(lèi)和少數(shù)類(lèi)的比列達(dá)到了大約4:1,經(jīng)過(guò)SMOTEENN 采樣處理之后,訓(xùn)練數(shù)據(jù)集的數(shù)量總量也由原來(lái)的77326 變成了110114,多數(shù)類(lèi)和少數(shù)類(lèi)的比例變得大致一樣。

3.1.1 隨機(jī)森林模型

由于隨機(jī)森林是集成方法當(dāng)中的優(yōu)良代表,本文就通過(guò)使用scikit-learn 庫(kù)中的隨機(jī)森林模型,將未經(jīng)采樣處理的訓(xùn)練數(shù)據(jù)集和經(jīng)過(guò)SMOTEENN 采樣處理的訓(xùn)練數(shù)據(jù)集通過(guò)隨機(jī)森林模型進(jìn)行學(xué)習(xí)訓(xùn)練,然后將未知的測(cè)試數(shù)據(jù)集通過(guò)已經(jīng)學(xué)習(xí)好的隨機(jī)森林模型進(jìn)行結(jié)果的預(yù)測(cè),并輸出最后的評(píng)價(jià)指標(biāo)參數(shù),結(jié)果如表3所示。

結(jié)果顯示,precision(查準(zhǔn)率)達(dá)到了99%,recall(召回率)達(dá)到了93%,f1-score(f1-度量)達(dá)到了96%,而另類(lèi)別1,也就是重點(diǎn)關(guān)注的少數(shù)類(lèi),precision(查準(zhǔn)率)達(dá)到了78%,recall(召回率)達(dá)到了95%,f1-score(f1-度量)達(dá)到了86%,而總體分類(lèi)accuracy(精度)可達(dá)到94%,輸出AUC 值也達(dá)到了97%,說(shuō)明該模型的泛化效果是比較優(yōu)秀的。

3.1.2 Catboost 模型

通過(guò)將經(jīng)過(guò)SMOTEENN 采樣處理的Catboost 算法結(jié)果如表4所示。

對(duì)于多數(shù)類(lèi)類(lèi)別0,precision(查準(zhǔn)率)達(dá)到了99%,recall(召回率)達(dá)到了93%,f1-score(f1-度量)達(dá)到了96%,而另一邊的類(lèi)別1,也就是關(guān)注的少數(shù)類(lèi),它的precision(查準(zhǔn)率)達(dá)到了78%,recall(召回率)達(dá)到了95%,f1-score(f1-度量)達(dá)到了86%,最后的accuracy(精度)也可以達(dá)到93%,而總體的precision(查準(zhǔn)率)達(dá)到了77.68%,recall(召回率)達(dá)到了95.38%,f1-score(f1-度量)達(dá)到了85.62%,處理之后的效果相對(duì)來(lái)說(shuō)也是最好的,輸出的AUC 值為99%,整體效果相比于隨機(jī)森林模型效果更好,說(shuō)明了Catboost 在處理分類(lèi)問(wèn)題上的優(yōu)良性能。

表1:混淆矩陣

表2:SMOTEENN 采樣處理不平衡數(shù)據(jù)

表3:經(jīng)SMOTEENN 混合采樣處理的隨機(jī)森林模型結(jié)果

表4:經(jīng)SMOTEENN 采樣處理的Catboost 模型結(jié)果

表5:各自模型結(jié)果對(duì)比

4 結(jié)論

經(jīng)過(guò)SMOTEENN 采樣之后可以大大提高對(duì)于關(guān)鍵的少數(shù)類(lèi)樣本的識(shí)別率,并通過(guò)集成方法當(dāng)中的隨機(jī)森林和Catboost 算法進(jìn)行對(duì)比分析,輸出結(jié)果如表5所示。

從上述結(jié)果可以看到,未經(jīng)采樣處理的隨機(jī)森林模型和Catboost 模型,這兩者對(duì)于少數(shù)類(lèi)的識(shí)別率(recall)都比較低,而經(jīng)過(guò)SMOTEENN 采樣處理之后,模型對(duì)于少數(shù)類(lèi)的識(shí)別率會(huì)有較大程度的提高,這說(shuō)明了SMOTEENN 采樣對(duì)于提升少數(shù)類(lèi)的識(shí)別率有很大的幫助,而且通過(guò)f1-score 指標(biāo)也可以看到,通過(guò)SMOTEENN 采樣處理之后的模型都高于未經(jīng)采樣處理的模型,而且Catboost 算法相比于隨機(jī)森林模型,f1-score 指標(biāo)最高,也說(shuō)明能更好的平衡少數(shù)類(lèi)的查準(zhǔn)率和召回率。并且從總體分類(lèi)準(zhǔn)確率可以看到,經(jīng)過(guò)采樣處理的模型雖然相比于未經(jīng)采樣處理的模型會(huì)有所降低,但是少數(shù)類(lèi)的識(shí)別率卻大大的提升,而且少數(shù)類(lèi)往往是關(guān)注的重點(diǎn)信息,因而也是可以理解的。

綜上所述,對(duì)于不平衡數(shù)據(jù)集,SMOTEENN 采樣可以大大提升對(duì)于少數(shù)類(lèi)的識(shí)別率。在分類(lèi)算法的選擇上,新出的Catboost 算法相比于以往的傳統(tǒng)分類(lèi)模型,分類(lèi)的效果會(huì)更加優(yōu)秀,可以進(jìn)一步提高對(duì)于少數(shù)類(lèi)的識(shí)別率,降低少數(shù)類(lèi)的誤判率,即減少關(guān)鍵信息的錯(cuò)判。對(duì)于現(xiàn)實(shí)生活中的不平衡數(shù)據(jù)現(xiàn)象,具有很好的借鑒意義。

猜你喜歡
分類(lèi)模型
一半模型
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲欧美不卡中文字幕| 久久天天躁狠狠躁夜夜躁| 亚洲国产无码有码| 欧美中文字幕在线二区| 欧美亚洲日韩中文| 天天激情综合| 国产v精品成人免费视频71pao| 免费国产高清视频| 一本大道视频精品人妻| 国产成人高清精品免费软件| 国产精品免费电影| 伊人久综合| 91免费精品国偷自产在线在线| 国产精品va免费视频| 又猛又黄又爽无遮挡的视频网站| 2021国产在线视频| 久久91精品牛牛| 高清欧美性猛交XXXX黑人猛交| 国产成人精品视频一区视频二区| 欧美日韩精品一区二区视频| 四虎成人精品在永久免费| 青青青国产精品国产精品美女| 久久综合AV免费观看| 欧美在线一二区| 亚洲免费福利视频| 男人天堂亚洲天堂| 九九久久99精品| 青草精品视频| 在线播放国产99re| 国产欧美日韩va| 欧美亚洲日韩中文| 欧美性久久久久| 秘书高跟黑色丝袜国产91在线| 欧美国产菊爆免费观看| 九九这里只有精品视频| 久久久精品国产SM调教网站| 国产福利影院在线观看| 国产乱人伦偷精品视频AAA| 国产91成人| 刘亦菲一区二区在线观看| 欧美丝袜高跟鞋一区二区| 亚洲女同欧美在线| 亚洲中久无码永久在线观看软件| 波多野结衣一区二区三区AV| 18禁影院亚洲专区| 欧美日韩在线国产| 国产在线无码av完整版在线观看| 国产精品欧美激情| 精品国产www| 欧美日韩国产一级| 伊人久久精品亚洲午夜| 女同国产精品一区二区| 国产人成在线视频| 国产午夜无码专区喷水| 亚洲午夜福利精品无码不卡 | 日本午夜精品一本在线观看| 亚洲精品福利网站| 凹凸国产熟女精品视频| 色天天综合| 日韩中文精品亚洲第三区| 人妻无码中文字幕一区二区三区| 国产精品自在在线午夜区app| 国内精品免费| 欧美在线精品一区二区三区| 女人毛片a级大学毛片免费| 欧美亚洲国产精品久久蜜芽| 四虎永久免费地址在线网站| 国产精品jizz在线观看软件| 久久青草精品一区二区三区| 国产美女在线免费观看| 免费看黄片一区二区三区| 久久久久国色AV免费观看性色| 日本亚洲最大的色成网站www| 久久精品人人做人人爽97| 国产福利一区二区在线观看| 国产女人18水真多毛片18精品 | 区国产精品搜索视频| 国产成人高清精品免费| 老司机精品99在线播放| 久久香蕉国产线看精品| 久久精品午夜视频| 青青草综合网|