999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度隨機森林的新型組合分類算法*

2022-01-25 14:11:06任志偉王玉德
通信技術 2021年12期
關鍵詞:分類模型

任志偉,王玉德,陳 婷

(曲阜師范大學,山東 曲阜 273165)

0 引言

機器學習作為一個重要的分支在很多領域,如醫療、環境、地理等領域,得到了快速的發展[1-3]。為了利用諸如支持向量機(Support Vector Machine,SVM)的單分類器實現樣本的分類,孔德峰通過訓練多種常規單分類器模型對乳腺癌腫瘤進行分類研究,得出的K 最鄰近分類算法(K-NearestNeighbor,KNN)模型具有較好的分類效果[4]。劉蕾通過采用一種logistic 方程歸一化后的線性回歸分類方法,得出的基于兩個特征的邏輯回歸模型具有較好的性能[5]。為了利用多個單分類器組合的方式進一步提升分類性能,張曉等人利用SVM、反向傳遞(Back Propagation,BP)神經網絡和AdaBoost 算法的加權投票的方式來彌補單分類器性能不足的問題,實現了更高的目標識別準確度[6]。李曉麗等人通過融合SVM、徑向基函數(Radial Basis Function,RBF)神經網絡和貝葉斯網絡,實現更好的科普知識文本分類效果[7]。但是目前大多數單分類器融合方法不能很好地解決不同數據集下單個分類器最優性能的問題,使得算法的魯棒性較差。

鑒于上述問題,本文提出了基于深度隨機森林的新型組合分類算法,訓練建立不同深度隨機森林組合的模型,以實現在不同數據集下均有較好性能的分類算法。

1 數學基礎

1.1 決策樹

決策樹是基于樹結構進行決策的,可以將其認為是if-then 規則的集合。一顆決策樹包含一個根節點、若干內部節點和若干葉節點。內部節點作為劃分節點,葉節點對應決策結果。用決策樹進行分類,是從根節點開始,利用劃分準則將實例分配到其子節點,若該節點仍為劃分節點,則繼續進行判斷與分配,直至將全部樣本分到葉節點的類中,這一訓練過程中只涉及少量的參數調整[8]。常用的決策樹劃分準則有第三代迭代二叉樹(Iterative Dichotomiser 3,ID3)、ID3的改進算法(C4.5)和分類回歸樹(Classification and Regression Tree,CART)等算法[9]?;贑ART 算法的決策樹生成的二叉樹是以基尼指數(Gini's diversity index)作為劃分準則?;嶂笖荡砹颂卣鲾祿募兌惹闆r與信息增益(ID3)或信息增益比(C4.5)相反,基尼指數越小代表特征數據的純度越高,把基尼指數最小的一個特征作為當前節點的劃分特征[10-12]。基尼指數的計算公式為:

式中:D為樣本總數;K為類別數;Ck為樣本中屬于K類的個數。

基于特征A劃分后的基尼指數計算公式為:

式中:D1,D2為樣本D根據特征A所劃分的兩個部分。

1.2 隨機森林

隨機森林是Breiman 在2001 年提出的一種組合分割算法,其本質是包含了若干個隨機決策樹,將每一個隨機決策樹的結果組合起來決定待分類樣本的歸屬類別[13]。當輸入待測樣本之后,隨機森林會根據每個隨機決策樹的輸出結果進行統計,將最多劃分的類別作為該輸入樣本最終確定的劃分類別。隨機森林較其它分類器具有很好的泛化能力并且不需要復雜的參數,在小樣本背景下具有很好的性能[14]。同時隨機森林在較高準確度的前提下具有很好的可解釋性,能更好地避免過擬合且具有很強的魯棒性[15-16]。

隨機森林具有樣本隨機和特征隨機的特點。假設有N個樣本,隨機有放回的從這N個樣本中選取n個樣本作為訓練集(這種方法稱為bootstrap sample),即樣本隨機,同時從樣本特征(假設有M個特征)中隨機選取k個屬性(k<M),從這k個特征中選取最佳分割屬性作為節點建立隨機決策樹,即特征隨機[17-19]。重復以上兩個隨機步驟m次就可以得到m顆獨立的隨機決策樹,這樣就建立了深度為m的隨機森林,然后依據每棵樹的投票情況來確定樣本所屬類別。

1.3 模型評價標準

分類器性能評價指標主要有:混淆矩陣(confusion matrix),準確度(accuracy),靈敏度(sensitivity),特異性(specificity)。

混淆矩陣(confusion matrix)用來記錄一個分類器所有的分類情況,這里以二分類說明,如表1所示。

表1 二分類混淆矩陣

實驗二分類的混淆矩陣,TP(True Positive)代表真陽性,NTP即實際為正樣本預測為正樣本的個數;FP(False Positive)代表假陽性,NFP即實際為負樣本預測為正樣本的個數;FN(False Negative)代表假陰性,NFN即實際為正樣本預測為負樣本的個數;TN(True Negative)代表真陰性,NTN即實際為負樣本預測為負樣本的個數。

準確度(Accuracy)是對分類器的整體分類預測能力的評價,計算方式為:

準確度越高代表分類器的分類預測能力越好,正確分類的數量占整個樣本數量的比例也就越高。

靈敏度(sensitivity)代表了模型對正樣本預測的準確度,指標均越高越好。特異性(specificity)代表了模型對負樣本的預測精度,指標均越高越好,如式(4)、式(5)所示。

式中:Se代表靈敏度;Sp代表特異性。

2 算法實現步驟

組合分類算法的實現主要有以下幾個步驟:

(1)樣本數據的預處理,數據歸一化;

(2)設定隨機森林模型的深度范圍從50 到400,間隔為5,重復訓練5 次并綜合每個深度模型的結果;

(3)根據步驟(2)的訓練和綜合結果,組合前5 個平均準確度最高(最優)的隨機森林模型的綜合結果,通過投票確定最終的分類器結果;

(4)對模型進行十折交叉檢驗,評價最優組合模型的分類效果;

(5)與常規的分類算法進行實驗對比,檢驗論文提出算法的有效性。

算法流程如圖1 所示。

圖1 算法實現過程

3 實驗與結果分析

3.1 實驗數據

實驗使用的平臺為Matlab2016b,實驗數據為威斯康辛州(診斷)乳腺癌數據集、無線定位數據集和汽車評估數據集。該乳腺癌數據集共有683 個樣本,本文抽取其中100 個數據用于最終的模型驗證),如表2 所示。每個樣本具有9 個特征?!?1”代表良性,實驗中將“-1”類定義為正類;“1”代表惡性,實驗中將“1”類定義為負類。該樣本中良性與惡性所占比例如圖2 所示。

表2 乳腺癌數據集特征與取值范圍

圖2 乳腺癌數據集訓練樣本的占比

無線定位數據集中包含了2 000 個樣本,本文抽取其中400 個樣本用于最終的模型驗證,每個樣本包含7 個特征,表示用戶端分別與7 個不同WiFi發射端之間的信號強度大小,分類結果為用戶端所在樓層的ID,如表3 所示。該樣本中類別所占比例如圖3 所示。

圖3 無線定位數據集訓練樣本的占比

表3 無線定位數據集特征與取值范圍

汽車評估數據集包含1 728 個樣本,本文抽取其中500 個用于最終的模型驗證,每個樣本具有6個特征。分類結果為“unacc”和“acc”如表4 所示。該樣本中類別所占比例如圖4 所示。

表4 汽車評估數據集特征與取值范圍

圖4 汽車評估數據集訓練樣本的占比

對數據集進行標準化處理,將每個樣本的特征值映射到[0,1]之間,從而去除單位限制,將原數據轉為無量綱的純數值,計算方式為:

式中:Xmin為序列的最小值;Xmax為序列的最大值。

3.2 實驗過程與結果分析

在乳腺癌數據集上進行實驗。實驗中,模型深度范圍50~400,間隔為5,訓練得到不同隨機森林模型71 個。通過十折交叉檢驗獲取這71 個模型在訓練樣本上的準確度,然后重復5 次并計算每個模型的平均準確度,同時將這5 次的結果進行投票生成這71 個單隨機森林模型的綜合結果。由于當平均準確度接近時,組合更多的模型并不能提高最終組合算法的準確度,同時考慮到參與投票的單模型的個數應為奇數,因此本實驗選取平均準確度最高的前5 個單模型參與組合。根據平均準確度最高的前5 個單隨機森林模型的綜合結果,再次進行投票確定最終的分類結果。如圖5 所示,平均準確度最高的前5 個隨機森林模型的深度分別為295、325、360、365 和380。

圖5 不同深度的隨機森林模型準確度

將這5 個不同深度的隨機森林模型單獨進行全部樣本的預測,然后統計這5 個隨機森林模型對每一個樣本的預測情況,預測結果達到半數以上則為組合模型對樣本的最終預測結果,即組合模型對樣本x的預測結果運用投票規則C(x)可以表示為:

式中:y-1為正類;y1為負類;i為對正類的投票數。

實驗中KNN 表示最近鄰算法模型;以SVM 表示支持向量機模型;以TREE 表示決策樹模型;以FOREST 表示最高性能的單隨機森林模型;以C-FOREST 表示本文提出的算法模型。

分析圖6、圖7、圖8、圖9、圖10,得出各分類器的靈敏度(sensitivity)、特異性(specificity)和準確度(accuracy),如表5 所示。

圖6 KNN 混淆矩陣

圖7 SVM 混淆矩陣

圖8 TREE 混淆矩陣

圖9 FOREST 混淆矩陣

圖10 C-FOREST 算法混淆矩陣

表5 各模型交叉檢驗的靈敏度、特異性和準確度 %

從表5 可以得出組合隨機森林模型較其他分類器模型的靈敏度最大提高了3.8%,特異性最大提高了2.9%,準確度最大提高了3.4%。論文提出的深度組合隨機森林算法的分類識別效果好。

為進一步驗證本文提出算法的可靠性,將訓練好的全部分類器對100 個驗證病例樣本進行預測。該病例樣本的組成如圖11 所示,各分類器對新樣本預測結果的評價指標如表6 所示。

表6 各模型測試的靈敏度、特異性和準確度 %

圖11 新病例樣本的占比

從表6 可以得出組合隨機森林模型對新病例樣本的預測準確度較其他分類器模型更高,同時具有最優的靈敏度和特異性。

為了進一步驗證本文算法的魯棒性,將該算法應用于無線定位數據集(Wireless Localization Data Set)和汽車評估數據集(Car Evaluation Data Set)中,實驗過程同乳腺癌數據集一致。將模型在訓練數據集中進行訓練后在驗證樣本中進行驗證,得出的結果如表7、表8 所示。由于無線定位數據集涉及4個類別,而靈敏度和特異性表示的正類和負類的分類情況,同時準確度依然作為分類器最重要的性能指標,因此在表7 中只展示了準確度。

表7 在無線定位數據集上的驗證結果 %

表8 在汽車評估數據集上的驗證結果 %

從表7 中可以看出組合模型較其他分類器模型的準確度最大提高了3.7%。從表8 中可以看出組合模型較其他分類器模型的靈敏度最大提高了6.6%,特異性最大提高了14.6%,準確度最大提高了9.0%。論文提出的深度組合隨機森林算法的分類識別效果最好,分類準確度達到97.6%。

4 結語

本文針對當前基于單分類器的組合方式不靈活且魯棒性差的問題,提出了基于深度隨機森林的新型組合分類算法。該組合算法結合了隨機森林的深度靈活性優點,能夠基于不同的數據集找到最優的組合方式,并通過投票方式完成樣本類別的預測。在威斯康辛州(診斷)乳腺癌數據集、無線定位數據集和汽車評估數據集上進行驗證,實驗結果在靈敏度、特異性和準確度這三個方面表明了本文算法不僅有較好的分類效果,還具有較強的魯棒性。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 免费国产在线精品一区| 免费啪啪网址| 天天干天天色综合网| 99久久99视频| 亚洲a级在线观看| 99视频在线免费看| 孕妇高潮太爽了在线观看免费| 日本亚洲成高清一区二区三区| 成人国产精品2021| 91丝袜美腿高跟国产极品老师| 婷婷六月综合网| 亚洲精品免费网站| 国产欧美视频综合二区| 毛片大全免费观看| 制服丝袜亚洲| 中文字幕精品一区二区三区视频| 亚洲中文字幕在线精品一区| 人人91人人澡人人妻人人爽| 国产精品手机在线观看你懂的 | 免费无码网站| 日韩无码真实干出血视频| 成人日韩视频| 特级欧美视频aaaaaa| 亚洲va精品中文字幕| 激情无码字幕综合| 欧美一区二区三区香蕉视| 久久国产精品麻豆系列| 国产精品综合久久久| 国产真实自在自线免费精品| 亚洲视频在线观看免费视频| 国产精品福利导航| 99尹人香蕉国产免费天天拍| 亚洲资源站av无码网址| 国产色伊人| 极品国产一区二区三区| AV无码国产在线看岛国岛| 国产超薄肉色丝袜网站| 在线另类稀缺国产呦| 无码中文字幕精品推荐| 91午夜福利在线观看| 伊人福利视频| 亚洲二区视频| 麻豆国产在线观看一区二区| 无码内射中文字幕岛国片| 日韩免费毛片| 久久国产精品国产自线拍| 九一九色国产| 在线观看91香蕉国产免费| 久草性视频| 97在线观看视频免费| 国产97区一区二区三区无码| 婷婷综合缴情亚洲五月伊| 成人午夜免费视频| 热re99久久精品国99热| 国产精品所毛片视频| 午夜福利网址| swag国产精品| 91青青在线视频| 黄色网站不卡无码| 欧美成人影院亚洲综合图| 欧美精品成人一区二区在线观看| 亚洲精品国产成人7777| 日本免费精品| 高清久久精品亚洲日韩Av| 亚洲国产亚综合在线区| 亚洲国产精品日韩欧美一区| 伊人网址在线| 91色在线观看| 国产成熟女人性满足视频| 三区在线视频| 亚洲日韩AV无码一区二区三区人| 99精品久久精品| 亚洲成人黄色在线观看| 亚洲欧美在线精品一区二区| 亚洲人成网18禁| 天天操天天噜| 国产资源站| 国产XXXX做受性欧美88| 一级毛片中文字幕| 免费AV在线播放观看18禁强制| 美女裸体18禁网站| 天堂网国产|