999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Adaboost算法的不平衡數據集分類效果研究

2022-08-04 05:34:28董慶偉
長春師范大學學報 2022年6期
關鍵詞:分類

董慶偉

(閩南理工學院信息管理學院,福建 石獅 362700)

0 引言

分類問題在實際生活中常見,分類算法的種類也特別多,但由于大多數的分類算法在分類過程中都是針對相對平衡的數據集進行分類,對于數據集不平衡的少類樣本沒有重點考慮,所以會導致少類樣本分類準確率低的現象[1]。而在現實生活中,可能會更需要少類樣本分類,比如一萬個人中只有幾個人患某一罕見疾病,這時候就需要重點分類出這幾個樣本。因此,需要針對少類樣本的特性改善算法,提高不平衡數據集的分類準確率[2]。處理不平衡數據集的分類問題、提高少數類的分類正確率成為當前分類算法設計的研究熱點[3]。本文針對不平衡數據集分類過程中產生的不平衡性問題,嘗試使用采樣技術與傳統分類算法相結合的方法,解決不平衡數據集的分類過程中產生的問題。首先使用過采樣等技術對數據集進行預處理,產生新的訓練樣本,在一定程度上解決分類樣本的分布不平衡性問題;其次確定基本分類器,采用Adaboost算法對分類器進行學習訓練[4],并輸入測試集進行測試,統計分類結果并加以分析(包括準確率和錯誤率);最后采用多組數據進行測試,驗證此次設計的可行性。

1 Adaboost算法原理與分類方法

1.1 不平衡數據集

不平衡數據集又稱非平衡數據集。在一個待分類的樣本中,數量較小的一類樣本稱為少類樣本或正類樣本,而分布數量較多的那一類樣本稱為多類樣本或負類樣本[5]。不平衡數據集因為自身樣本分類不平衡的特點,在分類過程中會帶來許多問題和難點。

1.2 Adaboost算法

Adaboost算法的思想是:通過改變權值來對基本分類器進行訓練和學習,然后把多個分類器算法的核心內容通過改變樣本的權重值來實現,對于分類正確的樣本就減小權值,對于分類錯誤的樣本則增加權值[1],這樣能在下一次分類過程中著重對分類錯誤的樣本進行分類;將重新分配過權值新訓練集送到下層分類器進行新的訓練,得到更加精確的分類效果;把每次訓練得到的分類器根據一定的原則進行組合,形成一個新的強分類器,作為最后的決策分類器。總體來說,Adaboost算法就是把分類重點放在那些難以分類的樣本上面,從根本上解決少類樣本的分類難題,提高整體的分類效果。算法整體流程如圖1所示。

圖1 Adaboost算法整體流程圖

從圖1可以看出,Adaboost算法整個過程可以分為兩個部分:第一部分為迭代過程;第二部分為分類器的加權組合過程。第一步,首先將輸入的訓練集樣本權值設為1/N,然后用分類器1進行分類,得出分類錯誤率和分類權重,根據得到的分類結果和錯誤率以及權值a來更新樣本權值,從而形成新的訓練集DATA2;再利用基本分類器2進行分類,同上述一樣,再次更新樣本權值得到若干基本分類器和權重。第二步就是根據得到的分類器權值a進行加權投票,從而組合成一個強分類器。對不平衡數據集進行一個采樣預處理,通過增加少類樣本的數量,在一定程度上減緩不平衡數據集的不平衡性,然后用基本分類器學習算法來處理訓練集,構建一個強分類器,再用測試集進行測試,得出分類結果并進行分析。

1.3 結果分析指標

1.3.1 精確度

精確度用來衡量一個數據集的總體分類效果,從整體的角度進行衡量,更多地適合用于反應相對平衡的數據集,而不平衡數據集的分類不平衡性則很難進行分類效果衡量。

(1)

其中,TP為被正確分類的正類樣本數量;TN為被正確分類的負類樣本數量;n+為多類樣本數量;n-為少類樣本數量。

1.3.2 準確率

準確率是被正確分類的正類樣本數量與被分為正類樣本數量的比。

(2)

其中,TP為被正確分類的正類樣本數量;FP為錯誤分類的正類樣本數量。

1.3.3 召回率

召回率反映的是被正確分類的正類樣本數量與所有樣本數量的比。

(3)

其中,TP為被正確分類的正類樣本數量;FN為錯誤分類的正類樣本數量。

1.3.4 不平衡率

不平衡率是被正確分類的正類樣本數量與所有樣本數量的比。

(4)

其中,TP為被正確分類正類樣本數量;n+為多類樣本數量;n-為少類樣本數量。

2 實驗結果

2.1 實驗數據

本文采用Adaboost算法得到實驗數據,數據集包括:第一組數據為demo數據集,隨機產生200個樣本,樣本維度為2;第二組為heart數據集,共有100個樣本,樣本維度為13;第三組為下載的usps數據集,共1 000個樣本,樣本維度為256。分別對以上數據進行分類測試。

2.2 實驗數據測試

分別使用Adaboost算法和單層決策樹(decision stump)對三組數據進行測試,測試結果如表1所示。數據不同,其樣本分布不同;數據分布的不平衡影響最終的分類準確率。從表1可以看出,不平衡率越大的數據集,分類準確率越低。本文方法在一定程度上能夠提高分類效果,由于樣本數量不同,所得到的分類效果也不同。總體來說,測試集和訓練集的分類準確率會隨著迭代次數、樣本數量的增大而提高。從實驗結果來看,隨著樣本不平衡率的提高,樣本分類準確率會相對降低,這是由不平衡數據集的不平衡特點所引起的,而本文采用的Adaboost算法在一定程度上能夠減緩樣本不平衡所帶來的問題。

表1 不同樣本得到的分類準確率統計結果

2.3 迭代次數對Adaboost算法分類的影響

圖2為訓練集和測試集錯誤率變化圖,其中,y軸代表訓練集和測試集的分類錯誤率,x軸代表分類器迭代次數。不同的數據集樣本平衡度不同,其得到的測試樣本分類準確率也不同,而其隨著迭代次數的變化而變化。隨著迭代次數的增加,訓練集錯誤率總體呈逐漸降低趨勢。由于訓練集是用來訓練分類器學習的,所以其準確率要比測試集的準確率要高[5]。不僅迭代次數能夠引起錯誤率的變化,同樣地,訓練樣本的數量也影響著最終的分類效果:隨著樣本數的增加,錯誤率將明顯降低。此外,由圖2(b)可以看到,分類錯誤率并不是一直降低,這是由于Adaboost算法在訓練過程中特別容易受到噪聲數據和異常數據的影響,結合基本分類器加權組合的特性,導致迭代過程中錯誤率不是一直降低。

(a)demo數據集

(b)heart數據集

(c)usps數據集圖2 訓練集和測試集分類錯誤率變化圖

3 結語

本文首先通過SMOTE算法采樣對不平衡數據集進行一個預處理,然后確定采用單層決策樹作為基本分類器,最后進行Matlab編程,構建Adaboost算法分類器。得到如下結論:隨著樣本數的增大,數據集的分類準確率升高;隨著數據集不平衡率的增大,分類準確率會有所降低,但相較于傳統的單層決策樹算法而言,準確率有非常明顯的提升,平均分類準確率在85%以上;隨著迭代次數的增加,訓練集錯誤率總體呈逐漸降低趨勢;通過改變正類樣本的權值,重視對少類樣本的分類,能夠在一定程度上提高整體的分類效果。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲无码视频一区二区三区 | 激情综合激情| 国产女同自拍视频| 永久在线播放| 久久精品这里只有精99品| 国产成人精品一区二区三区| 91 九色视频丝袜| 国产精品成人观看视频国产 | 亚洲色图狠狠干| 国产精品黄色片| 精品91在线| 国产大片喷水在线在线视频| 欧美日韩va| 国产91特黄特色A级毛片| 欧美a级完整在线观看| 欧美一级专区免费大片| 九九九精品视频| 99尹人香蕉国产免费天天拍| 69av免费视频| 国产经典在线观看一区| 999福利激情视频| 欧美日韩中文国产| 国产在线一区视频| 91午夜福利在线观看| 97av视频在线观看| 成人国产精品视频频| h视频在线播放| 亚洲综合第一页| 一级毛片在线播放| 爆操波多野结衣| 国产精品免费p区| 亚洲欧美精品日韩欧美| 免费国产一级 片内射老| 欧美在线综合视频| 热99精品视频| 久久综合亚洲色一区二区三区| 伊人激情综合网| 日韩无码一二三区| 亚洲精品第一页不卡| 国产成人禁片在线观看| 日韩精品一区二区三区免费在线观看| 国产成人精品高清在线| 暴力调教一区二区三区| 国产一区二区三区免费观看| 国产一区二区三区在线观看视频 | 中文字幕va| 中文字幕无码制服中字| 久久久久国产精品嫩草影院| 国产香蕉在线视频| 国产精品亚洲αv天堂无码| 精品久久综合1区2区3区激情| 久久精品无码国产一区二区三区| 伊人久久大香线蕉综合影视| 91口爆吞精国产对白第三集| 美女国产在线| 久久99蜜桃精品久久久久小说| 91黄视频在线观看| 国产精品永久免费嫩草研究院| 久久动漫精品| 国内毛片视频| 中文无码精品a∨在线观看| 漂亮人妻被中出中文字幕久久| 久久久久青草大香线综合精品| 中国美女**毛片录像在线| 91午夜福利在线观看| 成人午夜精品一级毛片| 91麻豆久久久| 日本在线免费网站| 久久综合九九亚洲一区| 欧美激情综合| 性做久久久久久久免费看| 拍国产真实乱人偷精品| 亚洲一区二区三区国产精华液| 国产麻豆91网在线看| 亚洲午夜福利在线| 亚洲综合色区在线播放2019| 国产亚洲欧美日本一二三本道| 人妻中文字幕无码久久一区| 亚洲第一视频区| 国产欧美日韩资源在线观看| 人妻中文久热无码丝袜| 国内精自视频品线一二区|