999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KL距離的不平衡數據漸進學習算法研究

2022-01-22 02:44:06趙向兵周建慧楊澤民
計算機仿真 2021年12期
關鍵詞:分類

趙向兵,周建慧,楊澤民

(山西大同大學計算機與網絡工程學院,山西 大同 037009)

1 引言

伴隨科學技術的發展,數據量呈爆發式激增,其中蘊含大量有價值的信息,對人們生產生活、科技研發等方面具有關鍵作用,因此將有意義的隱藏信息從海量數據中挖掘出來具有極高的應用前景。學習算法是數據挖掘中普及最廣泛的技術之一,分類問題作為其中的重要分支,能根據已知數據創建具有辨識不同類別樣本數據能力的訓練模型,以實現未知數據預測[1,2]。該算法通常以平衡數據集作為基礎,若數據集包含的各類樣本數不同,分類邊界會向樣本數少的類別(弱勢類)傾斜,易造成樣本數多的類別(強勢類)存在分類空間擴大的問題,從而難以辨識弱勢類樣本,影響數據集分類效果。通常情況下,包含不同類別樣本數的不平衡數據集更具有研究價值,其中弱勢類樣本更能為人們提供有效的信息,例如網絡入侵檢測、垃圾短信過濾、森林火災預警等,相對于含有大量數據的樣本,人們更關注含有少量數據的異常樣本,因此,精準地辨識出不平衡數據中的弱勢類樣本尤為關鍵。

KL距離也稱相對熵,可對兩個概率在同一時間空間中的分布差異狀況進行度量[3]。半監督學習方法是采用漸進模式,將有標簽數據與無標簽數據相結合,挖掘不平衡數據中有效信息的漸進學習算法。本文研究基于KL距離的不平衡數據漸進學習算法,通過欠抽樣法使不平衡數據達到均衡狀態,運用基于KL距離的不平衡數據半監督學習算法實現處理后數據的漸進學習,獲取精準、可靠的不平衡數據分類結果。

2 基于KL距離的不平衡數據漸進學習算法研究

2.1 KL距離

體系的混亂水平可以用熵進行表示,熵在概率論、生命科學等領域應用非常廣泛。

概率空間用(Ω,F,P)描述,其中值為S(?RD)的D維離散隨機向量用X描述,在X分布律為{p(x):x∈S}的條件下,X的熵采用式(1)進行定義

(1)

如果信源用離散隨機向量表示,那么熵可以在平均意義上對信源整體特征進行描述,同時能夠衡量信源的平均不確定性[4]。

F1(x)的同維分布函數用F1描述;F2(x):RD→[0,1]的同維分布函數用F2描述;F1相對于F2的相對熵定義如式(2)所示

(2)

相對熵即KL距離,不僅能對兩個分布函數之間的距離進行描述,還能對兩個分布函數之間轉化所需信息量進行描述[5,6]。

(3)

下述為KL距離包含的性質

(4)

3)可加性:邊緣分布函數用F1i(xi),i=1,2,…,D、F2i(xi),i=1,2,…,D描述,聯合分布函數用F1(x)=F1(x1,x2,…,xD)、F2(x)=F2(x1,x2,…,xD)描述,如果其分別與兩個邊緣分布函數的乘積相等,則可獲得式(5)

(5)

4)坐標變換不變性:設定ρ1(x)、ρ2(x)描述概率密度,線性變換用y=f(x)描述,則可獲得式(6)

(6)

使用積分符號替換式(1)、式(2)中的求和符號,能分別得到連續隨機向量的熵與KL距離。連續隨機向量用X、Y描述,兩者的分布相似度可通過KL距離進行度量[7,8]。在相同空間定義的密度函數用fX(x)、fY(x)描述,分別與D維高斯隨機向量X、Y相匹配。協方差矩陣等于Σ1,均值向量等于μ1,同時滿足這兩個條件的D維密度函數用fX(x)描述,表示為fX(x)~N(μ1,Σ1);協方差矩陣等于Σ2,均值向量等于μ2,同時滿足這兩個條件的D維密度函數用fY(x)描述,表示為fY(x)~N(μ2,Σ2),X和Y的KL距離用式(7)描述

(7)

KLmax的數學形式用式(8)描述

(8)

2.2 欠抽樣法

為防止產生不平衡數據樣本的盲目性,提升后續漸進學習算法的分類效果,使用欠抽樣法對不平衡數據進行處理。欠抽樣法操作簡單,可行性高,主要是將一些多數類樣本移除,以實現類別的平衡,能夠使少數類樣本全部留存[9]。抽樣程度用?描述,其計算過程如下所示

(9)

2.3 基于KL距離的不平衡數據半監督學習算法

分類器能利用訓練集P學習得到,未標識數據集用U描述,其內各實例的正負性需使用KL距離進行判定,若實例為負類的可能性較大,KL距離應越小;若實例為正類的可能性較大,KL距離應越大。

使用KL距離完成不平衡數據漸進學習的過程如下所述:

1)使用P學習得到分類器,用于分類U。計算U內各實例di的類別后驗概率與P內正類先驗概率間的KL距離,根據KL距離,采用降序形式排列U內全部隸屬某正類k的實例,將排在前面的幾個實例分配至P內當作k的實例,且將包含于U中的實例清除[10],具體過程用算法1描述。

算法1:尋找可靠正例。

將P、U作為該算法的輸入,輸出為可能的正類實例集合,用Sp描述。P內類標簽集合用C={c1,c2,…,cn}描述;閾值用λ描述;U內有幾率隸屬類k的實例集合用Bk描述,將其設定為空集。

(a)Sp=?;

(b)for each setBk,1≤k≤n

(c)Bk=?;

(d)根據P學習得到分類器,用于分類U;

(e)for (each instancedi∈U)

(h)Bk=Bk∪{di}

(j)關于各集合Bk,僅將KL距離最高的topk個實例留存,且清除U內該實例;

(k)for (each setBk,1≤k≤n)

(l)Sp=Sp∪Bk

(m)returnSp;

(n)end

2)修正的訓練集用P∪Sp描述,修正的未標識集用U-Sp描述,使用P∪Sp學習得到新的分類器,用于分類U-Sp,獲取其內各實例的KL距離。采用升序形式,并根據KL距離排列所有實例,清除U-Sp內前μ個實例,并將其分配至P∪Sp內當作負類實例以對學習進行輔助。具體過程用算法2描述。

算法2:尋找可靠反例。

將P、U作為該算法的輸入,輸出為可能的負類實例集合,用Sn描述,閾值用μ描述。

(a)Sn=?;

(b)根據P學習得到分類器,用于分類U;

(c)for (each instancedi∈U)

(f)Sn=Sn∪{di};

(g)returnSn;

(h)end

3)修正的訓練集用P∪Sp∪Sn描述,其內存在可以對學習進行輔助的正類實例與負類實例,修正的未標識集用U-Sp-Sn描述,根據P∪Sp∪Sn學習得到logistic回歸分類器,用于分類U-Sp-Sn,以獲取全部負類實例,并通過欠抽樣法使得訓練數據集達到平衡狀態,具體過程用算法3描述。

算法3:基于KL距離的不平衡數據半監督分類。

將P、U作為該算法的輸入,輸出為負類實例集合,用Un描述。

(a)Un=?;

(b)if (P和U為文本數據)

(c)使用TF-IDF方法操作P、U;

(d)if (P為非平衡數據)

(e)使用欠抽樣法操作P;

(f)P=P∪Positive-Find(P,U);

(g)U=U-Positive-Find(P,U);

(h)P=P∪Negative-Find(P,U);

(i)U=U-Negative-Find(P,U);

(j)兼并P內全部正類實例,使其歸為一類;

(k)if(P為非平衡數據)

(l)使用欠抽樣法操作P;

(m)根據P學習得到分類器,用于分類U;

(n)for (each instancedi∈U)

(o)if(p(“-”|di)>p(“+”|di))

(p)Un=Un∪{di};

(q)returnUn;

(r)end

根據上述步驟可知,通過尋找可靠正例、可靠反例,可以實現對處理后數據集的最終分類。

3 結果分析

從UCI數據庫中選擇Churn、UCIsubject兩個不平衡數據集作為實驗對象,有效樣本數分別為3500、4528,使用本文算法對數據集進行漸進學習,以驗證該學習算法的分類性能,該算法可通過Java編程語言實現,所用分類器均利用API完成。引入G-mean度量本文算法的整體分類性能,該指標能保證當正、負類分類精度均衡時,使兩類的分類精度達到最大,G-mean值越高,算法的分類性能越優異。定義非平衡因子imbf以對各類之間的非平衡性進行度量,imbf值越大,非平衡性越高。

以Churn不平衡數據集作為測試對象,數據集中正例數量與反例數量的比用a描述。當imbf為0.3時,使用欠抽樣法與未使用欠抽樣法的G-mean隨a的變化情況用圖1描述。

圖1 使用與未使用欠抽樣法的G-mean結果

從圖1可以看出,在a值小于0.8的條件下,使用與未使用欠抽樣法的G-mean均處于較高數值,當a值大于等于0.8時,兩者均有輕微下降趨勢;使用欠抽樣法的G-mean值始終高于未使用欠抽樣法的G-mean值,且均保持在0.8以上,最大G-mean值高達0.91,而未使用欠抽樣法的最大G-mean值約為0.7。對比實驗結果表明,使用欠抽樣法對不平衡數據進行均衡化處理可極大地提升本文算法的分類性能。

選擇UCIsubject不平衡數據集中的10組數據進行測試,將a的值設定為0.1,將imbf的值設定為0.2,將本文算法使用前后各組數據的G-mean結果進行對比,詳情用表1描述。

表1 本文算法使用前后各組數據的G-mean結果

分析表1可以發現,本文算法使用前,僅有數據組7的G-mean值超出0.8,其它數據組的G-mean值均處于較低數值,特別是數據組4和數據組9的G-mean值低于0.5;本文算法使用后,各組數據的G-mean值有顯著提升,且均保持在0.8以上,尤其是數據組2、5、6、7、9的G-mean值已達0.9以上,最高G-mean值為0.95。對比這些數據可表明,本文算法具有較優異的不平衡數據整體分類性能,漸進學習效果優勢明顯。

使用F-measure(查全率與查準率的調和均值)指標度量本文算法對于不平衡數據集中弱勢類樣本的分類性能,F-measure值越大,分類性能越理想。以Churn不平衡數據集作為測試對象,不同抽樣比例下,本文算法使用前后的F-measure結果用圖2描述。

圖2 本文算法使用前后的F-measure結果

分析圖2可以看出,隨著抽樣比例持續增加,本文算法使用前后的F-measure值均呈現波動式變化;當抽樣比例小于40%時,兩者的F-measure值較為接近,波動趨勢基本一致;當抽樣比例大于40%時,兩者的F-measure值差距增大;相對于本文算法使用前的F-measure值,本文算法使用后的F-measure值在任何抽樣比例下都保持最高,且在抽樣比例較大時,F-measure值存在緩慢上升趨勢。由實驗結果可得,本文算法能很好地分類出不平衡數據集中的弱勢類樣本,學習效果符合預期。

4 結論

伴隨各行各業發展的逐漸成熟,大量數據呈爆發式增長,為從海量數據中提取隱藏的有效信息,研究基于KL距離的不平衡數據漸進學習算法,通過KL距離與欠抽樣法相結合,使用半監督學習算法實現不平衡數據漸進學習。由實驗結果可知,該算法具有極好的分類性能,且適用性較強,在各類檢測、辨識、預警等技術領域中發展前景廣闊。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 亚洲欧美另类日本| 国产欧美日韩va另类在线播放| 91久久偷偷做嫩草影院电| 亚洲成aⅴ人片在线影院八| 成人午夜精品一级毛片| 精品国产aⅴ一区二区三区| 黄片在线永久| 欧美中日韩在线| 成人欧美日韩| 亚洲视频黄| 一级毛片免费观看不卡视频| 国模沟沟一区二区三区| 国产精品无码一区二区桃花视频| 国产精品太粉嫩高中在线观看| www.av男人.com| 秋霞午夜国产精品成人片| 97青草最新免费精品视频| 成人日韩视频| 亚洲不卡网| 国产主播一区二区三区| 亚洲欧美日韩另类在线一| 日韩小视频在线观看| 99久久免费精品特色大片| 欧美日韩中文国产| 欧美日韩精品一区二区在线线| 亚洲成在线观看 | 午夜啪啪福利| 精品久久高清| 一级成人a毛片免费播放| 欧美一级黄色影院| 精品国产中文一级毛片在线看 | 亚洲视频色图| 欧美激情视频二区| 精品丝袜美腿国产一区| 国产在线精品人成导航| 伊人五月丁香综合AⅤ| 亚洲人成网7777777国产| 黄色成年视频| 九九久久精品免费观看| 日韩AV无码免费一二三区| 嫩草国产在线| 成人国产精品网站在线看| 亚洲欧州色色免费AV| 波多野结衣一区二区三区四区视频 | 日韩在线观看网站| 天天激情综合| 国产精品人成在线播放| 毛片在线播放网址| 青青草a国产免费观看| 99伊人精品| 欧美伦理一区| 呦视频在线一区二区三区| 国产人妖视频一区在线观看| 午夜免费小视频| 亚洲日本中文综合在线| 蜜桃视频一区二区| 亚洲区一区| 国产精品主播| 不卡网亚洲无码| 综合亚洲色图| 波多野结衣亚洲一区| www亚洲精品| 亚洲黄网在线| 亚洲天堂成人在线观看| 国产91丝袜在线播放动漫 | 伊人久久大香线蕉影院| 草逼视频国产| 日韩黄色精品| 成人精品视频一区二区在线| 亚洲精品无码久久毛片波多野吉| 日韩大乳视频中文字幕| 国产精品欧美亚洲韩国日本不卡| 91免费观看视频| 久久综合AV免费观看| 青青草综合网| 中文字幕不卡免费高清视频| 九九久久99精品| 欧美亚洲另类在线观看| 人妻一本久道久久综合久久鬼色 | 茄子视频毛片免费观看| 亚洲无码视频图片| 亚洲制服丝袜第一页|