999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對不平衡數據的用戶畫像方法研究

2021-08-19 08:23:50鞏珂王霞
現代計算機 2021年21期
關鍵詞:分類特征用戶

鞏珂,王霞

(1.北方工業大學信息學院,北京100144;2.中共湖南省委黨校湖南行政學院,長沙410006)

0 引言

隨著電商技術的快速發展,用戶畫像技術逐漸興起。從電子商務應用的特征出發,對互聯網數據進行分析,基于分析結果對用戶進行畫像,并根據結果對用戶進行有針對性的服務,來提高電商平臺的效益,是現如今電子商務平臺的發展趨勢。2015年,“互聯網+”寫進政府工作報告,對知識產權等傳統服務行業產生了巨大的影響,出現了一批潛力巨大的新型“互聯網+知識產權”企業。如何利用互聯網的優勢,提高知識產權代理企業的訂單量,提高用戶的滿意度,增強用戶粘性,值得我們深入探討和研究。

本文在對某知識產權平臺用戶進行畫像研究時,發現數據存在不平衡的情況。不平衡數據指的是數據集中某一類或某些類的數量遠小于其他類,通常比例低于1:2[1]。不平衡分類問題在醫療診斷[2]、信用卡欺詐行為檢測[3]、軟件缺陷檢測[4]、垃圾郵件判斷等領域尤其常見。傳統的研究方法以總體分類的準確率為評價標準,分類結果會更多地偏向多數類樣本,造成結果不夠準確,難以獲得有效的分類器。本文通過對不平衡數據的處理,結合隨機森林算法,并對該算法進行改進,提出了一種基于特征組合和SMOTE的隨機森林算法RFFCS(Random Forest based on Feature Combination and SMOTE),用改進后的方法在用戶類型、VIP上進行實驗。結果表明,本文所提方法在少數類的分類效果上有一定的提升。

1 對不平衡數據的處理——SMOTE算法

對不平衡數據的處理一直是數據挖掘領域最具挑戰性的問題之一。由于樣本分布不平衡,多數類樣本(負樣本)在總樣本占據的比重較大,這種情況下訓練出來的分類器不能得到很好的效果。目前比較常用的方法是從數據層面進行改進。對不平衡數據集進行重構,使多數類樣本和少數類樣本達到一個數量上的平衡,以實現提高少數類在傳統分類器上的分類準確率的目的。

通常的做法是對樣本進行重采樣。包括對多數類樣本進行的欠采樣(Under-Sampling)、對少數類樣本進行的過采樣(Over-Sampling),以及結合了欠采樣和過采樣的混合采樣(Hybrid-Sampling)。

欠采樣的主要思想是通過某種方式選擇部分的多數類樣本組成負樣本,使其和全部的少數類樣本(正樣本)組成正負均衡的樣本子集。

隨機欠采樣(Random Under-Sampling,RUS)是最常用的方式[5],即隨機地從多數類樣本中選擇樣本。雖然RUS易于理解,操作簡單,但是存在一定的問題:隨機選擇樣本可能會遺漏多數類樣本中潛在的高價值信息,導致分類性能降低,特別是當樣本的不平衡率非常高時,會嚴重影響分類器的泛化性能。因此,研究人員會通過改進方法來彌補隨機欠采樣的缺陷。例如方昊則通過多次隨機欠采樣取代單次隨機欠采樣,提高了軟件缺陷檢測時的準確率,降低了誤差[4]。

過采樣則是通過某種方法生成少數類樣本或對少數類樣本進行重復采樣,使其達到和多數類樣本平衡的狀態。隨機過采樣(Random Over-Sampling,ROS)是最簡單的過采樣方式[6]。ROS通過將少數類樣本隨機復制的方式,使正負類樣本達到一個平衡。ROS的缺點也顯而易見,在樣本不平衡率非常高時,生成大量相同的少數類樣本,容易造成過擬合現象。

為此,Chawla提出了合成少數類樣本過采樣技術[7](Synthetic Minority Oversampling Technique,SMOTE)。

SMOTE算法是在ROS基礎之上改進的一種線性插值的過采樣方法。采樣過程如下:

第一步:隨機選擇一個少數類樣本x;

第二步:基于KNN算法找出距離樣本x最近的K個少數類樣本;

第三步:從上一步中的K個樣本中隨機取出一個樣本x~;

第四步:在x和x~連線上,根據如下公式,生成一個新樣本;

第五步:重復前四個步驟,直到和多數類樣本達到平衡。

SMOTE算法示意圖如圖1所示。

圖1 SMOTE算法

SMOTE算法有效地改善了ROS隨機復制新樣本造成的過擬合問題,很大程度上提高了分類器的泛化能力?;赟MOTE算法,研究人員后續提出了一系列的衍生算法,例如趙錦陽提出了SCSMOTE算法[8],先在少數類樣本中找到合適的候選樣本及其中心,然后在候選樣本與樣本中心之間產生新的樣本。除此之外,還 有MSMOTE、Borderline-SMOTE[9]、Safe-Level-SMOTE、TSMOTE等,其核心思想都是在特定的連線上進行插值。

無論是過采樣還是欠采樣,在面對較為復雜的情況時,使用單一的方法不可避免地存在一定的局限性。欠采樣通過選擇部分多數類樣本的方式,容易遺漏潛在的有用信息。而過采樣也容易造成過擬合問題,降低分類器性能?;旌喜蓸觿t將兩者結合在一起,在保留兩者優點的情況下,彌補兩者的缺點,通常能得到比單一采樣策略更優的效果。例如馮宏偉[10]對邊界中的少數類樣本的進行SMOTE過采樣,對多數類樣本進行隨機欠采樣。通過該方法得到了分類性能較好的分類器。

2 組合特征

通常情況下,構造單一的決策樹分類器時需要進行剪枝操作,防止出現過擬合現象,而隨機森林由于在特征選擇的過程中是隨機地選取其中的一部分特征,故不需要進行剪枝,也不會出現過擬合的現象,在處理高維數據時也具有較高的性能。利用該優點,再結合本文數據的特點,對特征空間進行擴展處理。

對于離散型特征,首先將它的n個屬性值劃分為n個特征。以性別為例,該特征包含男和女兩個值,將其劃分為{男,女}兩個特征,屬性值用1(是)和0(否)表示。例如樣本A在性別特征上值為男,其在性別上的特征則可以表示為{1,0}。

對于連續型特征,可根據等寬劃分法將值劃分為長度相等的段。屬性值上的斷點可表示為:Fmin+n(Fmax-Fmin)/k。其中Fmin表示最小值,Fmax表示最大值,k表示將值域分成k個區間,可根據具體情況自定義k的值,n=0,1,2,3,…,k。以年齡為例,年齡是一個取值大于0的連續整數,取k為5,假設Fmax為100(大于100按100計算),則年齡特征可離散化為{[0,20),[20,40),[40,60),[60,80),[80,100]}五個特征。

將離散后不同類型的單一特征進行兩兩交叉,形成二元的組合特征。例如特征m有兩個可能值{m1,m2},特征n也有兩個可能值{n1,n2},特征m和特征n進行交叉后可表示為{{m1,n1},{m1,n2},{m2,n1},{m2,n2}}共4個特征。以性別和年齡為例,則可表示為{{男,[0,20)},{女,[0,20)},{男,[20,40)},{女,[20,40)},{男,[40,60)},{女,[40,60)},{男,[60,80)},{女,[60,80)},{男,[80,100]},{女,[80,100]}}共10個特征。

3 改進的隨機森林算法

3.1 決策樹

決策樹(Decision Tree)是由Breiman提出,基于樹形結構來對樣本進行劃分的一種分類算法。一顆完整的決策樹通常包含以下三種元素:根節點、內部節點和葉節點。其中根節點是所有樣本的集合,內部節點是根據一定規則選出的特征屬性測試點,葉節點表示分類的結果。決策樹的結構如圖2所示。

圖2 決策樹結構

早期的決策樹算法分類回歸樹(Classification and Regression Tree,CART或CRT)使用基尼系數(Gini In?dex)來作為屬性選擇標準?;嵯禂档亩x如下:

其中k為分類的數量,Pi表示樣本屬于第i類的概率。

除了CART算法,研究人員還提出了基于信息增益(information gain)的ID3算法[11]和基于信息增益率(information gain ratio)的C4.5算法[12]。

3.2 隨機森林算法

隨機森林算法(Random Forest,RF)[13]是一種以決策樹為基分類器的集成學習(Ensemble Learning)算法。集成學習為了突破單一分類器在性能提升時遇到的瓶頸而被提出,除了RF,常用的集成學習方法還包括Boosting、Bagging[14](也稱作“套袋法”)。

與Bagging類似,RF同樣也是通過自助采樣法進行樣本的選擇。兩者最大的不同是:①隨機森林只用決策樹作為基分類器。②隨機森林在樣本擾動的基礎上加入屬性擾動,即在選擇屬性時也是隨機的,增強了模型的泛化能力[15]。

隨機森林還有一個很大的優點,不需要進行剪枝,也不需要進行特征選擇,同樣可以獲得比單顆決策樹更好的分類性能。

隨機森林的算法過程如下:

(1)通過自助法重采樣技術從訓練集中有放回地隨機采樣選擇n個樣本;

(2)從特征集中隨機選擇d個特征,利用這d個特征和步驟(1)中所選擇的n個樣本建立決策樹;

(3)重復步驟(1)和步驟(2),直至生成所需的N棵決策樹,形成隨機森林;

(4)對于測試數據,經過每棵樹決策判斷,最后投票確認分到哪一類。

3.3 改進的隨機森林算法

隨機森林作為一種集成學習方法在分類性能方面擁有比其他大多數模型更好的表現,但當面對不平衡數據時仍不能得到非常好的效果,根本原因就在于通過自助法取樣并不能改變樣本的不平衡分布。為此,本文對隨機森林算法進行改進。算法分為訓練階段和測試階段。在訓練階段,對隨機森林中的任意一顆樹來說,在通過自助采樣法取得訓練樣本后,結合SMOTE算法生成少數類樣本,使正負樣本達到一個平衡狀態,再利用得到的平衡數據對每一棵決策樹進行訓練。測試階段中,通過上一階段訓練得到的決策樹決策出的結果,采用投票的方式確定最終結果。

改進的隨機森林算法流程圖如圖3所示。

圖3 改進的隨機森林算法流程圖

本算法擁有如下優點:

(1)對每棵樹單獨進行訓練集平衡處理,而非針對原始訓練集,最大程度上保證了各子樹間的差異性。

(2)每棵子樹都選擇部分樣本和部分特征,避免了過擬合現象。

(3)由于生成決策樹的過程中選擇的是部分特征,使得在面對高維數據時也能有較高的算法效率,因此適合對特征空間進行擴展處理。

4 實驗結果與分析

4.1 實驗數據

某知識產權平臺數據(已作脫敏處理),包含3200多條用戶數據,選擇用戶類型為企業和代理所的數據,樣本數量比為5:1,VIP屬性包括非VIP和VIP,樣本數量比為4:1。為了驗證RFFCS算法的有效性,與決策樹算法(DT)、隨機森林算法(RF)進行對比。

4.2 評價標準

在一般的分類任務中,評價分類結果的好壞通常要用到如表1的混淆矩陣。

表1 混淆矩陣

根據混淆矩陣可得出三個基本評價指標:精確率(Precision)、召回率(Recall)、F-Score。公式如下:

其中,在式(5)中,α為調節精確率和召回率的權重系數,當α取1時,即為F1值。

在不平衡數據分類任務中,通常還會用到G-means。G-means可以用來衡量正負樣本的的綜合分類性能。其公式如下:

本文使用精確率、召回率、F1值、G-means作為算法的評價指標。

4.3 結果與分析

本文設計了兩類各五組實驗。首先是將未經特征組合處理的原始數據集用決策樹(DT)和隨機森林(RF)進行驗證,然后對特征進行組合處理,再用上述兩種算法進行實驗(DT_FE和RF_FE),以驗證特征組合的有效性,最后在RF_FE的基礎上引入SMOTE(RFF?CS),并進行實驗。實驗結果如表2所示。

表2 DT、DT_FE、RF、RF_FE、RFFCS在用戶類型上的分類效果比較

表2 給出的是五種算法模型在用戶類型上的分類結果。由表中數據可以看出,RFFCS的分類性能要明顯高于其他四種模型,F1值和G-means值達到了0.640和0.727,尤其是相較于DT,分別高出62.4%和41.3%,即使是性能最好的RF_FE,RFFCS在F1和G-means上也要高出27.0%和14.5%。值得一提的是,盡管對特征進行了組合,擴展了特征空間,DT_FE性能仍不及RF,但與DT相比,無論是精確率、召回率,還是F1值和G-means,DT_FE都有著不同程度的提高,平均提高了18.5%,而RF_FE和RF相比,除了精確率略有下降外,其余三個指標都有所提高,證明了特征組合的有效性。

表3 給出的是在VIP屬性上的分類結果。結合表中數據,我們可以得出如下結論:與在用戶類型上的結果相同,RFFCS算法得到了最好的分類效果,召回率和G-means甚至達到了0.9以上。DT效果最差,F1和G-means只有0.578和0.762,DT_FE次之,各項指標較DT均有所提高,但平均提高率僅有3.7%,不及表2中的18.5%。和RF相比,RF_FE仍然優勢明顯,各項指標的平均提高率達到了4.6%。與其他四種方法進行對比,RFFCS均有著可靠的性能。在G-means這個指標上,RFFCS分別提高了20.7%、17.6%、8.1%和5.4%。

表3 DT、DT_FE、RF、RF_FE、RFFCS在VIP屬性上的分類效果比較

綜上所述,本文所提RFFCS算法對于不平衡的數據的分類是有效的。

5 結語

本文針對用戶畫像研究過程中存在的數據不平衡問題,提出將SMOTE過采樣結合進隨機森林的每棵子樹中,在解決了數據不平衡問題的同時,保證了子樹間的差異性,隱性地提高了隨機森林的分類性能。同時利用隨機森林在屬性選擇時的優越性,提出了對原始特征空間進行擴展。實驗結果表明,本文所提的方法在對數據集分類時與其他對比方法相比有著較為顯著的提升效果。此外,本文在設計算法時森林規模是固定的,下一步將設置不同的決策樹數量來驗證算法的穩定性。

猜你喜歡
分類特征用戶
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 午夜激情福利视频| 2021国产精品自拍| 无码又爽又刺激的高潮视频| 免费一级α片在线观看| 在线国产三级| 国产精品流白浆在线观看| 亚洲国内精品自在自线官| 十八禁美女裸体网站| 国产精品免费电影| 国产亚洲精| 国产精品亚洲一区二区三区在线观看| 国产精品无码翘臀在线看纯欲| 国产美女久久久久不卡| 超碰精品无码一区二区| 污污网站在线观看| 久青草免费在线视频| av性天堂网| 亚洲无码精品在线播放| 天天爽免费视频| 一级毛片在线播放免费观看| 沈阳少妇高潮在线| 亚洲欧美一区在线| 午夜在线不卡| 久久久久久久久亚洲精品| 久久人人97超碰人人澡爱香蕉| 日韩毛片免费观看| 国产一级毛片在线| 无码电影在线观看| 日本午夜精品一本在线观看| 亚洲αv毛片| 国产成人综合网| 欧美一区二区精品久久久| 91福利在线观看视频| 国产激情国语对白普通话| 亚洲免费播放| 美女高潮全身流白浆福利区| 欧美激情第一欧美在线| 最新加勒比隔壁人妻| 久久久久亚洲AV成人网站软件| 亚洲国产精品久久久久秋霞影院| 91口爆吞精国产对白第三集 | 久久99蜜桃精品久久久久小说| 中文字幕人成乱码熟女免费| 国产超薄肉色丝袜网站| 爱色欧美亚洲综合图区| 色男人的天堂久久综合| 99这里精品| 男人天堂亚洲天堂| 亚洲免费成人网| 亚洲天堂视频网| 亚洲色图欧美在线| 欧美亚洲综合免费精品高清在线观看 | 精品中文字幕一区在线| 99久久精品免费看国产免费软件 | 四虎AV麻豆| 中文天堂在线视频| 91久久夜色精品| 大学生久久香蕉国产线观看 | 午夜免费小视频| 国产波多野结衣中文在线播放| 精品国产自| 国产婬乱a一级毛片多女| 成人福利免费在线观看| 中日韩一区二区三区中文免费视频 | 18禁不卡免费网站| 天堂成人在线视频| 国产激情无码一区二区APP| 国产呦视频免费视频在线观看| 波多野结衣中文字幕一区二区| 国产制服丝袜91在线| 国产素人在线| 日本人妻一区二区三区不卡影院 | 国产精品午夜福利麻豆| 国产美女主播一级成人毛片| 亚洲伊人天堂| 欧美激情视频一区二区三区免费| 人妻21p大胆| 九色91在线视频| 手机精品福利在线观看| 国产精品欧美在线观看| 亚洲精品大秀视频| 久久久久久国产精品mv|