999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM-Gibbs Sampling的特征選擇算法研究

2022-05-25 04:48:10產勝寧
現代計算機 2022年6期
關鍵詞:特征方法模型

產勝寧

(貴州財經大學,貴陽 550025)

0 引言

目前隨著數據量的激增和維度越來越大,維度災難帶來的問題日益突出。特征選擇是機器學習為解決維度災難的一個有效措施,被廣泛應用在各個方向。在模型訓練數據的過程中,沒有用的冗余特征影響模型的訓練效果,不僅無法提供有用的信息,還會增加模型在訓練過程中的復雜度。對于一個樣本數據集,特征選擇是從樣本的特征集合空間中有效地選擇出一組特征子集,移除特征空間沒有用的冗余特征子集和有效信息不足的特征子集,用較小的特征子集表示原本數據集,從而減小數據的維度,這樣模型處理的復雜度也會隨之減小,提高模型的處理能力。

特征選擇方法在高維度數據面前受到了嚴峻的考驗。國內外的研究者對特征選擇的方法展開了大量的研究,總的來說,特征選擇的方法主要分為三種:過濾式、包裹式和嵌入式。過濾式(filter)是利用特征選擇方法進行特征篩選,將篩選后的特征子集作為數據供模型訓練,它可以處理比較大的數據集,但是在精度上面會有所欠缺。包裹式(wrapper)是選擇在模型的效果上最好的特征子集,這種方法的準確率會更高,但是因為特征子集的選擇過程中會耗費大量時間,性能開銷大。嵌入式(embedding)是將兩個過程分別優化融合在一起實現特征選擇,故它的性能和開銷相比其它兩個方法比較折中。對于高維大數據,傳統的特征選擇方法在開銷上花費較大,難以有效地實現特征選擇,為模型降低復雜度。Gibbs Sampling是一種面向高維數據的采樣技術,采到的樣本數據集是誤差范圍內的近似目標分布,通過Gibbs Sampling對樣本數據集進行重要度排序,將會得到特征的重要性值,可以有效地實現特征選擇,Qian等和馮馳都展開了基于Gibbs Sampling的特征選擇,可以有效地實現特征選擇。相比包裹式特征選擇,基于Gibbs Sampling的特征選擇方法的復雜度是一個多項式,可以有效地降低復雜度。

1 馬爾科夫蒙特卡洛下的吉布斯采樣

蒙特卡洛方法是一種隨機模擬的采樣技術,它主要是將所要求解的問題轉化成建立的概率統計模型的參數或者其它相關特征,通過算法模擬隨機采樣,利用漸進理論把要求的問題轉化成求問題的近似解。在實際的應用過程中,我們所面對問題的目標函數不是一個簡單的分布,所以難以直接從目標分布函數產生樣本數據,這也就抑制了蒙特卡洛(Monte Carlo)方法的發展。隨著馬爾科夫蒙特卡洛(MCMC)算法的發展,采樣過程中的問題得到了簡化,有效地解決了Monte Carlo方法的局限性,是現如今研究的一大熱門。MCMC方法的核心是構建一條合適的馬氏鏈,使得目標分布能夠轉化成馬氏鏈中的平穩分布。吉布斯采樣是MCMC算法中應用最為廣泛的,是專門處理多維的目標分布,它主要是通過條件分布構造馬氏鏈中的轉移核。

(1)隨機初始化時刻的樣本{A:=1,2,…,};

(2)=0,1,…,,循環采樣

③…

2 基于LightGBM-Gibbs Sampling特征選擇算法

大數據情況下許多問題較為復雜,難以求得問題的精準辦法,本研究巧妙地借助Gibbs采樣方法,其中嵌套LightGBM算法構造條件通過模型的似然函數求條件轉移概率,在一定的誤差范圍內,對給定問題求近似解,對采樣的樣本特征進行關聯顯著性分析,得到特征的重要程度,根據特征的重要程度實現特征選擇的目的。

(1)構建初始化模型,初始化特征指標維度的特征子集,其中的系數為0或1,0代表特征未出現,1代表特征出現,即

(2)對于隨機采樣,需要建立采樣的準則,也就是需要構建馬氏鏈的條件轉移概率。相比于AIC信息準則,BIC信息準則引入的懲罰項考慮了樣本量,可以有效地解決樣本數量過多時模型精度過高引起的高模型復雜度。因此本文借助BIC信息準則,建立LightGBM模型,以此構建馬氏鏈的條件轉移概率,即有

其中,為樣本的數量,為模型的參數數量,為似然函數。懲罰項ln()考慮了維度,在樣本數量較少維度過大的情況下可以優先解決維度災難的困擾。表示第個特征的條件轉移概率,-表示除了第個特征之外的其它所有特征。根據初始化的特征子集,利用采樣準則對每一維特征進行采樣。

(3)明確采樣樣本數量。采樣的樣本數量可以確定算法的計算復雜度,借助樣本量降低模型的復雜度。為讓采樣的近似值與目標函數的真實值之間的誤差在接受范圍內、為保證特征指標的顯著性,我們根據蒙特卡洛的標準差公式,用兩倍的準則將模擬結果的誤差控制在5%以內,即

可以求出不少于400,也就是說采樣的樣本量大于等于400時,可以保證特征指標的顯著性。

(4)通過Gibbs Sampling采得不少于400的數據樣本,對這條數據進行分析,將每一個特征出現的頻率作為特征重要性程度,即

特征重要性值接近0,說明特征不重要;特征重要性值越接近1,說明對應特征越重要。根據特征重要性值的高低,選擇特征重要性值較高的一定數量特征,可以有效地達到特征選擇降維的目的,降低機器學習模型的復雜度、更好地挖掘數據的信息。使用多個不同的數據集,選擇有代表性的特征選擇算法和本文提出的基于Gibbs Sampling的特征選擇算法分別在各個數據進行實驗比較,各種不同方法選擇得到的特征子集分別放入相同的模型中,通過同樣的模型和評價準則驗證各個算法的有效性。

3 實驗結果及分析

3.1 實驗數據和對比算法

實驗中采用的數據均來自一些公開數據集,共有4個樣本數據集,對每個數據集進行了預處理,其中包含對缺失值的處理、刪除無關屬性和不均衡分析與處理,樣本不均衡采用了SMOTE過采樣技術,最后每個樣本的部分信息如表1所示。

表1 實驗數據集

實驗選取了卡方檢驗、MIC互信息法和最大信息系數、遞歸特征消除法RFE和基于隨機森林的樹模型的特征選擇。這些代表性的特征選擇算法與基于LightGBM-Gibbs Sampling特征選擇方法分別在4個樣本數據集中實驗,用不同特征選擇方法選一定數量的特征,在同樣的模型中使用交叉驗證的方法來比較各方法的準確率,進而衡量方法的有效性。

3.2 評價方法

交叉驗證是一種模型驗證技術,使用機器學習模型進行預測可以準確衡量一個模型在數據集上的效果。交叉驗證具體做法就是將數據集劃分個部分,一部分用于訓練模型,其余部分測試模型的性能好壞,也叫折交叉驗證。交叉驗證還可以限制模型在訓練過程中出現的過擬合、欠擬合問題。本文選取交叉驗證的方法,取=5,產生不受高偏差和高偏差影響的測試誤差估計,將平均準確率作為模型預測能力的評價方法,在同一數據上比較不同方法的平均準確率。

3.3 實驗結果與分析

將本文所提出的方法與幾種典型的特征選擇算法分別在4個樣本數據集進行對比實驗,選擇一定數量的特征,使用5折交叉驗證的邏輯回歸模型衡量模型的預測能力,4個樣本數據集的實驗結果見表2。

表2 數據所用方法實驗比對結果

表2顯現了原始數據集在模型中的準確率和進行特征選擇的特征數量以及各種方法選取的相同數量的特征子集在相同模型的準確率。從表2中的實驗結果可以看出,所選取的4個數據集分別使用卡方檢驗、MIC互信息法和最大信息系數、遞歸特征消除法RFE、基于隨機森林的樹模型的特征選擇和基于LightGBMGibbs Sampling特征選擇方法進行特征選擇,對應4個數據分別選擇8、18、7、21個屬性。實驗發現,相比其它4個特征選擇方法,基于LightGBM-Gibbs Sampling特征選擇方法取得了更好的準確率,相比原始數據集,數據集的維度不僅有效地降低了,準確率也得到了提升。

4 結語

數據的維度災難給模型帶來訓練復雜、挖掘能力不足等問題,本文基于吉布斯采樣的方法提出了Gibbs Sampling和LightGBM相結合的特征選擇方法,使用公共數據集與幾個典型的特征選擇方法進行了比較,實驗結果表明,基于LightGBM-Gibbs Sampling特征選擇算法的方法有效性,且相比其它方法,該方法具有一定的優勢,可以有效做到特征的降維。

在實際中,Gibbs Sampling的復雜度是一個多項式,相比于包裹式特征選擇,復雜度已經降低了不少,但還是比較大,在后續工作中,如何解決Gibbs Sampling的復雜度是亟需解決的一個問題,力爭做到特征的快速選擇,降低時間成本,增強時效性。

猜你喜歡
特征方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲国产清纯| 欧美黄色网站在线看| 欧美、日韩、国产综合一区| 亚洲黄色网站视频| 久久夜色撩人精品国产| 欧美中文字幕在线视频| 好吊色妇女免费视频免费| www欧美在线观看| 91久久大香线蕉| 成人年鲁鲁在线观看视频| a在线亚洲男人的天堂试看| 91小视频在线播放| 亚洲区欧美区| 欧美视频二区| 波多野结衣一区二区三区四区视频 | 91福利一区二区三区| 日韩欧美国产中文| 999精品在线视频| av一区二区无码在线| 免费看美女自慰的网站| 国产成人无码综合亚洲日韩不卡| 中文字幕无码av专区久久| 国内精品久久久久鸭| 丁香综合在线| 日韩大片免费观看视频播放| 曰AV在线无码| 国产日韩丝袜一二三区| 亚洲一区二区无码视频| 久久人体视频| 亚洲Av激情网五月天| 免费一级成人毛片| 久久婷婷综合色一区二区| 国产精品视频观看裸模| 国产精品成人啪精品视频| 综合色在线| 国产美女精品一区二区| 日韩在线欧美在线| 久久综合九色综合97网| 久久久久久高潮白浆| 亚洲国产成人麻豆精品| 99成人在线观看| 色综合成人| 国产AV无码专区亚洲A∨毛片| 毛片网站在线播放| 午夜福利网址| 亚洲第一天堂无码专区| 狠狠综合久久久久综| 久久频这里精品99香蕉久网址| 毛片最新网址| 亚洲欧洲国产成人综合不卡| 99尹人香蕉国产免费天天拍| 成人精品午夜福利在线播放| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲第一在线播放| 熟女日韩精品2区| 欧美日韩在线成人| 国产欧美日韩精品综合在线| 一级毛片中文字幕| 香蕉在线视频网站| 亚洲人成网7777777国产| 91麻豆国产视频| 久久久久人妻一区精品| 在线毛片免费| 日韩国产一区二区三区无码| 97免费在线观看视频| 国产jizz| 久久鸭综合久久国产| 国产精品网址在线观看你懂的| 在线观看无码av五月花| 亚洲精品视频免费观看| 国产av一码二码三码无码| 久久午夜影院| 久久人搡人人玩人妻精品一| 成年免费在线观看| V一区无码内射国产| 午夜性爽视频男人的天堂| 久久精品无码一区二区国产区| 午夜性爽视频男人的天堂| 999国内精品视频免费| 精品三级在线| 在线观看免费人成视频色快速| 一级毛片免费高清视频|