999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

常用的特征篩選方法研究

2020-02-04 07:40:45于娜
科技資訊 2020年36期

于娜

摘 ?要:數據化的信息時代, 人們一直期待能夠將沒有代表性的冗余的特征去除, 從而使獲得的數據是通常由有效的、具有代表性的特征表示的。通過特征篩選去建立一個預測精度高的可解釋模型。正則化下的稀疏模型是識別積極活躍特征的一種流行技術。總體來說,特征篩選目標為: 剔除不具代表性的冗余特征, 識別積極的有效特征; 可解釋性好的高準度預測模型。篩選出有效的特征不僅可以提高計算效率, 還能提高預測模型的精準度。

關鍵詞:安全篩選 ?啟發式篩選方法 ?SASVI 篩選方法 ?DPP篩選方法

中圖分類號:O177.5 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A文章編號:1672-3791(2020)12(c)-0231-03

Research on Common Feature Screening Methods

YU Na*

(Heilongjiang College of Business and Technology, Harbin, Heilongjiang Province,150025 China)

Abstract: In the information age of data, people have been expecting to remove redundant featurethat is not representative, so that the obtained data is generally represented by effective and representative feature. A high-precision prediction is established by feature filtering ?explainable model. The sparse model under regularization is a popular technique for identifying active features. In general, the goal of feature selection is to remove redundant feature that is not representative and identify positive, effective feature high-precision prediction model and good interpretability. Screening out effective features can not only improve the calculation efficiency, but also improve the accuracy of the prediction model.

Key Words: Security screening; Heuristic screening approach; The SASVI approach; The DPP approach

1996年Tibshirani[1]提出了一種基于正則(罰)的Lasso模型,模型如下:

(1)

其中,權重表示模型系數。

特征篩選能夠通過加速計算,降低模型維度成為解決稀疏或結構化稀疏正則化學習模型的重要步驟。針對于LASSO一類的篩選方法[2-6]主要分為啟發式篩選方法和安全篩選方法兩類。啟發式篩選方法無法保證在優化問題的最優解向量中移除都是非積極特征。啟發式篩選方法之一是“強規則”篩選,它基于某種假設推導其篩選規則,并且無法保證該假設總是存在的。而安全篩選方法則能有效地完善這一問題。安全指的就是可以保證剔除的特征都是非積極特征。安全篩選方法通過估測對偶最優解得到篩選規則,估測的值越精確,可以剔除掉的非積極特征越多。一種安全篩選方法是2012年El Ghaoui[3]和他的同事提出的SAFE篩選規則,該方法可以識別在解向量中系數為零的預測變量,進而在優化問題中排除無效的預測變量或特征以減小模型的復雜程度。2013年Wang Jie等人在此基礎上提出了DPP[2]篩選規則,該方法利用對偶問題的可行集是一個閉凸多面體的幾何特性提出的。2014年Liu Jun等人提出的SASVI[5]篩選規則,利用了變分不等式為對偶問題提供優化條件,構建的可行集更加嚴格。篩選規則的關鍵在于如何構造對偶問題的最優解集的可行域,可行域越緊嚴格,越接近精確的對偶最優解,篩選越有效。該文以一類Fused Lasso[2]模型為例,對比這幾類篩選規則。考慮當系數懲罰項的正則參數為零時的模型:

1 ?對偶問題

該文主要研究的是如下優化問題:

其中,表示模型系數,是設計矩陣,為差分矩陣形式如下:

初始問題(3)式,得到對偶問題如下:

相當于對下式進行優化:

(4)

2 ?SASVI篩選規則

下面主要談一談關于可行集建立問題。

定理1 設f( )是一個可微凸函數,C是一個閉凸集,是約束優化問題:

的最優解當且僅當。

對于對偶問題來說,在時,無法通過簡單的運算,求得到對偶最優解。由此,考慮利用定理1中的變分不等式構建一個緊的對偶可行集。可行集如下:

通過分析可知,當參數越靠近,可行集越緊。當 時,有,該可行集為一個單點集里

只含有一個元素。

因為,通過構建的篩選規則:

可以通過下式來估測

(5)

通過計算(3)式得到結果,當結果小于1時,由篩選規則知,有 ? ? ? ? ? 。由此可以識別出相鄰特征中具有相同系數的特征。

3 ?常用的篩選方法

3.1 強規則篩選方法

定理2 設C是一個非空閉凸集,滿足‖Pc(x1)-Pc(x2)‖2≤‖x1-x2‖2,x2,x2∈C,則稱投影映射是連續且非擴張的。

Tibshirani首先提出了利用假設特征和與殘差之間的線性函數對于參數是非擴張的構建了可行集如下。

當時,有:

由此,可以有如下估測:

不難發現,它們都是依賴于前j個特征的和與對偶

變量的內積的絕對值來進行估測的,其中。通過對可行域的估測發現,強規則方法的估測的域要更松、更大,并且無法保證該規則安全,即篩除的特征都是沒有代表性的冗余特征。為了保證篩選的準確性后續也提出了用KKT方法進行修正,但也需要反復地去削弱條件,增加了計算的復雜度。

3.2 SAFE篩選方法

令,該方法利用的是一種對偶標準去估測模型上界,有

通過求解上式,可以得到

最優解

將該方法構建的可行集與SASVI篩選規則比較如下:

令θ=s*θ1*有變分不等式有

通過對比兩篩選規則知,SAFE所定義的球域是包大于SASVI所定義的區域的,相對于SASVI的可行域,該區域要更松弛。

3.3 DPP篩選方法

該方法是將初始優化問題的對偶問題表述成一個投影問題,該方法是投影算子非擴張性的直接應用。

由于,

所以有,

該方法利用了投影算子在閉凸多面體上的性質,為Lasso模型帶來了新的篩選規則,該方法優點是可以推廣到Group Lasso、Fused Lasso等模型上去。適用的模型多,極大地提高了計算效率。與SASVI比較可知,該方法構建的可行集不等式可由SASVI的不等式放縮得到,比SASVI 的可行集松弛。

4 ?結語

該文系統地介紹了常用的特征篩選方法的篩選規則,通在理論上說明了這幾種篩選規則的優缺點, 其中有利用假設構建篩選規則的方法,也有利用投影算子在幾何上的具體應用對可行集進行構建的方法, 在文中將這幾種方法分別進行了討論。可以看出, SASVI篩選規則估測的可行集可以更加緊,估測的對偶問題最優解更為精確, 該篩選規則在排除特征方面更有效。DPP方法可以適用更多的模型,特征篩選也被廣泛地應用到各個領域[6]。

參考文獻

[1] rob.Tibshirani.Regression Shrinkage and Selection Via the Lasso[J].journal of the royal statistical society.series b:methodological,1996,58(1):267-288.

[2] wang jie,fan wei,ye jieping.Fused Lasso Screening Rules via the Monotonicity of Subdifferentials[J].IEEE transactions on pattern analysis and machine intelligence,2015, 37(9):1806-1820.

[3] lauren el ghaoui,vivien viallon,tarek robbani.Safe Feature Elimination in Sparse Supervised Learning[J].pacific journal of optimization,2012(8): 667-698.

[4] 張環.Fused-LASSO懲罰最小一乘回歸的統計分析與優化算法[D].北京交通大學,2016.

[5] Lu Jianhui,Li Yachao,Chen Shaonan. Degrees of freedom in lasso problems[J]. Open Access Library Journal,2016,3(3):1-10.

[6] nataliya. Sokolovska,yann. Chevaleyre, karine. Clement,et al. The Fused Lasso Penalty for Learning Interpretable Medical Scoring Systems[c]//2017 international joint conference on neural networks lijcnn.2017.

[7] 孫健.淺談計算計工程設計中數據的挖掘特征以及相關算法[J].科技資訊,2018,16(31):30,32.

[8] MA Chi,huang Jian. Asymptotic properties of Lasso in high-dimensional partially linear models[J].science china cmathemati-cs,2016,59(4):769-788.

主站蜘蛛池模板: 区国产精品搜索视频| 乱系列中文字幕在线视频| 特级毛片免费视频| 狠狠亚洲婷婷综合色香| 亚洲日韩久久综合中文字幕| 3D动漫精品啪啪一区二区下载| 亚州AV秘 一区二区三区| 国产手机在线ΑⅤ片无码观看| 欧美亚洲国产日韩电影在线| 国产日韩久久久久无码精品| 中文字幕欧美日韩| 亚洲黄色网站视频| 久久国产精品夜色| 2020国产精品视频| 国产凹凸一区在线观看视频| AV在线天堂进入| 9久久伊人精品综合| 婷婷丁香在线观看| 亚洲精品爱草草视频在线| 国产美女免费| 中国国产A一级毛片| 午夜精品福利影院| 女人av社区男人的天堂| 亚洲小视频网站| 本亚洲精品网站| 91福利在线看| 国产视频大全| 欧美国产精品不卡在线观看 | 国产香蕉在线视频| a级毛片毛片免费观看久潮| 国产成人精品18| 国产精品蜜芽在线观看| 少妇高潮惨叫久久久久久| 国产H片无码不卡在线视频| 亚洲中文字幕在线观看| 亚洲一区第一页| 18禁黄无遮挡网站| 成人午夜天| 亚洲一区精品视频在线| 中文字幕亚洲第一| 秋霞一区二区三区| 久久国产免费观看| 国产精品久久自在自线观看| 亚洲国产91人成在线| 91成人精品视频| 精品伊人久久久香线蕉 | 麻豆国产在线观看一区二区| 乱系列中文字幕在线视频| 国产亚洲精久久久久久久91| 狼友av永久网站免费观看| 亚洲天堂日本| 国产亚洲欧美在线专区| 欧美日韩国产综合视频在线观看| 欧美视频在线不卡| 国产又粗又猛又爽视频| 国产精品夜夜嗨视频免费视频 | 亚洲精品第五页| 国产精品人成在线播放| 97青草最新免费精品视频| 久久人人爽人人爽人人片aV东京热 | 久久国产V一级毛多内射| 91视频区| 日韩精品成人在线| 亚洲性一区| 欧美一区精品| 国产91视频免费观看| 夜夜拍夜夜爽| 国产精品第三页在线看| 亚洲美女操| 精品国产福利在线| 无码'专区第一页| 99热这里只有精品国产99| 久青草网站| 男人天堂伊人网| AⅤ色综合久久天堂AV色综合| 99在线小视频| 久久无码免费束人妻| 人人爽人人爽人人片| 伊人国产无码高清视频| 伊人久久精品亚洲午夜| 日韩精品无码免费专网站| 韩国自拍偷自拍亚洲精品|