常用的特征篩選方法研究

2020-02-04 07:40:45于娜

科技資訊 2020年36期

于娜

摘 ?要：數據化的信息時代，人們一直期待能夠將沒有代表性的冗余的特征去除，從而使獲得的數據是通常由有效的、具有代表性的特征表示的。通過特征篩選去建立一個預測精度高的可解釋模型。正則化下的稀疏模型是識別積極活躍特征的一種流行技術。總體來說，特征篩選目標為：剔除不具代表性的冗余特征，識別積極的有效特征; 可解釋性好的高準度預測模型。篩選出有效的特征不僅可以提高計算效率，還能提高預測模型的精準度。

關鍵詞：安全篩選 ?啟發式篩選方法 ?SASVI 篩選方法 ?DPP篩選方法

中圖分類號：O177.5 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼：A文章編號：1672-3791（2020）12（c）-0231-03

Research on Common Feature Screening Methods

YU Na*

（Heilongjiang College of Business and Technology， Harbin， Heilongjiang Province，150025 China）

Abstract： In the information age of data， people have been expecting to remove redundant featurethat is not representative， so that the obtained data is generally represented by effective and representative feature. A high-precision prediction is established by feature filtering ?explainable model. The sparse model under regularization is a popular technique for identifying active features. In general， the goal of feature selection is to remove redundant feature that is not representative and identify positive， effective feature high-precision prediction model and good interpretability. Screening out effective features can not only improve the calculation efficiency， but also improve the accuracy of the prediction model.

Key Words： Security screening; Heuristic screening approach; The SASVI approach; The DPP approach

1996年Tibshirani[1]提出了一種基于正則（罰）的Lasso模型，模型如下：

（1）

其中，權重表示模型系數。

特征篩選能夠通過加速計算，降低模型維度成為解決稀疏或結構化稀疏正則化學習模型的重要步驟。針對于LASSO一類的篩選方法[2-6]主要分為啟發式篩選方法和安全篩選方法兩類。啟發式篩選方法無法保證在優化問題的最優解向量中移除都是非積極特征。啟發式篩選方法之一是“強規則”篩選，它基于某種假設推導其篩選規則，并且無法保證該假設總是存在的。而安全篩選方法則能有效地完善這一問題。安全指的就是可以保證剔除的特征都是非積極特征。安全篩選方法通過估測對偶最優解得到篩選規則，估測的值越精確，可以剔除掉的非積極特征越多。一種安全篩選方法是2012年El Ghaoui[3]和他的同事提出的SAFE篩選規則，該方法可以識別在解向量中系數為零的預測變量，進而在優化問題中排除無效的預測變量或特征以減小模型的復雜程度。2013年Wang Jie等人在此基礎上提出了DPP[2]篩選規則，該方法利用對偶問題的可行集是一個閉凸多面體的幾何特性提出的。2014年Liu Jun等人提出的SASVI[5]篩選規則，利用了變分不等式為對偶問題提供優化條件，構建的可行集更加嚴格。篩選規則的關鍵在于如何構造對偶問題的最優解集的可行域，可行域越緊嚴格，越接近精確的對偶最優解，篩選越有效。該文以一類Fused Lasso[2]模型為例，對比這幾類篩選規則。考慮當系數懲罰項的正則參數為零時的模型：

1 ?對偶問題

該文主要研究的是如下優化問題：

其中，表示模型系數，是設計矩陣，為差分矩陣形式如下：

初始問題（3）式，得到對偶問題如下：

相當于對下式進行優化：

（4）

2 ?SASVI篩選規則

下面主要談一談關于可行集建立問題。

定理1 設f（）是一個可微凸函數，C是一個閉凸集，是約束優化問題：

的最優解當且僅當。

對于對偶問題來說，在時，無法通過簡單的運算，求得到對偶最優解。由此，考慮利用定理1中的變分不等式構建一個緊的對偶可行集。可行集如下：

通過分析可知，當參數越靠近，可行集越緊。當時，有，該可行集為一個單點集里

只含有一個元素。

因為，通過構建的篩選規則：

可以通過下式來估測

（5）

通過計算（3）式得到結果，當結果小于1時，由篩選規則知，有 ? ? ? ? ? 。由此可以識別出相鄰特征中具有相同系數的特征。

3 ?常用的篩選方法

3.1 強規則篩選方法

定理2 設C是一個非空閉凸集，滿足‖Pc（x1）-Pc（x2）‖2≤‖x1-x2‖2，x2，x2∈C，則稱投影映射是連續且非擴張的。

Tibshirani首先提出了利用假設特征和與殘差之間的線性函數對于參數是非擴張的構建了可行集如下。

當時，有：

由此，可以有如下估測：

不難發現，它們都是依賴于前j個特征的和與對偶

變量的內積的絕對值來進行估測的，其中。通過對可行域的估測發現，強規則方法的估測的域要更松、更大，并且無法保證該規則安全，即篩除的特征都是沒有代表性的冗余特征。為了保證篩選的準確性后續也提出了用KKT方法進行修正，但也需要反復地去削弱條件，增加了計算的復雜度。

3.2 SAFE篩選方法

令，該方法利用的是一種對偶標準去估測模型上界，有

通過求解上式，可以得到

最優解

將該方法構建的可行集與SASVI篩選規則比較如下：

令θ=s*θ1*有變分不等式有

通過對比兩篩選規則知，SAFE所定義的球域是包大于SASVI所定義的區域的，相對于SASVI的可行域，該區域要更松弛。

3.3 DPP篩選方法

該方法是將初始優化問題的對偶問題表述成一個投影問題，該方法是投影算子非擴張性的直接應用。

由于，

所以有，

該方法利用了投影算子在閉凸多面體上的性質，為Lasso模型帶來了新的篩選規則，該方法優點是可以推廣到Group Lasso、Fused Lasso等模型上去。適用的模型多，極大地提高了計算效率。與SASVI比較可知，該方法構建的可行集不等式可由SASVI的不等式放縮得到，比SASVI 的可行集松弛。

4 ?結語

該文系統地介紹了常用的特征篩選方法的篩選規則，通在理論上說明了這幾種篩選規則的優缺點，其中有利用假設構建篩選規則的方法，也有利用投影算子在幾何上的具體應用對可行集進行構建的方法，在文中將這幾種方法分別進行了討論。可以看出， SASVI篩選規則估測的可行集可以更加緊，估測的對偶問題最優解更為精確，該篩選規則在排除特征方面更有效。DPP方法可以適用更多的模型，特征篩選也被廣泛地應用到各個領域[6]。

參考文獻

[1] rob.Tibshirani.Regression Shrinkage and Selection Via the Lasso[J].journal of the royal statistical society.series b：methodological，1996，58（1）：267-288.

[2] wang jie，fan wei，ye jieping.Fused Lasso Screening Rules via the Monotonicity of Subdifferentials[J].IEEE transactions on pattern analysis and machine intelligence，2015， 37（9）：1806-1820.

[3] lauren el ghaoui，vivien viallon，tarek robbani.Safe Feature Elimination in Sparse Supervised Learning[J].pacific journal of optimization，2012（8）： 667-698.

[4] 張環.Fused-LASSO懲罰最小一乘回歸的統計分析與優化算法[D].北京交通大學，2016.

[5] Lu Jianhui，Li Yachao，Chen Shaonan. Degrees of freedom in lasso problems[J]. Open Access Library Journal，2016，3（3）：1-10.

[6] nataliya. Sokolovska，yann. Chevaleyre， karine. Clement，et al. The Fused Lasso Penalty for Learning Interpretable Medical Scoring Systems[c]//2017 international joint conference on neural networks lijcnn.2017.

[7] 孫健.淺談計算計工程設計中數據的挖掘特征以及相關算法[J].科技資訊，2018，16（31）：30，32.

[8] MA Chi，huang Jian. Asymptotic properties of Lasso in high-dimensional partially linear models[J].science china cmathemati-cs，2016，59（4）：769-788.

科技資訊2020年36期

科技資訊的其它文章: HGIS現場安裝調試技術及質量控制方法; 基于“互聯網+”視域下高職信息化教學平臺的構建與研究; 淺析家長教養觀念對1歲至2歲嬰幼兒語言發展的影響; 鄉村旅游的鄉愁文化營建; 惠州市華江鞋業園9#宿舍工程投標文件商務標編制; 新時期做好國有企業宣傳思想文化工作的思考