基于mRMR 算法的滑坡多源特征選擇*

2023-11-07 06:04:06張垚

微處理機 2023年5期

張垚

（西安工程大學電子信息學院，西安 710600）

1 引言

滑坡是地質災害中最為常見的災害形式之一，對人類社會造成了巨大的經濟損失和人員傷亡[1]。滑坡災害的預測和預警一直是地質災害領域研究的熱點與難點之一。通過特征選擇能夠篩選滑坡的主要成災因子，使多維數據復雜的問題得以簡化，因此這一方法在滑坡災害研究中得到了廣泛應用。當前國外的主要相關研究包括：采用現場調查統計的方法對滑坡主要特征進行選擇[2]，但此法實驗周期過長，時效性較差；利用邏輯回歸的方法對影響滑坡的特征因子進行篩選[3]，該方法過濾掉了過多的有效特征，導致最后的預報精度不高；采用機器學習的方法對滑坡影響因子進行分類[4]，該方法只考慮了影響滑坡的少數因素。國內方面也有學者們針對滑坡災害多源特征的選取問題展開研究：黃鑫等人[5]采用統計學的相關系數法進行特征分析及相關性研究，該方法受異常數據的影響較大；程少康等人[6]對傳統的主成分分析（PCA）數據降維方法加以改進，提出了加權型PCA 和KPCA，該方法能夠有效降低數據維度，同時考慮了各類致災因子所占的影響權重，但矩陣運算過多導致計算復雜、時間過長；郭伏等人[7]提出灰色關聯分析（GRA）方法，該方法能夠篩選出對滑坡變形具有促進作用的因子，但數據指標受主觀因素影響較大，存在一定的局限性。針對以上研究中存在的問題，本研究將采集的滑坡特征數據使用mRMR 特征選擇算法與導致滑坡發生相關性大的特征保留，將冗余的特征剔除，以此減少非必要監測傳感器的數量、降低信息的采集成本，同時可以降低預報模型訓練時的復雜度。

2 mRMR 算法

2.1 算法原理

最大相關最小冗余（Max-Relevance and Min-Redundancy, mRMR）算法是由彭漢川團隊[8]提出，它以不同的方式在相關性和冗余性之間進行權衡，并且以互信息作為計算準則來衡量特征之間的冗余度以及特征與目標變量之間的相關性。通過最大化特征與目標變量的相關性以及最小化特征之間的冗余度來進行特征選擇，最終使得特征之間的差異性很大，而同目標變量的相關性也很大。mRMR 算法是一種過濾型算法，具有計算復雜度低、魯棒性好、效率高的優點，適用于滑坡復雜環境中的特征選擇。

互信息是信息論里有用的信息度量，它可以用來評價變量之間的相關性。若兩個隨機變量之間的互信息值越大，則它們之間的相關性就越強；若兩個隨機變量相互獨立，則它們之間的互信息值為零。

對于兩個離散型隨機變量，互信息可定義為：

對于兩個連續型隨機變量，互信息可定義為：

式(1)與式(2)中，P(x,y)是X 和Y 的聯合概率分布函數；p(x)和p(y)分別為X 和Y 的邊緣概率分布函數。

互信息具有非負性、對稱性、獨立性、自信息性和邊界性的特點，其中對稱性是度量變量間的互相依賴和獨立關系的重要依據，即有：

在獲得變量的相關性之后，最大相關性和最小冗余度計算方法分別由以下目標函數定義：

最大相關最小冗余算法的特征選擇標準由下式定義：

在式(4)、式(5)和式(6)中，S 為輸入特征集合；Φ為輸出特征集合；y 為目標變量；I(xi,y)為輸入特征變量和輸出目標變量之間的互信息；I(x,yj)為輸入特征之間的互信息；D 是特征集S 中各特征xi與目標變量y 之間所有互信息的均值，表示兩者之間的相關程度；R 是特征集S 中各特征xi與xj之間所有互信息的均值，表示特征之間的冗余大小。

可使用增量式搜索方法將優化問題表述成如下的操作：

這一操作表示假設當前已進行m-1 次選擇，選出了具有m-1 個特征的特征子集Sm-1。在進行第m次選擇時，在剩下的特征空間X-Sm-1中需要通過上式來尋找使得mRMR 最大化的特征。

當進行某次選擇時，若取得的最大值等于零或小于某一設定閾值時，則停止選擇，已選特征即為特征優選結果。實質上，該過程也相當于不斷地遍歷和計算得到局部最優特征的過程。因此，mRMR 的本質就是用標準即相關性和冗余性來對特征進行重要性排序。

2.2 算法流程

mRMR 特征選擇算法流程框圖如圖1 所示。可概括如下：

圖1 mRMR 特征選擇算法基本流程

1）計算出各個特征之間以及各個特征與目標變量的互信息；

2）最大化最大相關與最小冗余之間的差值，得到評價函數；

3）通過評價函數式對原始數據集內部的特征進行評分，并對評分按照從高到低的原則對這些特征進行重要性排序。評分越優，說明該特征與目標變量之間的相關性越高，重要性程度也就越高，包含的有用信息量就越多，與其它特征之間的冗余度越低；

4）最終選取一定數目的特征子集組成最優特征子集。

3 數據來源及預處理

研究采用的數據來源于陜西省榆林市子洲縣氣象監測數據、地面監測數據、地質勘探數據以及人類活動影響數據等。相關實驗數據來源于子洲縣滑坡重點整治示范區的監測數據。獲取到的相關特征有：降雨量、土壤含水率、土壓力、裂縫位移、人類活動影響、斜坡傾角、高程、坡形特征，共8 類。數據集使用的是2018 年5 月到2019 年5 月之間的500 組數據（每12 小時采集一次）。將所有數據分為訓練集與測試集兩部分，其中，選擇80%作為訓練集，20%作為測試集。前400 組數據輸入建立預測模型作為模型的訓練數據，剩余的100 組數據用來檢測預報模型的精確度。

滑坡的多源特征有定性和定量之分。針對定性類型數據，需要將其轉化為定量數據，然后同定量數據一起做歸一化處理，作為滑坡特征選擇的輸入。

對收集到的滑坡多源特征（降雨量、土壤含水率、土壓力、裂縫位移、人類活動影響、斜坡傾角、高程、坡形特征）進行分析。由于高程、坡形特征、斜坡傾角、及人類活動影響屬于定性數據，需要轉化為定量數據，依據對數據的統計分析、工程經驗、現有的劃分方法劃分對應離散區間，結果如表1 所示。

表1 滑坡定性特征及指標量化表

由于不同監測設備采集到的滑坡相關數據，其特征與特征之間的屬性、量綱不同，數據的不統一性質很容易影響預報模型的精度，因此在研究滑坡災害預測模型時，將多種傳感器采集來的不同屬性信息進行數據預處理，之后再將其作為模型的輸入進行訓練，從而確保滑坡預報的科學性與準確性。具體步驟如下：

1）基于程序判斷濾波，對數據采用偏差的方法進行清洗。首先，根據生產經驗，確定出相鄰兩次采樣信號之間可能出現的最大偏差；然后，將兩次相鄰的采樣值相減，求出其增量（以絕對值表示）；然后，將該增量與兩次采樣允許的最大偏差進行比較，若超過此偏差，則取上次采樣值作為本次采樣值，若小于或等于此偏差，則將本次采樣信號作為本次采樣值。該步驟能克服因偶然因素引起的脈沖干擾。

2）對多種特征數據進行歸一化處理，變換公式如下式所示：

式中，X 代表歸一化后的數據；x 為采集到的數據；xmin和xmax為該樣本數據的最大值和最小值。

對收集到的多源特征做歸一化處理，處理后的部分數據如表2 所示。

4 實驗分析

在實驗研究中，針對mRMR 算法而言，初始特征為獲取到的滑坡災害多源特征，包括降雨量、土壤含水率、土壓力、裂縫位移、人類活動影響、斜坡傾角、高程、坡形特征，共8 類；目標變量則為滑坡災害的發生概率。

將陜西省榆林市子洲縣地質災害研究區收集到的8 類滑坡初始特征共500 組樣本數據輸入到mRMR 算法中。定義x1、x2、x3、x4、x5、x6、x7、x8分別為降雨量、土壤含水率、土壓力、裂縫位移、人類活動影響、斜坡傾角、高程、坡形特征；y 為滑坡災害發生概率；輸出滑坡各個特征的評分及重要性排序，如圖2所示。根據相關工程實踐經驗，定義評分設定閾值為70，即若某一滑坡特征的評分超過70 分時，則表明該特征為描述滑坡災害發生的重要特征。

圖2 mRMR 特征選擇重要性排序圖

在圖2 中，研究基于mRMR 算法的特征選擇，滑坡各個特征評分從高到低依次排序為：x1=87.532、x6=80.641、x4=75.423、x5=70.149、x7=54.473、x3=52.393、x2=46.324、x8=39.548，可見其中x1、x6、x4、x5滿足實驗設定閾值的要求。

實驗發現，當對第5 類特征（高程）進行評分時，其評分相比前4 類特征大幅下降，與前4 類特征評分存在顯著差異，且從第4 類特征（人類活動影響）之后的特征評分變化波動已不再明顯、下降趨勢較為緩慢，這說明前4 類主要的輸入特征和滑坡發生概率相關性較強，后4 類特征和滑坡發生概率相關性相對較弱，即前4 類特征能夠較好地表征滑坡災害的發生，需要將其保留，后4 類滑坡特征較為冗余，需要將其剔除。因此，最終將8 類滑坡初始特征經過mRMR 算法處理后的前4 類特征（降雨量、斜坡傾角、裂縫位移、人類活動影響）作為滑坡預報模型的輸入參數，用于神經網絡模型的訓練，該方法降低了模型數據結構的復雜度，同時為后期傳感器優化布設提供了依據，有助于節約成本。

5 結束語

所提出的基于mRMR 算法的滑坡多源特征選擇方法，具有以下優勢：方法原理簡單、計算方便、復雜度低、效率高；泛化能力強，并且適用于多維小樣本數據；對于非線性的變量直接進行篩選，縮短了模型的訓練步數和仿真時間。通過該方法進行特征選擇，8 類滑坡初始特征經選擇后降低為4 類，實驗結果表明該方法降低了數據的復雜度、消除了部分特征的冗余度，對于提高模型的魯棒性、降低傳感器設備的監測采集成本具有一定的工程實踐意義，可為有關部門的決策提供科學依據。