胡濤 李波 姚為
(中南民族大學計算機科學學院 湖北省武漢市 430074)
近年來,過度捕撈已使得我國海洋漁業資源急劇的減少[1]。海洋中不同的漁船作業方式捕捉魚的大小、捕撈魚量、捕撈魚類存在較大區別,不同的作業方式對漁業資源的傷害往往不同。其中,拖網漁船因為其工作特性對漁業資源的傷害巨大[2],有些地區甚至對拖網漁船實行了一年禁拖的措施[3]。依靠漁船在海洋中航行的軌跡數據來識別漁船的作業方式、進而保護海洋資源是一個很有意義的工作。
漁船的軌跡數據主要包括漁船的位置、航速、航向和日期,Pipanmekaporn 等人利用聚類策略和循環神經網絡對漁船的軌跡進行表示,從而達到漁船作業方式判斷的目的[4]。Zong 等人利用數學形態學的方式捕獲漁船的經緯度信息從而判斷漁船的作業方式[5],鄭巧玲等人借助航速、航向二個因子建立了神經網絡模型對漁船作業方式進行判斷[6]。沈凱等人提取大量關于出行漁船的軌跡特征,使用邏輯斯蒂回歸模型完成對漁船作業方式的判斷[7]。Haiguang 等人設計了一個從數據預處理、特征提取、特征選擇、模型訓練,建立了漁船作業方式模型FVID[8]。任迎春等人采用支持向量機識別漁船的作業方式[9]。
本文對漁船的軌跡提取大量的手工特征、使用集成的特征選擇算法對提取的大量手工特征進行篩選,保留對漁船作業方式判斷最有效的特征。
漁船的軌跡T 是由多個軌跡點 Pj 組成的,其中 Pj 主要包括當前軌跡點的經緯度、速度、方向、時間信息。無法直接使用傳統的機器學習算法直接建立模型,需要從這些軌跡點中提取關鍵的特征,將該軌跡包含的所有軌跡點轉換成一維向量。
由于軌跡數據主要包含4 個重要的信息:經緯度、速度、方向、時間,所以主要分為單個變量進行特征提取,以及組合多個信息進行特征提取。具體的操作如表1所示。

表1:特征工程介紹
經緯度信息主要提取了統計特征,提取軌跡包含的所有軌跡點的經緯度的最大值、最小值、極差、均值、眾數等。速度信息除了提取了軌跡包含的所有軌跡點的速度的統計信息以外還包括分桶特征,即將速度分為[0,1),[1,2),[2,3),.,[18,19),[19,20),[20,+∞)一共 21個桶,統計軌跡包含的所有軌跡點的速度落在每個桶之間的次數以及占的比例。航向信息是先對軌跡的航向信息進行一階差分來衡量航向變換的快慢,然后對得到的一階差分信息進行一些統計學運算從而提取特征。一階差分代表的意思是當前軌跡點的航向與上個軌跡點的航向的差值。速度與經緯度交互特征指的是將速度劃分為低速(0 到8 海里/小時)、中速(9 到16 海里/小時)、高速(16 節以上),統計在三個區間內經緯度坐標的統計信息。時間與經緯度的交互特征指的是通過經緯度信息和時間信息計算漁船的平均速度,然后對得到的平均速度提取統計特征。
經過特征工程后每條軌跡產生了168 個特征,即使用這168 個一維信息來代表該條軌跡。
如算法1所示,特征選擇算法主要可以分為過濾法(Filter)、包裝法(Wrapper)、嵌入法(Embedding)三種。其中嵌入法主要依賴于一些機器學習模型表現特征選擇能力,如正則化具體表現為當一個特征對應的系數為 0 時表示該特征不重要,樹模型具體表現為某個特征在構造樹時有無作為劃分數據的節點。
嵌入式特征是一種高效、選擇精度高的方法對于分類任務來說,本文主要采用 lightgbm 模型[10]作為嵌入式特征選擇的基礎學習器。根據構造樹時使用該特征的次數的總和作為特征重要性,將特征重要性小于均值的特征視為無關特征或者噪聲特征,從而達到特征選擇的效果。

特征選擇存在很大的不穩定性,小小的數據變動可能會導致選擇出來的特征子集差異特別大,所以特征選擇的性能會受到很大的影響。而集成學習可以吸收多個結果的優缺點從而使得整體的結果趨于穩定。
本文依靠交叉驗證來劃分數據集。將每折劃分得到的訓練集數據采用基于lightgbm 的嵌入式特征選擇算法進行學習,從而得到M 個特征選擇的結果,M 代表交叉驗證的折數。然后采用了詞頻統計將這M 個結果進行整合,得到特征在這M 次選擇結果中出現的次數。最后設置超參數 N,將在這M 次選擇結果中出現次數大于等于N 的特征保留,從而得到最終特征子集。算法 1 是本文所提出的基礎特征選擇算法的偽代碼。
實驗數據來源于福建省海洋局的公開實驗數據,包括了8166條漁船出行的軌跡記錄。
按 8 比 2 的比例劃分成訓練集和測試集,大約包含1600 個測試集和6400 個訓練集?;诮徊骝炞C的集成特征選擇算法設置的折數為5,采用的分類器是 lightgbm,表2 主要討論了基于lightgbm 嵌入式的特征選擇、基于改進的基于交叉驗證的集成特征選擇算法的不同閾值N 對實驗結果的影響。

表2:實驗結果
從實驗結果中可以看出改進的特征選擇算法在閾值取2 時各項性能都有明顯的提升。當閾值選取為2 的適合的交叉驗證分類效果最好,具體原因是閾值過大的時候也會過濾掉一些有效的特征。閾值選用一個適中的往往會取得更好的效果。
本文主要對漁船軌跡數據進行了特征工程,設計了一種集成特征選擇算法來對特征工程得到的特征進行選擇。最終對于漁船的作業方式的辨別的準確率可以達到 91.5%。通過對漁船作業方式的辨別,對于漁業資源的保護和管理有重要的意義。