四川九洲電器集團有限責任公司 謝京華
針對運動目標數據挖掘過程中對目標的運動趨勢無法充分體現、關聯規則分析出現無效頻繁項集且效率較低的問題,提出一種基于運動目標的關聯規則分析新方法。該方法采用改進的FP_Growth算法同時對當前tn時刻的“靜態狀態”數據和tn-tn-1的“動態趨勢”數據進行關聯規則分析,可充分、高效、實用、可靠的實現針對運動目標的數據挖掘,獲取其目標屬性關聯知識,具有時間和空間利用效率更高、所挖掘的知識收斂有效、能充分體現動態趨勢等特點,對于提升與完善我國國防、民航和通用航空的監視手段與策略具有重要的軍事和社會意義。
現代空域管理和監視已經是一種大范圍、快節奏的管理和監視方式,包括海、陸、空、天多維度的多方平臺。隨著現代空域管理和監視過程中傳感器種類的增加以及傳感器能力的提升,管理和監視范圍進一步擴大,方式日趨復雜化,區域內目標的數據量和種類也隨之劇增,由此給目標的識別帶來了極大的困難。因此,在復雜環境下針對不同飛行任務、不同目標,快速、準確地完成目標識別,是未來空域管理和監視的先決條件和必要保障。
傳統的目標識別手段雖然能夠在一定程度上完成對目標類型、種類、屬性的判別,但手段較為單一,已無法適應新的需求,其原因在于在未來空域管理和監視過程中,各種傳感器獲取的目標特征信息量大、類型多樣、特征間關系錯綜復雜,并且特征具有不同的種類和表現形式。為充分利用目標的特征信息,目標識別將向綜合化方向發展。只有綜合分析目標的多源特征,提取或構造出用于目標識別的穩健特征信息,才能有效地實現目標屬性的多方識別,提高識別正確率。
基于上述分析,本文提出了一種基于運動目標的關聯規則分析新方法,綜合利用偵察情報、預警探測、二次監視等情報部門采集和積累的非實時歷史數據和實時數據,深入分析大數據下的目標特征規律,挖掘其可用于目標識別的關聯特征,豐富目標識別的先驗知識,提高目標識別的準確性和可靠性,為空域管理和監視控制提供決策支持。
本文所述的基于運動目標的關聯規則分析新方法主要包括數據挖掘的關聯規則分析與運動目標數據預處理分析方法。
首先,在關聯規則分析方面,目前最為著名的算法是Apriori算法和FP-Growth算法,此外還有DHP、STEM算法等。其中,Apriori算法采用了基于逐層搜索求解頻繁項集的迭代的方法,其過程簡單,且易于理解,沒有復雜的算法,實現起來也比較容易,但需要掃描數據庫多次且產生大量候選頻繁項集,實用性不夠高,效率很低;FP-Growth算法是一種不產生候選頻繁項的挖掘算法,其基本思想是將事務數據庫壓縮到一顆FP樹中,采用分而治之的思想,自底向上挖掘FP樹,最終輸出所有的頻繁項集,但該算法在遍歷FP-tree時需要消耗大量時間,且在支持度計算時需要完全遍歷,無法充分利用算法的中間結果,導致時間和空間效率略低。此外,Apriori算法和FPGrowth算法都存在有一個共性的問題,二者都認為頻繁項集的所有非空子集都必須也是頻繁的,但是這樣產生出的大量候選項集雖然都是頻繁的,但有一部分是原始數據源所不曾包含的,這在某些特定應用環境下是不能夠被接受的。
第二,在關于運動目標數據挖掘方面,目前的處理方式幾乎都是基于當前tn時刻的“靜態狀態”數據進行挖掘,沒有考慮針對tn-tn-1的“動態趨勢”數據進行處理,因而挖掘結果缺乏對運動目標趨勢特性的體現,也同時會導致一些有用知識的遺漏。
綜上,從現有技術的發展情況來看,本文旨在解決運動目標數據挖掘過程中對目標的運動趨勢無法充分體現、關聯規則分析出現無效頻繁項集且效率較低的問題,提出一種基于運動目標的關聯規則分析新方法。該方法采用改進的FP_Growth算法同時對當前tn時刻的“靜態狀態”數據和tn-tn-1的“動態趨勢”數據進行關聯規則分析,可充分、高效、實用、可靠的實現針對運動目標的數據挖掘,獲取其目標屬性關聯知識,具有時間和空間利用效率更高、所挖掘的知識收斂有效、能充分體現動態趨勢等特點,對于提升與完善我國國防、民航和通用航空的監視手段與策略具有重要的軍事和社會意義,且通過在民用領域的擴展應用,也將創造重要的經濟價值。

圖1 基于運動目標的關聯規則分析總體實現框圖
本文所述的基于運動目標的關聯規則分析新方法其完整技術方案如圖1所示,具體描述如下:
首先,根據已有的數據源數據特征以及關于數據源的說明文檔,在關聯程序中構建一個三維向量,從存儲空間中按數據源的說明文檔讀取待挖掘的數據源數據。然后就這些數據進行數據清理,包括消除空缺值和野值,然后采用卡爾曼濾波對數據進行去雜、去噪處理,并形成統一描述的包括時間維、目標維、特征維的三維向量。
第二,開展動態關聯工作,即采用抽取時間維對特征維和目標維進行數據挖掘,并在時間維上進行迭代的處理方法。具體描述如下:
(1)分別取tn時刻和tn+1時刻的兩組數據,并就經度、緯度、高度、距離、方位角、徑向速度、俯仰角等運動特征參量進行矢量相減,形成相應的目標運動趨勢參數,用“-1、0、1”進行表示,其中“-1”代表目標的該項特征參量向著相反的趨勢在運動,“0”代表目標的該項特征參量處于靜止狀態,“1”代表目標的該項特征參量向著相同的趨勢在運動;而對目標屬性、機型、應答信息、目標類型、雷達型號等固有特征參量進行對比分析,形成相應的目標靜態屬性變化參數,分別用“參量當前值、1”進行表示,其中“參量當前值”代表當時刻由tn到tn+1時刻時,目標的該項特征參量未發生變化,仍然保持一致,“1”代表當時刻由tn到tn+1時刻時,目標的該項特征參量發生了變化。
(2)將由上一步產生的tn+1時刻“減去”tn時刻的數據進行匯總整理,形成新的數據集。然后針對該數據集繼續進行預處理,剔除掉其中的冗余項,運行改進的FP_Growth算法,形成FP_tree,提取關聯規則,并作為中間結果暫存于緩存中。
(3)從t0時刻開始,將由上一步產生的tn+1時刻“減去”tn時刻的數據進行迭代,直至到tm時刻為止,充分挖掘從存儲空間中采出的數據源數據。每次迭代均按上一步的方式進行處理:分類重構抽樣數據集、剔除相同的冗余特征參量、運行改進的FP_Growth算法、提取關聯規則,并將每次迭代所產生的關聯知識集進行存儲。
(4)對產生的所有關聯規則進行統計、歸類、合并,從而形成新的關聯知識。
第三,開展靜態關聯工作,即提取非運動特征數據,形成新的三維向量,并對其進行關聯挖掘。具體如下:
(1)在新的三維向量下,提取tn時刻的數據,直接對其進行運行改進的FP_Growth算法,形成FP_tree,提取關聯規則,并作為中間結果暫存于緩存中。
(2)從t0時刻開始,直至到tm時刻為止,利用改進的FP_Growth算法遍歷所有的時間片,并提取所有的關聯規則暫存于緩存中。
(3)對產生的所有關聯規則進行統計、歸類、合并,從而形成新的關聯知識。
第四,將動態關聯和靜態關聯所獲取到的關聯知識結合場景與其他挖掘手段獲取的知識共同完成融合與匹配,并交由綜合識別數據融合進行處理,從而給出關于目標屬性判別的輔助決策建議。
其中,本文所述的改進FP_Growth算法流程如圖2所示,具體描述如下:
第一,掃描事務數據庫一次,得到所有事務的總數(用于后續計算支持度)以及事務數據庫中所有單項,并按設定的最小重復次數min_d得到所有單項的降序序列D。
第二,把每條事務的項按降序序列D重排,并遍歷對比其余所有事務,得到共根項計數,形成邏輯FP_tree。
第三,依據D,采取分而治之的策略,得到D中以當前單項為尾的集合Vec,并遞歸產生該集合Vec的所有子集。
第四,對比Vec,剔除該子集內不存在的子集,并只需在Vec內計算每條子集的重復次數,便可得到該子集的實際支持度。
第五,如果降序序列D遍歷未完成,則跳轉到第二條;如果完成,則形成事實上的FP_tree,輸出并結束。

圖2 改進的FP_growth算法流程
本文所述的基于運動目標的關聯規則分析新方法,具備以下特點:
(1)不僅充分采用當前tn時刻的“靜態狀態”數據進行挖掘,而且還創新型的利用tn-tn-1的“動態趨勢”數據進行挖掘,豐富了目標識別的特征知識,提升了識別準確率;
(2)在過程中預先剔除掉了原始數據源所不曾包含的頻繁項,并在過程中完成關聯知識的支持度計算,很好的提升了運算效率;
(3)更加高效的利用了空間和時間資源,完善了關聯規則分析的充分性,降低了時間資源占據和空間資源占據,優化了目標識別輔助決策的整體流程。
在應用前景方面,本文所述方法已成功應用于國防體系中對偵察情報、預警探測、二次監視等部門采集和積累的非實時歷史數據和實時數據的挖掘,獲取豐富的目標識別先驗知識,提高目標識別的準確性和可靠性,為空域管理和監視以及作戰指揮控制提供決策支持;同時,本文所述方法還可應用于民航和通用航空領域,通過對運動目標的關聯規則分析,優化空管系統地空監視與場面監視的手段與策略;此外,本文所述的改進FP_Growth算法可應用于國民經濟的各行各業,通過挖掘,將有助于更加合理高效的制定計劃以及優化決策。
結束語:本文從現有技術的發展情況進行分析,針對在運動目標數據挖掘過程中對目標的運動趨勢無法充分體現、關聯規則分析出現無效頻繁項集且效率較低的問題,提出一種基于運動目標的關聯規則分析新方法,詳細描述了其系統組成和工作流程,并分析了其特點和創新之處,最后就其應用前景進行了分析,本文所述方法對于提升與完善我國國防、民航和通用航空的監視手段與策略具有重要的軍事和社會意義,且通過在民用領域的擴展應用,也將創造重要的經濟價值。