李沛林
(云南省互聯網應急中心,云南昆明 650011)
作為獲取地表信息的一種手段,遙感通信以其宏觀、綜合、動態、快速等特點,成為現代資源科學研究中最為有效的高新技術之一[1]。對資源與環境的調查與監測具有重要意義,越來越多的傳感器積累了豐富的遙感數據。在海量數據中,如何準確、快速地提取有用信息,是一個亟待解決的問題。聚類分析是數據挖掘的重要內容,其強調數據需按照相似性和差異性分組,從而使得同一組的數據非常相似[2]。常規分析系統是根據采集的細粒度遙感通信數據,分析遙感通信信息屬性[3]。該方法分析的數據源信息比較豐富,可以充分利用這些信息來挖掘具體的場景信息,但不能用于動態遙感場景,也就是說,缺乏數據源信息的場景。統計信息網格聚類分析系統具有較高的擴展性,但由于計算量大,降低了聚類分析的精度。針對這一問題,設計了一個基于遙感通信信息屬性的大型數據聚類分析系統。在遙感通信信息平臺數據的基礎上,結合聚類算法對聚類結果進行精度計算,并對其參考價值進行分析。
基于遙感通信信息屬性的大數據聚類分析系統以聚類目標函數為設計基礎,是一種混合屬性大數據集分析系統,且分析性能較強。特別是在海量數據分析方面,比傳統分析系統性能優越[4]。遙感通信信息屬性大數據聚類分析系統通過靈活部署的獨立設備,適用于獨立子系統應用程序[5]。在聚類目標函數中,大數據混合屬性分析系統的硬件部分如圖1所示。

圖1 硬件結構設計
如圖1 所示,聚類系統的硬件具有完整的開放平臺,能夠高效地處理原始數據,并將處理結果輸出給分析模塊,在一定程度上具有較強的系統處理能力,并能對數據矩陣和相似度矩陣進行分析[6]。統一的計算機端口用于硬件外部,以提高擴展能力,每組程序中均有兩個輸入接口,一個輸入接口的作用是輸入參數或者原始數據;另一個輸入接口的作用是承載輸出組輸入的數據結果[7]。雖然硬件部分使用了統一的接口,但在內部具有不一致的功能。
網絡爬蟲模塊可以控制網絡爬蟲程序,在該程序中獲取網絡流量記錄,并自動整理、記錄信息,通過對列出的URL 文檔進行預處理,同時設定URL 文檔網址,然后將該網址編輯到網絡爬蟲模塊中[8-9]。在選擇爬取方式時,需要多線程的爬取方式,一定程度上會比單線程爬取方式更便捷,且速度更快[10]。
URL 設置的資源定位器是網絡爬蟲模塊中統一的資源定位器,可以表示傳輸協議和服務模式[11]。在網絡爬蟲模塊中,緩存滿后,直接讀取URL 文件;當緩存隊列為空時,在緩存隊列中列出已讀URL 文件,完成網絡爬蟲模塊的所有流程。
數據處理模塊主要是對數據進行處理,數據的代表性、全面性、相關性以及獨立性在處理時都要考慮到,所以有必要對數據做一些基本的處理,此時數據處理模塊會發揮較大作用。該數據處理模塊處理的數據質量較高,可直接應用于分析。
1.2.1 清洗模塊
清洗程序可以在具有混合屬性的大數據集上去除噪音和不完全數據,對清洗過程的5 個部分進行詳細說明:
1)準備
對信息系統進行需求分析,通過對信息環境的分析,確定數據清除需求以及數據清除任務的信息環境特征;在清洗模塊任務定義中,明確數據清除任務的目標,確定合適的數據清除方法,完成清洗基本配置以及數據接口配置,實現資料整理工作,并歸檔[12-13]。
2)檢測
對數據質量問題如重復記錄、不完整記錄、邏輯錯誤、異常數據等進行了檢測,對檢測結果進行統計,得到綜合數據質量信息,并對相關信息進行整理、歸檔和存儲。
3)定位
定位的主要內容包括數據跟蹤與分析以及數據質量問題定位;根據測試結果對數據質量進行評價,分析問題數據和業務影響,分析數據質量問題產生的原因;確定數據質量問題的性質和位置,制定數據修改方案,并存檔相關信息[14]。
4)修正
在數據校正過程中,通過定位分析,解決了實例級數據質量問題,包括有問題的數據標記、無效數據刪除、重復記錄合并、缺失數據估計和填充等,并解決了數據譜系管理問題[15]。
5)驗證
驗證步驟主要是確定修改后的數據是否符合任務目標,如果結果與任務目標不符,則進一步進行分析并糾正,甚至返回“準備狀態”以調整相應的前期工作。
1.2.2 集成模塊
通過檢測,集成器能夠整合各種形式的數據,發現冗余數據。
資料整合就是把來自多個分散資料來源的資料,以邏輯或物理方式整合成統一的資料集合。而數據集成的核心任務就是集成相互關聯、分布異構的數據源,使得用戶能以透明的方式訪問它們[16]。這種系統被稱為數據集成系統,它為用戶提供了統一的數據源訪問接口,執行用戶對數據源的訪問請求。
1.2.3 轉換模塊
轉換模塊負責將不同單元的數據轉換成同一個單元,對不規則數據進行規范處理,同時還負責對不同的數據進行降維處理。
大數據集成分析模塊可以對混合屬性圖像中的大數據集進行多角度屬性分析。
混合屬性大數據分析模塊中包含了多個分析組件。斷鏈分析組件能夠及時發現失效鏈路,并向中心單元反饋5XX 系統的所有4XX 錯誤請求和內部操作錯誤。其中路由器能準確地定位異常鏈路,查找故障原因,及時確定IP 地址,與DNS 協同工作,實現網絡資源優化。
聚類數目k對聚類結果有很大的影響,可以客觀地確定平均輪廓系數,用平均輪廓系數來衡量聚類數量和聚類結果質量,當平均輪廓系數較大時,群集質量較好,群集數量k最合理。確定聚類個數k時,可以在2 到之間的整數中進行選取。遙感通信信息屬性大數據聚類算法的步驟為:
步驟1:計算不同聚類之間的樣本點輪廓系數。
依據聚類之間的平均距離,評估聚類結果。每一個類都以等高線圖來表示,等高線結合了類內部和類之間的差異。聚類的相對質量可以通過輪廓線得到直觀反映,基于樣本點的類不相似度和類間不相似度,可求出樣本點的輪廓系數,如式(1)所示。

其中,ai表示大數據類內不相似度;bt表示大數據類間不相似度。樣本點的輪廓系數介于-1 和1之間,在樣本點接近1 的時候,樣本點被合理地聚集在一起,在樣本點接近-1 的時候,樣本點應該聚集在另一類中。輪廓系數是評價聚類效果的指標,可用來選擇合適的聚類數。
步驟2:通過輪廓系數計算每個數據的熵值。
按熵值大小排序,選擇前k個數據作為聚類中心,并進行聚類分析。
步驟3:對來自非聚類中心的數據進行分類,并與各聚類中心的相似度進行比較,選取相似度最高的聚類結果作為最終的聚類結果。
通過直接利用樣本的梯度值更新聚類中心點而不記錄和更新其數目,將k-means 算法與隨機梯度下降算法相結合,把損失函數定義為樣本到最近中心點距離的平方,如式(2)所示:

其中,x表示從遙感通信信息屬性大數據中隨機挑選的樣本數據;w*表示距離該樣本數據最近的聚類中心。將損失函數降到最小化,并趨近于0,隨機梯度下降公式如下所示:

其中,lr表示學習率,通過該公式對損失函數參數進行更新,直到收斂。當損失函數變化值小于設定閾值時,則說明聚類中心變化值較小,聚類類型判斷為收斂類型。
該數據分析程序主要是分析掃描日志中混合屬性的大數據集,收集掃描入口記錄的統計數據,判斷是否存在完全匹配的域名記錄,并將不同的數據列在不同的域名庫中,給出了分析結果。
該系統中的網絡爬行器、數據處理程序和數據分析程序是一個協同工作關系,3個程序可同時運行,并向硬件發出指令,各過程沒有任何關系,即使一個程序出了問題,其他的程序也能正常工作。
在標準彩色圖像中隨機選取某一藍色影像區域,依據遙感通信信息大數據屬性,可識別其為大海,以此采集到的數據如表1 所示。

表1 實驗數據采集表
根據上述實驗數據分析結果,分別使用基于采集到遙感通信細粒度數據聚類分析系統、統計信息網格聚類分析系統和遙感通信信息屬性大數據聚類分析系統對大數據聚類分析結果精準度進行對比分析,結果如圖2 所示。

圖2 不同系統遙感通信信息數據聚類結果
由圖2 可知,使用基于采集到遙感通信細粒度數據聚類分析系統的數據大都聚類在通信終端地址為0025***D5AE 和5C45***FCB7 處;使用統計信息網格聚類分析系統的數據大都聚類在通信終端地址為5C45***ECB7 處;使用遙感通信信息屬性大數據聚類分析系統與實際聚類結果一致,都聚類在通信終端地址為5C45***FCB7 處。由此可知,使用該系統的聚類結果較為精準。
設計的遙感通信信息屬性大數據聚類分析系統不僅能夠從數據來源角度對數據展開分析,還能對數據進行清洗和處理,設計的分析系統硬件具有多個模塊分工協作的功能,能夠確保系統正常運行。相比于傳統系統,該系統能夠精準分析大數據聚類效果。
設計的分析系統實現了基本功能,但仍有一些地方需要完善,選擇實驗數據時應結合實際應用,建立數據倉庫挖掘相關聚類規則。