陳坤定,林木輝
(1.閩西職業技術學院信息工程學院,福建 龍巖 364000;2.福建師范大學教育學院,福建 福州 350007)
多源異質傳感器數據[1]是一種通過傳感器采集的不同來源、不同介質的數據。因數據的來源廣、數量龐大,在對數據進行分析時,采集難度較大[2]。而數據匯聚可將多源異質數據進行統一收集和管理,提高數據的傳輸效率。但數據在匯聚過程中易受不同類型節點的干擾,導致數據在傳輸過程中的保密性較差、匯聚精度低、能耗大、增大了數據匯聚的難度。為此,研究多源異質傳感器數據動態匯聚算法具有重要意義。
孫澤宇等[3]首先采用數據匯聚增益算法得到數據的極大值與極小值,進而獲得兩者之間的比例關系;然后通過數據壓縮技術處理相關比例得到所有數據的能量消耗;最后將能量消耗輸入到能量轉換模型中,完成數據的動態匯聚。但是在匯聚數據過程中,受算法自身計算量的影響,導致其通信開銷大。郭慶等[4]首先利用半同步式分級架構采集數據信息,然后將分布式處理技術和屬性劃分技術融入到數據中,得到數據的實時傳輸狀態,最后在抽象驅動的基礎上對數據傳輸狀態集中管理,完成動態匯聚。但是該算法沒有對采集到的數據做降維處理,導致算法匯聚的數據正確率較低。Jin 等[5]首先將時間序列數據劃分成不同場景,并使用集成聚類方法對劃分的場景進行聚類。然后采用Davies-Bouldin 指數選擇最佳簇數。最后,基于馬爾可夫鏈,構建各種組合典型的狀態轉移概率矩陣,生成聚合狀態序列,完成數據的動態匯聚。但是該算法在數據匯聚過程中容易泄露隱私。
為了更好地傳輸多源異質數據,保證無線傳感網絡通信質量。此次提出能耗均衡約束下的多源異質傳感器數據動態匯聚算法。在構建能耗均衡約束模型的基礎上,利用監督判別投影算法對數據進行預處理。通過檢測節點距離與構建匯聚鏈路,完成多源異質傳感器數據的動態匯聚。
根據邊賦權圖構建能耗均衡約束模型,采用監督判別投影算法構建局部分散函數,利用線性約束和正交分解輸出高維度數據在低維度空間上的投影,實現多源異質數據的降維。
構建能耗均衡約束模型,可以保證多源異質數據節點在匯聚過程中所消耗的能量趨于平均值,具體步驟如下:
①多源異質傳感器中主要包含多源異質數據節點、節點之間的相連鏈路,可以采用邊賦權圖[6-7]表示多源異質傳感器數據的數學模型,如式(1)所示:
式中:U表示傳感器中的所有多源異質數據節點集合;H表示邊賦權圖;D表示節點之間的鏈路;n表示多源異質數據節點的個數;D1表示路徑擇優時的數據節點集合;D2表示數據節點下一步的可選擇項。
②傳感器中的多源異質數據節點之間是否可以完全用于數據間的通信,如式(2)所示:
式中:i、j均表示多源異質數據節點;?表示完全連接;≠表示不完全連接。
③當多源異質傳感器數據節點之間完全用于通信時,能量消耗主要由多源異質數據的傳輸與接收引起。數據傳輸和接收的能耗均衡約束模型如式(3)所示:
式中:e1、e2分別表示多源異質數據的傳輸與接收所耗能量;l表示一般參數;c表示多源異質數據之間的距離;αfs、αmp均表示通信能量參數;c'表示距離閾值。
④在能耗均衡約束模型中設立一個距離閾值[8],如式(4)所示:
當多源異質數據節點之間的距離小于式(4)得到的閾值時,模型使用空閑空間完成數據節點的傳播;當多源異質數據節點之間的距離大于等于式(4)得到的閾值時,模型使用多路徑衰減信道實現數據之間的傳播,完成能耗均衡約束。
在能耗均衡約束模型中采用監督判別投影算法[9]對多源異質傳感器數據實行降維處理,可以有效地降低數據的冗余度,為數據的匯聚打下基礎,具體步驟如下:
步驟1 在多源異質數據中構建局部近鄰圖,利用監督判別投影算法在局部近鄰圖中構建局部分散函數,如式(5)所示:
式中:K表示引入的拉普拉斯函數;R表示局部分散函數;z表示函數中的近鄰點;C表示局部模型;I表示近鄰函數。
步驟2 根據局部分散函數推算出全局散化函數,如式(6)所示:
步驟3 在多源異質傳感器數據中引入變換函數[10],變換函數的函數模型用如下公式表示。
式中:E表示引入的變換函數。
步驟4 將線性約束[11]投入到變換函數的函數模型中,然后通過正交基向量獲取多源異質傳感器數據的最小向量值,并利用正交分解[12]獲得線性約束的解,輸出高維度數據在低維度空間上的投影,完成多源異質傳感器數據的降維。如式(8)所示:
式中:β表示線性約束條件;min(i,j)表示多源異質數據的最小值;Y表示廣義特征方程式。
通過上述內容,在構建能耗均衡約束模型的基礎上,建立局部分散函數,采用線性約束和正交分解方法獲取數據在低維度空間上的投影,得到降維后的數據,為多源異質數據的動態匯聚奠定基礎。
基于上述獲取降維后的多源異質傳感器數據,采用基于模糊分簇閾值篩選機制對數據做匯聚處理,具體步驟如下:
步驟1 傳感器中所有多源異質數據的數量是固定的,并且隨機分布在矩形區域[13]中,所對應的模糊數據集最佳中心節點的數量可用下式表示:
式中:χ表示最佳中心數據節點;P表示節點傳輸數據的功率;N表示傳感器中多源異質數據的總數量;O表示矩形區域的邊長;s表示數據節點之間的通信半徑。
步驟2 隨機從多源異質傳感器數據集中抽取i個節點作為初始化的中心點集合,如式(10)所示:
式中:T表示初始化中心點集合;g表示集合中的點。
步驟3 從模糊數據集中任意選取一個不同于初始化中心點的節點,設其為y,然后計算出節點y與中心點集合中其余節點的相似度[14],如式(11)所示:
式中:x表示節點i、j之間的物理距離;u表示相似度。
步驟4 根據相似度更新中心點集合中所有節點坐標,然后計算y與模糊數據集中所有節點的相似度,若相似度處于區間[0,1]中,則將其劃分到中心點集合中,進而得到簇區域。流程如圖1所示。

圖1 簇區域獲取流程
簇區域更新過程如式(12)所示:
步驟5 在得到的簇區域中選取出承擔區域內數據匯聚任務的節點a,其余節點則負責數據信息的采集,并通過節點a匯聚上傳。假設簇區域中節點的數量為B,計算出該區域的簇頭閾值,如式(13)所示:
式中:Q表示簇頭閾值;δ表示融合系數;ε表示修正系數。
步驟6 根據式(13)得到簇頭閾值后,多源異質傳感器數據節點通過節點a將閾值上傳,根據能耗均衡約束模型可知,節點a與其余節點之間的距離處于最佳通信半徑[15]中時,節點a會直接將簇區域內的所有節點采集的數據匯聚到傳感器中。
步驟7 當節點a與其余節點之間的距離不處于最佳通信半徑中時,計算其余節點與節點a之間的距離,反復執行步驟6 可以建立匯聚鏈路[16],完成多源異質傳感器數據的動態匯聚。流程如圖2所示。

圖2 數據匯聚流程
根據式(9)得到最佳中心數據節點的數量,計算節點與中心點集合中其余節點的相似度,獲取所有節點坐標,將相似度處于[0,1]區間中的節點劃分到中心點集合中,計算該區域的簇頭閾值,將簇區域內數據匯聚到傳感器中,實現能耗均衡約束下的多源異質傳感器數據動態匯聚。
為了驗證能耗均衡約束下的多源異質傳感器數據動態匯聚算法的整體有效性,以隱私保護效果、通信開銷和匯聚數據正確率為評價指標,將自適應匯聚路由判定算法(文獻[3]算法)、網絡流量數據實時匯聚算法(文獻[4]算法)和基于集合聚類與ECMC 的數據匯聚方法(文獻[5]算法)作為對比算法,進行仿真。
在無線傳感網絡中完成此次無線傳感網絡的分簇及匯聚情況,如圖3 所示。

圖3 分簇網及匯聚情況
由圖3 可知,無線傳感網絡為250 m×250 m 的平面區域,內部隨機分布5 萬個節點。中繼節點分布密度<0.005 個/m,節點信號接收精度低于1 dB。
根據上述環境和參數設置進行仿真,具體仿真結果如下:
3.2.1 隱私保護效果
數據在匯聚過程中需具備一定的保密性,采用所提算法、自適應匯聚路由判定算法、網絡流量數據實時匯聚算法和基于集合聚類與ECMC 的數據匯聚方法匯聚10 組多源異質傳感器數據,10 組多源異質傳感器數據隊列轉換時間和服務時間分別為1個和2 個時隙,每組簇內數據包發送量為20 個,仿真不同算法在匯聚過程中數據節點的隱私泄露率。隱私泄露率越高,表明數據在匯聚過程中的隱私保護效果越差;隱私泄露率越低,表明數據在匯聚過程中的隱私保護效果越強。其計算如式(14)所示:
式中:k表示節點之間的鏈接;V表示多源異質數據的隱私泄露率;r表示節點被破解的概率。
不同算法的隱私保護效果如圖4 所示。

圖4 不同算法的隱私泄露率
分析圖4 中的數據可知,針對多源異質傳感器數據的動態匯聚,自適應匯聚路由判定算法、網絡流量數據實時匯聚算法和基于集合聚類與ECMC 的數據匯聚方法的隱私泄露率分別在31%、38%和27%附近波動,而所提算法的隱私泄露率在25%附近波動,通過對比發現,在不同組中所提算法的隱私泄露率均小于對比算法的隱私泄露率,表明針對多源異質傳感器數據的動態匯聚,所提算法的隱私保護效果好于對比算法。因為所提算法構建了能耗均衡約束模型,使用多路徑衰減信道實現數據之間的傳播,有效提高所提算法的隱私保護效果。
3.2.2 通信開銷
為了仿真三種算法的多源異質傳感器數據匯聚性能,將通信開銷作為仿真指標,進行仿真分析。通信開銷是指各個算法在多源異質傳感器數據的動態匯聚過程中所消耗的能量。通信開銷數值越大,表明算法的性能越差;通信開銷數值越小,表明算法的性能越好。通信開銷的計算公式如下:
本文采用802.15.4 標準對多源異質數據進行封裝,該標準數據包有效載荷為100 byte,允許數據總長度最大為128 byte。仿真5 萬個節點在所提算法、自適應匯聚路由判定算法、網絡流量數據實時匯聚算法和基于集合聚類與ECMC 的數據匯聚方法中的通信開銷,結果如圖5 所示。

圖5 不同算法的通信開銷
分析圖5 可知,隨著節點數量的增多,三種算法的通信開銷也有所增加。自適應匯聚路由判定算法、網絡流量數據實時匯聚算法和基于集合聚類與ECMC 的數據匯聚方法的通信開銷范圍分別為16 MB~57 MB、18 MB~66 MB 和19 MB~61 MB,而所提算法的通信開銷在9 MB~46 MB 之間,低于對比算法。因為所提算法采用監督判別投影算法對多源異質傳感器數據實行降維處理,降低了數據的冗余度,減少了通信開銷,提高了數據匯聚性能。
3.2.3 匯聚數據正確率
匯聚數據正確率是指各個算法對多源異質傳感器數據動態匯聚的結果中,最終匯聚正確數據占原始數據的比例。匯聚數據正確率越高,表明算法的匯聚精度越高;匯聚數據正確率越低,表明算法的匯聚精度越低,結果如圖6 所示。

圖6 不同算法的匯聚數據正確率
由圖6 可知,在所有的匯聚結果中,所提算法的匯聚數據正確率始終在90%以上,均高于自適應匯聚路由判定算法、網絡流量數據實時匯聚算法和基于集合聚類與ECMC 的數據匯聚方法,表明所提算法的匯聚精度高。因為所提算法通過模糊分簇閾值篩選機制,獲取匯聚區域的簇頭閾值,使節點處于最佳通信半徑中,有效提高了多源異質傳感器數據匯聚精度。
此次提出能耗均衡約束下的多源異質傳感器數據動態匯聚算法。該算法首先構建能耗均衡約束模型,其次采用監督判別投影算法對多源異質數據進行降維處理,最后采用模糊分簇閾值篩選算法對數據實行匯聚處理,完成多源異質傳感器數據的動態匯聚。仿真結果表明,所提算法的隱私泄露率在25%左右,通信開銷始終低于46 MB,匯聚數據正確率在90%以上,該算法在提高多源異質傳感器數據隱私保護效果與數據正確率的同時,一定程度上也降低了算法的通信開銷,為數據匯聚技術研究提供了參考。