楊 軍
(重慶師范大學涉外商貿學院,重慶 401520)
互聯網的快速發展推動了物聯網的廣泛應用。物聯網是通過信息傳感設施將實物和互聯網聯系在一起的,起到對實物進行識別、定位以及監督的作用。物聯網的感知層作為數據接入的重要層級,由于數據量較大,在接入時容易出現標簽信息錯亂現象,而數據分流則是處理該問題的主要方法,并且其在情報搜索、故障檢測等領域均體現出重要價值。現階段的數據分流方法存在特征識別準確性低、分流效率差等缺陷。因此需要設計出最優的數據分流算法減少網絡數據接入的負擔。
相關研究人員做出如下解決方案:文獻[1]為解決快速增長的數據流量而導致網絡擁塞問題,提出基于自私性與中心性相結合的數據分流算法。將網絡數據直接傳送到種子節點,該節點根據移動發生的接觸,將數據傳送到其它節點,此時如果有節點在一定時間段內仍沒有接收到數據,則該節點可以直接在網絡中對此數據進行下載;再結合節點的自私性,挑選出盡可能包含更多數據的種子節點,通過這些種子節點協助數據分流過程。
文獻[2]在混合式網絡擁塞控制路由算法的基礎上實現數據分流。首先構建網絡拓撲關系模型,收集一定范圍內的數據流量;其次對節點的負載狀態進行評估,選取最優父節點,當出現網絡擁塞現象時,將該消息廣播給子節點或相鄰節點,并判斷告知節點的數據接收速度和傳輸速度;最后在混合式網絡擁塞緩解方法的基礎上,將節點的平均吞吐量進行比較,對當前數據傳輸通道進行子節點更換,實現數據的分流。
以上描述的兩種方法,在一定程度上達到了數據分流的目的,但是,二者并沒有對數據特征進行準確提取,導致網絡擁塞率較高、網絡平穩運行時間較短、最大上傳帶寬較低。因此,文本通過K均值聚類[3]的方式對物聯網數據接入的最優分流算法進行設計與仿真。采用K均值計算的方法對數據進行特征提取,在提取過程中不斷調節數據的聚類核心,以達到準確分流的目的。仿真表明,該方法與其它方法相比分流結果最優,可以有效緩解網絡擁塞問題,提高了最大上傳帶寬,延長了網絡平穩運行時間。
目前對“流”的定義為將具有同樣目的地址的全部分組稱為“流”。所以分流就是把存在相同目的的分組分成不同的流。
在現階段的網絡中,例如WEB界面和FTP文件等,被劃分成單個數據后再進行傳輸,而這些數據存在相同的地址。按照“流”的定義,此數據包均屬于相同的流。FTP文件的第一個數據包傳輸成功后,在一定時間內,相同流中的其它數據包傳輸成功的可能性較大。該現象被稱為流的局部性特征[4],原理圖如圖1所示。

圖1 流的局部性原理示意圖
將物聯網數據樣本集合描述為{xi,yi},i=1,2…,n,表示節點;xi∈Rd,yi∈{1.-1}作為數據接入分流的標志,則分流的線性判斷公式表示為
f(x)=w·x+b
(1)
式中,w表示數據大小;x表示節點通道,b表示最低嵌入維數。再將物聯網接入數據分流做歸一化處理[5],可以獲得下述表達式
w·x+b=±1
(2)
將分流問題轉化為具有約束特征的非線性問題進行描述
yi(w·xi)+b≥0
(3)
針對以上公式做計算,能夠獲取數據分流的對偶函數表達式為

(4)
式中,α表示節點j的約束條件。則式(4)的約束特性可以表示為

(5)
利用對偶函數將支持向量機引入到非線性的數據分流中。此時,必須利用核函數在高維空間里變成具有約束性質的二次函數,其過程描述為

(6)
因為本文的傳感器節點全部符合歐式空間的坐標關系,所以節點的分布情況滿足歐式空間中的幾何分布特征。假如傳感器呈矩形分布,面積表示為L1×L2,并且該區域中節點分布的密度表示為μ,對于任何傳感器來說,身份地址都沒有重復現象,節點在原始時間點的能量表示為E0。另外,R表示傳感器節點的最大半徑,假設節點i在半徑范圍內的節點是S1(R),則下一個節點半徑范圍中節點表示為S2(R),因此,針對節點i來說,具有下述關系

(7)

(8)

針對物聯網中任何一個節點i,它的影響范圍可能會出現和節點j的影響范圍發生互相影響的現象,因此互相影響的重疊部分系數ω可以表示為

(9)
式中,Li代表節點i的最大可能覆蓋區域。
假設節點i和j可以相互影響,則這兩個節點的射頻范圍互相關因子γ(i,j)必須符合下述條件

(10)
如果節點i的附近具有n個相互關聯的節點時,通過式(10)可知,節點i和這些關聯節點的射頻范圍互相關因子γ(i)符合如下要求

(11)
根據式(11)可以看出,γ(i)的取值越大,節點i對關聯節點的影響尺度就越高,如果節點i失效,則數據接入中斷,使網絡發生傳輸抖動情況。
因為傳感器節點利用信號的收發達到數據的匯集與路徑控制目的,所以i節點在B帶寬情況下,根據數據接入分流的約束條件,將數據接入到j節點時,此時分流過程中能量消耗模型的表達式為
Esend(i)=Bl+P0l3
(12)
Erev(j)=BP0l2
(13)
式中,P0為現階段節點發射功率。因為耗能情況和l存在正相關關系,并且l又為節點i、j在歐式空間中最小距離,所以對上述能量消耗模型進行優化,可以避免物聯網數據在接入分流時出現傳輸受阻的狀況。
完成能量消耗模型的優化后,在空間重構基礎上對物聯網做非線性映射處理[7],獲取數據時間序列在分流操作中的信息模型。根據指標數據映射獲取非線性數據的高維映射向量,建立數據聚類查找的目標函數,并對該函數進行求解計算獲取極值,同時得到物聯網數據的時延特征,實現數據特征提取。
假設{xn}表示單變量的物聯網數據時間序列,根據采樣結果可以得出,采樣數據的時間序列{xn}的長度是N。樣本數據在采樣時間范圍中稱為標量序列,如果X與Y表示數據分流系統中的聚類特點,利用空間重構實現數據的非線性處理,得到最優時延τ與最低嵌入維數b。假設ε為平均數據特點的尺度,xn為數據時間序列的信息模型,在2-λ<ε(λ>0)時,xn可以表示為

(14)
式中,t0表示數據采樣的原始時間點,Δt為采樣的間隔時間段,h[z(t0+Δt)]為任意數據樣本在序列中具有的相似性特征度,ωn表示相關性系數。利用指標數據映射方式取得非線性數據在分流時的模型{x(t0+iΔt)}。模型中,i=0,1,…,N-1,如果利用Xg表示高維映射向量,其表達式可以描述為
Xg=[si,…,sk]n=(xn,xn-1…xn-(b-1)τ)
(15)
式(15)中,si表示映射向量的分量,k為時間序列在分流過程中的相關系數。通過映射向量Xg建立目標查找函數,假設R表示物聯網數據特征矢量在分流過程中的關聯函數,xa為交叉分布模型[8],其可以描述為

(16)
式(16)中,a0為原始采樣幅值,xa-1表示物聯網數據方差與均值相等的標量序列,bi描述最優分裂屬性。在此基礎上利用C均值聚類方法對目標函數進行計算,假設μik表示聚類目標函數的最大值,其計算表達式為

(17)
根據目標函數的最大值,獲取數據時延特征?i,從而完成物聯網數據的特征提取,其表達式為

(18)
K均值聚類方法作為有效處理數據分流的方式,能夠準確的對物聯網環境下的數據進行分流。通過上述對數據特征的精準劃分,按照自身特性分成不同種類,實現海量數據的高效分流。
使用該方法實現數據分流,首先必須獲得數據的原始聚類中心,并在分流過程中更新該中心內容,以便適應物聯網環境下的數據高度動態變化特征。詳細分流步驟如下所示:
假設物聯網環境下數據特性組成的聚類中心用l進行表示,特征數量為p,在這些特征中挑選l個特點當做初始聚類核心,任何一個聚類核心均表示一類數據。經過計算可以獲得其它p-l個數據特點離原始聚類核心的目標距離,并且把這些數據特點分布到相鄰的聚類核心中,從而實現所有數據特點的匹配。
通過以下供述可以將數據特性區分為L個不同種類

(19)

按照上述方式,可以將物聯網數據特性區分成L個形式,Tj(j=1,2,…,l),聚類核心Dj可以表示數據特性組成的集合Tj,該集合可以利用T={Y}代表。假設,現有兩個數據特性Y與Z,因此它們之際存在的歐式距離表示為e(Y,Z)。
根據迭代處理,對物聯網數據接入進行準確分流,詳細分流步驟如下所示:
步驟一:假設物聯網下數據原始聚類中心表示為TDq={Dj},對數據做聚類處理,將其分成l個聚類中心,則計算過程必須符合下述要求
Tk{Y|e(Y,Dk)≤e(Y,Dj),j≠k}
(20)
步驟二:針對數據特征做迭代處理[10],從而得到新的特征集合TDq+1;
步驟三:如果q=0,則聚類中心是TD0;
步驟四:通過計算得到數據分流時的誤差方差,假設該方差足夠小,則分流停止,此時能夠得到最優的分流結果;反之,q+1->q,此時回到步驟二,重新進行數據分流。
通過上述描述的算法,利用物聯網數據的特性,構建集合,采用K均值聚類方法對其進行聚類處理,在持續的迭代過程中確保聚類中心不斷更換,可以較好的適應物聯網環境下數據動態特性,獲取最優的分流函數

(21)
為證明本文所提物聯網數據接入分流算法的可行性進行一次仿真。由于傳感器的路徑屬于無線信道路徑,并且必須利用簇頭節點才可以實現數據接入,在簇頭節點不能實現數據的直接傳輸時,還需利用其它節點才能完成數據接入。圖2為物聯網數據傳輸平臺。

圖2 物聯網數據傳輸平臺
實驗在NS2仿真環境下,通過物聯網數據傳輸平臺,對本文分流算法與文獻[1]算法和文獻[2]算法分別進行對比實驗。仿真參數如表1所示。

表1 實驗參數設置表
為了驗證本文算法的有效性,對本文算法、文獻[1]算法和文獻[2]算法出現的網絡擁塞率進行對比分析,對比結果如圖3所示。

圖3 不同算法的網絡擁塞率對比圖
通過對比圖能夠看出,隨著實驗時間的不斷流逝,三種算法都會出現一定波動,本文算法的網絡擁塞率一直處于較低水平,并且網絡擁塞率自始至終低于文獻算法。這是因為所提算法的分流機制將一定范圍內的接入數據劃分成最優的結果后,再進行數據傳輸,一定程度上減少了擁塞現象。
下圖描述的是本文算法、文獻[1]算法和文獻[2]算法的網絡平穩運行時間的對比結果。

圖4 不同算法的網絡平穩運行時間對比圖
通過圖4能夠看出,本文算法的網絡平穩運行時間比文獻[1]算法和文獻[2]算法的網絡平穩運行時間長。是因為本文算法對能量消耗模型進行了優化,可以避免物聯網數據在接入分流時出現傳輸受阻的狀況,從而延長網絡平穩運行時間。
為了進一步驗證本文算法的有效性,對本文算法、文獻[1]算法和文獻[2]算法的最大上傳帶寬進行對比分析,對比結果如圖5所示。
根據圖5顯示結果可以總結出,隨著數據傳輸量的不斷增加,本文算法的最大上傳帶寬比文獻[1]算法和文獻[2]算法的最大上傳帶寬多。
針對數據接入時會產生的死鏈現象,本文提出一種物聯網數據接入最優分流算法。通過對物聯網數據的特征提取與準確分類,在K均值聚類的基礎上,利用迭代算法對數據做聚類處理,計算數據分流的誤差方差,在得到最小方差時,獲取數據分流的最優結果。最后分別在網絡擁塞情況、平穩運行時間以及最大帶寬方面進行實驗對比分析,結果表明所提算法具有優越性,可以改善網絡死鏈現象,具有較好的實踐意義。