鞠瞻君,劉亞娟
(吉林大學,吉林 長春 130012)
伴隨移動網絡的快速發展,不僅極大便利了人們的日常生活,也對提高了各種網絡軟件運行的整體質量,通信數據呈現大幅增長的趨勢。但使用人數過多、數據信息量過于龐大,導致運行速度變得緩慢或者出現卡頓等現象。為了可以應對新興移動數據流量的大幅增長,各界已經對5G蜂窩網絡展開深入研究。
王士同等人[1]提出一種多核學習降維方法,將網絡中大量數據通過映射函數反射到高維空間中,在這個過程中可能會促使數據流結構出現異變的現象,為了能夠保持原數據的流形結構,從原數據中獲取重要數據信息與映射空間信息,把兩者相結合,使其在高維投影空間中能夠較好地保存原數據的流形結構,很大程度的降低因數據在映射空間中產生異變而對降維結果造成的影響。原信息與特征信息組成的方法描述為核之間的耦合,再進行優化處理獲得其核權重系數,可操作性較好,但該方法在時間消耗較長。
毛曉菊等人[2]提出一種集群分類映射關聯降維聚類方法。根據模糊變換、模糊關聯聚類、集群分類映射、閾值查找和應用等技術,建立低維特征的多標簽模糊關聯模型,再利用模糊相關評價將高維文本轉化為低維的模糊關聯向量,避免維數災難問題。所提算法不要求分類區域呈現凸性特征,適用性更加廣泛。該算法的計算復雜度較低和分類精度較好,但是沒有考慮到數據在特征空間中的局部性質,無法保持樣本在新特征空間中存在原有的分布結構。
基于此,提出5G蜂窩網絡高維數據異構特征映射降維方法,通過隨機矩陣,保留了原有的數據特征并排除了冗余度,再根據半監督正則化方法,進一步優化高維數據異構特征映射降維。
5G蜂窩網絡[3],可以很大程度的加強網絡數據管理能力、信息轉發能力以及整體網絡系統容量。同時能夠對高維數據異構進行管理,達到所預期的效果,促使5G蜂窩網絡被普遍使用,變得更加廣泛化、智能化。
未來移動網絡數據流量會大幅增加,用戶對網絡流量時速的要求也越來越高,4G網絡已經不能夠滿足人們的使用需求,提出了5G蜂窩網絡,它能夠實現對用戶行為和業務內容的智能感知和優化[4],能夠進一步掌握網絡頁面的分離情況,確保網絡軟件的升級、優化等性能,從而加快網絡軟件更新速度,能夠高效率的減少在運行過程中所消耗的大量成本,還具有開放性、可編程性、靈活性以及可擴展性,并有較好的發展前景和廣泛的可適用性。
為了能夠更好地使用緩存技術,需要對5G蜂窩網絡中的數據實施研究分析,促使其變得更加智能化。5G蜂窩網絡高維數據在異構數據[5]領域中具有通用性、易用性以及可擴展性。能夠靈活地根據數據流量的需求在熱點區域擴容數據面傳輸資源,依據服務數據對象技術,能夠在網絡中對異構數據源進行統一數據訪問模式,還便于進行二次開發以及新型數據源的引入。5G蜂窩網絡在數據處理能力方面更加高效,緩存技術能夠按照用戶需求和業務特征等因素進行處理,能夠很大程度的減少網絡傳輸時所帶來數據流量浪費。
統一描述訪問和數據轉換作為異構數據的主要功能。在這其中統一性的數據訪問,也包括了針對數據進行詳細描述模塊,該模塊是在對原始數據抽取后的基礎上,對其進行抽取描述和訪問區的構建[6]。數據轉換是根據其相對應的規則以及需要進行轉換的數據集合組來構建的,其中數據源的模塊分別是根據對該數據獲取的信息以及對數據分析后的結果構成。高維數據異構框架如圖1所示。

圖1 高維數據異構框架
現階段,無線智能設備的不斷普及,蜂窩網絡流量也隨之加快增長,為了滿足5G蜂窩網絡覆蓋需求,使大規模無線網絡普遍覆蓋,需要對多種高維數據結合、異構[7]進行特征映射降維處理,從而使網絡流量運行更加快速,容量更龐大。
當隨機矩陣的行數與列數的數值接近最大值時[8],行列的比值保持不變狀態。當矩陣維數接近于最大值能夠滿足隨機矩陣的收斂性,可以較精確的識別高維數據。M所描述的是隨機矩陣,其表達式為
M=EET/L
(1)
在式(1)中,E作為N×L的隨機矩陣,其均值為0,方差是1,使Q=N/L,當Q作為固定值時,L→∞,那么隨機矩陣M特征值的概率密度P(λ)其表達式為

(2)

(3)

(4)
式中,λmax與λmin分別作為隨機矩陣M的最大特征值和最小特征值。然后,根據相關矩陣C和隨機矩陣M的性質,將相關矩陣C分成符合隨機矩陣區域與差異區域,再對相關矩陣進行改進處理,排除相關矩陣內存在的噪聲。
在一定程度上來講,高維數據是一組由眾多數據集組成的復雜且數量多的數據集,該數據根據不同的數據形式,將會以不同的形式出現,這之間雖是同為高維數據但由于形式不同所呈現出的數據格式便有所不同,與此同時易購數據在運行傳輸的過程中,同樣也具有多種變形和特征。數據量也會隨之增加,從而出現新的數據結構格式。
特征選擇作為一項高維數據預處理方式,能夠很大程度的降低特征維數[9],在不改變原本特征空間性質的基礎上,在原空間內選取一部分重要的特征,重新構成一個新的空間。特征項選擇的優劣程度會嚴重影響數據聚類的準確率。
在進行高維數據異構特征選擇時,運用互信息作為度量標準。設置N×L數據矩陣D,F={f1,f2,…,ft}作為特征的整體集合,S={s1,s2,…,sk}作為類別集合,然后建立互信息矩陣M,其表達式為

(5)
在k的值比較小時,無法符合隨機矩陣的條件,故對互信息矩陣M實施增廣處理,復制m此,為M=[M,m(M)],為了能夠恢復初值的行列比,將m=(L-1)2/(N*k)-1,所得式為

(6)
為了保持數據的合理性,對互信息矩陣M按照式(7)和式(8)形式進行規范化、中心化以及標準化處理,獲得矩陣Md。再按照式(9)運算獲得t×t的特征相關性矩陣C,將其根據式(10)進行奇異值分解,其公式如下
ij=Iij-(maxIi-minIi)/2
(7)

(8)

(9)
C=UΛV
(10)

Cnew=UΛnewV
(11)
在高維數據異構中含有大量的特征,其中還存在許多相關度較低的冗余特征,相關度較高得特征之間還存在大量的噪聲數據,因此需選擇合適的特征,再對特征進行降維處理。
在高維數據進行異構時[10],要求數據具有完整性、一致性、準確性以及及時性。運用半監督正則化方法,對高維數據異構特征映射降維。為了防止函數目標的過度擬合,采用正則化回歸模型,其表達式為

(12)



(13)

(14)

故,在式(12)還能夠表式為

(15)
式中,γK描述的是目標空間函數的系數,默認數值為0.005/l,γI描述的是在幾何函數中的系數,默認數值為0.05N2/l。
最小化處理的顯示映射[12]表達式即

(16)

對式(15)差采用矩陣計算,獲得目標函數,其表達式為

(17)

通過半監督正則化方法處理矢量特征,獲得顯示映射和數據最低維度。
在進行仿真時,本文運用Windows7操作系統對所提算法降維效果進行檢測,語言編制系統為Mstlab7,內存為8GB,根據Cloudsim平臺構建5G蜂窩網絡環境下高維數據異構特征映射降維仿真平臺。采樣大型數據庫,首先對高維數據做PCA降維處理,并保存其97%的主要內容。選擇具有高維數據和異構數據的數據集合,之中有39個異常數據記錄,持續數值為5*10條TCP,在每條記錄中都包含12個高維數值屬性。其中設定的具體參數如表1所示。

表1 實驗設置參數
充分結合分類器,則5G蜂窩網絡高維數據異構特征映射降維框圖如圖2所示。

圖2 異構特征映射降維框圖
分別觀察文獻[1]算法、文獻[2]算法以及本文算法的識別率,從而進行對比分析。目標維數d按順序取值為1~30維,鄰域KD的取值為7。在3種算法不同維數下的識別率如表2所示。

表2 平均維數識別率
從表2的對比中可以看出,本文算法在對高維數據異構特征映射降維時,識別率最高,能夠處理大量樣本,平均識別率比文獻[1]和文獻[2]高出1.54%和0.56%。本文算法能夠在低維空間下更清晰的顯示映射,具有較高識別率。
為了進一步驗證不同方法降維的效果,進行對比實驗,實驗結果如圖3所示。

圖3 降維效果的對比圖
如圖所示,文獻[1]方法的降維效果較為模糊,只能識別出幾個特征點,文獻[2]方法的降維效果較為清晰,能夠識別出具體區域,而所提方法降維效果最為清晰,能夠識別出具體的農田、村落,識別效果較為理想。
在此基礎上,對三種方法的降維過程在網絡運行時所消耗的時間,對比結果如4所示。

圖4 運行消耗時間
從圖中能夠看出,樣本數量在不斷增多時,本文算法運行時間一直保持平穩的狀態,耗時較短,時間復雜度與其它2種算法相比較較小,具有顯著的優越性和準確性。
在高維數據中含有大量顯著特征的數據集,這些數據集大幅降低了蜂窩網絡的性能。因此,降維對于5G蜂窩網絡就顯得尤為重要。
1)所提算法對高維數據異構特征映射降維時,構建隨機矩陣進行特征選擇,運用半監督正則化方法處理矢量特征,獲得顯式映射進一步進行降維處理,縮短了運行時間,提供了降維效率。
2)在平均識別率方面,所提算法比文獻[1]和文獻[2]高出1.54%和0.56%;在實驗個數為600個時,所提算法用時比文獻[1]方法、文獻[2]方法少60s和40s,具有明顯優勢。
3)由于時間有限,此次實驗在時間消耗方面還有提升的空間,這也是我未來的研究方向。