陳國靖



摘要:傳統通信網絡大數據相關性分析算法在進行相關性分析的時候存在較大的弊端,主要是內存占比嚴重影響了相關性分析的速度。本文展開了對通信網絡大數據相關性分析算法的研究,希望能夠進一步解決其中存在的問題。
關鍵詞:通信網絡;大數據;相關性分析算法
中圖分類號:TP393? ? ? ?文獻標識碼:A
文章編號:1009-3044(2020)36-0057-03
通信網絡大數據相關性分析是指在進行大數據相關性分析中不存在控制變量,對無控制變量相關性分析的依據主要是樣本類型。本文的研究主要是對隱藏在通信網絡大數據之間的規律。傳統通信網絡大數據相關性分析已經無法適應當前網絡大數據相關性分析的要求,無論是在存儲能力還是計算能力上都已經嚴重阻礙了大數據相關性分析的發展,本文的研究也是為了解決內存占比大以及計算效率較低的問題。
1 大數據典型特征與維度
人類進入大數據時代以后,大數據分析就面臨著更高的要求,由于大數據的數據特征,使得大數據分析需要在幾小時內完成數以百萬次計算的動態數據集。大數據最基本的特征就是海量的數據,其次是大數據結構較為復雜,數據類型復雜多樣,沒有辦法進行批量處理,大數據并不是分布在某一個集中地地方,而是非常分散的,所以處理的時候不能夠集中進行處理。新時期大數據典型特征主要有以下幾種。
Volume:大數據產生的速度非常快,每分鐘大數據的數量都會翻幾倍,并且這種增長速度還是持續增長。
Variety:數據格式多種多樣,沒有辦法進行直接有效地處理
Velocity:數據在不斷增多的同時,數據之間的關系也在不斷變化,并且隨著數量增多關系會變得錯綜復雜。
Varacity:大數據能夠為決策者提供數據依據,幫助決策者確認決策的正確性。
Complexity:大數據的來源多種多樣,產生于多種終端,聚合十分復雜。
換一個角度來研究大數據的特征,從數據存儲、挖掘、分析等角度來看,大數據具有以下幾種特征:
Cardinality:對象集合化,數據集合對數據的記錄特征和記錄數量進行了定義;
Continuity:涵蓋了大數據表達特征以及大數據占據空間;
Complexity:大數據的負載型具有單個維度上的特征,第一是數據類型具有廣泛的變化范圍,第二是數據集的維度非常高,第三是在處理速度上具有較高的要求。
大數據分析的核心是數據大小和復雜度,這兩個方面的因素決定了方案的可行性,只有在分析方案中處理好數據大小和數據復雜度,才能夠獲取科學地分析數據,才能夠使得大數據分析結果產生較大的價值。例如傳統課堂向在線教育的模式轉變,使得全球各地的學生都能夠通過網絡進行學習,在互聯網虛擬化的平臺中產生了大量的互聯網數據,這些數據都是大數據的組成部分,并且數據每天都在成倍地增加,在線教育所產生的交互數據和形式每天都在不斷地更新。如今的在線教育具有非常鮮明的數據源特征。現在的在線教育所使用的教材都是電子化的教材,電子化形式的教材形成了大量的網絡數據,還有系統自身運行的各種數據信息,在線教育平臺服務器運行的各項數據信息,以及學生在設計平臺或者在線教育平臺中發表言論都是大數據組成的重要內容。在線教育只是眾多大數據產生源中的一種,面對多樣化的數據,為了更好地利用好各種大數據,加強對大數據之間的相關性分析,提高相關性分析算法的運算能力,更好地服務于社會。
2 通信網絡大數據相關性分析算法研究
2.1確定通信網絡大數據相關性分析算法參數
在利用通信網絡大數據相關性分析算法對關聯規則進行分析挖掘的時候,需要對其中的參數值進行確定,每一個算法都具有一個參數值,并且中間還存在一個決策變量,我們要對這個決策變量的數值進行確定。這些數量眾多的參數最終可以組成一個集合,這個集合我們稱之為有效解,每一個相關性參數都存在一個理想的數值,這個數值我們叫作滿意值,通過決策者對這些參數賦予滿意值然后進行比較選擇最終的參數。在比較的過程總存在一個期望值和一個實際值,而在對通信網絡大數據相關性分析算法有效解確定的時候,需要利用到期望值和實際值之間的偏差,通過這種偏差來求的有效解。在確定通信網絡大數據相關性分析算法的參數之前,首先要設計一個期望目標,這個期望目標是一個理想化的參數,其范圍在,$fi^{*} (i=1,2,3,\ldots k)。權重系數是每一個相關性參數都會具備的,并且存在一個范圍,$fi^{*} (i=1,2,3,\ldots k)$。因此,確定通信網絡大數據相關性分析算法首先需要對相關性參數的期望值進行確定,對每一個期望值賦予一個優先因子,有效解就可以表示為:
pearson()參數條件計算公式為:
上述公式中的x,y分別代表著通信網絡大數據相關性異常值和通信網絡大數據相關程度,可以很明顯看出,相關性異常值為零或者不存在異常值的時候,x,y呈負相關,但是相關性異常值的變化會導致計算公式的計算結果出現不同。
2.2網絡大數據相關性驅動映射
通過確定通信網絡大數據相關性分析算法參數值,可以在此基礎上對通信網絡大數據進行結構化向非結構化轉化,利用驅動映射生成相關性結構通信網絡數據,進而網絡大數據相關性驅動映射,網絡大數據相關性驅動映射的具體模式圖如圖1所示。
3 大數據相關規則挖掘
3.1準備工作
通過大數據相關性分析對商品之間的關聯度進行挖掘,找出不同商品之間的關系,通過關聯規則實現高效精準的數據挖掘。關聯規則最初就是為了探究購物者購物籃中的物件之間的關系,有的客戶購買了某件商品的同時大概率會購買另外一件商品,通過這種關聯規則挖掘能夠找出商品之間的關系,了解購物者的喜好,知道顧客習慣將哪些商品放到一起購買,通過這種關聯性分析將商場的貨物進行重新擺放,發現顧客購物籃中不同商品之間的關聯,分析顧客的購物習慣。通過挖掘這種關聯性,可以幫助商場更好地把握住客戶的購物心理。
在分析ab兩個商品的購買相關性的時候,從a→b代表著客戶購買了a商品之后購買商品b的概率,通過相關性分析算法對兩者之間的關聯度進行有效的分析計算。在對兩者之間的關聯規則進行挖掘的時候,首先要從很多的資料合集中找出我們需要的頻繁項目集,這個項目集通常是滿足最低支持度的。然后我們要通過這些頻繁項目集找出我們需要的關聯規則。置信度的計算公式如下。
Apriori算法是我們在關聯規則算法中使用最多的一種算法,該算法是在1993年的時候提出的,其核心思想是遞推算法,該遞推算法是在兩個階段頻繁集思想的基礎上產生的,該算法的主要思想是為了在龐大的數據中找出最大的一個頻繁項集,利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯規則。但是Apriori算存在兩個較大的缺點,首先就是該算法會產生大量的候選集,嚴重影響最大頻繁項集的產生;第二是該算法會重復掃描數據庫,導致無法有效提升效率。除此之外,通過該算法進行分析還要不斷地刪除一部分記錄,主要是隨著時間的推移,數據在不斷地增長,數據挖掘的難度會越來越大,只有刪除一部分記錄才能夠進一步進行分析計算,這也是關聯規則中需要不斷改進的重要問題。關聯規則的主要目的就是從大量的事務集中挖掘出滿足支持度和置信度最低比值要求的所有的強關聯規則。也就是說判定一個規則是不是強關聯規則的重要標準就是看這個規則的置信度和支持度,這兩個標準如果能夠滿足預算設定的閾值,那么這條規則就是強關聯規則。
3.2相關規則的基本概念
在對規則進行刻畫的時候,要注意規則前后的關聯度,例如刻畫a到b之間的相關性,就需要一個指標對這個相關度進行標示,這個指標代表著規則a到b兩者的關聯度,這個指標的取值區間都在區間(0,1)之間,并且指標接近于1的時候就會呈現出較強的相關度,相反則會呈現較弱。在公式中相關決策技術表中的信息值為N,這個數值表示在以往的數據中出現的次數,也就是在對某個規則的相關度進行計算的時候,只要設定好了K值,就能夠在相關決策技術表中查看到。
在這個計算公式中,在原有的置信度度的計算公式分母中添加了一個參數,這個參數我們稱之為k,當k值從0到100不斷變化的時候,置信度也會跟隨著不斷變化,對規則的關聯性進行挖掘也會發生變化,在不同的k值會將很多沒有用的較低支持度的規則進行過濾,留下來的都是具有加強支持度和高置信度的規則。在相關性算法公式中,通過合并置信度和支持度兩個指標然后對規則的關聯性進行刻畫,從而更好地分析關聯性的強弱。通過試驗證明的切實可行的做法,在實驗中通過證明k值最大的時候,能夠將支持度較低的一些規則進行過濾,然后直接選擇一些關聯度較高的規則作為相關推薦。
通過計算,當k=0的時候,相關度等于置信度,在k=10的時候,一些支持度較小的規則就被直接過濾掉了,隨著k值逐漸加大,過濾掉的規則就變得越來越多,當k=50的時候,支持度較低的規則就全被過濾掉了,存在的一些規則的關聯度都超過的0.5,說明其支持度非常高,兩者的關聯度也較高。可見k值在不斷增大的過程中不斷地過濾著較低支持率的規則,最終得到的都是一些具有較高支持度和置信度的規則。
在關聯規則中需要對支持度和置信度進行最低閉值的設置,通過設置這個閉值來確定相關度的下界,對于兩個指標的下界進行調整的方法通常都是采用調整參數k的方法,只需要對這一個參數值進行調整就能夠調整這個計算公式中的置信度以及支持度,低支持度的規則會在k值得不斷變化中逐漸被過濾掉。也就是說當#A很小的時候,k值越大,這個數值在分母中所起到的作用就越大,到了一定程度的時候甚至起到了決定性的作用。當k值足夠大的時候,較低支持度的規則具有較低的相關度,在相關度計算公式中可以通過調整k值的大小來對規則進行過濾,過濾掉一些支持度較低的規則,這是相關度規則挖掘算法中較為先進的一項技術,通過不斷地改進能夠實現過濾一些具有較大偶然性的低支持度以及一些高置信度的規則,但是關聯規則是不可能對這些規則進行主動篩選的,其篩選規則具有較大的偶然性。相關度的計算公式就是置信度調整以后的公式,將一個k值添加到置信度的分母上,通過調節k值大小來調節規則過濾情況,因此置信度的相關度總是很大于每一條規則的相關度。只有當一條規則的支持度和置信度都很大的時候,相關度才會變大,也就是要同時滿足高支持度和高置信度兩個必要的條件,當相關度存在下界,那么支持度和置信度都會存在下界。
3.3算法性能分析
本文的測試數據都是根據試驗記錄的真實數據,通過對cam算法的驗證,判斷大數據相關性分析中該算法對大數據相關性分析所產生的影響,為了方便理解,本文所用數據都是具有真實可信的數據。在本次的測試中,充分利用了cam的重要測試功能,對本文的相關性研究起到了重要的幫助作用。通過cam進行預算之后本文繪制了離散點圖,離散點圖是我們將抽象數據進行可視化的重要方法之一,將cam的運算結果進行可視化方便我們進行研究分析,在離散點途中橫坐標和縱坐標分別代表著數學測試成績和知識拓展測試成績,在cam的運算中我們得到了一個相關度為0.53162455的結果,這個結果就代表著兩個測試成績之間的相關度。從運算結果中可以看出,兩個測試成績之間存在著一種正相關的關系,一個變化會帶動另一個成正向變化。
啟動線性回退代碼如下:
線性回退在輸入數據對應的變量以及相關函數擬合運算基礎上得出的最佳擬合,能夠對回退函數進行預測,同時可以對數據特征進行有效識別。在對數據的相關特征進行分析的時候需要運用到線性回退的結果,通過分析數據的變化特征和變化趨勢實現數據目標變量的分析。在本文的研究中,利用計算機對數學成績進行預測的時候采用了線性回退的結果,對兩者的關系也實現相關性的分析。
4 結語
隨著科學技術的不斷進步,人們對于通信網絡大數據相關性分析算法的研究還在不斷地深入,相關性分析算法也在不斷地改善和推進,相關性分析的速度逐步提升,效率也得到了大幅度提升。
參考文獻:
[1] 安強強,李趙興,張峰,等.基于機器學習的通信網絡非結構化大數據分析算法[J].電子設計工程,2018,26(14):53-56.
[2] 李業偉.基于車聯網大數據的交通路況預測研究[J].信息通信技術,2017,11(6):74-78.
[3] 徐全盛,葛林強,鄒勤宜.基于大數據分析的無線通信技術研究[J].通信技術,2016,49(12):1635-1641.
[4] 亢華愛.面向機器學習的通信網絡大數據相關性分析算法研究[J].激光雜志,2016,37(8):145-148.
[5] 薛禹勝,賴業寧.大能源思維與大數據思維的融合(二)應用及探索[J].電力系統自動化,2016,40(8):1-13.
【通聯編輯:唐一東】