李雙琴 謝銳 曹文琛 鄒妍 劉鳳嶼



摘? 要: 現有大數據流整合系統采用統一隨機采樣策略,當整合環境存在干擾時會出現嚴重的數據丟失現象,為解決上述問題,引入多維分層采樣策略,分別從硬件和軟件兩個方面實現對時間維度型大數據流整合系統的優化設計。在硬件方面主要改裝微處理器、存儲器以及數據分類器等元件,提高硬件系統的運行穩定性。在此基礎上,搭建多時間維度數據分層模型,并通過大數據流業務系統數據實現數據探查,并以多維分層的聚類算法為底層邏輯,檢測數據質量。最終將質量檢測合格的數據流整合在一起,從而實現系統的數據流整合功能。通過系統測試得出如下結論:在復雜環境下,基于多維分層采樣的時間維度型大數據流整合系統的丟失數據量為1.25 MB,與傳統整合系統相比減少了15 MB。
關鍵詞: 數據流整合; 多維分層采樣; 數據采集; 數據質量檢測; 模型搭建; 系統設計
中圖分類號: TN02?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)05?0133?04
Design of time dimension big data flow integration system
based on multi?dimensional hierarchical sampling
LI Shuangqin1, 2, XIE Rui2, CAO Wenchen2, ZOU Yan2, LIU Fengyu3
(1. China University of Petroleum, Beijing 102249, China;
2. Technical Centre of Southwest Pipeline Branch, PetroChina Company Limited, Chengdu 610037, China;
3. Beijing Raysdata Co., Ltd., Beijing 100102, China)
Abstract: The unified random sampling strategy is adopted in the existing big data flow integration system, which will cause serious data loss when interference occurs to the integration environment. Therefore, a multi?dimensional hierarchical sampling strategy is introduced to achieve the optimal design of the time dimension big data flow integration system in two aspects of hardware and software. In terms of hardware, components such as the microprocessor, the memory and the data classifier are modified to improve the running stability of the hardware system. On this basis, the data hierarchical model with multiple time dimensions is built, the data exploration is realized by business system data of big data flow, and the multi?dimensional hierarchical clustering algorithm is used as the underlying logic to detect data quality. Finally, the data flow with qualified quality is integrated together to realize the function of system data flow integration. It is concluded from the system test that, in complex environment, the data loss of the time dimension big data flow integration system based on multi?dimensional hierarchical sampling is 1.25 MB, which is 15 MB less than that of the traditional integration system.
Keywords: data flow integration; multi?dimensional hierarchical sampling; data acquisition; data quality detection; modeling; system design
0? 引? 言
大數據是現階段互聯網網絡中的重要數據形式之一,主要指的是需要新處理模式才能具有更強決策力、洞察力和流程優化能力的海量、高增長率以及多樣化的信息資產。通過網絡中大數據信息的應用提升了互聯網的運行效率,從而優化信息調用的效率。網絡大數據主要是由多個數據流組成的,數據流的定義為只能以事先規定好的順序被讀取的數據序列,按照數據流的傳輸類型可以將其分為輸入流、輸出流、緩沖區、時間維度型等多個類型[1]。其中,時間維度型的數據流是以時間作為描述、表達變量的度量尺度,可以將互聯網中的數據流用時間來表示,同時,也可以通過時間順序排列對應的數據流。為了實現對大數據的有效管理和高效應用,需要以不同的分類條件對網絡中的大數據流進行整合處理。數據整合主要是將不同數據源或數據類型的數據流收集、整理、清洗、轉換后加載到一個新的數據源中,為網絡用戶提供統一數據視圖的數據集成方式。數據整合具有擴展性強、管控能力強的特點,通過相關整合工具的處理,可以將兩個甚至更多的應用數據流合并在一起,創建出具有更多功能和數據量的結果[2]。為了保證數據整合操作的實現功能,設計對應的時間維度型大數據流整合系統。
針對時間維度型大數據流整合系統的設計與研究,國內外具有不同的見解,也產生了不同的研究成果。然而通過對應用反饋的分析發現傳統的大數據流整合系統在性能和功能方面均存在一定的問題,主要是在復雜信號環境下數據的整合結果容錯率會大大降低,得出的整合結果會丟失一部分數據。為了解決傳統大數據流整合系統中存在的問題,在現有系統的基礎上引入多維分層采樣技術[3]。多維分層采樣技術是將不同類型的數據流進行分層處理,為保證分層的完整性,選擇多維分層方式,使用這種采樣技術可以保證大數據流采集結果的完整性和準確性。通過多維分層采樣技術的引用,提高時間維度型大數據流整合系統數據整合結果的完整性,同時,提升該系統的抗干擾性,從而解決傳統數據整合系統中存在的問題,實現此次系統設計的目的。
1? 時間維度型大數據流整合硬件系統設計
利用多維分層采樣技術,分別從硬件和軟件兩個角度實現時間維度型大數據流整合系統的優化設計。由于傳統的大數據流整合硬件系統中使用的硬件設備是引發系統不穩定的因素之一,因此,首先需要改裝使用的硬件設備,硬件系統的改裝結構如圖1所示。
改裝大數據流整合硬件系統中的微處理器、存儲器以及數據分類器等元件,實現硬件系統的優化設計。
1.1? 微處理器
微處理器是數據流整合系統中軟件功能實現的主要環境,可以通過微處理器的邏輯運算實現數據的處理與管理功能[4]。微處理器的硬件結構為一片或多片大規模集成電路組成的中央處理器,在整合系統工作的過程中可以完成數據采集、處理和執行命令等指令,微處理器的處理結果可以與外界存儲器以及邏輯部件進行數據交換與傳輸,是系統運行的主要運算控制部分。
1.2? 存儲器
存儲器是大數據流整合硬件系統中最為重要的硬件設備,主要用來存儲初始數據流信息、邏輯運算產生的數據以及數據流的整合結果信息。傳統的時間維度型大數據流整合系統選用的存儲器為服務器內置的存儲器,分為ROM和RAM,這種內置存儲器受到空間的限制無法存儲大數據量的信息,因此當傳統存儲器出現溢出效應時,會自動刪除歷史數據信息,或者通過人為接入外部存儲器[5]。由于系統的整合功能處于實時運行的狀態,因此在外部存儲器接入的過程中就會出現數據丟失的情況,為了解決上述問題改裝內置存儲器。存儲器的擴充分為兩個方面:一個為存儲空間的擴大;另一個為存儲程序的備份。在傳統內嵌存儲器的基礎上連接一個SD閃存卡和一個微硬盤,選擇的兩個存儲器實體占地空間小,易于安裝在內置存儲器上。兩個設備的存儲空間分別為2 GB和20 TB,其中,微硬盤可以實現硬件存儲空間的擴大,而SD閃存卡具有掉電后數據不丟失的特點,因此可以作為備份存儲器。
1.3? 數據分類器
由于優化設計的大數據流整合系統引入了多維分層采樣技術,需要在硬件系統中為其配置相應的實現環境,即為數據分類器[6]。按照多維分層采樣技術的應用要求,改裝傳統的數據分類器,使用時間維度作為數據分類的標準。
2? 時間維度型大數據流整合軟件系統設計
在硬件系統設計并安裝完成的情況下,實現時間維度型大數據流整合軟件系統的設計。軟件系統的設計主要分為三個方面,分別為系統的UI界面設計、數據庫設計以及功能模塊的設計。其中,UI界面的設計目的是在滿足操作邏輯和界面美觀度的同時,實現人機交互功能,用戶使用已注冊的賬號和密碼登錄系統中,通過發送相關申請的方式實現對時間維度型大數據流的操作。
2.1? 創建系統數據庫
系統數據庫的創建環境為SQL,在該環境下創建四個數據包分別命名為backup,initial,logic和integration,分別用來存儲備份數據、初始數據、邏輯數據、整合數據結果[7]。其中,backup數據包的更新速度需要人為設置,一般情況下設置為5 min,而另外的三個數據包中的數據按照系統實際的運行情況實時傳輸與存儲。最終將系統數據庫以圖2中顯示的方式存儲到硬件系統的存儲器中。
2.2? 數據流整合功能設計
在系統數據庫的支持下,分別通過時間維度數據分層、多維分層數據采樣、數據流質量檢測與處理以及數據流的聚類整合四個步驟,實現時間維度型大數據流的整合功能。
2.2.1? 搭建多時間維度數據分層模型
將多時間維度數據分層模型搭建在數據分類器中,從軟件的角度執行對初始數據流的分類處理。搭建的數據分層模型如圖3所示。
將初始數據從圖3中的數據層輸入到層次模型當中,以時間維度為分類原則,通過模型層次的逐層篩選與分類處理,從而得出數據流的層次劃分結果[8]。總的來講,可以將整個劃分過程分為類判別和分類處理兩個階段,通過多時間維度數據分層模型的處理,實現初始數據流的轉換,得出用時間維度來表示的數據流。
2.2.2? 采集與探查數據流樣本
分別從一維、二維和三維三個方面實現對初始數據流樣本的探查與采集,在開始采集之前需要對其進行預處理[9]。預處理主要是去除初始數據流中的噪聲部分,盡量反映數據源的特征,避免采集到的數據與現實樣本存在差異。接著按照圖4中的采樣方式獲得數據流樣本。
為了保證數據流處理過程中的穩定性,避免出現數據丟包的情況,將數據信號轉換為頻率信號。假設采樣時間型大數據流的結果用[s0,s1,s2,…,sn]來表示,當新的整合數據流到達時得到一個新的數據流序列,表示為[u0,u1,u2,…,un],則數據流序列[u]的轉換可以通過式(1)計算:
[un=1Ni=1N-1N?sn-s0-uNe2πhN] (1)
式中:[N]為數據流中的總數據量;[h]為整合數據流轉換的向量值。采樣數據流經過轉換變換后保留了信號數據中的主要能量。
2.2.3? 檢測大數據流質量
以多維分層的聚類算法為底層邏輯檢測大數據流的質量,數據質量檢查的內容包括數字精度、屬性精度、完整性與正確性、邏輯一致性、平面精度、數據格式以及數據分層完整性等[10]。按照圖5中的檢測流程得出關于大數據流質量的檢測結果。
參考大數據流質量檢測結果,首先判斷采樣的時間型數據流是否符合整合標準,設置質量檢測的門限值為[η0]和[η],其中[η0]為最低門限值,[η]為高階門限值[11]。若檢測結果小于[η0],則放棄對該數據流的處理,重新采樣;若檢測結果的取值在[η0]和[η]之間,證明采樣數據流中存在未清除的噪聲點或孤立點,需要進行進一步去除處理;若檢測結果大于[η],證明數據流質量合格可以直接進入聚類整合階段。
2.2.4? 聚類整合時間維度型大數據流
綜合質量合格的時間型大數據流,得出聚類整合結果,具體的整合集成過程如圖6所示。
按照圖6中的實現過程,首先確定整合的聚類點,一般情況下選擇第一個輸入的數據流為起始點。接著計算最優整合數量,計算公式為:
[C=arg maxk∈k1,k2,…,knavgBIPk] (2)
式中:[C]表示平均BIP值最大時對應的聚類數;BIP為反映單個數據流對象聚類有效性的指標;[k]為輸入的時間型大數據流的數量;[avgBIPk]為數據流被整合為[k]類時的平均BIP值[12]。設數據流整合的條件為:
[k=β?C] (3)
式中[β]為整合系統,其取值與分類層次的數量有關。那么當參數[k]滿足式(3)中的條件時,即得到了時間型大數據流的最佳整合數。
3? 系統測試
將設計完成的基于多維分層采樣的時間維度型大數據流整合系統調整到主界面狀態,如圖7所示。
當系統可以輸出圖7中的狀態時,即可證明系統處于正常運行狀態。為了驗證該系統的性能,設置傳統的大數據流整合系統作為系統測試實驗中的對比系統。連接系統硬件設備,并配置相應的網絡環境,準備相同的大數據流,為了避免系統運行的偶然性,將大數據流分為多個組別,每個組別的平均整合數據量為120 MB。在正常環境下將數據流傳輸到系統當中,統計輸出的整合數據結果,記為[Q1]和[Q2]。接著在正常測試環境下,加入噪聲干擾因素,按照上述步驟重復操作,統計結果記為[Q3]和[Q4]。將得出的數據流整合結果輸入到數據分析軟件中,對比在不同測試環境下,整合前后的數據量變化情況,對比結果如圖8所示。
從圖8中的分析結果來看,經過時間維度型大數據流整合系統的處理,數量均存在一定程度上的減少,并且[Q1]和[Q2]的數據量均為110 MB。但[Q3]和[Q4]的統計差距較大,通過計算,[Q3]的平均數據量為93.45 MB,丟失16.55 MB數據流;而[Q4]的平均數據量為108.75 MB,丟失1.25 MB數據流,相比之下,數據丟失量降低了15 MB。由此可以得出結論:設計的基于多維分層采樣的時間維度型大數據流整合系統在復雜的運行環境下,依舊可以準確實現數據流的整合功能,通過系統測試證明優化數據流整合系統有效地解決了傳統數據流整合系統中存在的問題。
4? 結? 語
通過基于多維分層采樣的時間維度型大數據流整合系統的優化,提高了系統運行的穩定性,將其應用到實際的工作當中可提升數據調用的效率,同時也可以作為數據基礎用來檢測網絡異常。然而經過系統測試結果可以看出,該系統依舊存在一定程度上的丟包情況,因此在未來的研究工作中需要針對這一方面進行進一步的優化。
參考文獻
[1] 史英杰,杜方,尤亞東.MSOLA:基于多維分層采樣的大數據在線聚集技術[J].計算機應用研究,2018,35(2):375?380.
[2] 王飛,顏波,禹晉云.基于大數據的電力多維度分析系統設計與實現[J].電力信息與通信技術,2017,40(4):34?39.
[3] 張治,戚業國.基于大數據的多源多維綜合素質評價模型的構建[J].中國電化教育,2017,37(9):69?77.
[4] 翁彬月,黃今慧.基于網絡大數據分析的可視化技術[J].信息與電腦(理論版),2017,11(23):158?159.
[5] 張凱.基于Eucalyptus的大數據多維安全平臺架構設計[J].科技傳播,2018,12(16):113?114.
[6] 丁繼紅,劉華中.大數據環境下基于多維關聯分析的學習資源精準推薦[J].電化教育研究,2018,22(2):53?59.
[7] 張莉娜,吳偉,程旭明,等.基于電力大數據的多維聚合技術研究[J].數字技術與應用,2017,16(8):40?41.
[8] 雷軍,葉航軍,武澤勝,等.基于開源生態系統的大數據平臺研究[J].計算機研究與發展,2017,54(1):80?93.
[9] 曾康銘,吳杏.多層概率決策的網絡大數據協作融合算法[J].電子技術應用,2018,44(6):139?143.
[10] 單文軍,羅霄,李文華.一種基于FPGA的PCM檢查器的實現[J].電子設計工程,2018,26(9):185?188.
[11] 眭冠男.多維分析技術在大數據環境下的發展[J].電腦知識與技術:學術交流,2018,14(4):4?5.
[12] 劉先花.基于群體協同智能聚類的大數據存儲系統設計[J].現代電子技術,2017,40(23):130?133.