999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維分層采樣的時間維度型大數據流整合系統設計

2020-07-23 06:28:29李雙琴謝銳曹文琛鄒妍劉鳳嶼
現代電子技術 2020年5期
關鍵詞:數據采集

李雙琴 謝銳 曹文琛 鄒妍 劉鳳嶼

摘? 要: 現有大數據流整合系統采用統一隨機采樣策略,當整合環境存在干擾時會出現嚴重的數據丟失現象,為解決上述問題,引入多維分層采樣策略,分別從硬件和軟件兩個方面實現對時間維度型大數據流整合系統的優化設計。在硬件方面主要改裝微處理器、存儲器以及數據分類器等元件,提高硬件系統的運行穩定性。在此基礎上,搭建多時間維度數據分層模型,并通過大數據流業務系統數據實現數據探查,并以多維分層的聚類算法為底層邏輯,檢測數據質量。最終將質量檢測合格的數據流整合在一起,從而實現系統的數據流整合功能。通過系統測試得出如下結論:在復雜環境下,基于多維分層采樣的時間維度型大數據流整合系統的丟失數據量為1.25 MB,與傳統整合系統相比減少了15 MB。

關鍵詞: 數據流整合; 多維分層采樣; 數據采集; 數據質量檢測; 模型搭建; 系統設計

中圖分類號: TN02?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)05?0133?04

Design of time dimension big data flow integration system

based on multi?dimensional hierarchical sampling

LI Shuangqin1, 2, XIE Rui2, CAO Wenchen2, ZOU Yan2, LIU Fengyu3

(1. China University of Petroleum, Beijing 102249, China;

2. Technical Centre of Southwest Pipeline Branch, PetroChina Company Limited, Chengdu 610037, China;

3. Beijing Raysdata Co., Ltd., Beijing 100102, China)

Abstract: The unified random sampling strategy is adopted in the existing big data flow integration system, which will cause serious data loss when interference occurs to the integration environment. Therefore, a multi?dimensional hierarchical sampling strategy is introduced to achieve the optimal design of the time dimension big data flow integration system in two aspects of hardware and software. In terms of hardware, components such as the microprocessor, the memory and the data classifier are modified to improve the running stability of the hardware system. On this basis, the data hierarchical model with multiple time dimensions is built, the data exploration is realized by business system data of big data flow, and the multi?dimensional hierarchical clustering algorithm is used as the underlying logic to detect data quality. Finally, the data flow with qualified quality is integrated together to realize the function of system data flow integration. It is concluded from the system test that, in complex environment, the data loss of the time dimension big data flow integration system based on multi?dimensional hierarchical sampling is 1.25 MB, which is 15 MB less than that of the traditional integration system.

Keywords: data flow integration; multi?dimensional hierarchical sampling; data acquisition; data quality detection; modeling; system design

0? 引? 言

大數據是現階段互聯網網絡中的重要數據形式之一,主要指的是需要新處理模式才能具有更強決策力、洞察力和流程優化能力的海量、高增長率以及多樣化的信息資產。通過網絡中大數據信息的應用提升了互聯網的運行效率,從而優化信息調用的效率。網絡大數據主要是由多個數據流組成的,數據流的定義為只能以事先規定好的順序被讀取的數據序列,按照數據流的傳輸類型可以將其分為輸入流、輸出流、緩沖區、時間維度型等多個類型[1]。其中,時間維度型的數據流是以時間作為描述、表達變量的度量尺度,可以將互聯網中的數據流用時間來表示,同時,也可以通過時間順序排列對應的數據流。為了實現對大數據的有效管理和高效應用,需要以不同的分類條件對網絡中的大數據流進行整合處理。數據整合主要是將不同數據源或數據類型的數據流收集、整理、清洗、轉換后加載到一個新的數據源中,為網絡用戶提供統一數據視圖的數據集成方式。數據整合具有擴展性強、管控能力強的特點,通過相關整合工具的處理,可以將兩個甚至更多的應用數據流合并在一起,創建出具有更多功能和數據量的結果[2]。為了保證數據整合操作的實現功能,設計對應的時間維度型大數據流整合系統。

針對時間維度型大數據流整合系統的設計與研究,國內外具有不同的見解,也產生了不同的研究成果。然而通過對應用反饋的分析發現傳統的大數據流整合系統在性能和功能方面均存在一定的問題,主要是在復雜信號環境下數據的整合結果容錯率會大大降低,得出的整合結果會丟失一部分數據。為了解決傳統大數據流整合系統中存在的問題,在現有系統的基礎上引入多維分層采樣技術[3]。多維分層采樣技術是將不同類型的數據流進行分層處理,為保證分層的完整性,選擇多維分層方式,使用這種采樣技術可以保證大數據流采集結果的完整性和準確性。通過多維分層采樣技術的引用,提高時間維度型大數據流整合系統數據整合結果的完整性,同時,提升該系統的抗干擾性,從而解決傳統數據整合系統中存在的問題,實現此次系統設計的目的。

1? 時間維度型大數據流整合硬件系統設計

利用多維分層采樣技術,分別從硬件和軟件兩個角度實現時間維度型大數據流整合系統的優化設計。由于傳統的大數據流整合硬件系統中使用的硬件設備是引發系統不穩定的因素之一,因此,首先需要改裝使用的硬件設備,硬件系統的改裝結構如圖1所示。

改裝大數據流整合硬件系統中的微處理器、存儲器以及數據分類器等元件,實現硬件系統的優化設計。

1.1? 微處理器

微處理器是數據流整合系統中軟件功能實現的主要環境,可以通過微處理器的邏輯運算實現數據的處理與管理功能[4]。微處理器的硬件結構為一片或多片大規模集成電路組成的中央處理器,在整合系統工作的過程中可以完成數據采集、處理和執行命令等指令,微處理器的處理結果可以與外界存儲器以及邏輯部件進行數據交換與傳輸,是系統運行的主要運算控制部分。

1.2? 存儲器

存儲器是大數據流整合硬件系統中最為重要的硬件設備,主要用來存儲初始數據流信息、邏輯運算產生的數據以及數據流的整合結果信息。傳統的時間維度型大數據流整合系統選用的存儲器為服務器內置的存儲器,分為ROM和RAM,這種內置存儲器受到空間的限制無法存儲大數據量的信息,因此當傳統存儲器出現溢出效應時,會自動刪除歷史數據信息,或者通過人為接入外部存儲器[5]。由于系統的整合功能處于實時運行的狀態,因此在外部存儲器接入的過程中就會出現數據丟失的情況,為了解決上述問題改裝內置存儲器。存儲器的擴充分為兩個方面:一個為存儲空間的擴大;另一個為存儲程序的備份。在傳統內嵌存儲器的基礎上連接一個SD閃存卡和一個微硬盤,選擇的兩個存儲器實體占地空間小,易于安裝在內置存儲器上。兩個設備的存儲空間分別為2 GB和20 TB,其中,微硬盤可以實現硬件存儲空間的擴大,而SD閃存卡具有掉電后數據不丟失的特點,因此可以作為備份存儲器。

1.3? 數據分類器

由于優化設計的大數據流整合系統引入了多維分層采樣技術,需要在硬件系統中為其配置相應的實現環境,即為數據分類器[6]。按照多維分層采樣技術的應用要求,改裝傳統的數據分類器,使用時間維度作為數據分類的標準。

2? 時間維度型大數據流整合軟件系統設計

在硬件系統設計并安裝完成的情況下,實現時間維度型大數據流整合軟件系統的設計。軟件系統的設計主要分為三個方面,分別為系統的UI界面設計、數據庫設計以及功能模塊的設計。其中,UI界面的設計目的是在滿足操作邏輯和界面美觀度的同時,實現人機交互功能,用戶使用已注冊的賬號和密碼登錄系統中,通過發送相關申請的方式實現對時間維度型大數據流的操作。

2.1? 創建系統數據庫

系統數據庫的創建環境為SQL,在該環境下創建四個數據包分別命名為backup,initial,logic和integration,分別用來存儲備份數據、初始數據、邏輯數據、整合數據結果[7]。其中,backup數據包的更新速度需要人為設置,一般情況下設置為5 min,而另外的三個數據包中的數據按照系統實際的運行情況實時傳輸與存儲。最終將系統數據庫以圖2中顯示的方式存儲到硬件系統的存儲器中。

2.2? 數據流整合功能設計

在系統數據庫的支持下,分別通過時間維度數據分層、多維分層數據采樣、數據流質量檢測與處理以及數據流的聚類整合四個步驟,實現時間維度型大數據流的整合功能。

2.2.1? 搭建多時間維度數據分層模型

將多時間維度數據分層模型搭建在數據分類器中,從軟件的角度執行對初始數據流的分類處理。搭建的數據分層模型如圖3所示。

將初始數據從圖3中的數據層輸入到層次模型當中,以時間維度為分類原則,通過模型層次的逐層篩選與分類處理,從而得出數據流的層次劃分結果[8]。總的來講,可以將整個劃分過程分為類判別和分類處理兩個階段,通過多時間維度數據分層模型的處理,實現初始數據流的轉換,得出用時間維度來表示的數據流。

2.2.2? 采集與探查數據流樣本

分別從一維、二維和三維三個方面實現對初始數據流樣本的探查與采集,在開始采集之前需要對其進行預處理[9]。預處理主要是去除初始數據流中的噪聲部分,盡量反映數據源的特征,避免采集到的數據與現實樣本存在差異。接著按照圖4中的采樣方式獲得數據流樣本。

為了保證數據流處理過程中的穩定性,避免出現數據丟包的情況,將數據信號轉換為頻率信號。假設采樣時間型大數據流的結果用[s0,s1,s2,…,sn]來表示,當新的整合數據流到達時得到一個新的數據流序列,表示為[u0,u1,u2,…,un],則數據流序列[u]的轉換可以通過式(1)計算:

[un=1Ni=1N-1N?sn-s0-uNe2πhN] (1)

式中:[N]為數據流中的總數據量;[h]為整合數據流轉換的向量值。采樣數據流經過轉換變換后保留了信號數據中的主要能量。

2.2.3? 檢測大數據流質量

以多維分層的聚類算法為底層邏輯檢測大數據流的質量,數據質量檢查的內容包括數字精度、屬性精度、完整性與正確性、邏輯一致性、平面精度、數據格式以及數據分層完整性等[10]。按照圖5中的檢測流程得出關于大數據流質量的檢測結果。

參考大數據流質量檢測結果,首先判斷采樣的時間型數據流是否符合整合標準,設置質量檢測的門限值為[η0]和[η],其中[η0]為最低門限值,[η]為高階門限值[11]。若檢測結果小于[η0],則放棄對該數據流的處理,重新采樣;若檢測結果的取值在[η0]和[η]之間,證明采樣數據流中存在未清除的噪聲點或孤立點,需要進行進一步去除處理;若檢測結果大于[η],證明數據流質量合格可以直接進入聚類整合階段。

2.2.4? 聚類整合時間維度型大數據流

綜合質量合格的時間型大數據流,得出聚類整合結果,具體的整合集成過程如圖6所示。

按照圖6中的實現過程,首先確定整合的聚類點,一般情況下選擇第一個輸入的數據流為起始點。接著計算最優整合數量,計算公式為:

[C=arg maxk∈k1,k2,…,knavgBIPk] (2)

式中:[C]表示平均BIP值最大時對應的聚類數;BIP為反映單個數據流對象聚類有效性的指標;[k]為輸入的時間型大數據流的數量;[avgBIPk]為數據流被整合為[k]類時的平均BIP值[12]。設數據流整合的條件為:

[k=β?C] (3)

式中[β]為整合系統,其取值與分類層次的數量有關。那么當參數[k]滿足式(3)中的條件時,即得到了時間型大數據流的最佳整合數。

3? 系統測試

將設計完成的基于多維分層采樣的時間維度型大數據流整合系統調整到主界面狀態,如圖7所示。

當系統可以輸出圖7中的狀態時,即可證明系統處于正常運行狀態。為了驗證該系統的性能,設置傳統的大數據流整合系統作為系統測試實驗中的對比系統。連接系統硬件設備,并配置相應的網絡環境,準備相同的大數據流,為了避免系統運行的偶然性,將大數據流分為多個組別,每個組別的平均整合數據量為120 MB。在正常環境下將數據流傳輸到系統當中,統計輸出的整合數據結果,記為[Q1]和[Q2]。接著在正常測試環境下,加入噪聲干擾因素,按照上述步驟重復操作,統計結果記為[Q3]和[Q4]。將得出的數據流整合結果輸入到數據分析軟件中,對比在不同測試環境下,整合前后的數據量變化情況,對比結果如圖8所示。

從圖8中的分析結果來看,經過時間維度型大數據流整合系統的處理,數量均存在一定程度上的減少,并且[Q1]和[Q2]的數據量均為110 MB。但[Q3]和[Q4]的統計差距較大,通過計算,[Q3]的平均數據量為93.45 MB,丟失16.55 MB數據流;而[Q4]的平均數據量為108.75 MB,丟失1.25 MB數據流,相比之下,數據丟失量降低了15 MB。由此可以得出結論:設計的基于多維分層采樣的時間維度型大數據流整合系統在復雜的運行環境下,依舊可以準確實現數據流的整合功能,通過系統測試證明優化數據流整合系統有效地解決了傳統數據流整合系統中存在的問題。

4? 結? 語

通過基于多維分層采樣的時間維度型大數據流整合系統的優化,提高了系統運行的穩定性,將其應用到實際的工作當中可提升數據調用的效率,同時也可以作為數據基礎用來檢測網絡異常。然而經過系統測試結果可以看出,該系統依舊存在一定程度上的丟包情況,因此在未來的研究工作中需要針對這一方面進行進一步的優化。

參考文獻

[1] 史英杰,杜方,尤亞東.MSOLA:基于多維分層采樣的大數據在線聚集技術[J].計算機應用研究,2018,35(2):375?380.

[2] 王飛,顏波,禹晉云.基于大數據的電力多維度分析系統設計與實現[J].電力信息與通信技術,2017,40(4):34?39.

[3] 張治,戚業國.基于大數據的多源多維綜合素質評價模型的構建[J].中國電化教育,2017,37(9):69?77.

[4] 翁彬月,黃今慧.基于網絡大數據分析的可視化技術[J].信息與電腦(理論版),2017,11(23):158?159.

[5] 張凱.基于Eucalyptus的大數據多維安全平臺架構設計[J].科技傳播,2018,12(16):113?114.

[6] 丁繼紅,劉華中.大數據環境下基于多維關聯分析的學習資源精準推薦[J].電化教育研究,2018,22(2):53?59.

[7] 張莉娜,吳偉,程旭明,等.基于電力大數據的多維聚合技術研究[J].數字技術與應用,2017,16(8):40?41.

[8] 雷軍,葉航軍,武澤勝,等.基于開源生態系統的大數據平臺研究[J].計算機研究與發展,2017,54(1):80?93.

[9] 曾康銘,吳杏.多層概率決策的網絡大數據協作融合算法[J].電子技術應用,2018,44(6):139?143.

[10] 單文軍,羅霄,李文華.一種基于FPGA的PCM檢查器的實現[J].電子設計工程,2018,26(9):185?188.

[11] 眭冠男.多維分析技術在大數據環境下的發展[J].電腦知識與技術:學術交流,2018,14(4):4?5.

[12] 劉先花.基于群體協同智能聚類的大數據存儲系統設計[J].現代電子技術,2017,40(23):130?133.

猜你喜歡
數據采集
Web網絡大數據分類系統的設計與改進
CAN總線通信技術在電梯監控系統中的應用
基于大型嵌入式系統的污水檢測系統設計
社會保障一卡通數據采集與整理技巧
基于AVR單片機的SPI接口設計與實現
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 超清人妻系列无码专区| 91在线中文| 国产特级毛片aaaaaaa高清| 91探花国产综合在线精品| 日韩精品亚洲精品第一页| 精品午夜国产福利观看| 亚洲男人在线| 重口调教一区二区视频| 高潮毛片免费观看| 91在线一9|永久视频在线| 91色在线视频| 老司机久久99久久精品播放 | 国产免费福利网站| 午夜福利在线观看成人| 精品人妻一区无码视频| 日韩高清欧美| 久久久久国色AV免费观看性色| 亚洲美女一区| 国产农村1级毛片| 国产精品亚欧美一区二区| 久青草网站| 狼友视频国产精品首页| 亚洲国产一区在线观看| 日韩在线成年视频人网站观看| 日韩大乳视频中文字幕| 中文字幕2区| 欧美激情综合| 亚洲欧洲免费视频| 成人夜夜嗨| 日韩黄色在线| 日韩国产黄色网站| 欧美在线一二区| 久久天天躁狠狠躁夜夜躁| 国产爽歪歪免费视频在线观看| 91毛片网| 国产精品久久久久久久久kt| 四虎影视8848永久精品| 大香伊人久久| 国产成人一区免费观看| 国产真实乱人视频| 天天色天天操综合网| 2020亚洲精品无码| 老司国产精品视频| 国产91小视频| 99热亚洲精品6码| 亚洲第一中文字幕| 浮力影院国产第一页| 亚洲男人的天堂在线观看| 最新加勒比隔壁人妻| 呦女亚洲一区精品| 婷婷色狠狠干| 中文字幕无码电影| 国产精品久久久精品三级| 国内精品视频在线| 欧美精品1区| h视频在线观看网站| 伊人久久精品无码麻豆精品| 亚洲福利一区二区三区| 亚洲AⅤ无码日韩AV无码网站| 亚洲日韩精品无码专区97| 欧美日韩亚洲国产| 国产人人射| 国产美女叼嘿视频免费看| 伊人国产无码高清视频| 99热这里只有成人精品国产| 亚洲综合色婷婷中文字幕| 亚洲天堂久久新| 丰满少妇αⅴ无码区| 国产福利2021最新在线观看| 又粗又大又爽又紧免费视频| 亚洲精品综合一二三区在线| 日本道综合一本久久久88| 97se亚洲综合不卡| 狼友视频一区二区三区| 天天色综网| 欧美日韩激情在线| 国产精品污污在线观看网站| 国产h视频免费观看| 日韩欧美中文字幕在线韩免费| 中文国产成人精品久久一| 3D动漫精品啪啪一区二区下载| 欧美国产日韩在线播放|