999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類算法的高速連續數據流 并行處理控制系統設計

2020-08-07 05:50:31劉敏黃維蘭詩梅
現代電子技術 2020年13期

劉敏 黃維 蘭詩梅

摘? 要: 傳統的高速連續數據流并行處理控制系統運行過程中相對誤差大,消耗內存高,為了解決這一問題,基于聚類算法設計了一種新的高速連續數據流并行處理控制系統。所提出的系統由功能層、數據源、接口層、數據層、資源層、應用層組成系統硬件結構,通過數據的獲取、預處理、聚類處理和類別預測四步完成軟件流程,軟件在運行過程中需要應用聚類算法。為檢驗控制系統效果,與傳統控制系統進行實驗對比,結果表明,基于聚類算法設計的高速連續數據流并行處理控制系統在運行過程中相對誤差極小,占用的內存少,系統運行效率高,并行處理控制效果好。

關鍵詞: 控制系統設計; 聚類算法; 數據流并行處理; 聚類分析; 參數設置; 對比實驗

中圖分類號: TN876?34; TP301? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)13?0114?05

Design of clustering algorithm based parallel processing control system

for high?speed continuous data stream

LIU Min1, HUANG Wei2, LAN Shimei1

(1. College of Mathematics and Information Science, Guiyang University, Guiyang 550005, China;

2. Guizhou Provincial Water Conservancy Research Institute, Guiyang 550001, China)

Abstract: The traditional parallel processing control system for high?speed continuous data stream has large relative error and high memory consumption. In order to solve this problem, a new parallel processing control system for high?speed continuous data stream is designed based on clustering algorithm. The hardware structure of the proposed system is composed of function layer, data source layer, interface layer, data layer, resource layer and application layer. The software flow is completed in four steps: data acquisition, pre?processing, clustering processing and classification prediction. The software needs to apply clustering algorithm in the running process. In order to test the effect of the control system, it was compared with the traditional control system in some experiments. The results show that the high?speed continuous data stream parallel processing control system designed on the basis of clustering algorithm has minimal relative error, high operating efficiency and good parallel processing control effect, and occupies less memory.

Keywords: control system design; clustering algorithm; data stream parallel processing; clustering analysis; parameter setting; contrastive experiment

0? 引? 言

隨著互聯網技術的迅速發展,給人們生活帶來眾多便利的同時,也產生了越來越多的數據,這給數據價值的挖掘提出了重大的挑戰。聚類算法是一種具有廣闊前景的海量數據挖掘工具,然而數據量的劇增也給聚類算法及其對應的處理系統提出了更高的要求,傳統單機環境已經難以滿足現代數據處理應用的需求。

作為一種高技術、高效率的計算機處理手段,在對數據或網絡信息進行采集、處理、分析、調控的過程中,并行處理能夠有效縮短延遲時間,提高運算速度,換句話說,就是在各類投入的資源上進行重疊覆蓋以提高并行度的方式來實現系統效率的升級。

本文基于聚類算法對高速連續數據流并行處理控制系統硬件和軟件框架進行設計,根據設計框架闡述了基于聚類算法的高速連續數據流并行處理控制系統的工作流程。實驗結果證明該系統具有對高復雜度數據的計算能力和數據處理的實時性,通過實驗驗證了該高速連續數據流并行處理控制系統設計的可行性。

1? 高速連續數據流并行處理控制系統基本框架設計

與分類算法相比,聚類算法是一種無監督學習,根據樣品的相似度,將相似的樣本自動歸入同一類別中。在數據訓練之前并不知道數據會分為幾個類簇,同一個簇中的數據對象會保證最大的相似度。如圖1所示,按照使用場景和適用類型的不同,聚類算法可以分為使用劃分聚類、使用模式聚類、使用層次聚類、使用網格聚類等,不同的聚類算法適用于不同的應用領域。

在并行處理過程中采用多單元同步工作的機制,同時在不同的處理單元中輸入數據,在相同的時間內將處理時間成倍縮小,實現系統的快速處理。而處理單元的數量和所執行任務的并行度都會對并行處理控制系統的加速比產生直接的影響,其中,任務的并行度對系統的性能產生制約,而當任務并行度固定的情況下,處理單元的數量越多,加速比越大,直到達到上限。并行處理控制系統涉及到緊耦合技術、直接存儲器存取技術、共享存儲技術、高效緩存技術等。

面對高速連續數據流,傳統的串行處理手段在計算資源和時間約束上具有局限性,難以適應海量數據。如圖2所示,將聚類算法應用于高速連續數據流并行處理控制系統中,可增強系統的靈活適應性,對小數據元素和大數據元素集合都保持高效的聚類效果。系統對數值型和非數值型的數據都能處理,具有處理不同數據類型的能力。系統不需要用戶輸入過多的額外參數,降低了用戶使用的負擔,并且該系統可以避免因數據輸入順序對結果造成的影響?,F有的并行處理控制系統更擅長于低維數據的處理,本文中聚類算法的應用,使系統對高維度的數據仍具有高處理能力。對于噪聲數據問題,系統能夠較好地甄別,確保結果的質量。

現有的并行處理控制系統對任務進行管理時,通常利用設置分時指標的模式。在系統進入到正常工作模式后,每一個節點都能實現數據的更新處理。數據的更新借助消息點播的形式,消除原始數據并向其他節點發出通知。在并行處理控制系統的實際工作中,一定要保證在數據更新時不會產生信息活鎖的情況。

如圖3所示,基于聚類算法的高速連續數據流并行處理控制系統主要由數據源、數據層、接口層、資源層、應用層和功能層構成。系統從數據源獲取數據信息,通過接口層進行并行數據的導入和導出,在數據層完成數據的預處理和集群協調服務,并進行聚類算法的計算和存儲。在功能層完成對系統的流程、安全、任務、集群、元數據的管理和監控。

數據源和接口層中的網絡數據爬取構成了網絡數據獲取模塊。聚類模塊是將數據源中的輸入數據通過接口層傳遞至數據層中的數據庫,轉化為數據向量進行歸一化,再進行算法分解,建立聚類模型。將輸入數據進行簇的評定后,然后進入數據集的應用層,在完成所需功能的同時,對數據進行存儲和前臺展示。當輸入數據異常時,系統會自動進行異常檢測,判斷系統是否進入故障模式,最大程度上維護系統的正常運行。

2? 高速連續數據流并行處理控制系統運行流程設計

并行處理控制系統能夠快速、高效地對輸入的海量數據進行處理,總體上可以分為數據的獲取、預處理、聚類處理和類別預測四步。采集后的數據進入預處理數據階段后,會對數據中的缺失值進行補充,對數據進行歸一化處理。然后利用聚類算法對數據進行分類,最終對未知數據的類別進行預測。

聚類算法會將所有的數據元素劃分入簇中,相似度的度量方法有很多種,例如:歐氏距離度量、余弦距離度量、谷本距離度量、皮爾遜相似度度量等,本文采用余弦距離度量的方法進行計算。建立兩個[n]維向量[A=(a1,a2,…,an)]和[B=(b1,b2,…,bn)],余弦距離對絕對數值并不敏感,只是在方向上對向量的差別進行區分,由式(1)進行計算得到兩個[n]維向量[AB]之間的余弦距離[d]。當[d]為0時,距離最近;而隨著[d]的增大距離不斷增加。

應用聚類算法的初期是要人為選擇聚類中心,初始簇中心的距離要盡量遠,具體流程如圖4所示。首先在數據集中隨機選取一個點作為第一個簇心,將數據集中的每個數據對象[i]根據式(1)計算該數據對象和簇中心的距離[di]。從距離[di]值較大的數據對象[i]中選取一個新的簇心,重復求取數據對象和簇中心的距離[di]和選取新的簇心。當達到設定的[k]個簇心時停止選取,完成數據的聚類分類。

聚類算法分析需要進行評價,聚類的評估通常會分為內部和外部評估兩個部分。內部評估指標采用簇內方差和來評估表示使用過程中訓練之內的數據,應用式(2)進行計算完成。外部評估采用[F]?measure指標,組合查全率[R]和查準率[P]的基本思想,利用式(3)計算使用訓練數據之外的數據。

式(2)中:[E]為平方誤差函數;[Xij]表示第[i]個類簇中第[j]個樣本,[i]為1~[k]中的第[i]個類簇,[j]為1~[n]中的第[j]個樣品;[mi]為第[i]個類簇中的聚類中心;[ni]為第[i]個類簇中的樣本數。在式(3)中,[P]為查準率,[R]為查全率,計算求得的[F(i)]為外部評價[F]?measure指標。

當今社會已經被數據包圍,將聚類算法應用于高速連續數據流并行處理控制系統,系統具有較高的容錯性,能夠在部署機器很廉價的狀態下進行高速率數據訪問,適用于處理高速連續數據流。

如圖5所示,本文中基于聚類算法的高速連續數據流并行處理控制系統能夠支持達到幾百GB的大型文件,系統由數百臺以上機器組成,具有高故障率,但是能夠快速應對機器故障。系統進行數據訪問的形式是管道流,更側重于數據吞吐量。在系統中一個文件被寫入后,會簡化為一致性模型,并不能夠被修改。系統進行數據訪問時需要毫秒級的數據響應,具有實時性。

在進行高速連續數據流的并行查詢和處理中,數據分布策略會直接影響系統的運行效率。高速連續數據流并行處理控制系統中各個位置產生的可能性均等,換句話說,由于聚類算法的加入,在對高速連續數據流進行并行處理時,處理任務會平均分配給不同的節點。數據的處理以道集為單位,有助于提高數據流的讀寫速度。

當系統對一個進程中高速連續數據流中的所有數據信息進行實時記錄的同時,還可以進行超時狀態查詢。超時時間設置可以有效避免整個并行處理控制進程中產生競爭條件。如圖6所示,系統聚類分析后進行是否并行處理運行檢查,若系統并行處理開啟,則設定超時時間為0;若發現未進行并行處理,超時設定開啟,設定超時時間為2倍的串行時間2[t],并返回重新進行聚類分析。在系統運行時,并行狀態的競爭幾率出現較低,設定明顯優于串行設定。完成超時設定后,將對系統數據庫進行數據處理,這樣能夠大大縮減系統工作時間,盡可能地提高效率。

3? 實驗研究

3.1? 實驗目的

為了檢驗所提的高速連續數據流并行處理控制系統的有效性,設計如下實驗進行驗證。設置相關實驗參數,對比現有的數據流并行處理控制系統和所提系統,記錄下不同系統的相對誤差值和系統的運行狀態參數,比較系統精密度,根據對比結果分析不同系統的處理控制效果。

3.2? 實驗參數設置

設置實驗參數如表1所示。

3.3? 實驗方法

根據表1中的參數進行實驗,選取現有的數據流并行處理控制系統和所提系統在相同的外界環境下,分別對同一組高速連續數據流進行處理,記錄兩個系統的測量結果,并分析實驗結果。

3.4? 實驗結果與分析

1) 系統精密度結果

如圖7所示,將傳統數據流并行處理控制系統和本文基于聚類算法的高速連續數據流并行處理控制系統的相對誤差進行計算,進行系統精密度的表征實驗。通過觀察發現:在30 ms測試時間內,傳統數據流并行處理控制系統的相對誤差大多分布在-2.5%~2.5%之間,有少量數據大于±2.5%,但全部分布在-5.0%~5.0%之間;在本文基于聚類算法的高速連續數據流并行處理控制系統的相對誤差測試中,數據基本都分布在-1.25%~1.25%之間。也就是說,聚類算法的引入降低了高速連續數據流并行處理控制系統的相對誤差,提高了系統的精密度和可靠性。

2) 系統的運行狀態結果

將傳統數據流并行處理控制系統和本文基于聚類算法的高速連續數據流并行處理控制系統的運行狀態進行統計比較,從CPU利用率、內存使用率、系統的計算速率和數據流速率幾個方面進行比較,結果如圖8所示。

傳統的數據流并行處理控制系統CPU利用率約為55%,內存使用率約為49%,系統的計算速率約為1.1萬條/s,數據流速率達1.01×[104] Kb/s。本文基于聚類算法的高速連續數據流并行處理控制系統CPU利用率約為78%,內存使用率約為60%,系統的計算速率約為1.5萬條/s,數據流速率達1.3×[104] Kb/s。通過比較發現:本文的高速連續數據流并行處理控制系統的CPU利用率和內存使用率都高于傳統數據流并行處理控制系統,能夠有效提高系統的利用率,從而提高系統工作效率,并且本文基于聚類算法的高速連續數據流并行處理控制系統所適用的數據流速率高于傳統的數據流并行處理控制系統,并且本文系統的計算速率也高于傳統系統??偟膩碚f,本文基于聚類算法的高速連續數據流并行處理控制系統的性能優于傳統的數據流并行處理控制系統。

3.5? 實驗結論

傳統的數據流并行處理控制系統和本文基于聚類算法的高速連續數據流并行處理控制系統都能夠對高速連續數據流進行并行處理,但是與傳統的數據流并行處理控制系統相比,本文基于聚類算法的高速連續數據流并行處理控制系統的性能更加優異,能夠適應于更高的數據流速率,工作效率和系統精密度更高。

綜上所述,本文基于聚類算法建立的高速連續數據流并行處理控制系統的綜合性能較優,系統的處理控制效率更高,相對誤差很小,因此,精密度更高,數據流速率更快,具有很高的應用優勢。

4? 結? 語

隨著互聯網技術的不斷發展,網絡數據的規模和應用范圍也在不斷擴大,人們應用中的數據信息在范圍、規模上都不斷擴大,海量數據在時間和空間上十分復雜,聚類算法能夠適應于海量高維數據。聚類分析根據對象之間的相似性將數據對象集合進行分簇,保證統計分簇項中的數據盡可能相似。高速連續數據流的數據規模非常龐大,對這類數據的分析是后期數據處理的基礎條件,而數據價值需要結合多種技術才能得以實現。聚類數據面對指數式增長,應用并行處理控制系統同時對多個數據分簇項進行處理,提高了對高速連續數據流的處理速度。

本文研究的基于聚類算法建立的高速連續數據流并行處理控制系統具備很高的應用優勢,但是該系統缺少更多的實際操作經驗,一些潛在問題尚不明朗,這些問題將在未來階段進行進一步研究和探討。

參考文獻

[1] 莫徽忠.基于數據流聚類算法的網絡異常檢測系統設計[J].柳州職業技術學院學報,2017,17(3):99?103.

[2] 萬新貴,李玲娟,馬可.分布式數據流聚類算法及其基于Storm的實現[J].計算機技術與發展,2017,27(7):150?155.

[3] 陳羽中,郭松榮,郭昆,等.基于時態密度特征的改進數據流聚類算法[J].小型微型計算機系統,2018,39(1):64?68.

[4] 張輝,王成龍,王偉.分布式實時日志密度數據流聚類算法及其基于Storm的實現[J].中國新通信,2017(6):71?73.

[5] 魏子衿,肖麗.改進頂點聚類方法的并行核外模型簡化算法[J].計算機工程與應用,2018,54(13):181?190.

[6] 米瀅.一種基于小波概要的數據流量子聚類算法[J].計算機應用與軟件,2017,34(5):288?292.

[7] 何亮亮,王曉東.基于初始信息素和二次揮發的改進蟻群算法[J].西安工程大學學報,2018,32(6):739?744.

[8] 曾志武,蔡明.基于Spark Streaming的增量協同過濾算法[J].軟件導刊,2018,17(6):88?91.

[9] 王靜,王春梅,智佳,等.面向有效載荷高速數據流的數據處理方法[J].計算機工程與設計,2017,38(4):941?945.

[10] 李莉.基于云計算平臺Hadoop的并行k?means聚類算法設計研究[J].網絡安全技術與應用,2017(12):46?47.

[11] 駱金維,曾德生,郭雅,等.時序數據并行壓縮速率改進技術研究[J].電子設計工程,2018,26(20):98?101.

[12] 李林,魯才,唐志梁,等.基于數據流聚類策略的GPU碼書初始化算法[J].計算機應用研究,2017,34(2):426?430.

[13] 李曉峰.云平臺中大數據并行聚類方法優化研究仿真[J].計算機仿真,2016,33(7):327?330.

主站蜘蛛池模板: 国产欧美综合在线观看第七页| 人妻中文久热无码丝袜| 婷婷久久综合九色综合88| 日韩欧美国产精品| 久热这里只有精品6| 97视频免费看| 亚州AV秘 一区二区三区| 欧美日韩在线观看一区二区三区| 成人毛片在线播放| 国产成人无码播放| 亚洲AV无码久久天堂| 99精品国产电影| 国产午夜无码专区喷水| 亚洲精品无码久久毛片波多野吉| 福利在线一区| 人人澡人人爽欧美一区| 亚洲成人免费在线| 久久夜色精品国产嚕嚕亚洲av| jizz国产视频| 国产精品手机视频一区二区| 国产啪在线| 亚洲最黄视频| 日本午夜视频在线观看| 亚洲一区波多野结衣二区三区| 尤物视频一区| 亚洲欧美一区二区三区蜜芽| 2021国产精品自拍| 91九色最新地址| 国产美女一级毛片| 午夜欧美理论2019理论| 伊人91视频| 亚洲永久免费网站| 国产主播一区二区三区| 亚洲第一成年网| 久久精品免费国产大片| 亚洲美女AV免费一区| 日韩欧美国产精品| 国产乱子伦精品视频| 鲁鲁鲁爽爽爽在线视频观看 | 五月婷婷精品| 老色鬼久久亚洲AV综合| 在线观看国产精品日本不卡网| 免费99精品国产自在现线| 日本欧美中文字幕精品亚洲| 亚洲女同欧美在线| 国产微拍精品| 亚洲国产中文精品va在线播放| 99热这里只有精品2| 国产精品无码一二三视频| 一级毛片a女人刺激视频免费| 97久久人人超碰国产精品| 久久6免费视频| 99色亚洲国产精品11p| 久久99热66这里只有精品一| 99热这里都是国产精品| 亚洲综合色婷婷| 久久香蕉国产线看观看式| 好紧太爽了视频免费无码| 亚洲精品福利网站| 亚洲欧美国产视频| 天天色天天操综合网| 欧美爱爱网| 久久无码av三级| 中文毛片无遮挡播放免费| 国产乱人激情H在线观看| 国产91特黄特色A级毛片| 在线观看精品国产入口| 国产免费观看av大片的网站| 第九色区aⅴ天堂久久香| 亚洲精品卡2卡3卡4卡5卡区| 日韩欧美色综合| 午夜国产精品视频| 久久国产精品嫖妓| 男女性色大片免费网站| 99无码中文字幕视频| 好吊日免费视频| 99激情网| 99re热精品视频中文字幕不卡| 国产黄网永久免费| 亚洲无码视频一区二区三区| 亚洲精品视频在线观看视频| 亚洲成a人片7777|