方加娟 李凱



摘? 要: 現有多維離散數據相關性檢測系統均存在著檢測精度差、可擴展性差的缺陷,為了解決上述問題,引入聚類分析方法對多維離散數據相關性檢測系統進行設計。多維離散數據相關性檢測系統硬件為數據處理器,由電源單元、通信單元與紅外單元組成;軟件設計主要分為多維離散數據空間劃分模塊與多維離散數據相關性檢測模塊。通過系統硬件與軟件的設計,實現了多維離散數據相關性檢測系統的運行。通過測試結果可知,與現有多維離散數據相關性檢測系統相比,設計的多維離散數據相關性檢測系統極大地提升了檢測精度與可擴展性,充分說明設計的多維離散數據相關性檢測系統具備更好的檢測性能。
關鍵詞: 聚類分析; 多維離散數據; 無線通信; 紅外單元; 相關性檢測; 可擴展性
中圖分類號: TN710?34; G255? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)21?0143?04
Design of multidimensional discrete data relevance detection
system based on cluster analysis
FANG Jiajuan1, 2, LI Kai2
(1. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;
2. Department of Software Engineering, Zhengzhou Technical College, Zhengzhou 450121, China)
Abstract: The existing multi?dimensional discrete data correlation detection system has the defects of poor detection accuracy and scalability. In order to solve the above problems, the cluster analysis method is introduced to design the multi?dimensional discrete data correlation detection system. The hardware of multi?dimensional discrete data correlation detection system is a data processor, which consists of power supply unit, communication unit and infrared unit. The software design is mainly divided into multi?dimensional discrete data space partition module and multi?dimensional discrete data correlation detection module. The operation of multi?dimensional discrete data correlation detection system is realized by the design of hardware and software. The test results show that, in comparison with the existing multi?dimensional discrete data correlation detection system, the designed multi?dimensional discrete data correlation detection system greatly improves the detection accuracy and scalability, which fully demonstrates that the designed system has a better detection performance.
Keywords: cluster analysis; multidimensional discrete data; wireless communication; infrared unit; relevance detection; scalability
0? 引? 言
隨著科學技術的發展,研究水平與數量也在不斷的攀升。無論是技術研究,還是故障檢測等領域,都需要大量的數據,現今主要采用嵌入式數據庫對數據進行存儲,嵌入式數據庫主要根據其運行模型進行定義,可以消除與服務器配置的開銷。嵌入式數據庫屬于輕量級,具有運行內存較小、存儲空間更大、存儲速度較快、效果更好的優勢,被多個領域所應用[1]。但是,若想在嵌入式數據庫中提取需要的數據信息難度較大,而其中還含有大量的多維離散數據,這些數據中摻雜著用戶需要的數據信息,因此,需要對多維離散數據相關性進行相應的檢測,以此為基礎,對用戶需求數據信息進行提取。由此可見,多維離散數據相關性檢測成為現今嵌入式數據庫研究的重點問題。
目前使用較為廣泛的多維離散數據相關性檢測系統主要有兩種,分別為基于關系矩陣融合的多維離散數據相關性檢測系統與基于粗糙集理論的多維離散數據相關性檢測系統[2]。其中,基于關系矩陣融合的多維離散數據相關性檢測系統主要是對數據庫中的數據進行特征矩陣的關聯性分析,將關聯性進行融合,以此來檢測多維離散數據的相關性;基于粗糙集理論的多維離散數據相關性檢測系統主要是根據粗糙集理論對數據的特征信息進行缺陷識別,依據聚類中心對數據進行離散化處理,根據決策樹規則對多維離散數據相關性進行檢測。但是上述兩種方法均存在著檢測精度差、可擴展性差的缺陷,無法滿足現今社會的需求,為此引入聚類分析方法對多維離散數據相關性檢測系統進行設計。
1? 多維離散數據相關性檢測系統硬件設計
多維離散數據相關性檢測系統硬件主要是對數據進行相關處理,為多維離散數據的相關性檢測提供支撐,因此,系統硬件設備主要為數據處理器,其主要由電源單元、通信單元與紅外單元構成[3]。
1.1? 電源單元
電源單元主要為數據處理器提供能量支撐。電源單元最主要的結構為電路,由于篇幅的設置主要對電源電路進行設計[4]。電源電路框圖如圖1所示。
該電路中設計了保護環節,可以對電路以及元件進行有效的保護。AC 220 V電源中設置了壓敏電阻,可以對雷擊等情況產生的電壓進行相應的調節,對電壓高峰進行了吸收,以免器件受到傷害[5]。
1.2? 通信單元
該系統通信單元主要采用微功率無線通信,通過外置插接方式進行相應的安裝,插座為標準形式,間距為2.55 mm。無線接口示意圖如圖2所示。
通過無線接口的設計可以滿足無線通信的需求,還能滿足單元之間的接口需求。
1.3? 紅外單元
紅外單元主要通過串口信號與調制信號的配合對發射管進行控制,以此實現信號的發射。通過控制三極管的開關頻率,對紅外發射管的頻率進行相應的控制[6]。紅外發射電路示意圖如圖3所示。
通過上述過程完成了系統硬件的設計,為多維離散數據相關性檢測提供了硬件支撐。
2? 多維離散數據相關性檢測系統軟件設計
上述硬件無法獨立實現多維離散數據相關性的檢測,為此對系統軟件進行設計。系統軟件主要分為兩部分,分別為多維離散數據空間劃分模塊與多維離散數據相關性檢測模塊[7]。
2.1? 多維離散數據空間劃分模塊
在多維離散數據相關性檢測過程中,計算復雜程度較高,為了簡化計算的難度,提升檢測效率,采用空間劃分算法將數據庫中的多維數據進行重新投影,以投影的傾斜角度為基礎對空間劃分的結果進行判定,并對最優劃分子空間中數據對象的局部離群因子屬性值進行計算[8]。具體過程如下所示。
首先將數據庫中的數據集區進行劃分,得到多個子空間,對子空間的劃分度量因子進行計算,其主要是由數據在子空間中的占比來決定[9]。則數據集在區分[p]下的區分偏斜度為:
[sopp=j=1Tnj-μ2N] (1)
式中:[sopp]表示區分[p]下的區分偏斜度;[nj]表示第[j]個子空間的數據個數;[μ]表示平均數據個數;[N]表示數據集中數據的個數[10]。
假設數據對象存在于數據庫子空間[s]內,則[s]內的其他數據對象稱為[p]的鄰域,采用[sp=oo∈sp]表示,對其進行歸一化處理,歸一化的屬性采用[goik]表示,并滿足[0≤goik≤1],數據權值采用[ωd]表示,滿足[0≤ωd≤1],則多維離散數據之間的加權距離為:
[distoi,oj,ωd=d=1kωdgoid-gojd2]? ?(2)
式中:[oi,oj]表示領域數據;[goid,gojd]表示數據屬性。
根據式(2)得到的值對數據的局部離群因子進行計算,得到[SPLOFp],為下述多維離散數據相關性檢測提供數據支撐[11]。
2.2? 多維離散數據相關性檢測模塊
以上述得到的子空間數據局部離群因子為衡量依據,將歐幾里得距離當作多維離散數據相關性的距離函數,與最小劃分邊界矩陣相結合,通過聚類分析方法對多維離散數據相關性進行相應的檢測[12]。
假設多維離散數據的度量函數為[Dkp],用戶需求多維離散數據個數為[n],一般情況下,依據局部離群因子[SPLOFp]對近鄰進行查詢,找到數據庫中的前[n]個[Dkp]中最大的數據點,將其定義為相關多維離散數據[13]。具體步驟如下:
1) 對數據庫中的多維離散數據點進行定義,采用[p1,p2,…,pn]表示,對其最小邊界矩陣進行計算,其計算過程較為復雜,因此利用頂點將其表示為[r1,r2,…,rn],通過式(2)對加權距離進行計算,得到[14][distpi,pj]。
2) 對多維離散數據點與最小劃分邊界矩陣之間的距離進行計算,計算公式表示為:
[Mindistp,R=i=1nx2i;? ? xi=ri-pi,? ? pi 根據式(3)得到的值對多維離散數據之間的相關性進行判定。判定規則為:當[Mindistp,R≥0],認為該多維離散數據是用戶需求的相關性數據點;當[Mindistp,R<0],認為該多維離散數據不是用戶需求的相關性數據點[15]。 通過上述過程實現了多維離散數據相關性檢測系統的運行,完成了多維離散數據的相關性檢測,為數據庫的應用提供了先進的技術支撐。 3? 系統性能測試 上述過程實現了多維離散數據相關性檢測系統的設計與運行,但是對其是否可以解決現有系統存在的問題還無法確定,因此,設計仿真對比實驗對系統性能進行驗證與分析。 在實驗過程中,主要采用設計系統、基于關系矩陣融合的多維離散數據相關性檢測系統及基于粗糙集理論的多維離散數據相關性檢測系統進行對比實驗。由于檢測過程的差別,實驗過程也存在著較大的差異,為了保障實驗結果的準確性,對實驗外部環境參數進行統一設置,通過檢測精度與可擴展性指標對系統性能進行體現。具體的實驗結果分析過程如下所示。 3.1? 檢測精度對比分析 檢測精度指的是多維離散數據相關性檢測的準確率,因此,檢測精度越高,表示系統性能越好。通過實驗得到檢測精度對比情況如表1所示。 如表1所示,設計系統與現有兩種系統檢測精度值差異較為明顯,設計系統檢測精度遠遠高于現有兩種系統,其最大值可以達到93%。 3.2? 可擴展性對比分析 系統的可擴展性與數據庫的存儲空間有著較大的聯系,因此,為了增強實驗結果的精準性,分別在存儲空間為5 TB與15 TB的情況下對可擴展性進行實驗,通過實驗得到可擴展性參數對比情況,如圖4,圖5所示。由圖可知,本文設計系統的擴展性參數更高,其擴展性更好。 通過實驗結果可知,本文設計的多維離散數據相關性檢測系統極大地提升了檢測精度與可擴展性,充分說明設計的多維離散數據相關性檢測系統具備更好的檢測性能。 4? 結? 語 本文設計的多維離散數據相關性檢測系統極大地提升了檢測精度與可擴展性,為數據庫的應用提供了先進的技術支撐。但是檢測精度依舊有上升空間,需要對多維離散數據相關性檢測系統進行進一步的研究與優化。 參考文獻 [1] 陸釗.嵌入式數據庫中多維離散數據檢測仿真[J].計算機仿真,2017,34(3):400?403. [2] 張怡,熊朝陽,張加萬.多維數據的不確定性可視相關分析[J].計算機輔助設計與圖形學學報,2018,30(6):1089?1099. [3] 陳誼,張聰.一種基于維度投影的多維數據相關性可視分析方法[J].計算機輔助設計與圖形學學報,2018,30(4):592?601. [4] 石剛,劉婷,賀鏗,等.冠狀動脈病變與QT離散度的相關性分析[J].基層醫學論壇,2017,21(34):4845?4846. [5] 粘冬曉,杜慶治,龍華.基于數據間相關性的異常檢測方法[J].數據通信,2018(6):44?47. [6] 柴政,劉晨,朱美玲,等.基于多源傳感數據相關性分析的電廠設備故障檢測方法[J].計算機與數字工程,2019,47(3):682?688. [7] 崔小娜.高速公路瀝青路面檢測數據與養護的相關性[J].山東交通科技,2018(2):88?90. [8] 邱辰霖,程禮,何衛鋒.一種基于數據間相關性的激光噴丸聲學監測技術[J].振動與沖擊,2017,36(4):139?143. [9] 周志光,湯成,劉玉華,等.降維空間視覺認知增強的多維時變數據可視分析方法[J].計算機輔助設計與圖形學學報,2018,30(7):1194?1204. [10] 劉念,劉宇.基于聚類分析算法的海量關系數據可視化技術研究[J].電子設計工程,2018,26(10):92?95. [11] 周志光,胡迪欣,劉亞楠,等.面向空氣質量監測數據時空多維屬性的可視分析方法[J].計算機輔助設計與圖形學學報,2017,29(8):1477?1487. [12] 劉希玉,姜珍妮,趙玉禎.鏈式膜系統及直接(間接)膜算法與聚類分析研究進展[J].安徽大學學報(自然科學版),2018,42(3):11?17. [13] 鄒磊,朱晶,聶曉輝.基于聚類的多維數據熱點發現算法[J].小型微型計算機系統,2019,40(3):465?471. [14] 王玲,孟建瑤,徐培培,等.基于多維時間序列形態特征的相似性動態聚類算法[J].工程科學學報,2017,39(7):1114?1122. [15] 張玉超,王民川,黃繼海.定向信息推薦下多維信任數據協同推薦算法研究[J].科學技術與工程,2017,17(19):201?206. 作者簡介:方加娟(1975—),女,河南新鄉人,教授,主要從事計算機軟件技術應用研究及教學工作。 李? 凱(1980—),男,河南鄭州人,碩士,講師,研究方向為網絡安全、軟件工程。