李瑋瑤



摘 要:傳統(tǒng)的大數(shù)據(jù)過濾方法,其降噪處理和過濾效果都會對最終結(jié)果產(chǎn)生一定影響,導(dǎo)致過濾效率低下。基于此,本文提出基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法,利用動態(tài)編譯實現(xiàn)數(shù)據(jù)采集過濾,進行分布式離群點檢測,通過網(wǎng)閘過濾對數(shù)據(jù)信息進行過濾。經(jīng)對比試驗,該方法能夠?qū)崿F(xiàn)有效大數(shù)據(jù)的高效過濾,而基于區(qū)域劃分的數(shù)據(jù)過濾方法,無法充分利用試驗環(huán)境中所有實體的數(shù)據(jù)信息,因此不可能實現(xiàn)較高的過濾效率,由此證明了本研究所提方法的實用性和有效性。
關(guān)鍵詞:模糊關(guān)聯(lián)空間;有效大數(shù)據(jù);過濾
中圖分類號:TP312 文獻標識碼:A 文章編號:1003-5168(2019)29-0011-03
An Effective Big Data Filtering Method Based on Fuzzy Correlation Space
LI Weiyao
(School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000)
Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have certain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and filtering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through comparative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method proposed in this study.
Keywords: fuzzy association space;effective big data;filtering
在空間數(shù)據(jù)挖掘研究領(lǐng)域,空間關(guān)聯(lián)規(guī)則具體指的是空間對象彼此間的空間和非空間的相互關(guān)系[1]。因為空間對象彼此間的關(guān)系一般會利用空間和非空間的定語來表示,與之相對應(yīng),挖掘空間的關(guān)聯(lián)規(guī)則就必須借助兩類層次進行充分表達,即概念層次與空間關(guān)系層次[2]。其中,空間關(guān)系層次主要包括空間拓撲構(gòu)造、空間方位層次以及空間度量關(guān)系層次[3]。這些層次的類別構(gòu)造并不具備硬性標準,這就需要適當(dāng)引進模糊隸屬度來對邊界進行軟化,產(chǎn)生模糊概念層次以及模糊空間關(guān)系層次,在這個基礎(chǔ)上所研究的空間關(guān)聯(lián)規(guī)則就是人們常說的模糊空間關(guān)聯(lián)規(guī)則(FSA Rs)[4]。本文以有效大數(shù)據(jù)信息為關(guān)鍵,對其處理和過濾方法進行了研究,希望可以在某些方面給予研究人員一定啟發(fā)。
1 基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法
1.1 利用動態(tài)編譯實現(xiàn)數(shù)據(jù)采集過濾
動態(tài)編譯數(shù)據(jù)采集工具的主要功能是采集數(shù)據(jù)在運行過程中產(chǎn)生的信息,以特殊的格式完成存儲,為后續(xù)分析與過程回放提供有效的數(shù)據(jù)源。首先利用系統(tǒng)配置向?qū)ミx取合適的匹配信息,有關(guān)匹配信息的內(nèi)容主要包括數(shù)據(jù)類別、系統(tǒng)相關(guān)運行信息。其次,配置完成以后,按照具體的配對信息自動生產(chǎn)一組動態(tài)代碼,將動態(tài)代碼組編為動態(tài)編譯,形成一個正式結(jié)構(gòu)。此結(jié)構(gòu)就是針對系統(tǒng)動態(tài)生成的數(shù)據(jù)采集信息。最后,用戶可以在形成的數(shù)據(jù)樹表中選取合適對象的有關(guān)信息。
1.2 構(gòu)建虛假無效數(shù)據(jù)的識別規(guī)則庫
對大數(shù)據(jù)下的有效數(shù)據(jù)樣本進行統(tǒng)一歸類和處理,利用聚類算法對虛假無效數(shù)據(jù)進行必要的聚類集成,得到虛假無效數(shù)據(jù)的全部類別信息,完成虛假無效數(shù)據(jù)的具體分類,按照聚類中心建立的虛假無效數(shù)據(jù)識別規(guī)則庫,建構(gòu)一個完整的虛假無效數(shù)據(jù)識別模型,具體過程如下。
假設(shè)[Z1,Z2,…,ZN]表示大數(shù)據(jù)下有效數(shù)據(jù)樣本,[j=1,2,…,N]表示有效數(shù)據(jù)樣本內(nèi)的具體數(shù)量,為了最大限度地規(guī)避大數(shù)據(jù)環(huán)境下數(shù)據(jù)樣本內(nèi)最大值和最小值的影響,就必須對有效數(shù)據(jù)樣本進行統(tǒng)一歸類處理,有些虛假無效數(shù)據(jù)極有可能屬于同一類型,所以就需要把每一個流量數(shù)據(jù)看作是一個聚類中心。對于流量數(shù)據(jù),其屬于聚類中心的基本概率計算公式為:
[Di=j=1exp(-δZi-Zj)]? ? ? ? ? ? ? ? ? ? ? ?(1)
式中,[δ=4r2a]為一個標準情況下的參量;[Zi-Zj]為其具體的歐式距離大小;[ra]表示其屬于非負數(shù)范圍,表示其鄰域,假設(shè)一個正常運行過程中出現(xiàn)的數(shù)據(jù)出現(xiàn)了多個近鄰數(shù)據(jù),那么該數(shù)據(jù)就極有可能成為聚類中心;[Di]為標準運行數(shù)據(jù)[Zi]和[Zj]之間的歐式距離。
選擇[Di]中概率最大的數(shù)據(jù)作為聚類中心,假設(shè)1代表虛假無效數(shù)據(jù)的規(guī)定類別,其出現(xiàn)概率就以[D1]來表示,可借助式(2)對其余正常運行數(shù)據(jù)被稱為聚類中心的概率進行具體計算。
[?=Di-D1exp(-γZ1-Y1)]? ? ? ? ? ? ? ? ? ?(2)
式中,[γ=4r2b]為一個常數(shù)參量,表示其鄰域?qū)儆赱rb]。
分析式(2)可知,[Z1]表示標準狀態(tài)下運行數(shù)據(jù)出現(xiàn)的第一個類別。當(dāng)?shù)玫降赱K+1]個聚類中心時,其余數(shù)據(jù)均可以視為第[K+1]個聚類中心的概率可借助式(3)獲得:
[χ=Di-Dkexp(-γZi-Yk)]? ? ? ? ? ? (3)
式中,[Yk]為第[K]個虛假無效數(shù)據(jù)類別屬性;[Dk]為其出現(xiàn)概率。
對正常運行狀態(tài)下出現(xiàn)的數(shù)據(jù)概率大致設(shè)定一個范圍,當(dāng)上述過程沒有超過該范圍時,[Dk<0.15D1],就需要停止換代,獲得全部虛假無效數(shù)據(jù)的類別,實現(xiàn)虛假無效數(shù)據(jù)的實時分類。假設(shè)聚類中心[Ck]相對應(yīng)的虛假無效數(shù)據(jù)類別為[C1],那么就可獲取其余虛假無效數(shù)據(jù)識別的運行規(guī)則,即
[RK=??(yk/ak)]? ? ? ? ? ? ? ? ? ? ? ? ? (4)
式中,[?]為正常運行狀態(tài)下數(shù)據(jù)向量的一般維度;[yk]為相對應(yīng)的空間關(guān)聯(lián)模糊規(guī)則;[ak]為一標準常數(shù)。
虛假無效數(shù)據(jù)識別規(guī)則的觸發(fā)可通過式(5)對其進行計算[10],即
[uk=exp(-δ?-Ck)rd]? ? ? ? ? ? ? ? ? ? (5)
式中,[rd]為虛假無效數(shù)據(jù)的聚類半徑。上述虛假無效數(shù)據(jù)的識別規(guī)則轉(zhuǎn)換為以下公式:
[Rk=xop×Akp(-δyk-ak)]? ? ? ? ? ? ? ? ? ? ?(6)
式中,[xop]為大數(shù)據(jù)下第[p]個正常運行數(shù)據(jù)的特征;[Akp]為第[k]條檢測規(guī)則的第[p]個數(shù)據(jù)特征的隸屬度函數(shù)。選用高斯函數(shù)作為隸屬函數(shù),則有
[Akp=exp-12xop-ckp?kp2uk]? ? ? ? ? ? ? ? ?(7)
式中,[ckp]為聚類中心作為[Ck]的第[p]個正常運行狀態(tài)下出現(xiàn)的常規(guī)數(shù)據(jù);[?kp]為聚類中心的擴展范圍。
按照式(7)的計算,對剩余的聚類中心組建相對應(yīng)的識別規(guī)則庫,由此構(gòu)建用于虛假無效數(shù)據(jù)識別的規(guī)則庫,從而獲得該規(guī)則庫下的虛假無效數(shù)據(jù)識別規(guī)則:
[y=K=1UykuKK-1UuK]? ? ? ? ? ? ? ? ? ? ? ? ?(8)
式中,[yk]為第[k]條識別規(guī)則相配置的識別結(jié)果;[u]為識別規(guī)則的總數(shù)。
1.3 實行分布式離群點檢測
如果數(shù)據(jù)集合中存在一定數(shù)量的[pct]部分對象和對[o]的距離超過[DT]限定,對象[o]就作為基于距離的有關(guān)參數(shù)[pct]與[DT]的離群點而存在,即[DB(pct,DT)=Out lie]。如果假設(shè)[k]代表用戶所要求的離群點下的數(shù)目相同,那么其偏離度就是最大的,假設(shè)[k]個對象均屬于離群點,那么其檢測過程大致如下。
確定[k]個簇、[n]個數(shù)據(jù),對[s]個離群點進行敘述,使[out lie Set =K],其中相對離群點集合就被賦予空集的定義,將輸出的簇集視為[KCo];當(dāng)[KCo=OKCo]時,能夠保存涵蓋所有離群點的候選微聚類集合,按照計算結(jié)果獲得數(shù)據(jù)聚類的信息熵以及偏離度,再依次取出各元素,進行計算,根據(jù)結(jié)果判斷出信息熵的值是否在閾值范圍內(nèi),如果計算結(jié)果超出闕值范圍,說明此數(shù)據(jù)不列入離群點內(nèi),排除這類數(shù)據(jù)聚類;在輸出過程中,將離群點重置到[out lie Set ]中。
1.4 利用網(wǎng)閘過濾進行數(shù)據(jù)信息過濾
網(wǎng)閘過濾組織主要用于對不同符號型屬性進行有效分類,如此能夠針對不同的數(shù)據(jù)類型實行更為精準的過濾程序。假定[Fu,v]為過濾組織的過濾閥值,那么[fx,y]就是對應(yīng)條目下Web網(wǎng)絡(luò)內(nèi)所有數(shù)據(jù)含有的甄別屬性,[uπ]則代表數(shù)據(jù)信息提取系數(shù)的對照比,這樣就能夠利用符號型屬性完成公式的建立,即
[F(u,v)=c(u)c(v)4x=0ny=0nf(x,y)+cos(2x+1)uπ16cos(2y+1)vπ16]? (9)
借助式(9)可以有效區(qū)別Web網(wǎng)絡(luò)內(nèi)的數(shù)據(jù)信息,可以降低部分過濾組織的任務(wù)量,也有效提高了過濾組織對數(shù)據(jù)的準確度。通過初級過濾后,將其輸入條件矩陣內(nèi)完成矩陣過濾。假定攜帶符號型屬性的信息數(shù)據(jù)矩陣為[Tij],其需要與條件矩陣[T′ij]進行數(shù)據(jù)轉(zhuǎn)換。
實際運行過程中,對信息數(shù)據(jù)矩陣[Tij]和運行條件矩陣[T′ij]進行對比,實現(xiàn)初級過濾。初級的數(shù)據(jù)過濾不能完全滿足實際需要,因而需要對其閾值進行二次過濾,閾值的二次過濾必須具備一定的對應(yīng)預(yù)處理,如下所示:
[Rk=1IZFYLK+FY2KLa-FY3K+FY4KLB(T)+rk-1](10)
式中,[FYLK]為數(shù)據(jù)信息的雙重權(quán)屬系數(shù);[FY2K]為條件矩陣的符號型屬性;[La]為符合閾值過濾范圍內(nèi)的符號型屬性;[1IZ]為甄別系數(shù);[LB]為數(shù)據(jù)信息屬性中的只讀屬性;[rk-1]為預(yù)處理狀態(tài)下的數(shù)據(jù)參數(shù);[Rk]為預(yù)處理狀態(tài)下的屬性參數(shù)整集。通過預(yù)處理設(shè)置后的數(shù)據(jù)輸入閾值范圍,就能夠?qū)崿F(xiàn)閾值的二次計算,而閾值選擇公式為:
[minW=12i,j=1iyiyj?i?jKxi,xj]? ? ? ? ? ? ? ?(11)
式中,[yi]、[yj]分別為數(shù)據(jù)信息內(nèi)所有的專屬閾值以及特定狀態(tài)下的識別指數(shù);[?i]、[?j]分別為調(diào)取參數(shù)和調(diào)取閾值;[K(xi,xj)]為所屬粒子集群。
如此一來,數(shù)據(jù)信息就能夠完成閾值的二次過濾,大大提高數(shù)據(jù)信息的過濾邏輯性,計算公式如下:
[S=DT+DDB+nΔt]? ? ? ? ? ? ? ? ? ? ?(12)
式中,[T]為數(shù)據(jù)識別的基本屬性;[D]為可以實現(xiàn)數(shù)據(jù)分組操作的數(shù)據(jù)集合;[Δt]為數(shù)據(jù)實際運行狀態(tài)下的轉(zhuǎn)變值,這樣就可以實現(xiàn)其快速分類;[B]為數(shù)據(jù)信息的序列號。
通過上述過程,人們就可以完成對數(shù)據(jù)信息的分類過濾。
2 試驗與效果分析
為了更加直觀地展現(xiàn)基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法的實際應(yīng)用效果,特與傳統(tǒng)的基于區(qū)域劃分的數(shù)據(jù)過濾方法進行對比,對其過濾能力進行比較。
2.1 試驗準備
為保證試驗的準確性,將兩種有效大數(shù)據(jù)過濾方法置于相同的試驗環(huán)境中,進行過濾能力的有關(guān)試驗。
2.2 試驗結(jié)果分析
試驗過程中,兩種不同的有效大數(shù)據(jù)過濾方法同時在相同環(huán)境中工作,而在試驗環(huán)境中,數(shù)據(jù)過濾的目的就是最大限度地減少冗余數(shù)據(jù)的產(chǎn)生,其主要衡量指標即數(shù)據(jù)的過濾效率。試驗效果對比如圖1所示。
通過試驗對比結(jié)果可知,采用基于模糊關(guān)聯(lián)空間理論的數(shù)據(jù)過濾技術(shù)后,合理設(shè)置K值,能夠確保關(guān)聯(lián)體內(nèi)的每一個實體與該關(guān)聯(lián)體間的關(guān)聯(lián)度均超出某一限定值。在整個試驗過程中,數(shù)據(jù)過濾效率是能夠?qū)崿F(xiàn)控制的,模糊關(guān)聯(lián)空間體現(xiàn)出實體之間基于屬性關(guān)聯(lián)度的一種整體關(guān)聯(lián),這也是數(shù)據(jù)過濾的本質(zhì)目的;而基于區(qū)域劃分的數(shù)據(jù)過濾方法,無法充分利用試驗環(huán)境中所有實體的數(shù)據(jù)信息,因此不可能實現(xiàn)較高的過濾效率。試驗證明,本文所提設(shè)計方法具有很高的實用性和有效性。
3 結(jié)語
本文對基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法進行分析,根據(jù)模糊關(guān)聯(lián)空間理論和概念,對大數(shù)據(jù)過濾方法進行優(yōu)化,實現(xiàn)設(shè)計目的。試驗論證表明,本文設(shè)計的方法具備極高的有效性。希望本研究能夠為基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法提供理論依據(jù)。
參考文獻
[1]謝燁,陳熙哲,丁宇.有效大數(shù)據(jù)信息處理與過濾[J].現(xiàn)代信息科技,2017(5):117-118.
[2]羅弦,馮浩,王逸兮,等.Web環(huán)境下大數(shù)據(jù)動態(tài)不良信息安全過濾系統(tǒng)設(shè)計[J].電子設(shè)計工程,2017(24):15-19.
[3]趙珂,彭清暢,劉光俊.大數(shù)據(jù)實時流計算的高鐵轉(zhuǎn)向架數(shù)據(jù)過濾算法研究[J].軟件,2018(11):88-95.
[4]汪苗苗,焦學(xué)磊.概率數(shù)學(xué)模型在數(shù)據(jù)過濾中的應(yīng)用研究[J].科技通報,2019(6):20-23.