999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法

2019-10-21 07:21:05李瑋瑤
河南科技 2019年29期

李瑋瑤

摘 要:傳統(tǒng)的大數(shù)據(jù)過濾方法,其降噪處理和過濾效果都會對最終結(jié)果產(chǎn)生一定影響,導(dǎo)致過濾效率低下。基于此,本文提出基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法,利用動態(tài)編譯實現(xiàn)數(shù)據(jù)采集過濾,進行分布式離群點檢測,通過網(wǎng)閘過濾對數(shù)據(jù)信息進行過濾。經(jīng)對比試驗,該方法能夠?qū)崿F(xiàn)有效大數(shù)據(jù)的高效過濾,而基于區(qū)域劃分的數(shù)據(jù)過濾方法,無法充分利用試驗環(huán)境中所有實體的數(shù)據(jù)信息,因此不可能實現(xiàn)較高的過濾效率,由此證明了本研究所提方法的實用性和有效性。

關(guān)鍵詞:模糊關(guān)聯(lián)空間;有效大數(shù)據(jù);過濾

中圖分類號:TP312 文獻標識碼:A 文章編號:1003-5168(2019)29-0011-03

An Effective Big Data Filtering Method Based on Fuzzy Correlation Space

LI Weiyao

(School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000)

Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have certain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and filtering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through comparative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method proposed in this study.

Keywords: fuzzy association space;effective big data;filtering

在空間數(shù)據(jù)挖掘研究領(lǐng)域,空間關(guān)聯(lián)規(guī)則具體指的是空間對象彼此間的空間和非空間的相互關(guān)系[1]。因為空間對象彼此間的關(guān)系一般會利用空間和非空間的定語來表示,與之相對應(yīng),挖掘空間的關(guān)聯(lián)規(guī)則就必須借助兩類層次進行充分表達,即概念層次與空間關(guān)系層次[2]。其中,空間關(guān)系層次主要包括空間拓撲構(gòu)造、空間方位層次以及空間度量關(guān)系層次[3]。這些層次的類別構(gòu)造并不具備硬性標準,這就需要適當(dāng)引進模糊隸屬度來對邊界進行軟化,產(chǎn)生模糊概念層次以及模糊空間關(guān)系層次,在這個基礎(chǔ)上所研究的空間關(guān)聯(lián)規(guī)則就是人們常說的模糊空間關(guān)聯(lián)規(guī)則(FSA Rs)[4]。本文以有效大數(shù)據(jù)信息為關(guān)鍵,對其處理和過濾方法進行了研究,希望可以在某些方面給予研究人員一定啟發(fā)。

1 基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法

1.1 利用動態(tài)編譯實現(xiàn)數(shù)據(jù)采集過濾

動態(tài)編譯數(shù)據(jù)采集工具的主要功能是采集數(shù)據(jù)在運行過程中產(chǎn)生的信息,以特殊的格式完成存儲,為后續(xù)分析與過程回放提供有效的數(shù)據(jù)源。首先利用系統(tǒng)配置向?qū)ミx取合適的匹配信息,有關(guān)匹配信息的內(nèi)容主要包括數(shù)據(jù)類別、系統(tǒng)相關(guān)運行信息。其次,配置完成以后,按照具體的配對信息自動生產(chǎn)一組動態(tài)代碼,將動態(tài)代碼組編為動態(tài)編譯,形成一個正式結(jié)構(gòu)。此結(jié)構(gòu)就是針對系統(tǒng)動態(tài)生成的數(shù)據(jù)采集信息。最后,用戶可以在形成的數(shù)據(jù)樹表中選取合適對象的有關(guān)信息。

1.2 構(gòu)建虛假無效數(shù)據(jù)的識別規(guī)則庫

對大數(shù)據(jù)下的有效數(shù)據(jù)樣本進行統(tǒng)一歸類和處理,利用聚類算法對虛假無效數(shù)據(jù)進行必要的聚類集成,得到虛假無效數(shù)據(jù)的全部類別信息,完成虛假無效數(shù)據(jù)的具體分類,按照聚類中心建立的虛假無效數(shù)據(jù)識別規(guī)則庫,建構(gòu)一個完整的虛假無效數(shù)據(jù)識別模型,具體過程如下。

假設(shè)[Z1,Z2,…,ZN]表示大數(shù)據(jù)下有效數(shù)據(jù)樣本,[j=1,2,…,N]表示有效數(shù)據(jù)樣本內(nèi)的具體數(shù)量,為了最大限度地規(guī)避大數(shù)據(jù)環(huán)境下數(shù)據(jù)樣本內(nèi)最大值和最小值的影響,就必須對有效數(shù)據(jù)樣本進行統(tǒng)一歸類處理,有些虛假無效數(shù)據(jù)極有可能屬于同一類型,所以就需要把每一個流量數(shù)據(jù)看作是一個聚類中心。對于流量數(shù)據(jù),其屬于聚類中心的基本概率計算公式為:

[Di=j=1exp(-δZi-Zj)]? ? ? ? ? ? ? ? ? ? ? ?(1)

式中,[δ=4r2a]為一個標準情況下的參量;[Zi-Zj]為其具體的歐式距離大小;[ra]表示其屬于非負數(shù)范圍,表示其鄰域,假設(shè)一個正常運行過程中出現(xiàn)的數(shù)據(jù)出現(xiàn)了多個近鄰數(shù)據(jù),那么該數(shù)據(jù)就極有可能成為聚類中心;[Di]為標準運行數(shù)據(jù)[Zi]和[Zj]之間的歐式距離。

選擇[Di]中概率最大的數(shù)據(jù)作為聚類中心,假設(shè)1代表虛假無效數(shù)據(jù)的規(guī)定類別,其出現(xiàn)概率就以[D1]來表示,可借助式(2)對其余正常運行數(shù)據(jù)被稱為聚類中心的概率進行具體計算。

[?=Di-D1exp(-γZ1-Y1)]? ? ? ? ? ? ? ? ? ?(2)

式中,[γ=4r2b]為一個常數(shù)參量,表示其鄰域?qū)儆赱rb]。

分析式(2)可知,[Z1]表示標準狀態(tài)下運行數(shù)據(jù)出現(xiàn)的第一個類別。當(dāng)?shù)玫降赱K+1]個聚類中心時,其余數(shù)據(jù)均可以視為第[K+1]個聚類中心的概率可借助式(3)獲得:

[χ=Di-Dkexp(-γZi-Yk)]? ? ? ? ? ? (3)

式中,[Yk]為第[K]個虛假無效數(shù)據(jù)類別屬性;[Dk]為其出現(xiàn)概率。

對正常運行狀態(tài)下出現(xiàn)的數(shù)據(jù)概率大致設(shè)定一個范圍,當(dāng)上述過程沒有超過該范圍時,[Dk<0.15D1],就需要停止換代,獲得全部虛假無效數(shù)據(jù)的類別,實現(xiàn)虛假無效數(shù)據(jù)的實時分類。假設(shè)聚類中心[Ck]相對應(yīng)的虛假無效數(shù)據(jù)類別為[C1],那么就可獲取其余虛假無效數(shù)據(jù)識別的運行規(guī)則,即

[RK=??(yk/ak)]? ? ? ? ? ? ? ? ? ? ? ? ? (4)

式中,[?]為正常運行狀態(tài)下數(shù)據(jù)向量的一般維度;[yk]為相對應(yīng)的空間關(guān)聯(lián)模糊規(guī)則;[ak]為一標準常數(shù)。

虛假無效數(shù)據(jù)識別規(guī)則的觸發(fā)可通過式(5)對其進行計算[10],即

[uk=exp(-δ?-Ck)rd]? ? ? ? ? ? ? ? ? ? (5)

式中,[rd]為虛假無效數(shù)據(jù)的聚類半徑。上述虛假無效數(shù)據(jù)的識別規(guī)則轉(zhuǎn)換為以下公式:

[Rk=xop×Akp(-δyk-ak)]? ? ? ? ? ? ? ? ? ? ?(6)

式中,[xop]為大數(shù)據(jù)下第[p]個正常運行數(shù)據(jù)的特征;[Akp]為第[k]條檢測規(guī)則的第[p]個數(shù)據(jù)特征的隸屬度函數(shù)。選用高斯函數(shù)作為隸屬函數(shù),則有

[Akp=exp-12xop-ckp?kp2uk]? ? ? ? ? ? ? ? ?(7)

式中,[ckp]為聚類中心作為[Ck]的第[p]個正常運行狀態(tài)下出現(xiàn)的常規(guī)數(shù)據(jù);[?kp]為聚類中心的擴展范圍。

按照式(7)的計算,對剩余的聚類中心組建相對應(yīng)的識別規(guī)則庫,由此構(gòu)建用于虛假無效數(shù)據(jù)識別的規(guī)則庫,從而獲得該規(guī)則庫下的虛假無效數(shù)據(jù)識別規(guī)則:

[y=K=1UykuKK-1UuK]? ? ? ? ? ? ? ? ? ? ? ? ?(8)

式中,[yk]為第[k]條識別規(guī)則相配置的識別結(jié)果;[u]為識別規(guī)則的總數(shù)。

1.3 實行分布式離群點檢測

如果數(shù)據(jù)集合中存在一定數(shù)量的[pct]部分對象和對[o]的距離超過[DT]限定,對象[o]就作為基于距離的有關(guān)參數(shù)[pct]與[DT]的離群點而存在,即[DB(pct,DT)=Out lie]。如果假設(shè)[k]代表用戶所要求的離群點下的數(shù)目相同,那么其偏離度就是最大的,假設(shè)[k]個對象均屬于離群點,那么其檢測過程大致如下。

確定[k]個簇、[n]個數(shù)據(jù),對[s]個離群點進行敘述,使[out lie Set =K],其中相對離群點集合就被賦予空集的定義,將輸出的簇集視為[KCo];當(dāng)[KCo=OKCo]時,能夠保存涵蓋所有離群點的候選微聚類集合,按照計算結(jié)果獲得數(shù)據(jù)聚類的信息熵以及偏離度,再依次取出各元素,進行計算,根據(jù)結(jié)果判斷出信息熵的值是否在閾值范圍內(nèi),如果計算結(jié)果超出闕值范圍,說明此數(shù)據(jù)不列入離群點內(nèi),排除這類數(shù)據(jù)聚類;在輸出過程中,將離群點重置到[out lie Set ]中。

1.4 利用網(wǎng)閘過濾進行數(shù)據(jù)信息過濾

網(wǎng)閘過濾組織主要用于對不同符號型屬性進行有效分類,如此能夠針對不同的數(shù)據(jù)類型實行更為精準的過濾程序。假定[Fu,v]為過濾組織的過濾閥值,那么[fx,y]就是對應(yīng)條目下Web網(wǎng)絡(luò)內(nèi)所有數(shù)據(jù)含有的甄別屬性,[uπ]則代表數(shù)據(jù)信息提取系數(shù)的對照比,這樣就能夠利用符號型屬性完成公式的建立,即

[F(u,v)=c(u)c(v)4x=0ny=0nf(x,y)+cos(2x+1)uπ16cos(2y+1)vπ16]? (9)

借助式(9)可以有效區(qū)別Web網(wǎng)絡(luò)內(nèi)的數(shù)據(jù)信息,可以降低部分過濾組織的任務(wù)量,也有效提高了過濾組織對數(shù)據(jù)的準確度。通過初級過濾后,將其輸入條件矩陣內(nèi)完成矩陣過濾。假定攜帶符號型屬性的信息數(shù)據(jù)矩陣為[Tij],其需要與條件矩陣[T′ij]進行數(shù)據(jù)轉(zhuǎn)換。

實際運行過程中,對信息數(shù)據(jù)矩陣[Tij]和運行條件矩陣[T′ij]進行對比,實現(xiàn)初級過濾。初級的數(shù)據(jù)過濾不能完全滿足實際需要,因而需要對其閾值進行二次過濾,閾值的二次過濾必須具備一定的對應(yīng)預(yù)處理,如下所示:

[Rk=1IZFYLK+FY2KLa-FY3K+FY4KLB(T)+rk-1](10)

式中,[FYLK]為數(shù)據(jù)信息的雙重權(quán)屬系數(shù);[FY2K]為條件矩陣的符號型屬性;[La]為符合閾值過濾范圍內(nèi)的符號型屬性;[1IZ]為甄別系數(shù);[LB]為數(shù)據(jù)信息屬性中的只讀屬性;[rk-1]為預(yù)處理狀態(tài)下的數(shù)據(jù)參數(shù);[Rk]為預(yù)處理狀態(tài)下的屬性參數(shù)整集。通過預(yù)處理設(shè)置后的數(shù)據(jù)輸入閾值范圍,就能夠?qū)崿F(xiàn)閾值的二次計算,而閾值選擇公式為:

[minW=12i,j=1iyiyj?i?jKxi,xj]? ? ? ? ? ? ? ?(11)

式中,[yi]、[yj]分別為數(shù)據(jù)信息內(nèi)所有的專屬閾值以及特定狀態(tài)下的識別指數(shù);[?i]、[?j]分別為調(diào)取參數(shù)和調(diào)取閾值;[K(xi,xj)]為所屬粒子集群。

如此一來,數(shù)據(jù)信息就能夠完成閾值的二次過濾,大大提高數(shù)據(jù)信息的過濾邏輯性,計算公式如下:

[S=DT+DDB+nΔt]? ? ? ? ? ? ? ? ? ? ?(12)

式中,[T]為數(shù)據(jù)識別的基本屬性;[D]為可以實現(xiàn)數(shù)據(jù)分組操作的數(shù)據(jù)集合;[Δt]為數(shù)據(jù)實際運行狀態(tài)下的轉(zhuǎn)變值,這樣就可以實現(xiàn)其快速分類;[B]為數(shù)據(jù)信息的序列號。

通過上述過程,人們就可以完成對數(shù)據(jù)信息的分類過濾。

2 試驗與效果分析

為了更加直觀地展現(xiàn)基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法的實際應(yīng)用效果,特與傳統(tǒng)的基于區(qū)域劃分的數(shù)據(jù)過濾方法進行對比,對其過濾能力進行比較。

2.1 試驗準備

為保證試驗的準確性,將兩種有效大數(shù)據(jù)過濾方法置于相同的試驗環(huán)境中,進行過濾能力的有關(guān)試驗。

2.2 試驗結(jié)果分析

試驗過程中,兩種不同的有效大數(shù)據(jù)過濾方法同時在相同環(huán)境中工作,而在試驗環(huán)境中,數(shù)據(jù)過濾的目的就是最大限度地減少冗余數(shù)據(jù)的產(chǎn)生,其主要衡量指標即數(shù)據(jù)的過濾效率。試驗效果對比如圖1所示。

通過試驗對比結(jié)果可知,采用基于模糊關(guān)聯(lián)空間理論的數(shù)據(jù)過濾技術(shù)后,合理設(shè)置K值,能夠確保關(guān)聯(lián)體內(nèi)的每一個實體與該關(guān)聯(lián)體間的關(guān)聯(lián)度均超出某一限定值。在整個試驗過程中,數(shù)據(jù)過濾效率是能夠?qū)崿F(xiàn)控制的,模糊關(guān)聯(lián)空間體現(xiàn)出實體之間基于屬性關(guān)聯(lián)度的一種整體關(guān)聯(lián),這也是數(shù)據(jù)過濾的本質(zhì)目的;而基于區(qū)域劃分的數(shù)據(jù)過濾方法,無法充分利用試驗環(huán)境中所有實體的數(shù)據(jù)信息,因此不可能實現(xiàn)較高的過濾效率。試驗證明,本文所提設(shè)計方法具有很高的實用性和有效性。

3 結(jié)語

本文對基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法進行分析,根據(jù)模糊關(guān)聯(lián)空間理論和概念,對大數(shù)據(jù)過濾方法進行優(yōu)化,實現(xiàn)設(shè)計目的。試驗論證表明,本文設(shè)計的方法具備極高的有效性。希望本研究能夠為基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法提供理論依據(jù)。

參考文獻

[1]謝燁,陳熙哲,丁宇.有效大數(shù)據(jù)信息處理與過濾[J].現(xiàn)代信息科技,2017(5):117-118.

[2]羅弦,馮浩,王逸兮,等.Web環(huán)境下大數(shù)據(jù)動態(tài)不良信息安全過濾系統(tǒng)設(shè)計[J].電子設(shè)計工程,2017(24):15-19.

[3]趙珂,彭清暢,劉光俊.大數(shù)據(jù)實時流計算的高鐵轉(zhuǎn)向架數(shù)據(jù)過濾算法研究[J].軟件,2018(11):88-95.

[4]汪苗苗,焦學(xué)磊.概率數(shù)學(xué)模型在數(shù)據(jù)過濾中的應(yīng)用研究[J].科技通報,2019(6):20-23.

主站蜘蛛池模板: 久久久国产精品无码专区| 浮力影院国产第一页| 日韩精品无码一级毛片免费| 亚洲天堂网在线观看视频| 久久亚洲综合伊人| 91在线日韩在线播放| 国产精品9| 99在线视频免费| 精品亚洲欧美中文字幕在线看 | 亚洲色图在线观看| 日韩在线永久免费播放| 美女被操91视频| 极品国产在线| 黄色在线网| 国产嫖妓91东北老熟女久久一| 亚洲欧洲一区二区三区| 亚洲资源在线视频| 亚洲国产成人自拍| 久久亚洲国产视频| 亚洲av无码成人专区| 青青草a国产免费观看| 九九这里只有精品视频| 精品偷拍一区二区| 欧美国产视频| 超碰91免费人妻| 亚洲系列中文字幕一区二区| 美女免费精品高清毛片在线视| 亚洲无码不卡网| 亚洲精品无码av中文字幕| 日韩欧美中文在线| 成人毛片免费在线观看| 亚洲a级在线观看| 久久动漫精品| 国产免费自拍视频| 久久久久亚洲Av片无码观看| 女高中生自慰污污网站| 亚洲最猛黑人xxxx黑人猛交| 国模在线视频一区二区三区| 国内精品九九久久久精品 | 欧美激情一区二区三区成人| 在线人成精品免费视频| 亚洲毛片一级带毛片基地| 另类欧美日韩| 天天色天天综合| 久久久亚洲色| 91伊人国产| 久久久精品无码一二三区| 欧美综合成人| 91福利免费| 国产成人精品在线| 免费人成视网站在线不卡| 日韩欧美亚洲国产成人综合| 国产亚洲精品97AA片在线播放| 亚洲日韩高清无码| 美女扒开下面流白浆在线试听| 国产熟女一级毛片| 亚洲色成人www在线观看| 中日无码在线观看| 国产91蝌蚪窝| 精品国产成人av免费| 波多野吉衣一区二区三区av| 亚洲综合婷婷激情| 国产精品久线在线观看| 99视频有精品视频免费观看| 亚洲天堂网在线视频| 日韩精品毛片| 国产精品自在拍首页视频8| 国产毛片一区| 日本精品一在线观看视频| 1769国产精品免费视频| 综合亚洲网| 久久永久视频| 亚洲精品午夜天堂网页| 青青国产视频| 国产欧美视频综合二区| 中文一级毛片| 色香蕉网站| 国产成人亚洲精品色欲AV| 天天色综合4| 国产成人永久免费视频| 日韩区欧美区| 国产色图在线观看|