王春杰 朱保鋒
摘要:分布式網絡數據庫優化索引可提高數據庫的訪問和數據管理能力。傳統方法采用Web數據庫臨界級聯差分耦合方法進行數據庫索引,隨著干擾數據和數據庫規模的增大,數據庫索引準確度不高,語義指向性不好。提出一種基于信息濃縮粒子濾波的分布式網絡數據庫優化索引算法,首先進行分布式網絡數據庫的數據結構分析和特征融合處理,采用信息濃縮粒子濾波方法對干擾數據進行濾除抑制,并采用語義特征波束形成方法進行目標數據的波束聚焦和特征提取,實現數據庫的優化檢索。仿真結果表明,利用該算法進行數據庫索引的準確度較高,收斂性好,執行時間短,展示了較好的應用性能。
關鍵詞關鍵詞:數據庫索引;粒子濾波;分布式網絡
DOIDOI:10.11907/rjdk.161369
中圖分類號:TP391文獻標識碼:A文章編號文章編號:16727800(2016)007015503
0引言
在數據庫訪問中,對數據庫中的語義信息特征索引成為數據庫檢索的基礎技術,通過數據庫優化索引算法設計,可提高數據庫的檢索和訪問能力,相關算法研究也受到了人們的極大重視[1]。傳統方法采用Web數據庫臨界級聯差分耦合方法進行數據庫索引,隨著干擾數據和數據庫規模的增大,數據庫索引的準確度不高,語義指向性不好[2]。對此,相關文獻進行了改進設計,隨著智能算法的應用,采用粒子群算法進行數據庫訪問和索引成為發展趨勢。采用粒子群算法進行數據庫訪問的控制和語義索引過程中,由于粒子群的迭代系數對初始權值的選擇較為敏感,容易陷入局部極值,因而對數據庫的索引性能不好。
近年來,在粒子群控制算法基礎上,許多學者提出了蟻群、粒子群優化算法等人工智能方法進行數據庫訪問過程訓練,取得了一定效果。傳統方法中,對分布式網絡數據庫的實體建模和決策控制算法主要采用小樣本、非線性及高維模式識別方法,如模糊神經網絡決策算法、蟻群算法(ACO)和粒子群算法(PSO)等[35]。在上述算法進行分布式網絡數據庫分析和實體建模過程中,需要進行參數尋優和自適應建模,達到對分布式網絡數據庫預測和控制決策的目的。為了提高數據庫索引精度,本文提出一種基于信息濃縮粒子濾波的分布式網絡數據庫優化索引算法,首先進行分布式網絡數據庫的數據結構分析和特征融合處理,采用信息濃縮粒子濾波方法對干擾數據進行濾除抑制,并采用語義特征波束形成方法進行目標數據的波束聚焦和特征提取,實現數據庫的優化檢索。最后通過仿真實驗進行了性能測試,展示了本文算法的優越性能。
1分布式網絡數據庫數據結構分析與特征融合處理 1.1分布式網絡數據庫數據結構分析
為了進行分布式網絡數據庫的優化索引,需要首先構建分布式網絡數據庫的數據結構模型,進行數據結構的特征分析和數據信息融合處理。本文研究的分布式網絡數據庫的數據存儲節點均勻分布在有向圖G1、G2中,在分布式網格的覆蓋度目標區域A內,有向圖G1和G2的語義節點是均勻線列陣分布的,簇頭節點采用隨機部署方法。數據庫語義相似度節點采用最常用的布爾模型(0/1模型)。網絡級聯分布式數據庫的數據存儲深度空間坐標為(xs,ys),用一個二元有向圖G=(V,E)表示數據分布的編隊系統,網絡數據庫相鄰網格M與節點s的數據索引有效性覆蓋范圍為:SCMN={(si,sj)|d(si,sj)≤Rc,si∈M,sj∈N}(1)其中,M、N為關鍵詞節點間的規模數,設數據庫訪問過程中的語義特征優先級調度向量為Pc,位于(xp,yp)的任意點p的矢量場和sink節點的關聯維數為d(s,p)。分布式網絡數據庫的數據特征空間矢量場分布在區域A,半徑為W×L個22Rc×22Rc的矩形網格。設數據流樣本S=X1,X2,…,Xk,…,每個網格的網絡是一個無向圖 ,關鍵詞索引的語義指向性信息特征表示為EH(s,t)=(V,E)(s≥1,t≥1),在數據庫的有效訪問范圍內計算關鍵詞G1和G2的連接度,計算公式為:a=2n(GC)2n(GC)+mGC(G1)+mGC(G2)(2)每個網格有4個鄰居網格,假設G1=(V,E)和G2=(V′,E′)都為重連通圖,節點對之間的距離由超立方網EH(s,t)的網絡拓撲結構決定。在均勻線列陣區域內,非邊界(邊界網格至少有2個鄰居網格)G1和G2之間的頂點集為:Vt(k)={as+t...at+1at...a11|as+t...at+1=k,
ai∈{0,1},0≤k<2s}(3)假設a1,a2∈V,b1,b2∈V′,對于數據庫索引的語義指向信息EHs(j)和關聯位置EHt(k),添加兩條邊
1.2數據庫的大數據信息特征融合處理
通過對數據庫的大數據信息特征融合處理,為分布式網絡數據庫的優化索引提供準確的數據基礎。假設分布式網絡數據庫路徑優化結果中關鍵詞節點為{v1,v2,…,vn},結合粒子群算法進行大數據融合,得到數據庫調度的加權向量結構權重計算為:weight=∑ni=1∑nj=i+1dist(vi,vj)(8)本文通過模糊C均值聚類得到數據庫的關鍵節點與數據流微簇結構權重,采用dist(vi,vj)表示分布式網絡數據庫訪問中關鍵詞節點vi到vj的最短路徑距離。采用信息度濃縮聚焦方法進行特征融合,在相空間S中,進行關聯維特征匹配。定義數據聚類多波束數據庫矢量場中tf(k,N)的索引信道,數據庫索引過程中信道均衡的運算表達式為:φ(y)=f(yR)+jf(yI)(9)式中,yR和yI分別是y的實部和虛部,建立初始種群,設計一個粒子群濾波的種群適應度函數:數據庫的大數據信息特征融合內容與關鍵詞的差異性特征為一個線性調頻時間序列,采用非線性時間序列分析方法,根據融合參數和φ,得到數據融合時間序列y(k)為:y(k)=a(k)h(k)+n(k) (12)假設用戶輸入了3個關鍵詞,Q={q1,q2,q3},通過大數據信息融合進行數據庫優化索引。
2算法改進設計與實現
在上述分布式網絡數據庫的數據結構分析和特征融合處理的基礎上,進行數據庫優化索引。分析當前算法可知,傳統方法采用Web數據庫臨界級聯差分耦合方法進行數據庫索引,隨著干擾數據和數據庫規模的增大,數據庫索引準確度不高,語義指向性不好。為了克服傳統方法的弊端,本文提出一種基于信息濃縮粒子濾波的分布式網絡數據庫優化索引算法,在進行分布式網絡數據庫的數據結構分析和特征融合處理基礎上,采用信息濃縮粒子濾波方法對干擾數據進行濾除抑制。數據庫分布式狀態下的信息濃縮權重可以采用Z變換求得,根據Z變換的定義,得到數據庫索引語義關鍵信息的輸出變量耦合值R3為:R3 = μo 2πKhlnrw rw ′(13)假設數據庫訪問中信息流的采樣時間間隔區間為s∈[tk,tk+1],則采用粒子濾波方法,進行干擾抑制后的數據庫輸出信息流二階矩特征為:R=μw 2πKh[1mlnReh 2(i + 1)rw + 1.7lnReh rf +
12Zf + 25Z2f + μo μw lnrw rw ′] (14)對分布式數據庫的索引有效性進行信息濃縮聚焦,縮減索引深度。在粒子濾波下,數據庫優化索引的自適應波束形成輸出的關聯匹配量可以表示為:QH=ΔpR=Δpμw2πKhRp(15)其中:Rp = 1mlnReh 2(i + 1)rw + 1.7lnReh rf +
12Zf + 25Z2f + μo μw lnrw rw ′(16)定義Ci為數據庫索引起始時間圖G,其中包括了關鍵詞語義信息x0(tk),采用語義特征波束形成方法進行目標數據的波束聚焦和特征提取,得到數據庫索引的優化輸出z(k)為:z(k)=fTF(k)y(k)-fTB(k)(k)(17)根據波束形成結果進行自適應語義信息素濃度聚焦,通過粒子濾波得到相對狀態序列模型,由此實現算法改進,達到對分布式網絡數據庫優化索引和數據庫訪問的路徑優選目的,算法實現流程如圖2所示。
3仿真實驗與結果分析
為了測試本文提出的方法在實現分布式網絡數據庫優化訪問和信息索引中的性能,進行仿真實驗。實驗采用在Matlab R2012a環境下反復調試程序實現數據挖掘和實體建模,通對數據集進行特征融合處理,采用信息濃縮粒子濾波方法對干擾數據進行濾除抑制,采用語義特征波束形成方法進行目標數據的波束聚焦和特征提取,得到數據庫訪問中數據采樣特征融合及語義特征波束形成結果如圖2所示。
由圖2可見,采用本文算法進行分布式網絡數據庫索引,通過信息濃縮粒子濾波處理,可提高數據庫訪問中的抗干擾能力。為了對比算法性能,采用本文方法和傳統方法進行數據庫索引的精度測試,對比結果如圖3所示。由圖可見,采用該算法進行數據庫索引的準確度較高,收斂性好,執行時間短,展示了較好的應用性能。
參考文獻:
[1]陸科達,萬勵,吳潔明.基于數據挖掘技術的網絡安全事件預測研究[J].科技通報,2012,28(6):3740.
[2]凌妍妍,孟小峰,劉 偉.基于屬性相關度的Web數據庫大小估算方法[J].軟件學報,2008,19(2):224236.
[3]魏利峰,紀建偉,王曉斌.云環境中Web信息抓取技術的研究及應用[J].電子設計工程,2016(4):2931.
[4]陸興華,陳平華.基于定量遞歸聯合熵特征重構的緩沖區流量預測算法[J].計算機科學,2015,42(4):6871.
[5]楊俊,周丙寅,張毅,等.基于遞歸圖分析的壓縮機故障診斷方法研究[J].計算機與數字工程,2013,41(6): 984986.責任編輯(責任編輯:黃健)
第7期 邵桐,朱明東:基于元數據的數據交換系統研究軟 件 導 刊2016年標題