999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云計算下小樣本數據庫間差異消除方法研究

2022-04-19 00:46:34趙有俊
計算機仿真 2022年3期
關鍵詞:數據庫差異方法

陳 虹,趙有俊

(景德鎮陶瓷大學,江西 景德鎮 333001)

1 引言

小樣本數據庫是目前常見的數據儲存形式之一[1]。數據質量將直接影響小樣本數據庫的工作效率[2]。特別是小樣本數據庫中的差異數據,會在很大程度上降低小空間存儲信息的質量。

王桌芳等人提出一種基于興趣度度量的多類差異數據挖掘消除方法[3],利用興趣度度量方法檢測大規模差分數據庫,計算數據簇之間距離后獲取隱藏文本數據特征,然后根據數據過濾算法流程對數據進行處理,從而檢測并剔除數據庫內的差異數據。朱贊生等人提出一種基于B樣條曲線的異常數據剔除方法[4],在構造初始擬合數據的基礎上,然后利用B樣條曲線構造遞推模型,并基于樣條平滑方法判斷門限,從而判定數據是否異常,并對于異常數據及時剔除。

但上述兩種方法對差異數據的消除率還有待提高。為此,本文基于云計算技術設計了小樣本數據庫間差異消除方法。根據差異數據相關特征確定異常數據的偏差函數,再在時間序列內去掉差異數據點,最終實現對小樣本數據庫中差異數據的消除。與傳統方法相比,本文方法對差異數據的消除率更高,從而提升了小樣本數據庫的信息儲存質量。

2 云計算數據庫系統

云計算數據庫是現階段較常使用的數據庫之一,其中涵蓋大量不同種類的數據信息,能夠根據要求構建多種多樣的小樣本數據庫,具有很高的實時性、有效性和快速性。云計算數據庫通過集群應用網格技術或分布式文件系統的功能,將網絡中大量不同類型的存儲設備通過應用軟件組合在一起,共同對外提供數據存儲和業務訪問功能。

云計算數據庫體系結構如圖1所示。頂層為應用層,主要為用戶提供對接服務;中間層為服務層,分為應用服務層和分布式服務層,由中間件相連,主要為應用層提供服務;底層為節點存儲層,主要為節點數據提供物理存儲,從而形成完整的數據信息庫。

利用云計算平臺將數據存儲在如圖1所示的數據庫中,結合差異數據消除方法,可以有效保證不同類型的云數據庫不存在重復數據,避免數據異構性等差異,有效降低構建的小樣本數據庫間差異性,從根本上提升數據庫儲存的實時性、快速性和可靠性。

3 數據庫間差異數據消除方法

一般來說,為了增強實驗的有效性,需要利用不同樣本對象進行多次迭代操作,幫助所設計的方法在最真實環境下獲得最優結果,以便更好地進行改進或優化。同時,在本文方法設計過程中,為了提高運算速度,目標數據節點不僅要將源數據節點上的數據集成到目標節點上,還要能夠在一定時間內與源數據節點上的集成數據保持同步。當目標數據節點和源數據節點同步數據時,數據長度要盡可能短,盡可能少地使用傳輸帶寬來完成對不同性質差異數據消除。

3.1 差異數據特征提取

假設當局部空間為線性時,每個小樣本數據庫中的數據采樣點總是處于高維空間映射的低維空間中的相應位置。因此,在分析差異數據特征時,需以性質相同的數據為基礎,提取相關特征量。假設初始差分樣本集為f(x,y),其中,x=0,1…,p-1,y=0,1…q-1,可得出空間相關函數表達式為

(1)

式(1)中,a和b均為正整數。充分結合空間保護的特點,可獲得差異數據庫中數據的自適應分布函數,其表達公式為

(2)

式(2)中:N代表差異數據庫中的數據對象數量,rn代表距數據的有效距離,C(xn)代表數據特征量,k代表數據調整因子[5]。

(3)

式(3)中,ζ代表樣本數據特征提取誤差個數,σ代表懲罰因子,P(X)代表數據分布函數,l代表任意兩數據見的平均間距[6]。通過上述處理,完成了差異數據特征的有效提取。

3.2 差異數據檢測

檢測不同小樣本數據庫中存在的差異數據,是保證有效消除差異數據的重要基礎。本研究在設定閾值的基礎上,以模式識別的方式完成對差異數據的檢測[7]。具體過程如下所示:

如果使用不同類型的數據庫進行屬性匹配操作,數據中存在的性質差異將會嚴重影響結果的準確性。因此,可通過判斷數據庫間可能為相同屬性數據間的相似程度,用以去除差異數據,從而保證檢測和消除結果的質量。

在非線性檢測理論的基礎上,通過Duffing混沌振子判斷小樣本數據庫間差異數據,其混沌模型可以描述為下式

(4)

式(4)中,αd+β代表數據庫的非線性恢復力。當αd+β的數值不變時,那么相關振子系統變化趨勢取決于策動力。當γ=0時,所對應點必須在(0,0)或(+1,0)上。若γ值持續增大時,混沌狀態將轉變為大尺度周期狀態。在此過程中,平臺將展現較強的抗干擾能力。

在檢測過程中,需要獲得合適的參數和策略動態系數,使系統始終處于由混沌狀態到大尺度周期過渡的臨界狀態。如果設置擾動力φ,且使其與驅動力之間存在小的頻率差Δω,那么總驅動力的表達式為

A(φ)=(γcos(x′+y′)+cos(Δω))×t

(5)

式(5)中,t代表時間窗口。由此可知,小頻差會嚴重影響系統的總策略功率,需令系統始終保持混沌與最大尺度周期間的過渡。經過運算得出過度過程的狀態為

(6)

3.3 差異數據的偏差函數

(7)

在此基礎上,設置B代表集合X的分段數,HB代表分段集,可得出整個時間序列的誤差集,其表達式如下

(8)

若時間序列中的第i段由bi代表,g?bi可代表偏差集,則從上述分析來看,如果bi時間序列中的偏差點數為z,那么其均方偏差表達式如下

(9)

(10)

式(10)中,u表示偏差點數。

3.4 確定差異數據點及消除

在小樣本數據庫中,選擇一些數據樣本并對這些數據的屬性展開分類,將每個數據屬性的屬性特征作為一維數據,對數據屬性特征實施聚類。確定數據差異點集的主要原因是運算出偏差函數的最小值[9-10]。

根據相關原理,上文構造了偏差函數W,在此基礎上,構造偏差函數W的遞推表達式VW如下

(11)

分段數為r的時間序列是x1…xr計算了最小均方差的最優策略,獲得其均方偏差計算過程為E(i,j,r)。可以看出,用E(i,j-1,r)代表時間序列j-1的最優策略x1…xr。當分段數為j-1時,此時存在r個偏差[11]。

結合上述過程,若e代表差異數據點,那么需要在時間序列內去掉它,并且偏差函數W的參數需要實時更新。如果e是正常數據點,那么需要添加新的λ變量以更新偏差函數W。因此,需要將e和λ分別進行更新,過程如下

(12)

(13)

通過式(12)和式(13)可知,可通過下式完成對偏差函數W的更新

(14)

通過確定云計算下小樣本數據庫間差異數據點以及偏差函數,可實現對差異數據的檢測,在此基礎上,可實現對小樣本數據庫間差異的消除。同時為了最大程度減少樣本自身信息干擾,需要利用種群算法對不同樣本對象進行多次迭代操作,幫助所設計的方法在最真實環境下獲得最優結果,因此,需要進行個體選擇。當子代中大多數個體的適應度不如父代時,用父代中最好的個體代替子代中最差的個體,這樣可以保證消除結果的收斂性[12]。

為了建立一個穩定的差異數據選擇、消除過程,防止超級個體在種群中過大,需根據個體適應度的順序確定選擇概率,使個體選擇在個體間適應度差距較小時也能夠順利完成。具體過程如下:

第一步:計算組內所有個體的適應度值ηn,同時按降序排列,數n代表個體;

(15)

結合式(15),利用差異備份來對差異數據備份文件和差異指示文件進行保存,并完成消除。

差異數據備份文件用G一元組標記。其中,n代表兩個差異備份文件或增量備份文件之間的差異數據。差異指示文件用I三元組標記,其中d表示數據標志位,w表示指示標志位,兩者的數值取值為1或0。h表示指向數據,作為正整數數據。當d=0,h作為匹配數據在差異基準數據內對應的序號。當d=1且w=0時,h作為匹配數據在G中所對應的的序號。當目標數據節點和源數據節點同步時,占用盡可能少的傳輸帶寬來儲存數據庫內的有效數據。

4 實驗結果與分析

為驗證本研究設計的云計算下小樣本數據庫間差異消除方法的有效性,設計如下仿真加以驗證。

實驗通過2000行以上的C++代碼構建差異數據消除引擎模塊,并為單機服務器配置2.53GHz英特爾酷睿2雙核處理器,存儲池采用4TB內存容量,250GB SAS硬盤,通過千兆以太網(西部數字160gbwd1600 aajsata)和1個固態硬盤(金斯敦64gbssd-nov100series 2.5〃sataii)RAID 0磁盤陣列系統連接一個硬盤和兩個硬盤。為了避免本次實驗結果過于單一、缺乏對比性,將文獻[3]中的基于興趣度度量的多類差異數據挖掘提出方法和文獻[4]中的基于B樣條曲線的異常數據剔除方法作為對比方法,使用本文方法、文獻[3]方法和文獻[4]方法對實驗環境中的差異數據進行消除。繼而檢驗不同方法的應用性能。

為了增強實驗的有效性,根據數據的不同性質將其劃分為DOC數據、TXT數據、PPT數據、VMDK數據、EXE數據、PDF數據六種,在此基礎上,測試本文方法的消除效果,結果如圖2所示。圖2中,左縱坐標代表不同性質文件數據的大小,水平橫坐標代表六種不同屬性的數據,右縱坐標代表差異數據消除率的大小。

圖2 差異消除效果對比圖

分析圖2可知,僅僅在處理DOC文件時,本文方法對差異數據的去除率略小于90%,在處理其余5種類型數據時,本文方法對差異數據的去除率均在90%以上。證明本文方法能夠有效去除差異數據,縮小數據量,具有較高的差異去除率。

為了進一步突出本文算法的應用優勢,將本文方法與文獻[3]方法和文獻[4]方法對差異數據的消除效果進行比較分析,具體對比結果如圖3所示。圖3中,縱坐標為對差異復數據消除率,橫坐標為六種不同的數據屬性。

圖3 不同方法的消除效果對比

通過圖3能清晰地反映出三種不同方法對差異數據的消除效果。其中,本文方法對差異數據的消除率相對最高。文獻[3]方法對差異數據的消除率整體呈上升態勢,但總體消除率小于本文方法。文獻[4]方法對差異數據的消除率相對最小,始終處于85%以下。由此可知,相比于兩種對比方法,本文方法的消除效果更高,能夠有效去除小樣本數據庫中的差異數據,具有高效性和廣泛應用性。

5 結束語

本文提出了一種云計算下小樣本數據庫間差異消除方法,并利用六種不同屬性的數據設計對比實驗,檢測小樣本數據庫間差異數據消除率,從而驗證了本文方法的高效性。

在研究中,為提高對差異數據的消除速度,需將源數據節點上的數據集成到同一個目標節點上,不同來源的集成數據需保持同步,且數據長度要盡可能短,從而減少傳輸帶寬的影響。

在接下來的研究中,將著重于去除數據庫內的冗余數據,進一步提高云計算數據庫數據質量。

猜你喜歡
數據庫差異方法
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
找句子差異
生物為什么會有差異?
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 色爽网免费视频| 色噜噜综合网| 国产精品女人呻吟在线观看| 极品国产一区二区三区| 国产99视频精品免费观看9e| 亚洲欧美激情另类| 欧美亚洲欧美| 麻豆精选在线| 国产一区二区在线视频观看| 亚洲男人天堂2020| 久久人人97超碰人人澡爱香蕉| 国产精品视频系列专区| 色呦呦手机在线精品| 日韩在线第三页| 免费无码网站| 中文字幕亚洲综久久2021| 免费三A级毛片视频| 精品一区二区久久久久网站| 88av在线| 欧美另类一区| 亚洲色图欧美视频| 东京热av无码电影一区二区| 国产95在线 | 日本不卡视频在线| 在线精品视频成人网| 黄色网在线免费观看| 欧美亚洲中文精品三区| 91精品免费高清在线| 亚洲天堂成人在线观看| 四虎成人免费毛片| 免费高清自慰一区二区三区| 四虎成人免费毛片| 国产在线91在线电影| 成人精品视频一区二区在线| 久久久久久久97| 中文字幕 日韩 欧美| 在线视频亚洲色图| 狠狠做深爱婷婷综合一区| 国产又大又粗又猛又爽的视频| 毛片大全免费观看| 欧美翘臀一区二区三区| 久热中文字幕在线观看| 国产91在线免费视频| 香蕉网久久| 乱系列中文字幕在线视频 | 狠狠亚洲婷婷综合色香| 国产又爽又黄无遮挡免费观看| 老司机精品久久| 亚洲婷婷丁香| 国产精品久线在线观看| 国产91小视频在线观看| 在线观看精品国产入口| 国产高清精品在线91| 久久99国产视频| 国产91小视频| 91成人在线观看| 午夜色综合| 日韩精品成人网页视频在线| 亚洲一区二区三区麻豆| 成人午夜天| 国产成人AV大片大片在线播放 | 久久香蕉国产线| av性天堂网| 欧洲熟妇精品视频| 青草视频网站在线观看| 狠狠做深爱婷婷综合一区| 国产午夜无码片在线观看网站 | 国产又粗又猛又爽视频| 久久午夜夜伦鲁鲁片无码免费| 国产第四页| 国产成人综合日韩精品无码首页 | 久久婷婷色综合老司机| 丁香亚洲综合五月天婷婷| 久久人人爽人人爽人人片aV东京热 | 精品夜恋影院亚洲欧洲| 无码丝袜人妻| 亚洲人成色在线观看| 2020国产精品视频| 欧美日韩另类在线| 日韩经典精品无码一区二区| 欧美日本中文| 亚洲人网站|