宮護震
(陜西國防工業職業技術學院計算機與軟件學院,陜西 西安 710300)
數據庫集成可以提升數據的傳輸能力和分類精度,數據庫集成使用范圍較廣,在數據分類、生物信息處理、數據融合等方面被廣泛應用。目前,可采用數據庫集成方法將數據庫中多種數據進行融合,同時采用集成學習方法將融合后的數據整合在一起,獲得集成度較高、泛化能力較強的數據融合結果,隨著數據種類的不斷增加,數據庫集成方法變得愈加復雜,集成效率在逐漸降低[1-2]。
為了提升異構數據的融合和處理能力,國內的專家學者們提出了不同的數據庫集成方法[3-4]。有學者基于機器學習提出了小型數據庫集成方法,通過建立機器學習模型,調整數據庫集成過程中的有限數據可變參數,并在數據庫并行集成的基礎上,通過動態數據集獲取數據庫集成模型,以數據庫集成模型實現小型數據庫的集成,該方法提升了機器學習的價值,通過數據庫集成模型獲得了準確度較高的集成復雜度結果,但該集成方法的集成精度較低,數據失效率較高,有些學者提出了基于樸素貝葉斯的數據庫集成方法,建立了數據庫訓練樣本模型,通過樣本模型實現了數據庫的集成,但該方法集成效果較差、集成時間較長[5-6]。
為了解決以上問題,該文提出了基于異構數據融合的數據庫智能集成方法,對數據集進行了并行集成處理,最后通過實驗研究,驗證了該文方法的實際使用效果。
基于異構數據融合理論,多數據源的異構數據融合主要包括權重平均計算、D-S 證據理論選取和投票表決,具體的融合過程如圖1 所示。

圖1 多元異構數據融合
1)權重平均計算
進行多元異構數據融合,通過計算各異構數據的支持度大小判斷融合效果的優劣,具有易操作性和高精度性,考慮異構數據來源的重要程度等特點,首先需建立權重指標明確影響異構數據融合的因素,采用權重值表示各影響因素的重要程度,各異構數據的支持度計算公式如下[7]:

其中,I表示各異構數據的支持度;wi表示各影響因素的權重值;tij表示異構數據i對第j類數據融合的支持度[8]。
由于異構數據融合影響因素重要程度的確定中包含主觀因素,因此在最終結果呈現上往往具有主觀性[9-10]。
2)D-S 證據理論選取
D-S 證據理論建立在基本概率分配函數基礎上,能夠處理異構數據融合過程中的不確定性。D-S證據理論的原理是將所有待融合數據所有可能的融合結果構成的空間定義為數據融合框架D,記數據融合框架的子集為2D,?A?D,定義:

其中,m(?)=0,?為空集,則m為2D上基本概率分配函數,在某種程度上,表示了D-S 證據對數據融合框架子集的信任度分配。
實際應用中,針對同一類別的數據融合因D-S證據不同,可能得到不同的m,因此,綜合考慮所有類別的D-S 證據后,得到以下m值的確定式:

其中,K為m值確定系數。
由于基本概率分配函數的計算過程較為復雜,只有在數據融合框架D中的元素全部滿足互斥條件下才能引用D-S 證據理論,因此基于D-S 證據理論的異構數據融合方法的應用受到一定限制,且融合速度較慢。
3)投票
將各個異構數據視為投票者,通過比較各融合方式獲得的票數判斷數據融合的優劣,計算公式為:

其中,ai表示第i種融合方法;Sup(ai)表示其獲得票數;Supj(ai)表示數據支持度。
投票法的缺點在于,針對票數相同的數據融合方式,不能作出準確的數據融合,具有一定的融合不確定性,在實際的結果中,往往帶有決策者的主觀意見,需對其融合結果進行進一步的驗證[11-12]。
在上述異構數據融合的基礎上,對多數據源的異構數據進行融合,將經過數據融合后的數據輸入數據庫,按照數據類別分別存儲在相應的子數據庫中,實現數據庫的智能集成,并通過建立公共模型、查詢處理器的查詢分配實現數據查詢和應用[13]。
公共模式是在數據庫數據輸入結束時建立,其目的是便于提取數據庫的關系模式以及方便轉換關系數據模式。其中,數據庫關系模式提取的目的是構建統一的共享數據庫關系模式,即統一化表、字段、屬性的表達格式,確保數據在提取過程中保留完整的數據信息[14]??紤]數據庫的文檔語法存儲規則,無法采用關系表之間的約束實現數據庫關系模式到共享數據庫關系模式的轉換,因此該文提出一種Schema 算法實現以上模式轉換。
Schema 算法的描述如下:
1)為每個異構數據融合結果定義唯一的命名空間。
2)對每一個表、字段創建復雜類型元素集和子元素集,每一個子元素集代表一個數據類型,并在復雜類型元素集中插入一個復雜類型元素,各子元素集對應的數據類型為每個表創建的復雜類型。
3)定義主鍵映射元素為key 屬性,外鍵映射元素為keyref數據,結合表和主鍵或外鍵的關系,對表中的元素進行屬性附加。建立的公共模型如圖2所示。

圖2 公共模型
查詢處理器的查詢分配是將用戶基于總體數據庫查詢視圖下的查詢請求分解為對各個子數據庫的子查詢,并將子查詢請求發送到相應的數據庫,從而簡化數據查詢流程,提高數據查詢精度和效率,以滿足用戶的查詢需求。
查詢分類器在執行數據檢索和分配操作時,要參考公共模式的共享數據庫關系模式,將子查詢結果準確地分配給相應子數據庫,并將提取的子查詢結果以統一的標準格式進行數據輸出?;诋悩嫈祿诤系臄祿煲訶ML 作為數據交換語言,主要采用的查詢分配方式包含GAV 和LAV 兩種。其中,GAV 方法能夠準確地描述數據庫關系模式到單個數據的映射,其應用要求是需為總體數據查詢視圖的每一個數據虛擬關系編寫查詢條件,明確如何從子數據庫中調取相應查詢數據。其優點為查詢速度快、準確率高,缺點是查詢靈活性較差。LAV 查詢方法與其相反,它要求每一個子數據庫指定一個集成視圖查詢,說明集成視圖中的那些數據類型可以在相應子數據庫中找到,其優點是靈活性較強,但查詢過程較為繁瑣,效率較低[15-16]。
為了驗證該文提出的基于異構數據融合的數據庫智能集成方法的實際使用效果,將基于機器學習的小型數據庫集成方法與該文方法進行對比實驗。實驗中采用的數據庫含有8 組經過融合的數據集,實驗過程中,為保證實驗結果的有效性和嚴謹性,將一半數據作為樣本數據,一半數據作為實驗數據。
首先,對比不同方法的集成精度,兩種方法在不同規模的數據集中,集成精度波動結果如圖3 所示。

圖3 集成精度波動結果
通過對實驗結果進行分析可知,在樣本數據規模較小的條件下,樣本數據的數量為100 個時,采用該文方法對數據庫進行集成時,集成精度較高,隨著樣本數據數量的不斷增加,兩種方法的數據庫集成精度均逐漸升高,同時數據融合波動隨著樣本數據量的增加而降低,當樣本數據數量相同時,采用該文提出的基于異構數據融合的數據庫智能集成方法的集成集成較高,數據融合波動范圍較小,而采用基于機器學習的小型數據庫集成方法具有較低的集成精度,數據融合波動范圍較大,當樣本數據量增加到200 個時,該文方法的集成精度最高,波動范圍最小,由于集成精度越高,證明集成效果越高,集成方法越穩定,因此通過該集成精度對比實驗可知,該文方法的集成精度高于基于機器學習的小型數據庫集成方法的集成精度,集成效果最好。
為了對比出不同方法的數據失效率,將兩種集成方法分別應用到數據庫的實例中,在進行異構數據融合時,通過集成處理對融合過程進行調整。數據融合過程為:首先從數據庫中采集部分異構數據,對異構數據進行融合處理,將融合后的數據信息與原始數據信息分離,再從本地數據庫中采集部分數據集的交換信息,通過異構數據融合獲得數據的融合結果,融合處理結束后,每隔5 min 記錄一次數據融合結果,并保存到本地數據庫中,實驗當中進行的數據融合處理選取的數據屬于隨機選取,因此數據融合具有較高的不穩定性,沒有被選擇進行數據融合的數據成為失效數據。兩種方法的數據失效對比結果如圖4 所示。

圖4 數據失效率實驗結果
通過對實驗結果進行分析可知,當數據進行有序融合時,隨著數據集的不斷增加,采用該文提出的基于異構數據融合的數據庫智能集成方法后,數據失效現象減少,失效率較低,而采用基于機器學習的小型數據庫集成方法后,隨著數據集的增加,數據失效率不降反升,數據庫集成效果較差,由此證明了該文方法的數據失效率低于基于機器學習的小型數據庫集成方法。
異構數據融合前,不同種類的異構數據的可變參數不同,參數不同將會影響數據庫的集成時間,當參數處于不同的數值時,統計不同集成方法的集成時間,集成時間對比結果如圖5 所示。

圖5 集成時間實驗結果
對實驗結果進行分析可知,當兩種集成方法的可變參數相同時,該文方法的數據庫集成時間較短,當兩種方法的可變參數不同時,該文提出的基于異構數據融合的數據庫智能集成方法的集成時間短,基于機器學習的小型數據庫集成方法的集成時間較長。綜上所述,該文提出的基于異構數據融合的數據庫智能集成方法優于基于機器學習的小型數據庫集成方法,具有較高的集成精度,較低的數據失效率,較短的數據庫集成時間,集成效果優于機器學習的小型數據庫集成方法。
該文提出了基于異構數據融合的數據庫智能集成方法,該方法通過對數據集進行并行融合處理,實現了數據庫的智能集成,通過實驗驗證了基于異構數據融合的數據庫智能集成方法優于基于機器學習的小型數據庫集成方法,其集成精度較高、集成時間較短,數據失效率較低,集成效果更好,具有較高的應用價值。