,,,
作為描述數據模型的數據,元數據對數據資源的內容、結構、價值、使用等各維度進行規范,日益成為數據資源共享的重要組織方式[1-2]。針對不同領域、不同類型的數據資源,眾多組織和學者給出了不同的元數據標準或框架[3-5],用以描述領域數據資源的核心特征。然而,這些標準僅提供了領域數據資源的簡單“核心元數據”,難以滿足不斷擴展的數據資源,尤其是跨領域數據資源集合的描述需求。
針對此問題,相關學者給出了支持擴展數據資源描述的元數據標準或框架的構建方法。Michael Heaney提出了“集合分析模型”,用以描述數據資源集合中實體及關系邏輯[6];Hunter等提出一種基于RDF Schema和XML Schema的元數據互操作方案[7],基于RDF模型的數據資源描述得到了廣泛應用;針對不同領域數據資源擴展描述,國內多位學者給出了多種元數據可擴展及互操作的設計方法[8-11],以解決特定領域數據資源的元數據擴展及互操作問題。可見現有支撐擴展數據資源描述的元數據構建方法,大都面向特定領域數據資源的“靜態構建”,即通過總結領域元數據特征進行歸類,或構建適用于用戶交互的元數據互操作框架。隨著數據資源的爆炸式增長[12],以及跨領域生成抽象領域和特定領域的專業化細分,這些領域元數據構建方法已不能適應當今日益增長的跨領域海量數據資源描述和訪問需求,因此亟需開展面向跨領域海量數據資源的元數據動態構建方法研究。
為滿足用戶跨領域海量數據資源元數據構建需求,本文提出了一種支持用戶自由擴展的跨領域元數據動態構建方法,該方法基于“核心+擴展”的元數據模型,支持用戶對領域數據資源的多元化進行描述和定義,并通過自由擴展元數據動態迭代生成可共用和互操作的跨領域核心元數據,進而為用戶跨領域元數據構建提供一種新的方法框架。
首先構建跨領域數據資源的概念模型。隨著數據資源集成需求日益深化,不同領域生成更大范圍的抽象領域,特定領域也衍生分化出更細分的子領域,據此得以構建跨領域數據資源的概念模型(圖1)。

圖1 跨領域數據資源概念模型
在跨領域概念模型中,領域As由不同子領域A1,A2,A3,…,An構成,這與實際如裝備論證等綜合領域數據資源的構成情況相符。為方便描述,將跨領域As的數據資源亦記為As,根據模型有跨領域數據資源As={A1,A2,A3,…,An},考慮到數據資源交叉重疊,跨領域數據資源As可進一步表示為:As=∪{A1,A2,A3,…,An}。
為了支持用戶對數據資源的多元化描述,采用“核心元數據+擴展元數據”結構,將現有元數據靜態定義進行擴展,進而構建跨領域數據As的元數據Ms。
跨領域元數據Ms,由核心元數據Cs和擴展元數據Ps兩部分構成,表示如下:
Ms=Cs+Ps
(1)
其中,核心元數據Cs是各領域可共用和互操作的核心元數據,可描述各領域數據資源A1,A2,A3,…,An的共同特征;擴展元數據Ps是各領域用戶自由定義的元數據,用戶通過自由定義擴展元數據,可以更準確描述領域數據資源的多樣化特征。
同理,各領域元數據M1,M2,M3,…,Mn也由核心元數據與擴展元數據構成,表示如下:
M=Ck+Pk,k∈{1,2,…,n}
(2)
綜上,由式(1)和式(2)跨領域元數據結構得以定義。

(3)

(4)

(5)
進一步,由擴展元數據動態構建滿足用戶可共用和互操作的領域元數據Mk的核心元數據Ck。
用ΔCk表示由用戶擴展元數據Pk動態構建的核心元數據增量,生成新的核心元數據為C'k,有:
(6)
式(6)中,∩表示生成運算,具體定義如下。

(7)

(8)

在此基礎上,式(6)中核心元數據增量ΔCk可表示為:
(9)

據此,定義生成運算∩:
(10)
由式(4)、(6)、(9)、(10),領域數據資源Ak的領域元數據Mk得以動態構建。
進一步,同理動態構建跨領域數據資源領域元數據的核心元數據。
C's=Cs+ΔCs=Cs+∩C'k,k∈{1,2,…,n}
(11)
式(11)中,生成運算∩與式(10)中領域數據資源Ak領域元數據動態構建生成運算相同。
由式(4)、(6)、(9)、(10)、(11),跨領域數據資源As的領域元數據Ms得以動態構建,跨領域元數據動態構建的具體算法流程如下。
輸入:用戶自由定義的元數據Mk。
輸出:跨領域元數據Ms。
初始條件:領域核心元數據Ck,跨領域核心元數據Cs。
通過用戶輸入,動態迭代如下循環:

布爾矩陣B經生成運算∩生成篩選向量,進一步生成領域核心元數據增量ΔCk;
由ΔCk,生成新的領域核心元數據C'k和領域元數據M'k;
由C'k,生成新的跨領域核心元數據C's,進一步生成跨領域元數據M's。
判斷循環截止,輸出最終跨領域元數據M's。
由跨領域元數據動態構建算法可知,篩選函數S(x)是動態生成跨領域數據資源核心元數據的關鍵。篩選函數S(x)是對布爾矩陣B進行操作的,布爾矩陣B的0-1分布特征直接影響篩選函數的設計,現結合領域數據資源布爾矩陣B的特征,設計篩選函數S(x)。
因數據資源特征不同,以及不同用戶對數據資源的理解不同,自由定義的數據資源元數據描述項會呈現出多元化的特征,故領域數據資源布爾矩陣B的0-1分布與領域數據資源特征和用戶自由擴展數據描述相關。
基于領域數據資源特征和用戶認知特征,對領域數據資源布爾矩陣B的0-1分布作如下假設。
假設1(隨機性假設):假定不同用戶定義領域數據資源擴展元數據時,事先未約定任何規則,憑理解進行自由定義,根據個體活動的隨機性,構建的數據資源布爾矩陣B的0-1分布呈現隨機分布的特征。
在假設1條件下,布爾矩陣的漢明重量向量H滿足定理1。



由獨立伯努力試驗的定義,可知行向量(bi1bi2…bin)的漢明重量Hi滿足二項分布:

得證。
由定理1,通過設置閾值條件,易設計篩選函數S(x)如下:
(12)
假設2(稀疏性假設):假定不同用戶定義對某一子領域數據資源的認知與理解具有一定的相似性,基于領域相似性認知和個體隨機性理解,構建的數據資源布爾矩陣B的0-1分布呈現稀疏分布的特征。
在假設2條件下,布爾矩陣B的漢明重量向量H滿足定理2。
定理2:稀疏性假設條件下,對布爾矩陣B的漢明重量向量H,Hi的期望滿足E(Hi)=rank(BL),BL為布爾矩陣B的低秩部分。
證明:在稀疏性假設條件下,布爾矩陣B滿足稀疏矩陣和低秩矩陣的特征。在此基礎上,采用稀疏矩陣分解的方法,對布爾矩陣B進行分解,有:
B=BL+E
(13)
其中,BL為低秩矩陣,E為稀疏矩陣。
對式(13)進行優化求解,可轉化為如下優化問題:
(14)
其中,‖‖0表示矩陣的0范數即矩陣非0元素個數。
已證明此問題求解為NP難,可進一步轉化為以下凸優化問題[13]:
(15)
其中,‖‖0表示矩陣的核范數即矩陣奇異值之和,‖‖1表示矩陣的1范數即矩陣列向量元素絕對值之和的最大值。
已有諸多方法對以上凸優化問題進行求解[14-16]。在稀疏矩陣分解基礎上,求解行向量(bi1bi2…bin)漢明重量Hi的期望E(Hi),令:
E(Hi)=k
(16)
由期望定義可知:
P(Hi=k)max{P(Hi=j),j∈{0,1,2,…,n}}
(17)
考察布爾矩陣B的行向量(bi1bi2…bin),由稀疏矩陣分解和矩陣行列對稱性可知:
P(Hi=rank(BL))=max{P(Hi=j),j∈{0,1,2,…,n}}
(18)
結合式(16)、(17)、(18),可知:E(Hi)=rank(BL)。
得證。
由定理2,通過設置閾值條件,易設計篩選函數S(x)如下:
(19)
針對設計的跨領域元數據動態構建算法,尤其是兩類假設條件下的篩選函數,利用相關數據集進行實驗驗證。
針對隨機性假設,由于現有領域元數據尚未有自由擴展實踐,隨機性假設條件測試數據集采用隨機模擬的方法生成;針對稀疏性假設,則利用某綜合論證領域元數據集,采用“時間換空間”策略,選用不同時段和領域的元數據生成測試數據集,以滿足稀疏性假設條件。
選用兩類測試數據集,數量級均分別為103、104、105規模,利用本文設計的跨領域元數據動態構建算法和篩選函數,生成跨領域元數據項,從而驗證算法的有效性。Matlab軟件生成實驗結果如圖2和圖3所示。

圖2 隨機性假設核心元數據生成

圖3 稀疏性假設核心元數據生成
圖2為隨機性假設條件下動態構建的核心元數據增量,其中藍色曲線為篩選函數的期望閾值曲線,紅色曲線為基于數據集的動態構建生成數值曲線,在可知實際隨機性條件下,動態構建算法生成的核心元數據增量與理論期望值基本吻合。圖3則為稀疏性假設條件下動態構建的核心元數據增量,其中藍色曲線和紅色曲線定義與圖2相同,在稀疏性假設條件下,動態構建算法生成的核心元數據增量與理論期望值也具有較好的吻合度。
其中,圖2的曲線擬合度相對較高,是因為隨機性假設選用的是隨機生成測試數據;而圖3曲線擬合度存在偏差,說明采用實際數據測試條件下,稀疏性假設條件與實際數據資源元數據描述項分布規律存在一定偏差。
在稀疏性假設條件下,基于某綜合論證領域元數據集,通過區分不同時間階段,利用本文設計算法生成跨領域元數據,并與某綜合論證領域元數據實際變化對比,進一步驗證算法的合理性。Matlab軟件生成實驗結果如圖4和圖5所示。

圖4 稀疏性假設生成跨領域核心元數據

圖5 稀疏性假設生成跨領域核心元數據增量
圖4為稀疏性假設條件下算法生成的不同時間階段跨領域元數據與實際元數據的對比圖,其中紅色曲線為算法生成的跨領域元數據,藍色曲線則為實際元數據,實際元數據為經過需求論證、專家研討和用戶反饋等環節生成的實際使用核心元數據。由圖4可知,算法生成的跨領域元數據比實際元數據的數據項要多,且隨著時間階段和測試數據集規模增長,算法生成與實際元數據項數差也越大,說明本算法生成的元數據項相對實際使用元數據項要更豐富,需經科學論證和取舍后生成實際使用元數據。
圖5為相應時間階段算法生成的跨領域元數據增量與實際元數據增量的對比圖,其中紅色曲線為算法生成的跨領域元數據增量,藍色曲線則為實際元數據增量,紫色曲線為算法生成元數據與實際元數據的增量比率。由圖5可知,算法生成的跨領域元數據增量相對實際元數據增量的絕對值大,但兩者之間的增量比率維持在固定值區間范圍,說明本算法生成跨領域元數據與實踐生成元數據的過程趨勢基本吻合。
針對跨領域元數據動態構建問題,本文在跨領域數據資源概念模型研究基礎上,對跨領域元數據的結構進行了擴展定義,給出“核心+擴展”的跨領域元數據結構,支持用戶對元數據的自由定義。在此基礎上,提出了擴展元數據迭代生成核心元數據的動態構建算法,并通過對數據資源分布矩陣的隨機性假設和稀疏性假設,設計了跨領域元數據動態構建算法中的篩選函數,從而給出了一種可供用戶自由擴展的跨領域數據資源元數據動態構建方法,滿足用戶日益增長的跨領域海量數據資源描述和訪問需求。
篩選函數設計是跨領域元數據動態構建算法的關鍵環節,本文在兩類假設基礎上,對篩選函數進行了相關設計,然而這兩類假設遠不能涵蓋跨領域數據資源的豐富特征,仍需對現有假設進行深入研究與拓展。同時,針對稀疏性假設條件下篩選函數設計,基于海量數據資源的稀疏矩陣分解優化問題求解,也應成為下一步研究的重點。