劉峰 葉紅

摘 要 在數(shù)據(jù)庫技術(shù)發(fā)展的基礎(chǔ)上,企業(yè)建立了大量的數(shù)據(jù)倉庫,通過數(shù)據(jù)倉庫實現(xiàn)數(shù)據(jù)向決策信息的轉(zhuǎn)化。隨著計算機應(yīng)用的不斷推廣,信息網(wǎng)絡(luò)應(yīng)運而生,有著非常廣泛的應(yīng)用,主要包括同構(gòu)信息網(wǎng)絡(luò)與異構(gòu)信息網(wǎng)絡(luò)兩種實體類型,包含了大量的實體信息與實體關(guān)聯(lián)信息。從多維視角對信息網(wǎng)絡(luò)進(jìn)行分析具有非常重要的意義,本文針對同構(gòu)信息網(wǎng)絡(luò)提出了簡單嵌套立方體,針對異構(gòu)信息網(wǎng)絡(luò)提出了多層嵌套立方體。
【關(guān)鍵詞】信息網(wǎng)絡(luò) 簡單嵌套立方體 多層嵌套立方體
隨著計算機技術(shù)的發(fā)展與數(shù)據(jù)庫應(yīng)用的普及,數(shù)據(jù)主要劃分為操作性與分析性兩種類型。兩種數(shù)據(jù)處理的特點不同決定了其數(shù)據(jù)環(huán)境不同,由此而產(chǎn)生了數(shù)據(jù)倉庫,通過聯(lián)機分析處理方法為決策提供依據(jù)。當(dāng)前,新型數(shù)據(jù)的出現(xiàn)對聯(lián)機分析處理技術(shù)提出了新的要求,需要對其進(jìn)行創(chuàng)新。信息網(wǎng)絡(luò)中的連接分析處理技術(shù)面臨的挑戰(zhàn)為需要一種新的多維數(shù)據(jù)模型來對信息網(wǎng)絡(luò)進(jìn)行描述,當(dāng)數(shù)據(jù)模型發(fā)生變化之后,數(shù)據(jù)存儲模式及物化等都會發(fā)生變化,需要實現(xiàn)聯(lián)機分析處理技術(shù)的創(chuàng)新。
1 信息網(wǎng)絡(luò)概述
數(shù)據(jù)庫并不僅僅是指出數(shù)據(jù)存儲與檢索的倉庫,其中包含了非常多的數(shù)據(jù)類型及相同或不同數(shù)據(jù)類型之間所存在的關(guān)聯(lián)信息等。數(shù)據(jù)庫中所包含的數(shù)據(jù)及數(shù)據(jù)間的關(guān)聯(lián)形成了信息網(wǎng)絡(luò),從而對更具有意義的信息進(jìn)行挖掘。
當(dāng)前,在對信息網(wǎng)絡(luò)進(jìn)行分析的過程中缺乏多維分析工具,對聯(lián)機分析處理提出了新的挑戰(zhàn)。信息網(wǎng)絡(luò)中所包含的結(jié)點代表的是實體,所包含的便代表的是實體之間的關(guān)系。如果信息網(wǎng)絡(luò)中的節(jié)點類型相同,則形成同構(gòu)信息網(wǎng)絡(luò);如果信息網(wǎng)絡(luò)中結(jié)點類型不同,則形成異構(gòu)信息網(wǎng)絡(luò)。在日常生活中信息網(wǎng)絡(luò)有著廣泛的應(yīng)用,例如Facebook、DBLP等。
傳統(tǒng)的聯(lián)機分析處理技術(shù)是以數(shù)據(jù)立方體為基礎(chǔ)的,但是其中只能夠存在一種實體類型且實體類型之間不存在關(guān)聯(lián)。這就導(dǎo)致了連接分析處理技術(shù)不能夠?qū)π畔⒕W(wǎng)絡(luò)多維分析問題進(jìn)行解決。
2 多維分析視角的同構(gòu)信息網(wǎng)絡(luò)分析
2.1 多維網(wǎng)絡(luò)
同構(gòu)信息網(wǎng)絡(luò)屬于新型的數(shù)據(jù)形式,為了對其進(jìn)行分析需要實現(xiàn)簡單模型的建立,以該模型為基礎(chǔ)進(jìn)行分析操作。將同構(gòu)信息網(wǎng)絡(luò)進(jìn)行抽象之后就得到了多維網(wǎng)絡(luò)模型。
例如一個小型的社交網(wǎng)絡(luò),將社交網(wǎng)絡(luò)中的每一個人都視為一個節(jié)點,每一個節(jié)點都具有姓名、國籍、職業(yè)、年齡、學(xué)歷等多維屬性。兩個節(jié)點之間的連線代表著兩人的朋友關(guān)系,可以實現(xiàn)信息的共享,因此兩節(jié)點之間的線中都包含了多條信息,而每條信息中又包含了ID、信息、主題等多維屬性。通過多維網(wǎng)絡(luò)實現(xiàn)了對社交網(wǎng)絡(luò)的建模,從而對社交網(wǎng)絡(luò)中的實體信息進(jìn)行了展示,從而將實體與實體之間具體的關(guān)系進(jìn)行了表示。
2.2 簡單嵌套立方體中的聯(lián)機分析處理操作
在對簡單嵌套立方體進(jìn)行分析的過程中,選取雙向兩層聯(lián)機分析處理查詢方式,主要包括點到邊的查詢與邊到點的查詢兩種類型。為了能夠?qū)@種查詢進(jìn)行更好的理解,沿用上文社交網(wǎng)絡(luò)的例子來進(jìn)行說明。在多維網(wǎng)絡(luò)中可能存在的聯(lián)機分析處理類型的查詢包括:第一,不同國家的人如何實現(xiàn)信息的共享及信息在不同類別如何發(fā)布;第二,對特點信息進(jìn)行分享的人在職業(yè)方面的結(jié)構(gòu)分布。這兩個查詢都涉及到多維網(wǎng)絡(luò)的聚集操作,首先從對應(yīng)的圖立方體中找到對應(yīng)的度量網(wǎng)絡(luò),之后從對應(yīng)的數(shù)據(jù)立方體中找到答案對應(yīng)的度量。
首先,點到邊的查詢。首先對結(jié)點進(jìn)行分析,之后再對邊進(jìn)行分析,也就是所謂的先對圖立方體進(jìn)行多維分析,之后再對動態(tài)生成的數(shù)據(jù)立方體進(jìn)行多維分析。在對上面的第一個類型進(jìn)行查詢的過程中,首先依據(jù)國籍維度對所有的節(jié)點進(jìn)行分組,將在國籍方面具有相同值的節(jié)點劃分到同一組中,同時將這些節(jié)點對應(yīng)的邊進(jìn)行合并,從而得到不同國籍之間所分享的信息,之后再對這些分享信息按照類別對其進(jìn)行劃分。
其次,邊到點的查詢。首先對邊進(jìn)行聯(lián)機分析查詢,之后再對節(jié)點進(jìn)行分析,也就是說先對內(nèi)層數(shù)據(jù)立方體進(jìn)行分析,之后再對動態(tài)生成的圖立方體進(jìn)行分析。在對上文第二類型進(jìn)行查詢的過程中,首先應(yīng)該對所有的共享信息的類別分布進(jìn)行計算,之后在對特定的類型進(jìn)行選定,從而對該類別信息進(jìn)行分享的人進(jìn)行選擇,之后在對這些選擇的人的職業(yè)拓?fù)淝闆r進(jìn)行計算。通過對共享信息類別的分布進(jìn)行計算得知人們對政治信息關(guān)注較多,在選定了政治類別的信息之后,對共享這些政治信息的人們的職業(yè)拓?fù)浞植歼M(jìn)行計算,從而得知教師、醫(yī)師之間進(jìn)行政治信息共享的較多。
3 多維分析視角的異構(gòu)信息網(wǎng)絡(luò)分析
3.1 多維異構(gòu)網(wǎng)絡(luò)
圖1代表一個小型的多維異構(gòu)網(wǎng)絡(luò),其中結(jié)點代表兩種實體,方形代表的是作者,三角形代表的是論文,兩者之間的連線代表論文是該作者所發(fā)表,若兩個三角形指向一個方形,則證明兩篇論文為同一位作家所發(fā)表,如果兩個方形指向一個三角形,則證明兩位作家共同發(fā)表了一篇論文。圖1中的多維異構(gòu)網(wǎng)絡(luò)對文獻(xiàn)網(wǎng)絡(luò)進(jìn)行了形象的刻畫,一方面對作者的合作關(guān)系與論文的出處關(guān)系進(jìn)行了表達(dá),另一方面對作者與論文兩種之間類型之間的關(guān)系進(jìn)行了表達(dá)。在多維網(wǎng)絡(luò)中包含了兩種不同類型的實體,因此將其稱之為兩類型多維異構(gòu)網(wǎng)絡(luò)。
3.2 兩層嵌套立方體
通過兩類型多維異構(gòu)網(wǎng)絡(luò)可以實現(xiàn)兩層嵌套立方體的獲得,由圖1所示的兩類型多維異構(gòu)網(wǎng)絡(luò)可知兩層嵌套立方體主要包括兩種情況:第一,重視對V1類型實體與實體之間的關(guān)聯(lián)進(jìn)行重點研究,則V1類型實體的屬性構(gòu)成了未曾圖立方體的維度,通過對其屬性子集聚集進(jìn)行計算得到圖立方體,將圖立方體的度量作為度量網(wǎng)絡(luò),將V1實體進(jìn)行分組,不同小組之間的V2類型實體的屬性構(gòu)成了內(nèi)層數(shù)據(jù)立方體的維,通過對其屬性子集聚集進(jìn)行計算得到數(shù)據(jù)立方體。數(shù)據(jù)立方體存在與圖立方體的度量中,兩者之前形成嵌套關(guān)系。第二,重視對V2類型實體與實體之間的關(guān)聯(lián)進(jìn)行重點研究,將V2實體集合構(gòu)成外層他立方體,V1類型實體結(jié)合構(gòu)成內(nèi)層數(shù)據(jù)立方體,兩者自檢相互嵌套。
綜上所述,兩層嵌套立方體指的是外層圖立方體中包含內(nèi)層數(shù)據(jù)立方體,同一種類型的實體既可以構(gòu)成內(nèi)層圖立方體,也可以構(gòu)成外層的數(shù)據(jù)立方體。因此,同一個兩種類型多維異構(gòu)網(wǎng)絡(luò)依據(jù)分析角度可以分為兩個兩層嵌套立方體。在兩層嵌套立方體中,兩類對象存在既獨立又關(guān)聯(lián)的關(guān)系。
3.3 多層嵌套立方體
兩種類型的多維網(wǎng)絡(luò)能夠形成對應(yīng)的兩層嵌套立方體。在異構(gòu)信息網(wǎng)絡(luò)中,實體類型包括多種類型,兩層嵌套立方體可以擴(kuò)展成為多層嵌套立方體。例如三種類型的異構(gòu)網(wǎng)絡(luò)能夠形成六個不同的三層嵌套立方體。因此,多維網(wǎng)絡(luò)中的N個實體類型與實體類型之間存在的內(nèi)在聯(lián)系能夠在異構(gòu)網(wǎng)絡(luò)中形成N!個N層嵌套立方體,不同的實體類型能夠在任意一層中出現(xiàn),但是只能夠出現(xiàn)在一層中。
3.4 多層嵌套立方體上的聯(lián)機分析處理操作
在對傳統(tǒng)的數(shù)據(jù)立方體進(jìn)行操作的過程中,主要的操作類型包括切片、上卷、切塊等。這些操作方式在多層嵌套立方體中同樣適應(yīng)。此外,還可以通過復(fù)合查詢的方式對多層嵌套立方體中的多種類型分析對象進(jìn)行查詢。在多層嵌套立方體的聯(lián)機分析處理操作過程中,N層嵌套立方體上的復(fù)合查詢需要N-1次轉(zhuǎn)換分析對象操作,從而形成N-1個部分立方體。
4 總結(jié)
在信息網(wǎng)絡(luò)多維分析方法的研究方面已經(jīng)取得了一定的成果,在已有的研究方法中不能夠?qū)崿F(xiàn)對同構(gòu)信息網(wǎng)絡(luò)的聯(lián)系進(jìn)行深入分析,而且對異構(gòu)信息網(wǎng)絡(luò)的研究也較為缺乏。本文通過立方體相互嵌套的思想對信息網(wǎng)絡(luò)的多維視角分析問題進(jìn)行了解決。針對同構(gòu)信息網(wǎng)絡(luò)提出了簡單嵌套立方體,針對異構(gòu)信息網(wǎng)絡(luò)提出了多層嵌套立方體,對兩者之間的區(qū)別與聯(lián)系進(jìn)行了研究,為基于多維分析視角的信息網(wǎng)絡(luò)研究奠定了理論基礎(chǔ)。
參考文獻(xiàn)
[1]王杰.信息網(wǎng)絡(luò)傳播權(quán)與圖書館信息資源共享的利益沖突分析[J].佳木斯大學(xué)社會科學(xué)學(xué)報,2012,01(36):174-175.
[2]聶章艷,李川,唐常杰,徐洪宇,張永輝,楊寧.面向OLGP的多維信息網(wǎng)絡(luò)數(shù)據(jù)倉庫模型設(shè)計[J].計算機科學(xué)與探索,2014,01(32):51-60.
[3]甘亮,李潤恒,賈焰,劉健.HS-Stream Cube:網(wǎng)絡(luò)安全事件流實時多維分析系統(tǒng)[J].計算機工程與科學(xué),2013,03(24):72-79.
[4]尹為,張成虎,甘凱.基于數(shù)據(jù)流多維分析的可疑金融交易動態(tài)識別[J].北京理工大學(xué)學(xué)報(社會科學(xué)版),2013,05(15):52-59.
作者單位
陜西省科技資源統(tǒng)籌中心 陜西省西安市 710075