999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖的RDF數(shù)據(jù)劃分方法的研究與實現(xiàn)

2016-03-21 08:21:28史騰飛楊夢倫
卷宗 2016年1期

史騰飛 楊夢倫

摘 要:RDF作為支持?jǐn)?shù)據(jù)語義描述的統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)模型,在數(shù)據(jù)表示、數(shù)據(jù)交換及系統(tǒng)框架支撐方面提供了很好的技術(shù)支撐。為了滿足異構(gòu)數(shù)據(jù)的存儲和處理需求,本文針對RDF數(shù)據(jù)管理及處理進行了研究,提出了基于圖拆分的RDF數(shù)據(jù)存儲及優(yōu)化查詢方法,改善RDF數(shù)據(jù)存儲及查詢效率。首先把原始RDF文本數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù)圖,然后運用新的算法將數(shù)據(jù)圖進行語義拆分,使RDF數(shù)據(jù)劃分為耦合度較低的若干部分。通過對邊割比率進行實驗,將基于點權(quán)重的劃分算法與METIS算法和哈希算法進行對比,分析三種方法的優(yōu)缺點。

關(guān)鍵詞:計算機應(yīng)用;算法分析;METIS算法;圖

隨著計算機和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,信息系統(tǒng)的數(shù)量和規(guī)模越來越大,目前web數(shù)據(jù)的管理和處理面臨著半結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)量大、查詢速度緩慢、檢索效率低下、可擴展性、普適性等6大主要問題。這些數(shù)據(jù)的特點使異構(gòu)數(shù)據(jù)整合成為一個挑戰(zhàn)性的問題。RDF作為支持?jǐn)?shù)據(jù)語義描述的一種統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)模型,在數(shù)據(jù)表示、數(shù)據(jù)交換及系統(tǒng)框架支撐方面提供了很好的技術(shù)支撐。如何對分布式存儲的數(shù)據(jù)進行較好地劃分是目前需要解決的重要問題。

因此,本文主要以提高使用SPARQL查詢語句在RDF大數(shù)據(jù)中檢索效率為主要目標(biāo),依據(jù)METIS算法核心思想,提出了一種新的圖劃分算法方案——基于圖的RDF數(shù)據(jù)存儲及查詢方法,該方法能改善RDF數(shù)據(jù)存儲及查詢效率,為數(shù)據(jù)的處理提供更好的系統(tǒng)和方法上的支撐。

相關(guān)技術(shù)

數(shù)據(jù)形式——RDF

資源描述框架(RDF)作為支持?jǐn)?shù)據(jù)語義描述的一種統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)模型,在數(shù)據(jù)表示、數(shù)據(jù)交換及系統(tǒng)框架支撐方面提供了很好的技術(shù)支撐。RDF使用一個圖數(shù)據(jù)模型,其中不同實體是圖中的頂點,它們之間的關(guān)系用邊來表示。關(guān)于每個實體的信息用從頂點到該實體發(fā)出的有向邊表示,其中邊是連接頂點到其他實體的,或者到特殊的“文字的”頂點,該頂點包括對于該實體的一個特殊的屬性值。

圖1顯示一個RDF示例圖。例如,圖中的邊表示實體“教師0”是“教授類型”類型的,屬于“院系0”,教了“課程1”。在這個圖中,每一個和“教師0”相連的實體能有它們自己的連接集;例如,通過“類型”關(guān)系,“教師0”被顯示和“教授”實體相連。大部分RDF存儲是將RDF圖表示為一個三元組表,表中有一個針對RDF圖的邊的三元組。三元組使用<主語,謂語,賓語>的形式,其中主語是從邊發(fā)出的實體,謂詞是邊的標(biāo)簽,賓語是邊的另一端上的實體或文字的名稱。

0.1圖的數(shù)據(jù)結(jié)構(gòu)圖是一種復(fù)雜的非線性結(jié)構(gòu)。

0.2在處理RDF三元組數(shù)據(jù)時,論文采用的方法是將RDF三元組數(shù)據(jù)按照圖的形式進行劃分,在數(shù)據(jù)結(jié)構(gòu)中,常用的方法是鄰接矩陣、鄰接表和十字鏈表三種存儲形式。本文采用的是鄰接表的形式。偽代碼如下表1。

偽代碼中將主語和賓語用節(jié)點表示,謂語用邊表示。針對每個點,根據(jù)點的ID區(qū)分,ID采用整數(shù)表示,在圖劃分程序中并不存儲每個點的語義。由于采用的是超圖的思想,即每一節(jié)點都是由若干點組成,所以在節(jié)點中記錄了當(dāng)前節(jié)點所包含點的個數(shù),這主要是為計算權(quán)重所服務(wù)的。節(jié)點的最后一個信息是當(dāng)前的節(jié)點被哪個節(jié)點所包含,在初始化的時候這個值是當(dāng)前節(jié)點的ID,即說明當(dāng)前節(jié)點是被自己所包含,如果這個值在計算最后仍然是自己的ID,說明這個節(jié)點只包含自己一個點。將謂語抽象成邊,只需要知道哪個節(jié)點和哪個節(jié)點有關(guān)系即可,所以在圖劃分程序中只存儲自己的ID和點之間的關(guān)系,對于邊的語義信息和點的類似。

1.基于超圖模型的RDF數(shù)據(jù)劃分

本篇論文中采用的是METIS算法的思想,該算法是由明尼蘇達(dá)大學(xué)計算機科學(xué)與信息技術(shù)工程系開發(fā)并且免費發(fā)布的。METIS的實現(xiàn)算法是基于多級圖形分割范例。它可以迅速產(chǎn)生高質(zhì)量的分割。在多層次模式上,總共有三個階段組成:圖粗糙化,圖分割,圖還原。

1.1 圖粗糙化

METIS算法中的圖粗糙化是最重要的一個步驟,這個步驟是將圖中的節(jié)點根據(jù)一定的算法合并成一個新的節(jié)點,這樣會將圖中總節(jié)點數(shù)降低,最后得到一個比較小的圖形。在粗糙化階段,需要將大圖簡化成較小的圖,在簡化的過程中,首先將懸掛點與之相關(guān)聯(lián)的點進行合并,對于合并后的網(wǎng)圖,根據(jù)每個點的密集程度進行合并,采用合并密集程度最大點的所有關(guān)聯(lián)點。

在一個圖中,度數(shù)為1的頂點稱為懸掛頂點。與它關(guān)聯(lián)的邊稱為懸掛邊。在將懸掛點進行化簡的過程中,已經(jīng)將簡單圖變?yōu)槌瑘D。在這個圖中找到密集度最大的點進行化簡,并迭代化簡。在將圖進行粗糙化的過程中,需要牽扯到計算點的權(quán)重這個問題。這是因為在進行圖的粗糙化的過程中,需要將節(jié)點進行合并,由單個點聚集成超點,這樣才能將超大的圖粗糙化,簡化成比較簡單的圖進行接下來的圖分割步驟。在對點的權(quán)重計算過程中,主要依據(jù)兩個原則:

(1)一個點與其他點連接的越多,說明這些點越緊密,在未來查詢過程中越有可能同時被查詢到,需要將這些點存儲在一個存儲節(jié)點中。所以,對于這種情況,應(yīng)該將這些點進行合并,成為超點。

(2)對于語義相同的點應(yīng)該盡可能的進行合并,成為同一個超點,并且存儲在一個存儲節(jié)點中。這些節(jié)點是同一類型的,在未來的查詢過程中很有可能同時被查詢到。

依據(jù)以上兩點,給出計算點的權(quán)重公式如下:

1.2 圖分割

在圖分割之前,需要確定參數(shù)k(k>=1且為整數(shù)),k表示將大圖化簡為k個部分。用圖粗糙化的方法進行化簡至到超圖中節(jié)點數(shù)等于k或者是到超圖中節(jié)點數(shù)小于k之前的一步。如果可以化簡為k個節(jié)點,那么就把k個節(jié)點劃分為k個部分。若不能正好化簡為k個部分,則在節(jié)點數(shù)小于k之前的一步停止。偽代碼如下表2:

在圖劃分的整體算法中,主要通過while循環(huán),一步一步將圖粗糙化,通過節(jié)點的合并,最終達(dá)到劃分目標(biāo)。在兩個主要步驟中,收縮函數(shù)主要負(fù)責(zé)節(jié)點的合并,每次在收縮時,通過循環(huán)遍歷圖中的所有點找到權(quán)重最大的節(jié)點maxVertex,將這個節(jié)點相關(guān)的周圍所有節(jié)點合并產(chǎn)生新的超點,在合并的過程中處理這些點的關(guān)系和這些點間邊的關(guān)系,為接下來圖還原的過程做好準(zhǔn)備。在程序中采用的方法是對處理每個與權(quán)重最大的節(jié)點有關(guān)聯(lián)的節(jié)點relateVertex,首先修改關(guān)聯(lián)的節(jié)點的信息,使之成為最大權(quán)重節(jié)點(超點)的成員,然后刪除關(guān)聯(lián)的節(jié)點,最后刪除原始權(quán)重最大的節(jié)點和關(guān)聯(lián)的節(jié)點邊的信息,計算權(quán)重函數(shù)是對上一步中有變動的節(jié)點信息的更新,主要更新新節(jié)點的權(quán)重、包含點數(shù)等信息。對于權(quán)重依據(jù)的就是前一節(jié)所述的方法。以下分別是Contract函數(shù)與CalculateHeavy函數(shù)的偽代碼:

2.實驗及分析

本節(jié)根據(jù)前文提出的圖拆分算法和經(jīng)典的METIS算法以及哈希算法進行對比測試,分析各自算法的優(yōu)缺點。由于METIS提供一組獨立的命令行程序,用于計算分割,而且也提供了應(yīng)用程序編程接口(API),它可以通過C/C+ +或FORTRAN等程序來調(diào)用。為了有較好的比較性,論文中的圖分割算法也是采用C++編寫。下面的METIS算法采用了標(biāo)準(zhǔn)單機METIS圖劃分算法。

2.1 實驗數(shù)據(jù)集

測試RDF數(shù)據(jù)的benchmark有很多種,LUBM是其中一種主流的測試樣例集。基準(zhǔn)的目的是在一個大的數(shù)據(jù)集中,通過提交到一個單一的現(xiàn)實本體進行查詢來評估系統(tǒng)的性能。它由一個大學(xué)領(lǐng)域本體,可定制和可重復(fù)的合成數(shù)據(jù),一組測試查詢和幾個性能指標(biāo)組成。通過LUBM提供的數(shù)據(jù)產(chǎn)生器,實驗建立了四組測試數(shù)據(jù)集,下表5顯示了具體數(shù)據(jù)集:

根據(jù)資料,METIS算法比較適合于百萬級別的數(shù)據(jù)量,因此在測試數(shù)據(jù)集的選擇上都在百萬級別,以便可以區(qū)分這三種算法的效果。在之前文章中介紹了METIS算法的輸入是一個鄰接矩陣圖,因此系統(tǒng)的輸入方式都是相同的鄰接矩陣圖格式的原始數(shù)據(jù)。

2.2 實驗結(jié)果與分析

對于4個不同大小的數(shù)據(jù)集,采用三種不同的算法做對比實驗,分別測試了劃分4、8、16等三種不同數(shù)量區(qū)域的實驗。實驗對比的主要影響因素是邊割比率(通信代價)。邊割比率指的是在三元組中,主語和賓語被劃分在兩個不同的節(jié)點個數(shù)與總的三元組個數(shù)的比值,也就是邊割數(shù)/總邊數(shù)。用這個比值來描述通信的代價,這個比值越大,說明系統(tǒng)在查詢時,兩個節(jié)點的通信頻率和概率就越高,反之則說明概率越低。

實驗中除了對比METIS算法和自己提出的算法,還與哈希算法(采用主語ID取模)進行比較。目的是因為哈希算法可以較為平均的將數(shù)據(jù)集進行劃分,可以通過這個算法作為參考。

2.3 實驗結(jié)論

通過上面實驗和分析,可以看到,本文所提出的圖劃分算法與METIS和哈希算法在邊割比率(通信代價)方面有各自的優(yōu)勢與劣勢。雖然METIS算法和本文的算法在主要思想上是類似的,但是由于METIS算法在粗糙化過程中采用的是最大邊覆蓋算法,而本文在粗糙化過程中采用的是超圖的思想,因此在兩個對比方面,本文提出的圖劃分算法都與其他兩種算法有較大的不同。由于哈希算法均勻劃分?jǐn)?shù)據(jù),因此使得在邊割比率方面具有較高的數(shù)值,而本文和METIS算法都相對于哈希算法的結(jié)果較好,因此在通信代價方面能得到較好的效果,雖然本文的算法并不是最好的,但和METIS算法相差不大。

3 結(jié)論

本文介紹了基于METIS算法的整體思想,采用超圖的方法,對RDF數(shù)據(jù)圖進行劃分的理論,通過對RDF數(shù)據(jù)圖的粗糙化、基于點的權(quán)重劃分?jǐn)?shù)據(jù)、還原RDF數(shù)據(jù)圖三個主要步驟的介紹,詳細(xì)的說明了如何將大量RDF數(shù)據(jù)一步一步劃分并存儲在集群中,為整個系統(tǒng)提供底層數(shù)據(jù)支持。在本章最后將基于點權(quán)重的劃分算法與METIS算法和哈希算法通過邊割比率方面進行實驗對比,分析了三種方法的優(yōu)缺點。

參考文獻(xiàn)

[1]Kolas D, Emmons I, Dean M, Efficient Linked-List RDF Indexing in Parliament. In the Proceedings of the Scalable Semantic Web (SSWS) Workshop of ISWC, 2009.

[2]Li P, Zeng Y, Kotoulas S, et al. The Quest for Parallel Reasoning on the Semantic Web, Lecture Notes in Computer Science, 2009, 5820:430-441.

[3]Hendler J, Web 3.0: The Dawn of Semantic Search[J]. Computer, 2010,43(1):77-80.

[4]L Zou, J Mo, L Chen, et al. gStore: answering SPARQL queries via subgraph matching. PVLDB, 2011, 4(8):482-493.

[5]J Huang, DJ Abadi, K Ren. Scalable SPARQL Querying of Large RDF Graphs.

[6】曹佳碩. 基于RDF的云制造資源數(shù)據(jù)存儲及檢索方法的研究與實現(xiàn)[D]. 北京:北京交通大學(xué),2012.

[7]楊夢倫. 基于圖的RDF數(shù)據(jù)存儲及查詢方法的研究與實現(xiàn)[D]. 北京:北京交通大學(xué),2015.

作者簡介

史騰飛(1992-),男,漢族,碩士研究生,研究方向:云計算。

主站蜘蛛池模板: 99热国产这里只有精品9九| 国产在线自乱拍播放| 国产成人综合亚洲欧洲色就色| 欧美在线黄| 欧美日韩亚洲国产主播第一区| 亚洲精品视频免费| 午夜无码一区二区三区在线app| 国产系列在线| 99精品福利视频| 成人字幕网视频在线观看| 国产乱人乱偷精品视频a人人澡| 九色综合视频网| 成年人国产视频| 中文无码毛片又爽又刺激| 免费国产小视频在线观看| 永久免费无码成人网站| 成人午夜网址| 五月婷婷综合网| 国产一区二区免费播放| 国产乱子伦手机在线| 成人午夜精品一级毛片| 国产一区二区精品高清在线观看| 国产黄色片在线看| 在线色综合| 午夜高清国产拍精品| 老司机午夜精品视频你懂的| 亚洲天堂日本| 九九九精品成人免费视频7| 国产一区免费在线观看| 国产00高中生在线播放| 国产在线视频欧美亚综合| 高清无码不卡视频| 一级毛片免费观看不卡视频| 久久中文电影| 人妻少妇久久久久久97人妻| 996免费视频国产在线播放| 免费a级毛片18以上观看精品| 欧美成人精品高清在线下载| 亚洲成人播放| 久久人搡人人玩人妻精品一| 狠狠亚洲婷婷综合色香| 国产欧美高清| 视频二区国产精品职场同事| 亚洲无码不卡网| 亚洲国产成人精品一二区| 日本三级精品| 国内精品自在自线视频香蕉| 婷五月综合| 久久久精品国产SM调教网站| 91美女在线| 1024国产在线| 久久久久国产一级毛片高清板| 欧美一级黄色影院| 性视频久久| 中文纯内无码H| 午夜三级在线| 久久成人国产精品免费软件 | 看av免费毛片手机播放| 久久精品女人天堂aaa| 亚洲Av激情网五月天| 午夜视频免费一区二区在线看| 内射人妻无码色AV天堂| 亚洲欧美日韩中文字幕在线| 欧美成人h精品网站| 亚洲高清日韩heyzo| 人妻熟妇日韩AV在线播放| 日韩无码一二三区| 国产成人精品在线| 久久精品国产电影| 亚洲精品欧美日本中文字幕| 亚洲国产理论片在线播放| 国产视频入口| 色综合中文| 再看日本中文字幕在线观看| 71pao成人国产永久免费视频| 国产黄在线免费观看| 亚洲一区毛片| 呦视频在线一区二区三区| 伊人无码视屏| 国产乱子伦精品视频| 欧美日韩午夜| 男女精品视频|