999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的數字圖書館檢索技術研究

2010-12-31 00:00:00申飛駒
現代情報 2010年7期

[摘 要]隨著XML數字圖書館的迅速發展,怎樣快速有效地對XML文檔進行查詢和處理,正受到越來越多的重視,本文對XML數字圖書館檢索系統進行了分類比較。并從檢索模型、文檔聚類、索引技術3個方面對XML數字圖書館檢索研究方向進行了闡述。

[關鍵詞]XML檢索;檢索模型;文檔聚類;索引技術

DOI:10.3969/j.issn.1008-0821.2010.07.027

[中圖分類號]G250.76 [文獻標識碼]A [文章編號]1008-0821(2010)07-0097-02

Research of the Digital Library Search Technology Based on XMLShen Feiju

(Library,Nantong University,Nantong 226009,China)

[Abstract]With the development of XML digital library,how to search and process XML documents quickly and effectively is becoming more important.This paper classified and compared the XML digital library search systems,and described the directions of research of XML digital library search in searching module,document clustering,index technology.

[Keywords]XML retrieval;search module;document clustering;index technology

1 基于XML數字圖書館檢索問題的提出

基于XML的數字圖書館正在迅猛發展,主要原因是XML作為自描述的標記語言,能夠根據具體應用靈活地表現異構數據源中的各種信息,包括應用程序之間的數據交換、結構化和半結構化文檔以及數據庫中數據的輸出。特別適合在不同系統之間進行數據格式的轉換或為已有的系統設計新的功能時,可以方便的存儲數據,以備能容易地被其他系統所使用,所以XML作為數字圖書館應用的數據傳輸和交互的格式,具有廣泛的應用前景。

XML文檔充滿整個互聯網,但基于XML的數字圖書館也存在一個難題,那就是怎樣快速有效地對XML文檔進行查詢和處理。隨著XML數字圖書館獲得越來越廣泛的應用以及Web技術的不斷發展,如何檢索和利用XML數字圖書館信息的相關研究正受到越來越多的重視,可以預見,XML資源的充分利用將圍繞著查詢展開[1]。

2 XML數字圖書館檢索系統類型比較

目前的XML數字圖書館檢索系統有許多,可以將它們分為三類:即數據庫方式、信息檢索方式和混合方式。

數據庫方式是指將XML數據轉換為數據庫的數據,然后通過數據庫檢索技術來實現對XML數據的檢索。數據庫的成熟技術和優越的性能為XML的存儲提供了基礎:數據庫通??梢蕴幚砗A康臄祿畔?,允許多個用戶同時處理信息,支持版本控制和不同級別的安全訪問控制等。數據庫方式的優勢在于可使用標準(關系和面向對象)數據庫引擎,無需投資開發新的系統;這種方法也有許多缺陷。首先,直接把遵從不同模式的異構XML文檔導入數據庫引擎是困難的。其次,在因特網這樣的動態環境下,數據的結構會經常發生改變,這將導致數據庫模式的頻繁更新。

信息檢索方式可使用信息檢索技術來查詢XML文檔,它將每個文檔看作是添加了標注標簽信息的文本文檔。標注標簽的處理方法有幾種:一種方法是丟掉全部標簽,該方法的優點在于簡單,缺點是信息丟失,將會降低檢索效果;一種方法是從要檢索的XML文檔中抽取重要的結構和上下文信息,并建立索引。另一種更復雜的方法是為標簽建立索引,如同普通索引詞一樣。顯然,無需為結束標簽建立索引,因為開始標簽已經提供了結構信息。最好的方式是為標簽和元素內容建立不同的獨立的索引,以便支持更靈活的檢索需求。信息檢索方式可以應用于XML文檔的檢索,以獲得更好的準確率。該方法有以下3個優點:(1)現存的檢索系統只需作某些修改,就可應用于XML文檔的檢索;(2)XML搜索引擎的使用與傳統搜索引擎相似,用戶無需訓練即可輕松使用;(3)由于它不包括結構信息,它的索引代價更小。但是這種方式的問題是它可能不像數據庫方式一樣準確,因為它基于內容近似匹配的技術,不支持復雜的文檔結構匹配。

混合方式結合了數據庫和信息檢索方式的優點,使用較簡單的查詢表達實現對XML文檔的內容和結構信息的查詢?;旌戏绞浇Y合了許多流行的技術來實現XML文檔的查詢,例如在XQL中就把XPath路徑查詢和全文檢索結合在一起,這種方式很可能給出一個更準確的搜索結果?;旌戏绞降囊粋€優點在于靈活性,既像標準信息搜索引擎一樣,又像數據庫引擎(充分的路徑定義)一樣工作。既方便初學者使用,用戶可以像使用搜索引擎一樣來使用它,又方便專家用戶使用,以便得到更準確的查詢。但是,靈活性是通過付出存儲代價獲得的。另外,要想得到更準確的結果,用戶需掌握XPath的一些知識。

從上面的分析可知,對于XML文檔的檢索,混合方式是一種較為可行的方式,如何有效地克服上述兩個缺陷,為普通用戶提供一種簡單方便的高效的XML信息檢索工具,這涉及到XML文檔的檢索模型的建立、文檔聚類表示和索引技術等[2]。

3 XML檢索的主要研究方向

關于XML信息檢索的研究剛剛起步,依然有許多課題需要深入的研究。下面將簡要闡述幾個亟需進一步研究的方向。

3.1 檢索模型

檢索模型是將文檔表示、查詢以及它們之間關系進行建模的框架。要實現信息檢索,首先需要組織信息。數字圖書館中包含文本、圖像、視頻、音頻等數據,不能直接進行檢索,需要從這些原始數據中抽取邏輯視圖,以支持信息檢索。用戶用查詢來表示信息需求。檢索系統根據查詢的表示,搜索文檔集,獲取與用戶查詢相關的文檔。信息檢索的匹配是相似性匹配,查詢的結果按序返回。以上過程實際上涉及到3個重要的處理:文檔集的邏輯表示、查詢的表示、相似性匹配及其排序。也就是說,文檔集、查詢和相似性匹配決定一種檢索策略和模式。對這些檢索的因素和過程建模,就產生了各種不同的信息檢索模型。作為著名的信息檢索模型——向量模型具有許多優點,是使用最廣泛的模型。如果查詢需求簡單,可以使用向量模型檢索XML文檔,它將元素視為普通索引項,向量模型將檢查文檔中是否包含查詢給出的元素。這種簡單查詢有其優點,用戶無需訓練,不需了解文檔集合的結構,并可返回近似結構匹配的結果,其缺陷是無法區分結構和內容查詢。解決的辦法是將結構匹配和內容匹配分開,這是對向量模型的一個自然的擴展,稱作擴展向量空間模型[3]。一個查詢包含兩個向量:一個結構向量,一個內容向量。但是,上述方法依然沒有指出元素與內容的嵌套包含關系,還需要對模型作進一步擴展,以反映元素嵌套層次對相似性的影響。

3.2 文檔聚類

與文本文件相比,XML文檔增加了結構信息,如何利用這些信息來提高聚類的效果?就此問題已經有了許多成果。但是這些方法的一個共同的缺陷是算法的復雜度很高,很難應用于Web環境下的信息檢索,因此有必要研究新的更為高效的結構聚類算法。此外,如何組織聚類過程產生的文檔類的結構信息,也是一個有意義的課題,這是因為通過利用反饋的結構信息,就可以較容易的幫助用戶定義對文檔的結構的查詢。聚類技術作為信息檢索的關鍵支撐技術,一直是信息檢索研究領域的熱點研究之一。對于XML文檔的檢索,也是如此。特別是XML包含結構信息,合理利用這些信息進行聚類,將顯著提高檢索系統的效果。研究結構信息的引入對XML文檔聚類方法產生的影響,針對目前XML文檔結構聚類方法的缺陷,研究新的結構聚類算法,將聚類結果應用于信息導航和組織,幫助用戶給出恰當的查詢式以及幫助用戶瀏覽查詢的返回結果。這些都是XML信息檢索研究的主要問題[4]。

3.3 索引技術

基于XML數字圖書館的信息檢索,研究高效的索引也是至關重要的。XML信息檢索的一個特點是可以通過路徑查詢結構信息,與之相對應,為了提高查詢效率,除了內容索引外,還必須對文檔中的結構建立索引。目前已經有幾種方法(技術)可用來對XML文檔進行索引操作,根據包含結構信息的多少,將它們分為以下三類:(1)平面文件索引技術,(2)半結構化索引技術,(3)結構化索引技術[5]。由于XML本質上是一種半結構化數據,所以,半結構化索引更為適用,更能保證在檢索效率和表達能力兩者之間做好平衡。要實現對XML文檔的結構和內容的集成查詢,滿足Web環境下對查詢速度和存儲空間的苛刻要求??梢詫ML文檔的路徑信息映射為字符串,建立路徑字符串的后綴索引。同時,把對XML文檔結構信息查詢的路徑信息映射為字符串,這樣,路徑查詢就轉為后綴樹中的字符匹配。還可對傳統后綴樹生成算法作改進,用來構建由路徑集合生成的字符串集合的廣義后綴樹,產生高效的查詢處理方法[6]。這樣處理的特性:第一,索引可以在線性時間內構造,并且是可增量維護的。第二,只需線性存儲空間。第三,查詢處理只需要匹配m個字符,其中m是結構查詢表達式的長度。所有這些特性非常適合Web環境,即較小的存儲代價和較高的查詢處理效率。

4 總結與展望

在數字圖書館信息資源極大豐富的情況下,研究XML信息檢索技術已成為一項重要而迫切的研究課題。一個尚未解決的問題與用戶定義的文檔結構有關。由于文檔結構來自不同的數據源,導致標簽定義和文檔結構的異構性,這將影響搜索引擎的召回性能。另一個有關的問題是與多種語言有關,因為XML是由Unicode編碼的,來自不同數據源的標簽名字可能用不同的語言定義。由于一個單詞可能有不止一種譯文或者沒有對應的譯文,怎樣做適當的翻譯是多種語言的XML文檔檢索的一個問題。

這兩個問題將影響XML文檔檢索方式,XML正處于不斷完善之中,已開始得到越來越多用戶的認同。雖然目前基于XML文檔的搜索引擎技術還沒發展成熟及投入廣泛使用,但它的前景將是十分廣闊的。

參考文獻

[1]孫登峰,喻曉峰.XML查詢語言研究[J].計算機工程,2003,(13):4-6,42.

[2]姜科,陸偉,等.XML檢索系統及其比較研究[J].現代圖書情報技術,2007,(10):66-70.

[3]陸偉.元素級XML檢索模型構建的關鍵問題與解決方案研究[J].中國圖書館學報,2007,(6):58-61.

[4]王能斌.數據庫系統原理[M].北京:電子工業出版社,2000.

[5]K.Zhang and D.Shasha.Simple Fast Algorithms for the Editing Distance Between Trees and Related Problems[J].SIAM J.Comput.,1989,18(6):1245-1262.

[6]Grefenstette,G..Cross-language information retrieval.Dordrechet:Kluwer Academic Publisher,1998.

主站蜘蛛池模板: 亚洲AV成人一区国产精品| 伊人91在线| 国产喷水视频| 九月婷婷亚洲综合在线| 中文字幕 日韩 欧美| 91麻豆国产视频| 色偷偷一区| 国产a在视频线精品视频下载| 亚洲视频黄| 无码 在线 在线| 无码日韩人妻精品久久蜜桃| 在线播放国产99re| 亚洲欧美国产视频| 草草线在成年免费视频2| 中文国产成人精品久久一| 国产又色又刺激高潮免费看| 亚洲无码精彩视频在线观看| 波多野结衣在线一区二区| 国产精品无码久久久久久| 91福利一区二区三区| 精品成人一区二区| 99精品福利视频| 久久久久久尹人网香蕉| 国产人碰人摸人爱免费视频 | 91在线日韩在线播放| 国产毛片基地| 九色免费视频| 国产精品免费p区| 久久特级毛片| 国产一区二区精品高清在线观看| 国产特一级毛片| 黄色免费在线网址| 亚洲天堂久久新| 欧美在线精品怡红院| 精品伊人久久久大香线蕉欧美| 成人免费视频一区| 久久免费精品琪琪| 成人韩免费网站| 美女啪啪无遮挡| 67194在线午夜亚洲| 色妞www精品视频一级下载| 2020国产免费久久精品99| 小说区 亚洲 自拍 另类| P尤物久久99国产综合精品| 国产成人1024精品| 456亚洲人成高清在线| 欧美中文字幕无线码视频| 免费又爽又刺激高潮网址| 国产9191精品免费观看| 欧美日韩午夜| JIZZ亚洲国产| 亚洲综合色在线| 91小视频在线| 日本高清有码人妻| 综合网天天| 自慰网址在线观看| 久久无码免费束人妻| a天堂视频| 亚洲欧美日韩色图| 高清国产va日韩亚洲免费午夜电影| 久久99精品久久久久久不卡| 国产精品视屏| 国产中文一区a级毛片视频| 日本一区二区三区精品AⅤ| 国产丝袜啪啪| 首页亚洲国产丝袜长腿综合| 婷婷综合缴情亚洲五月伊| 在线中文字幕日韩| 色呦呦手机在线精品| 秘书高跟黑色丝袜国产91在线| 免费一级α片在线观看| 国产亚洲高清在线精品99| 国产麻豆va精品视频| 欧美日韩中文国产va另类| 亚洲精品动漫在线观看| 2021国产精品自产拍在线观看| 亚洲无码不卡网| 福利一区在线| 99热这里只有精品国产99| 精品视频一区在线观看| 奇米精品一区二区三区在线观看| 国产午夜看片|