999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

情報檢索系統模型發展研究

2017-07-21 14:28:51朱秋霞
科教導刊·電子版 2017年16期
關鍵詞:信息檢索語義模型

朱秋霞

摘 要 信息檢索模型主要是對查詢和文檔進行相似度表示和計算的框架和方法。傳統檢索模型有布爾模型、概率模型、向量空間模型和模糊集模型等,現在已經發展到了新的階段,具有堅實理論基礎和明顯優勢的檢索模型是研究的熱點。

關鍵詞 信息檢索 檢索模型

中圖分類號:G354 文獻標識碼:A

信息檢索模型是運用數學或其它的語言和工具,對信息檢索的主要要素—查詢和文檔,及其之間的匹配程度—相似度進行表示和計算的框架和方法。它基于以下觀點: 文檔和查詢共有的詞項越多,則認為這篇文檔和該查詢越相關。

1布爾檢索模型→加權布爾檢索模型→擴展布爾檢索模型

布爾模型是信息檢索中第一個被提出的模型,其表達提問的方式與人們的思維方式相近,人們習慣于采用此種模式進行檢索查詢。它側重于結構化查詢表達式,即通過AND、OR 和NOT 構造查詢表達式,反映用戶需求,并通過精確匹配來返回文檔。布爾檢索實際是通過對若干個文獻集合的并、交、補運算回答用戶提問的。布爾模型最顯著的特點是將用戶查詢與文獻標引進行邏輯的、而非數值的比較而獲得檢索結果。這種模型把復雜的檢索過程簡單化,將復雜的情報提問按其概念組面的邏輯關系描述出來,使機器根據事先確定的程序進行自動匹配,簡化了運算。

但是,布爾邏輯式的構造不易全面反映用戶的需求,匹配標準存在某些不合理的地方,檢索結果不能按照用戶定義的重要性排序輸出。針對這些缺陷,提出加權布爾模型,通過對標引詞進行加權,解決了傳統布爾檢索的一些缺點,比如傳統布爾模型的運算符在加權布爾模型中無法使用,為解決此問題,提出了擴展布爾模型,該模型通過對標引詞加權值,同時將向量檢索模型與布爾檢索模型融為一體,克服了傳統與加權布爾邏輯模型的缺陷。其擴展規模是傳統布爾檢索模型完全匹配的嚴格性和向量模型提問的無結構性的折中,在保持布爾邏輯檢索的結構式提問的同時,吸納了模糊檢索和向量檢索模型的長處。

2概率模型→貝葉斯網絡檢索模型

概率論可以用來計算查詢和文檔的相關性,概率模型通過計算文檔與查詢相關的概率作為相似度。這就使相關性排序問題降為概率論應用問題。概率模型基于以下論點: 基于一個詞項分別在相關文檔和不相關文檔中出現的頻率來估計該詞項的權重。概率模型完全基于概率論,采用嚴格的數學理論為依據和基礎來進行檢索決策,具有堅實的理論基礎。它的主要缺點是增加存貯和計算資源的開銷、參數估計難度較大、系統的檢索性能提高不明顯。

貝葉斯網絡檢索模型是從傳統的概率理論中分離出來的,以概率理論為基礎,是概率檢索模型的擴展。貝葉斯網絡是一個帶有概率注釋的有向無環圖,圖中的點表示所要解決的問題中的變量。這種概率圖模型能表示變量之間的聯合概率分布,分析變量之間的相互關系,因而貝葉斯網絡模型可以用來表示術語間的條件概率和概念語義,并對查詢與文檔間的相似度進行預測,從而實現基于語義概念的查詢。盡管關于貝葉斯網的理論研究還很不完善,應用研究還處于起步階段,但已通過不同的方式應用到了信息檢索領域,隨著技術的進步,貝葉斯網模型將發揮越來越重要的作用。

3向量空間模型→隱性語義檢索模型→本體向量空間模型

向量空間模型是目前最為流行的信息檢索模型之一。其通過使用空間的相似性來解決語義上的相似性,把文檔和查詢在高維空間中用向量表示出來,每一個維對應著文檔集合中的一個詞。

向量空間模型最顯著的缺陷是基于關鍵詞的向量空間模型無法反應術語間的語義關系,為使處理水平從離散的關鍵詞匹配深入到概念匹配的層次上,提出了隱性語義檢索( LSI)。

LSI 可以看作是擴展的向量空間模型,其簡化了計算的復雜性,但語義空間不夠完整。本體為向量空間模型提供了更為豐富、詳細的概念空間,涵蓋了領域內的所有知識及關系。在本體的支持下,文檔中語義相關的術語彼此間有了豐富的語義聯系,如上下位關系,同義、近義、成員、屬性等內在聯系,每種關系的關聯程度也不同。

在獲得豐富而詳細的本體的前提下,對基于本體的向量空間模型定義如下: 所有的文檔組成信息對象集合D = { di | 1≤i≤M} ,M 為信息對象的總數。根據向量空間模型,每條信息di都可以用一個特征向量v( s) =[s1,s2,…,sN]來表示。si對應于本體中的實體ei,表示某個信息對象中術語ei的權重。本體向量空間模型有著良好的前景,但由于構建完善的本體難度太大,因而基于本體的向量空間模型僅在小范圍有試用,如Gene Ontology。

4模糊集檢索模型→粗糙集檢索模型

模糊集合理論研究的是邊界不明確的集合表示,其中心思想是把隸屬函數和集中的元素結合在一起。該函數的取值在區間[0,1]上,0表示不隸屬于該集合,1表示完全隸屬于該集合,隸屬值在0 和1 之間表示集合中的邊際元素。模糊集合模型被用來定義查詢語詞和文獻之間的模糊關系。每一個查詢語詞定義了一個模糊集合,每個文獻在相應的語詞集合中有一個隸屬度,取值通常小于1。

模糊檢索主要是建立隸屬函數,即為查詢條件使用的模糊語言定制適當的函數,用于計算數據庫中各記錄相應字段的匹配度。合適的隸屬函數則能準確把握用戶的意愿,滿足用戶的檢索需求。傳統的模糊集合模型只考慮利用語詞共現關系來進行模糊檢索,給出了文獻隸屬度的計算。由于它沒有考慮語詞與整個查詢概念的相似性,模糊程度有限。

粗糙集理論由波蘭數學家Z.Pawlak 于1982 年提出,建立在分類的基礎上。它將分類理解為在特定空間上的等價關系,而等價關系則構成對該空間的分類,且每個分類后的集合稱為概念。模糊集和粗糙集雖然都是集合理論,但模糊集側重集合中的元素,而粗糙集側重于集合與集合之間。粗糙集理論應用于信息檢索是利用粗糙集的上下近似函數設置相等、粗糙相等、粗糙包含于、粗糙包含和粗糙相交幾種匹配等級標準,提出一種擴充和優化用戶查詢的新方法,此方法可根據用戶查詢和等級匹配標準實現檢索,從而得到檢索結果的排序輸出。基于粗糙集的檢索模型目前還在研究階段尚無大范圍應用。

參考文獻

[1] 孫坦,周靜怡.近幾年來國外信息檢索模型研究進展[J].圖書館建設,2008(3):82-85.

[2] 王娟琴.三種檢索模型的比較分析研究[J].情報科學,1998(3):225-230,260.

猜你喜歡
信息檢索語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 欧美亚洲综合免费精品高清在线观看| 欧美成人二区| 波多野结衣中文字幕一区二区| 午夜欧美在线| 国产丝袜啪啪| 手机精品视频在线观看免费| 国产91色在线| 亚洲中文精品人人永久免费| www精品久久| 国产成人喷潮在线观看| 国产精品白浆在线播放| 亚洲国产AV无码综合原创| 欧美日韩中文国产va另类| 青青国产成人免费精品视频| 99re这里只有国产中文精品国产精品| 亚洲国产系列| 老司机久久精品视频| 91久草视频| 中文无码精品a∨在线观看| 超薄丝袜足j国产在线视频| 国产在线麻豆波多野结衣| 激情無極限的亚洲一区免费| 精品人妻AV区| 2021国产v亚洲v天堂无码| 中文国产成人久久精品小说| 亚洲综合第一页| 欧美成人h精品网站| 偷拍久久网| 欧美亚洲一区二区三区在线| 亚洲最大情网站在线观看| 99热这里都是国产精品| 国产制服丝袜91在线| 无码中字出轨中文人妻中文中| 精品福利视频网| 国产成人在线小视频| 欧美日韩资源| 国产成人乱无码视频| 国产成人在线无码免费视频| 国产小视频免费| 99re在线视频观看| 亚洲成A人V欧美综合天堂| 久久精品亚洲中文字幕乱码| 国模视频一区二区| 日韩123欧美字幕| 国产激情影院| 亚洲综合片| 欧美福利在线播放| 色综合狠狠操| 成人看片欧美一区二区| 午夜福利免费视频| 国产在线精品网址你懂的| 极品av一区二区| 91精品aⅴ无码中文字字幕蜜桃| 男女猛烈无遮挡午夜视频| 岛国精品一区免费视频在线观看| 久996视频精品免费观看| 无码日韩人妻精品久久蜜桃| 精品伊人久久大香线蕉网站| 久久久久久高潮白浆| 亚洲成人黄色在线| 91最新精品视频发布页| 欧美va亚洲va香蕉在线| 亚洲精品无码不卡在线播放| 另类综合视频| 99精品国产自在现线观看| 在线国产毛片手机小视频| 日本精品αv中文字幕| 国产午夜不卡| 亚洲黄色视频在线观看一区| 成人福利在线观看| 亚卅精品无码久久毛片乌克兰| 国产毛片不卡| 亚洲成人网在线观看| 高清免费毛片| 亚洲日韩日本中文在线| 国产精品久久自在自线观看| 国产美女免费网站| 99这里只有精品免费视频| av午夜福利一片免费看| 欧美色图第一页| 波多野结衣中文字幕一区二区 | 欧美日在线观看|