999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義網技術的信息檢索研究

2015-05-13 19:31:20王智剛
卷宗 2015年3期
關鍵詞:信息檢索語義概念

摘 要:語義網致力于改善讀者檢索體驗,是Web3.0技術的一個核心指標。本文首先分析了基于關鍵詞的機械式匹配的傳統信息檢索系統的不足,其次描述了語義網的特征、體系結構、并分析了語義網檢索系統的關鍵技術,最后,在此基礎上構建出基于語義網技術的信息檢索系統。

關鍵詞:語義網;檢索;智能

校級科研項目:本文系鄖陽師范高等專科學校校立科研項目“基于語義網技術的武當文化特色庫檢索模型研究”(編號:2012B06)的研究成果之一。

在進入大數據時代的今天,萬維網(WWW)成為了人們生活和工作中獲取信息的一個重要渠道,它是面向文檔的,信息量豐富、獲取簡便。和傳統信息相比,因其表現形式多樣而往往會出現組織形式整體無序或局部無序的狀態。在廣袤的信息資源面前,怎樣迅速獲取自己想要的信息是迫切需要解決的問題。萬維網聯盟的創始者蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出了“語義網”的概念,它的核心是:通過給萬維網上的文檔(如: HTML)添加能夠被計算機所理解的語義(Meta data),從而使整個互聯網成為一個通用的信息交換媒介[1]。語義網是一種能夠理解人類語言的智能網絡,因此,語義網的初步實現也作為智能網絡web3.0的重要特征之一。

1 傳統信息檢索存在的問題

信息檢索是指從信息資源集合中查找所需文獻,或查找文獻中包含的信息內容的過程。Baidu、Google等搜索引擎的誕生,讓人們從無序的、海量的網絡信息中抽取自己想要的信息成為了可能,這種檢索工具讓萬維網的作用得以充分發揮,在某種程度上促進了信息革命。但人們很快就發現,用戶在使用這些檢索工具時,雖能能得到許多信息,但有時很難迅速地找到自己想要的信息。這種傳統的信息檢索技術,都是基于關鍵詞機械匹配的,雖然具有使用簡單、快捷的優點,但是因為缺乏語義描述,所以存在以下幾個問題:

(1)忠實表達的問題。有些情況下,用戶無法用一個確切的詞語來表達自己需求的信息時,就無法使用搜索引擎。

(2)表達差異的問題。在人類語言當中,一詞多義和一義多詞是比較普遍的。一詞多義,如“蘋果”,即可以指人們吃的蘋果,也可指某一種品牌的計算機。如果用傳統的檢索方法,就會產生查準率的問題;一義多詞即同義詞,如“立刻”、“馬上”,如果用傳統的檢索方法,只檢索一個詞語,又會帶來查全率的問題。

(3)詞匯孤島的問題。“詞匯孤島”是指傳統的信息檢索不能將關鍵詞關聯起來,每個關鍵詞像孤島一樣獨立存在[2]。比如:檢索“文具”,理論上講,鋼筆、直尺、橡皮都是文具,但在檢索結果中一般都不會出現含有帶“鋼筆”、“直尺”、“橡皮” 的網頁。

(4)機械表達的問題。傳統的信息檢索工具只能機械地從字形上標識關鍵字,比如:檢索“圖書”,會機械匹配出一大堆與“圖書館”相關的信息。

2 語義網及其關鍵技術

人們為了解決上述傳統信息檢索中存在的問題,開始了語義網技術的研究。語義網是一種智能網絡,它不僅可以理解詞語和概念,而且還能夠理解詞匯之間的邏輯關系,從而使人機交互變得更有效率。對語義網技術的研究,需要對語義網的基本特征、體系結構和關鍵技術有一定的了解。

2.1 語義網的基本特征

語義網雖然是WWW的延伸,但它與WWW有很大的區別,它不僅可使用自然語言表現網絡內容,而且這些內容還可以被軟件代理人(software agent)所閱讀和使用。 “語義網”是計算機和互聯網界在描述下一階段網絡發展時所使用的術語[3]。所謂“語義”就是文本的含義,語義網就是能夠根據語義進行判斷的網絡,也就是一種能理解人類語言,可以使人與電腦之間的交流變得像人與人之間交流一樣輕松的智能網絡[3]。依據這種設計理念,語義網具有以下幾個特征:語義網是WWW的擴展與延伸;語義網則面向文檔所表示的數據;語義網具有一定的判斷、推理能力,其指令便于計算機理解與執行[4]。

2.2 語義網的體系結構

萬維網的締造者Berners-Lee,在1998年提出了語義網的概念。當他提出這個概念時,RDF開始嶄露頭角;XML技術已經被廣泛使用;在知識工程領域,已經對本體技術、邏輯語義研究了幾十年。而Berners-Lee對這些技術進行分析與總結,將以上技術融合在一起,設計出了語義網的體系架構。在2000年,他又提出了語義網的體系結構,如圖1所示。

Berners-Lee將整個語義網結構分為七個層次:標識符和字符集層、根標記語言層、資源描述框架層、本體層、邏輯層、證明層、信任層,在不同的機構層次中,又融合了多種互聯網新技術,最終實現語義檢索。

2.3 語義網檢索系統的關鍵技術

構建基于語義網的信息檢索系統的目的,是為了能讓計算機輕松地理解并處理用戶的檢索需求,并為用戶提供智能化、個性化的信息檢索過程。在語義網的體系結構中,根標記語言、資源描述框架和本體,是語義網的關鍵技術。

2.3.1 本體

本體(Ontology)是源自哲學領域的一個概念,即“存在論”。圖2是各種語言對這一詞語的表述。

在信息科學領域,本體是指一種形式化的,對共享概念體系明確而又詳細的說明,它是對特定領域之中某套概念及其相互之間關系的形式化表達。一個本體描述了一個特定研究領域的一個形式化的、共享的概念化模型,它用于描述互聯網上各種不同的、分散的、半結構化的信息資源[5],從而幫助人與機器之間交流。關于本體的基本要素,Perez 等人認為可以按分類法來組織,劃分為5個基本要素:類(classes) ,關系(relations) ,函數(functions) ,公理(axioms) 和實例(instances)[6]。

語義網首先用XML定義標簽,然后用靈活性很高的RDF來表達數據,最后用一種本體的網絡語言來描述網絡文檔中術語的明確含義和他們之間的關系。本體語言非常多,既有專有本體語言,也有基于標準的本體語言,而和Web有關的主要有:RDF、RDF-S、OWL等,它們之間有著非常密切的聯系,是W3C本體語言棧中的不同層次,都是基于XML的。

2.3.2資源描述框架

資源描述框架(RDF)是一個處理元數據的XML應用,RDF即Framework for Describing Resources。資源(Resource)是指所有在Web上被命名、具有統一資源標識符URI的事物,比如網頁和XML文檔中的元素等;描述(Description)是指對資源屬性的陳述,以表明資源的特性以及資源之間的聯系;框架(Framework)是指一種與被描述資源無關的通用模型,用以管理資源的多樣性、不一致性和重復性[7]。

RDF定義了一種通用框架,使用屬性、屬性值來描述資源,然后用Web標識符URI來標識事物。通過這種框架,RDF用以描述語義網上的所有資源。資源,作為RDF中的三要素之一,是指可擁有URI的所有事物,比如http://www.calis.edu.cn/rdf;屬性是指擁有名稱的資源,比如“author”或“homepage”等;屬性值是指某個屬性的值,如屬性值“Johnson”是屬性“author”的值。下面是一個用XML描述資源http://www.calis.edu.cn/rdf的RDF文檔:

David

http://www.w3school.com.cn

[6]

2.3.3語義標注技術。

語義標注就是將實例與本體的概念相聯系的過程,它用本體對網頁數據進行標引,讓動態變化中的實例與本體結合在一起,使網頁實現智能化。語義網中的根標記語言XML,既能描述文檔數據對象本身,也能部分描述如何處理這些數據。同時,它是一種語義/結構化語言,用戶可以很方便地定義自己領域的專用標記。XML文檔在不同應用中使用時,文檔本身不必修改,僅需改變相應的表現形式。

圖3所示是對普通文檔進行語義標注的過程。語義標注工作類似于給數據庫添加記錄,對互聯網網頁做語義標注,將網頁文檔中的信息和推理規則聯系起來,讓網頁文檔信息的含義轉化為本體,使計算機能夠理解,最終使檢索者能夠得到自己想要的準確結果。由此可知,語義標注就是用本體對數據進行索引的過程。

3 構建語義網信息檢索系統的策略

標引和檢索是信息檢索的兩個基本過程,傳統的信息檢索技術,僅僅停留在關鍵詞的標引和關鍵詞檢索上,因而,傳統信息檢索技術借助關鍵詞、目錄和索引實現全文檢索,雖簡單快捷,但檢索結構卻很難讓人滿意。而語義網,可通過XML語句、RDF概念和本體系統對萬維網信息資源進行概念標引,進而讓用戶實現概念檢索,實現智能匹配。一個語義網信息檢索系統實現的過程主要包括本體的構建、語義標注和語義檢索機制等核心程序。

3.1 領域本體的建立

語義網信息檢索系統實現的第一步就是構建領域本體,如果本領域研究的是文獻檢索,那么需要有文獻領域本體研究的專家做建模幫助。文獻領域本體的建立過程是:本體確立——本體編碼。

文獻本體確立的步驟如下:(1)確定以文獻為對象為研究領域,以文獻檢索為研究目的;(2)需求分析,需求為文獻本體;(3)對研究領域中文獻的關鍵詞、編號、標題、作者等進行概括,以確定本領域的核心概念集;(4)對抽取的本體核心概念集,定義類與類之間的關系,確定概念集的對象屬性;(5)確定文獻數據屬性,包括文獻關鍵詞、題目、內容數據屬性。

本體編碼一般由本體編輯工具對照本體模型來實現,首先編輯文獻本體的類,然后編輯類的屬性,最后對本體編碼并存儲。這個過程普遍采用的是網絡本體語言OWL進行編碼,并形成一個文件來保存。文獻領域本體構建的目的,是為了實現概念匹配,讓計算機與人交互,獲得更精準的檢索結果。

3.2 信息語義標注

如何將領域本體和信息關聯起來,是語義網需要解決的一個重要問題。因此,研究人員便結合構建領域本體,對信息進行語義標注。在以上文獻本體確立之后,我們便要對概念集、文獻數據屬性進行一一標注,比如,對文獻標題、作者、關鍵詞字段進行標注,最后將實例加入到本體庫之中,以實現對文獻信息的語義標注。

3.3 語義檢索機制

領域本體的建立,以及信息語義標注,加工的對象都是信息資源,在一個檢索系統中,我們還要對用戶檢索請求和檢索結果進行分析,才能精準而全面地找到用戶所需要的結果。首先,要用基于關聯樹的,或者基于概念的,或者基于語義相似度的語義查詢擴展算法,對用戶的檢索請求做語義擴展分析,充分理解用戶的檢索請求,獲得一組語義擴展后的查詢關鍵詞集合,再進一步進行檢索。最后,需要用基于語義權重的結果排序方法,比如HITS 算法、PageRank 算法、基于關鍵詞位置的算法等,對檢索結果進行排序,將最接近用戶檢索請求的結果呈現靠前,以提高檢索質量。

4 結束語

語義網的提出與發展已經走過了十余年,也取得了比較多的研究成果。國外理論研究相對成熟,部分商用數據庫產品,和語義搜索引擎也相繼問世。但相比之下,國內理論研究大多停留在綜述國外研究的水平上,語義網應用方面的研究也相對較少。在信息爆炸的今天,人們普遍感覺檢索體驗差的情況下,我們有必要將語義網運用到數字圖書館建設中來,以解決信息檢索中遇到信息量大、檢索雜亂繁雜、垃圾信息干擾的問題,使讀者檢索變得更精準,方便廣大的讀者。

參考文獻

[1]語義網[EB/OL][2014-12-30] http://zh.wikipedia.org/wiki/語義網

[2]賈思宇,馬玲,常瑋. 基于語義網分析的在線學習智能答疑方法研究[J]. 情報雜志,2012,09:104-108.

[3]黃怡. 基于本體的構件描述以及Jena框架下構件庫的設計和實現[D].吉林大學,2009.

[4]張莉萍. 語義Web層級論析[J]. 情報雜志,2006,11:89-91.

[5]李潔,丁穎. 語義網關鍵技術概述[J]. 計算機工程與設計,2007,08:1831-1833+1836.

[6]郭亮. 基于知識單元的語義Wiki知識庫[D].西安電子科技大學,2009.

[7]賈正雪. UTO本體的構建及應用研究[D].吉林大學,2008..

[8] 田蓉. 語義網在數字圖書館信息檢索中的應用[J]. 青年與社會,2013,10:298.

作者簡介

王智剛,網絡工程師,館員,鄖陽師范高等專科學校圖書館技術部主任,研究方向:數字圖書館。

猜你喜歡
信息檢索語義概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 毛片网站在线看| 国产亚洲精品91| 亚洲av无码牛牛影视在线二区| 久久永久免费人妻精品| 不卡午夜视频| 欧美日韩在线亚洲国产人| 国产三级a| 麻豆国产精品视频| 国产一区二区免费播放| 992Tv视频国产精品| 无码'专区第一页| av色爱 天堂网| 在线精品亚洲一区二区古装| 澳门av无码| 婷婷色丁香综合激情| 91久久天天躁狠狠躁夜夜| 丁香五月婷婷激情基地| 久久无码av一区二区三区| 黄色网站在线观看无码| 国产黄色视频综合| 波多野结衣AV无码久久一区| 国产麻豆福利av在线播放| 国产又粗又猛又爽视频| 亚洲av无码人妻| 美女被操黄色视频网站| 97国产精品视频自在拍| 亚洲黄色成人| 在线欧美日韩国产| 日韩欧美中文字幕在线韩免费| 国产美女主播一级成人毛片| 伊人久久久久久久久久| 免费在线观看av| 国产中文一区二区苍井空| 高潮毛片免费观看| 精品一區二區久久久久久久網站 | 亚洲第一网站男人都懂| 午夜天堂视频| 毛片基地视频| 国产激情无码一区二区免费| 国产十八禁在线观看免费| 欧美国产精品拍自| 日本一区二区三区精品国产| 丁香综合在线| 日韩精品亚洲一区中文字幕| 国产麻豆aⅴ精品无码| 婷婷亚洲视频| 国产粉嫩粉嫩的18在线播放91| 欧美色99| 欧洲免费精品视频在线| 国产精品内射视频| 日韩国产另类| 免费一级毛片在线播放傲雪网| 成人福利在线视频免费观看| 久久夜色精品国产嚕嚕亚洲av| 国产在线精品网址你懂的| 呦系列视频一区二区三区| 国产精品视频系列专区| 看国产一级毛片| Jizz国产色系免费| 亚洲一区二区约美女探花| 亚洲国产综合自在线另类| 伊人久久大香线蕉成人综合网| 99热这里只有精品免费国产| 亚洲天堂首页| 国产第二十一页| 日韩视频福利| 免费一级α片在线观看| 精品亚洲国产成人AV| 亚洲综合二区| 制服丝袜一区| h网址在线观看| 国产一级一级毛片永久| 女人18一级毛片免费观看 | 网友自拍视频精品区| 乱人伦中文视频在线观看免费| 高潮毛片免费观看| 无码一区中文字幕| 999国内精品久久免费视频| 一级爆乳无码av| 欧美精品亚洲日韩a| 99在线视频免费| 夜夜爽免费视频|