999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義網的研究和發展對未來搜索引擎的影響

2008-12-31 00:00:00石俊飛
電腦知識與技術 2008年14期

摘要:目前在全球市場里占據主要份額的谷歌、雅虎、百度等搜索引擎,提供給人們的依舊是比較笨拙的工具,因為它們始終受制于傳統Web,對搜索關鍵字的精確度要求苛刻,處理自然語言的能力很低。語義網(SW)的提出、研究和發展,給搜索引擎帶來了新的希望。而基于語義Web的智能搜索引擎,則是下一代搜索引擎的必然選擇。

關鍵詞:中文分詞;網絡蜘蛛;XML;Web本體語言(OWL);資源描述框架(RDF)

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)14-20840-02

1 搜索引擎的現狀

對搜索關鍵字的精確度要求苛刻,處理自然語言的能力很低;融合不同來源相關信息的能力不高;不利于弱勢群體。正如搜索領域的科學家們常說的那樣:人們關于搜索的問題只有5%解決了,而我們還沒有利用到搜索潛力的10%。

2 搜索引擎的工作原理

2.1 搜索引擎的系統架構

2.1.1 從互聯網上抓取網頁

網絡蜘蛛是一種能夠自動從互聯網上抓取網頁的HTML代碼并沿著一個網頁中的所有URL爬到其它網頁的機器人程序,它重復此過程,并把爬過的所有網頁收集到服務器中。網絡蜘蛛在搜索引擎中占有重要位置,對搜索引擎的查全、查準都有影響,并決定了搜索引擎數據容量的大小,而且網絡蜘蛛的好壞直接影響搜索結果頁中死鏈接(即鏈接所指向的網頁已經不存在)的個數。目前如何才能發現更多的網頁、如何才能令提取的網頁內容更精確,如何才能進一步提高蜘蛛的抓取速度以及辨別和處理死鏈、孤鏈等的能力都是網絡蜘蛛需要進一步改進的問題。

2.1.2 建立索引數據庫

由索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網頁索引數據庫。

2.1.3 在索引數據庫中搜索

當用戶輸入關鍵詞搜索后,分解搜索請求,由搜索系統程序從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。

2.1.4 對搜索結果進行處理排序

所有相關網頁針對該關鍵詞的相關信息在索引庫中都有記錄,只需綜合相關信息和網頁級別形成相關度數值,然后進行排序,相關度越高,排名越靠前。最后由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。

2.2 中文分詞

英文是以單詞為單位的,詞和詞之間靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文詞組“Henan Normal University”,用中文則為:“河南師范大學”。計算機可以很簡單通過空格知道“Normal”是一個單詞,但是不能很容易明白“師”、“范”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。“河南師范大學”,分詞的結果是:“河南|師范|大學”。由此可見,語義劃分的合適與否直接關系到搜索引擎的搜索結果。

3 語義Web

語義網(SW)是由公認的互聯網之父, W3C的始創者伯納斯·李(Tim Berners-Lee)提出的。其目標是使得Web上的信息具有計算機可以理解的語義,并使計算機能夠根據語義進行判斷。在SW中,信息都被賦予了明確的含義,機器能夠自動地處理和集成網上可用的信息。 語義網使用XML來定義定制的標簽格式,用RDF的靈活性來表達數據。語義網的基本體系結構如圖1,語義網的工作流程如圖2。

開發語義網的兩個重要技術己經就緒,它們是XML(可擴展標記語言)和RDF(資源描述框架)。XML讓每個人都能創建自己的標簽,來對網頁或頁面的部分文字進行注釋。它允許用戶在文檔中加人任意的結構,但無需說明這些結構的含意。含意由RDF來表達。RDF中的代碼包含一組組的三元組,每個三元組相當像句子中的主語、動詞和賓語。在RDF中,文檔中的聲明通常是某個事物(人、網頁或其他任何東西)對于某些值(另一個人、另一網頁)擁有某些屬性(例如“是姐姐”,“是作者”)。這種結構用于描述由機器處理的大量數據,是非常自然的方法。

4 基于語義Web的ISE雛形

4.1 ISE雛形圖

ISE雛形圖如圖3所示。

4.2 可擴展標記語言(XML)

XML包括XML元數據文件、Schema文件、XSLT顯示文件、XLink、Xpath等一系列相關部分,但對非計算機人士,可以只看它的元數據文件。XML的特點主要是開發靈活。因為它數據和格式分離設計,并不再局限于HTML文件中標準的TAG。而且又支持Unicode,所以可使用中文標記。

4.3 資源描述框架(RDF)

RDF是一個處理元數據的XML應用。眾所周知,對資源的描述是領域和應用相關的,比如對一本書的描述和對一個Web站點的描述是不一樣的,即對不同資源的描述需要采取不同的詞匯表。因此RDF規范并沒有定義描述資源所用的詞匯表,而是定義了一些規則,這些規則是各領域和應用定義用于描述資源的詞匯表時必須遵循的。RDF也提供了描述資源時具有基礎性的詞匯表。

通過RDF,可以使用自己的詞匯表描述任何資源,由于使用的是結構化的XML數據,搜索引擎可以理解元數據的精確含義,使得搜索變得更為智能和準確,完全可以避免當前搜索引擎經常返回無關數據的情況。

4.4 Ontology

僅有XML和RDF是不夠的,因為XML中的標簽和RDF中的屬性集都沒有任何限制。例如:XML可以用“Tom”表示Tom是教師,而RDF片段“

Ora Lassila

”描述了Web頁的創建者問題,上面的Author和Creator完全可以用Writer來代替。由于XML和RDF在處理語義上存在“一詞多義”和“一義多詞”的不足,才產生了Ontology 。

Ontology通過對概念的嚴格定義和概念之間的關系來確定概念的精確含義,可以表示共同認可的、可共享的知識,從而解決上面產生的問題。它是解決語義層次上Web信息共享和交換的基礎,所以OWL相對XML、RDF和RDF Schema擁有更多的機制來表達語義。不足之處是Ontology在建模時必須有領域專家的參與,相對更加嚴格和困難。它在語義web中的應用雖剛剛起步,但前途一片光明。

5 結論

任何搜索引擎的最終目標都是最準確、最全面、最快速的給用戶以其需求信息,從這個意義上看,研究和開發基于語義Web的ISE應該是很有必要和迫在眉睫的。 一旦它的研究取得進展,其應用前景是不可估量的,想象一下:

如果互聯網上的信息資源具有應用程序能夠理解的含義,并且信息資源的處理過程實現了自動化、智能化會是什么樣子;如果有這么一種搜索引擎,能對任何特定領域中積累的大量信息資源進行有效管理,使用戶所問即所得會是一種什么樣子;如果還有一種搜索引擎,能根據信息資源所具有的領域知識含義,將分散在各種異構系統中的相關信息方便、快速地融合后呈現給用戶又會是什么樣子!

人類的知識建立在兩個基石之上:語義學和數學。在數字計算方面,計算機已遠遠超越了人類,而幫助計算機理解與掌握語言邏輯將成為下一階段的重點。

在超文本技術基礎上開發的超文本傳輸協議(Http)以及超級鏈接技術令互聯網上的網頁可以連接,構成了二維的應用。而源自語義學的語義網不僅使網頁,以及互聯網上所有的內容都得以溝通,并將互聯網從二維帶入三維,毫無疑問會成為下一代互聯網的神經系統,令互聯網的巨大潛能真正得以釋放。

所以說,構建有關語義Web的智能搜索引擎,是下一代搜索引擎的必然選擇。

參考文獻:

[1] W3C, ExtensibleMarkupLanguage(XML 1.0(SecondEdition).http://www.w3.org/TR/REC-xml.

[2] W3C, ResourceDescriptionFramework(RDF)ModelandSyntaxSpecification.http://www.w3.org/lR/1999/REC-rdf-syntax-1999022/.

[3] Google Search Engine.http/:/www.google.com/.

[4] Baidu Search Engine ,http://www.baidu.com/.

[5] MarkBirbeck,著,裴劍鋒,高偉,徐繼偉,等,譯.XML高級編程(第二版).北京:機械工業出版社,2002.

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

主站蜘蛛池模板: 国产微拍精品| 久草视频一区| 丰满少妇αⅴ无码区| 亚洲第一成人在线| 91青青视频| 国产成人一区在线播放| 依依成人精品无v国产| 亚洲娇小与黑人巨大交| 欧美亚洲国产一区| 国国产a国产片免费麻豆| 亚洲av无码成人专区| 亚洲中文在线看视频一区| 亚洲第一天堂无码专区| 88av在线| 尤物国产在线| 国产精品无码影视久久久久久久| 伊人久综合| 免费在线不卡视频| 无码精品国产VA在线观看DVD| 日韩国产高清无码| 欧美中出一区二区| 天堂成人av| 欧美另类图片视频无弹跳第一页| 久久美女精品国产精品亚洲| 亚洲大学生视频在线播放| 成人免费网站久久久| 欧美成人午夜视频| 亚洲黄色片免费看| 欧美成人精品一区二区| 国产超薄肉色丝袜网站| 国产大全韩国亚洲一区二区三区| 色男人的天堂久久综合| 97se亚洲综合在线| 亚洲无码四虎黄色网站| 午夜福利免费视频| 国产成人精品免费视频大全五级| 四虎成人精品在永久免费| 91精品国产一区| 国产欧美日韩视频怡春院| 99久久亚洲综合精品TS| 日本三级欧美三级| 亚洲天堂网在线播放| 久久国产精品77777| 日韩精品一区二区深田咏美| 久久先锋资源| 成人综合久久综合| 国产永久免费视频m3u8| 丁香五月亚洲综合在线| 天天色天天操综合网| 欧美性精品不卡在线观看| 精品无码视频在线观看| 五月激激激综合网色播免费| 国产成人乱无码视频| 国产免费观看av大片的网站| 成人一级免费视频| 国产午夜福利亚洲第一| 欧美色伊人| 国产亚洲精品91| 日韩毛片在线播放| 国产91高跟丝袜| 欧美色99| 在线观看亚洲成人| 黄色网页在线观看| 国产精品一区二区无码免费看片| 啪啪啪亚洲无码| 91午夜福利在线观看精品| 亚洲国产天堂久久九九九| 亚洲无码熟妇人妻AV在线| 久久久久亚洲精品成人网| 亚洲swag精品自拍一区| 欧美视频在线第一页| 久久99精品国产麻豆宅宅| 女人一级毛片| 国产97区一区二区三区无码| 久久婷婷人人澡人人爱91| 美女毛片在线| 欧美不卡视频在线观看| 日韩午夜片| 国产精品美女自慰喷水| 亚洲成人高清在线观看| 国产日韩精品欧美一区灰| 久99久热只有精品国产15|