權(quán)赟
(西安歐亞學(xué)院信息工程學(xué)院,陜西 西安 710065)
現(xiàn)今的國際互聯(lián)網(wǎng)是一個有利于人們相互交流、合作的強大工具。它以HTML的頁面方式向人們提供了大量的信息,人們可以很容易理解網(wǎng)頁上的信息。但是由于這種易于人類理解、交流的設(shè)計目的,也就造成了網(wǎng)頁上的內(nèi)容設(shè)計成為專供人類瀏覽的,而不是供計算機理解和處理的工具。所以,國際互聯(lián)網(wǎng)應(yīng)該不單單只是使人類來理解,而且應(yīng)該讓機器來理解網(wǎng)頁上的內(nèi)容。為了滿足這種要求,使計算機按照可靠的方法來處理網(wǎng)頁中的語義,智能地理解網(wǎng)頁內(nèi)容和進行操作,人們就開始研究和開發(fā)新一代的國際互聯(lián)網(wǎng)--語義網(wǎng)。語義網(wǎng)是一個由大量計算機可以理解的數(shù)據(jù)所構(gòu)成的一個分布式的體系結(jié)構(gòu),在這個體系結(jié)構(gòu)中,數(shù)據(jù)之間的關(guān)系按照特定的術(shù)語表達,計算機能夠通過這些術(shù)語得到數(shù)據(jù)的含義,同時這些術(shù)語之間又形成一種復(fù)雜的網(wǎng)絡(luò)聯(lián)系,計算機在數(shù)據(jù)含義的基礎(chǔ)上利用這種聯(lián)系應(yīng)用邏輯來進行推理,從而實現(xiàn)機器對信息的智能自動處理,解決像現(xiàn)在的網(wǎng)頁功能單調(diào)、搜索引擎智能化程度低等問題。從功能上看,語義網(wǎng)是一個能夠理解人類信息的智能網(wǎng)絡(luò)。
萬維網(wǎng)創(chuàng)始人Tim.Berner-Lee對語義網(wǎng)做了如下的描述:語義網(wǎng)不是一個孤立的,全新的萬維網(wǎng),而是對當前的國際互聯(lián)網(wǎng)的擴展,語義網(wǎng)上的信息具有良好的含義,使計算機之間以及人類能夠彼此合作。根據(jù)上面的描述,我們可以給語義網(wǎng)做出如下定義:計算機可以理解信息含義的下一代萬維網(wǎng),稱之為語義網(wǎng)。
語義網(wǎng)中的信息和知識要求是從眾多的提供者以多種多樣的方式來提供,而且這些知識和信息能夠被各種應(yīng)用或Web服務(wù)實現(xiàn)共同理解,并且按照一定的邏輯規(guī)則進行處理。所以語義網(wǎng)上的信息和知識要有創(chuàng)建上的分散性,同時又要有應(yīng)用上的通用性。
互聯(lián)網(wǎng)的創(chuàng)始人Tim.Berners-Lee在2000年提出了語義網(wǎng)的體系結(jié)構(gòu)。下面我們對這個結(jié)構(gòu)從底層到高層,逐層簡單介紹每個部分的概念和功能。
在其體系結(jié)構(gòu)中,第一層是Unicode和URI,它是整個語義網(wǎng)的基礎(chǔ),Unicode(統(tǒng)一編碼)處理資源的編碼,URI(統(tǒng)一資源定位器)負責(zé)標識資源;第二層是XML+名空間+XML模式,用于表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu);第三層是RDF+RDF模式,用于描述資源及其類型;第四層是本體詞匯,用于描述各種資源之間的聯(lián)系;第五層是邏輯,在下面四層的基礎(chǔ)上進行邏輯推理操作;第六層是驗證,根據(jù)邏輯陳述進行驗證以得出結(jié)論;第七層是信任,在用戶間建立信任關(guān)系。第二、三、四層是語義Web的關(guān)鍵層,用于表示網(wǎng)絡(luò)信息的語義,也是現(xiàn)在語義網(wǎng)研究的熱點所在。因為兩個系統(tǒng)可能采用不同的標識符表示同一概念,也可能用一個標識符表示不同的含義,程序若要在兩個數(shù)據(jù)庫之間進行信息的比較和合并,就必須了解某些標識符表示的是否是同一事物。對這個問題的一個解決方法就是本體論(Ontology)。本體是概念化的顯式說明,它是對現(xiàn)實世界事物的抽象建模,包括分類和一套推理規(guī)則。分類定義對象的類別及其之間的關(guān)系,使我們能夠表達實體之間的大量關(guān)系,而根據(jù)推理規(guī)則,程序可以進行自動推理。簡單地說,就是在不同的系統(tǒng)間定義一本字典或者度量表,使它們對實體及其之間的關(guān)系達成共識,以便交流和共享。
現(xiàn)今的互聯(lián)網(wǎng)上充斥著海量信息,傳統(tǒng)的HTML表示信息的方法使得信息搜索面臨種種困境。現(xiàn)在的搜索引擎大多采用關(guān)鍵字搜索方法,耗時而且不準確,垃圾信息太多。語義網(wǎng)能帶給我們?nèi)碌乃阉鞣椒?,能幫助我們高效地找到所需要地準確信息。在企業(yè)內(nèi)部信息處理中,我們可以利用基于Ontology的學(xué)習(xí)系統(tǒng)將企業(yè)的內(nèi)部信息轉(zhuǎn)化成為一個龐大的,分類別的,有規(guī)則的知識庫。這樣我們就能使企業(yè)積累的這些信息服務(wù)于企業(yè)的日常運作,消除知識壁壘和知識盲區(qū),提高員工的個人素質(zhì),從而達到提升整個企業(yè)的運行效率。在今后的互聯(lián)網(wǎng)服務(wù)中,用戶關(guān)心的是服務(wù)的具體結(jié)果和服務(wù)質(zhì)量,而不是具體的服務(wù)過程。通過將語義網(wǎng)和Web Service結(jié)合起來,可以使得Web Service被機器理解,從而自動執(zhí)行,對用戶透明。同時這種服務(wù)能被Agent自動處理,實現(xiàn)Web Service之間的自動交互。
總的來說,有了大量富含語義信息的網(wǎng)頁,就好像有了一個巨大的全球互聯(lián)的數(shù)據(jù)庫。有了語義信息的幫助,人們開發(fā)出的軟件代理A-gent程序的智能和自動化將大大提高,它們從不同的資源中收集網(wǎng)頁內(nèi)容,搜索和處理信息并和其他程序交換信息,真正發(fā)揮語義網(wǎng)的力量。當出現(xiàn)更多的機器、可處理的網(wǎng)頁內(nèi)容和服務(wù)(包括更多的代理)時,通過代理之間的信息交換和協(xié)同工作,信息處理的效率將呈指數(shù)級增長,能更好地滿足用戶的需求。
[1]http://www.xml.com/pub/a/98/10/guide0.html
[2]http://www.w3.org/TR/2000/REC-xml-20001006
[3]Grigoris Antoniou and Frank van Harmelen《A Semantic Web Primer》
[4]http://www.chinakm.com