白 銀 劉 宏
〔摘 要〕本文對(duì)現(xiàn)有各網(wǎng)站的網(wǎng)絡(luò)信息資源的分類(lèi)目錄進(jìn)行了對(duì)比研究,采用了分類(lèi)—主題一體化和本體論相結(jié)合的方法,擬定了一個(gè)網(wǎng)絡(luò)信息資源的分類(lèi)目錄,豐富了網(wǎng)絡(luò)信息資源組織的分類(lèi)方法,進(jìn)一步促進(jìn)了基于本體論的分類(lèi)組織方法的實(shí)現(xiàn)。
〔關(guān)鍵詞〕網(wǎng)絡(luò)信息資源;分類(lèi)目錄;本體論
中圖分類(lèi)號(hào):F713.51文獻(xiàn)標(biāo)識(shí)碼:A文
章編號(hào):1008-4096(2009)02-0028-04
因特網(wǎng)的出現(xiàn)為人類(lèi)開(kāi)辟了新的更加廣闊的信息空間。它的無(wú)國(guó)界性和使用的便利性,使它迅速地集聚了億萬(wàn)各種各樣的用戶。網(wǎng)絡(luò)的發(fā)展導(dǎo)致了一大批以網(wǎng)絡(luò)為依托的電子化信息資源的產(chǎn)生。與傳統(tǒng)的信息資源相比,網(wǎng)絡(luò)信息資源呈現(xiàn)出許多新的類(lèi)型和特點(diǎn),并在管理方面有了更為豐富的內(nèi)容。如今因特網(wǎng)已經(jīng)成為全球規(guī)模最大、用戶最多、資源最豐富的廣域網(wǎng)。如何讓海量的、無(wú)序的網(wǎng)絡(luò)信息資源為人類(lèi)服務(wù),這就是網(wǎng)絡(luò)信息組織的內(nèi)容。本文采用了分類(lèi)—主題一體化和本體論相結(jié)合的方法,擬定了一個(gè)網(wǎng)絡(luò)信息資源的分類(lèi)目錄,豐富了網(wǎng)絡(luò)信息資源組織的分類(lèi)方法。
一、信息資源的分類(lèi)組織方法
目前,信息資源的分類(lèi)組織方法主要包括分類(lèi)法、主體法、分類(lèi)—主題一體化的方法。現(xiàn)存的方法對(duì)信息的描述大多局限在語(yǔ)法和語(yǔ)句層面,不能完全有效地表述信息。描述的信息中存在名稱(chēng)相同、語(yǔ)義不同或名稱(chēng)不同、語(yǔ)義相同的情況,會(huì)降低信息檢索的查全率和查準(zhǔn)率。本體描述概念以及概念之間的關(guān)系,可以從語(yǔ)義層面對(duì)信息進(jìn)行描述。本文利用本體實(shí)現(xiàn)從語(yǔ)義層面上描述網(wǎng)絡(luò)信息資源的分類(lèi)組織,從而提高網(wǎng)絡(luò)檢索的查全率和查準(zhǔn)率。
關(guān)于本體,目前尚無(wú)一個(gè)明確的形式化定義,較為認(rèn)同的是1998年Rstuter的解釋[1]:“本體是對(duì)概念體系的明確的、形式化的、可共享的規(guī)范說(shuō)明。”本體通過(guò)對(duì)概念的嚴(yán)格定義和概念與概念之間的關(guān)系來(lái)確定概念精確定義,表示共同認(rèn)可的、可共享的知識(shí)。基于本體的網(wǎng)絡(luò)信息資源分類(lèi)組織是通過(guò)構(gòu)建網(wǎng)絡(luò)信息資源的領(lǐng)域本體來(lái)實(shí)現(xiàn)的,領(lǐng)域本體是用于描述特定領(lǐng)域中概念與概念之間的關(guān)系的本體。
二、現(xiàn)有的分類(lèi)法在網(wǎng)絡(luò)信息資源分類(lèi)組織中的應(yīng)用
圍繞傳統(tǒng)的文獻(xiàn)分類(lèi)法在Internet的應(yīng)用,國(guó)外進(jìn)行過(guò)不少實(shí)驗(yàn)研究,目前已進(jìn)入實(shí)用階段。一些大的萬(wàn)維網(wǎng)站或搜索引擎就采用現(xiàn)有文獻(xiàn)分類(lèi)組織Internet信息資源。
(1)杜威十進(jìn)分類(lèi)法(DDC)[2]。現(xiàn)有一些站點(diǎn)以DDC為分類(lèi)體系,這些站點(diǎn)以圖書(shū)館和大學(xué)為主。資源類(lèi)型既有綜合性全球資源,也有專(zhuān)題性資源、國(guó)別資源。有些目錄在各層次的類(lèi)目前均標(biāo)記了標(biāo)準(zhǔn)的十進(jìn)制分類(lèi)號(hào),而大多數(shù)沒(méi)有分類(lèi)號(hào),只是利用DDC體系建立了瀏覽結(jié)構(gòu)。
(2)國(guó)際十進(jìn)分類(lèi)法(UDC)。UDC具有分面組配分類(lèi)法的一些特點(diǎn),可以通過(guò)符號(hào)組配獲得概念的組合,因此這種分類(lèi)法較適用于機(jī)檢[3]。一些網(wǎng)絡(luò)目錄利用了UDC的這些優(yōu)點(diǎn),建起自己的分類(lèi)系統(tǒng)。
(3)國(guó)會(huì)圖書(shū)館分類(lèi)法(LCC)。使用LCC的網(wǎng)絡(luò)目錄如:CYBERSTACKS,由依阿華大學(xué)開(kāi)發(fā),主要提供6大部類(lèi)的資源,包括:科學(xué)、醫(yī)學(xué)、農(nóng)業(yè)、工業(yè)技術(shù)、軍事科學(xué)、海洋科學(xué)[4]。
網(wǎng)絡(luò)信息資源分類(lèi)在國(guó)際上以及各個(gè)國(guó)家沒(méi)有一個(gè)特定的分類(lèi)標(biāo)準(zhǔn),許多搜索引擎采用自編的分類(lèi)系統(tǒng)進(jìn)行信息組織,具體表現(xiàn)為網(wǎng)站分類(lèi)目錄和網(wǎng)頁(yè)分類(lèi)索引。用于網(wǎng)絡(luò)信息組織的自編分類(lèi)系統(tǒng)主要有以下三種[5]:
(1)等級(jí)式主題分類(lèi)法系統(tǒng)。是指在分類(lèi)中,基本上采用等級(jí)結(jié)構(gòu),一個(gè)主題充當(dāng)一個(gè)類(lèi)目,類(lèi)目按字順或人為次序,類(lèi)目不采用標(biāo)記符號(hào)表示,一個(gè)類(lèi)目可以細(xì)分為若干個(gè)細(xì)目,同位類(lèi)的細(xì)目多按字順排列。這是一種主題分類(lèi)法形式的分類(lèi)體系,依事物分類(lèi),可以將相關(guān)事物的網(wǎng)絡(luò)信息資源集中。目前的大多數(shù)網(wǎng)絡(luò)檢索分類(lèi)系統(tǒng)就是采用這種分類(lèi)系統(tǒng)。
(2)分面組配分類(lèi)系統(tǒng)。是由若干個(gè)分面組成,每一個(gè)分面的類(lèi)目可以與其他分面的類(lèi)目組配,表達(dá)專(zhuān)指的概念。
(3)學(xué)科分類(lèi)法系統(tǒng)。這是將各個(gè)學(xué)科、領(lǐng)域及其分支設(shè)為類(lèi)目的分類(lèi)法系統(tǒng)。中文搜索引擎“網(wǎng)絡(luò)指南針”就提供了一個(gè)學(xué)科分類(lèi)系統(tǒng)。
三、采用自編分類(lèi)系統(tǒng)的網(wǎng)絡(luò)信息資源分類(lèi)實(shí)例
Yahoo是WWW上最早、最著名的網(wǎng)絡(luò)分類(lèi)目錄,它是由美國(guó)斯坦福大學(xué)的兩位博士研究生David Filo和Jerry Yang(楊致遠(yuǎn))于1994年創(chuàng)建的。目前,其分類(lèi)目錄成為網(wǎng)絡(luò)自編分類(lèi)系統(tǒng)的標(biāo)準(zhǔn)模式。
Yahoo將所收錄的信息分為16大類(lèi),每一個(gè)基本類(lèi)目下會(huì)細(xì)分出不同層次的次一級(jí)類(lèi)目,級(jí)別越低的類(lèi)目中的網(wǎng)站主題越明確。Yahoo網(wǎng)站分類(lèi)見(jiàn)圖1。

搜狐網(wǎng)站將信息資源分為16大類(lèi),每個(gè)大類(lèi)下又細(xì)分了各個(gè)子類(lèi)。和Yahoo的分類(lèi)目錄相比較,兩者有相同的分類(lèi),也有不同的分類(lèi)。不同之處是把Yahoo的某些大類(lèi)又細(xì)分了子類(lèi)作為搜狐一級(jí)類(lèi)目。采用自編分類(lèi)系統(tǒng)的搜索引擎多采用了等級(jí)式主題分類(lèi)法系統(tǒng)和分面組配分類(lèi)法系統(tǒng)相集合的方法[6]。類(lèi)目既突出了主題,又可以與其他詞互相結(jié)合,產(chǎn)生出一個(gè)上下文關(guān)系,具有了更深層的含義。
通過(guò)對(duì)比各個(gè)網(wǎng)站的分類(lèi)目錄(這里不再詳細(xì)例舉)發(fā)現(xiàn),由于網(wǎng)絡(luò)信息資源的無(wú)序性、學(xué)科交叉性、種類(lèi)多樣性以及所面對(duì)的對(duì)象的層次性,它不可能完全以傳統(tǒng)的信息組織方式和現(xiàn)有的網(wǎng)絡(luò)分類(lèi)體系進(jìn)行聚類(lèi)和類(lèi)目設(shè)置,那么,就要對(duì)傳統(tǒng)和現(xiàn)有的網(wǎng)絡(luò)分類(lèi)目錄相互借鑒和改造,不斷完善網(wǎng)絡(luò)信息資源的分類(lèi)目錄體系,旨在制定出一部網(wǎng)絡(luò)信息分類(lèi)法。
四、基于本體論的信息資源分類(lèi)組織研究
按照本體論的內(nèi)容來(lái)劃分,可分為:領(lǐng)域本體論、通用本體論和任務(wù)本體論。領(lǐng)域本體是本體在具體領(lǐng)域中的應(yīng)用,本文是本體論在網(wǎng)絡(luò)信息資源領(lǐng)域中的應(yīng)用,屬于領(lǐng)域本體。
領(lǐng)域本體是對(duì)某個(gè)具領(lǐng)域的知識(shí)和特征的描述,通用的領(lǐng)域本體不可能窮盡所有的知識(shí),要想使信息檢索尤其是某個(gè)專(zhuān)業(yè)領(lǐng)域的信息檢索達(dá)到較高的標(biāo)準(zhǔn),就需要建立并合理地使用領(lǐng)域本體論。
開(kāi)發(fā)一個(gè)領(lǐng)域本體包括如下的步驟:(1)考察現(xiàn)有的領(lǐng)域本體的可復(fù)用性,定義本體中的類(lèi);(2)設(shè)定類(lèi)和子類(lèi)的合理層次結(jié)構(gòu);(3)定義類(lèi)的屬性和描述對(duì)屬性值的限制;(4)為實(shí)例中的屬性設(shè)定具體屬性值。
定義類(lèi)和類(lèi)的等級(jí)體系是構(gòu)建網(wǎng)絡(luò)信息資源本體的關(guān)鍵步驟,對(duì)類(lèi)的等級(jí)體系的確定,需要體現(xiàn)分類(lèi)—主題一體化的方法[7]。定義類(lèi)的屬性也是本體構(gòu)建的重要組成。在定義類(lèi)的屬性時(shí),體現(xiàn)元數(shù)據(jù)表示方法的思想,從多角度多層次對(duì)類(lèi)進(jìn)行描述。完善類(lèi)的等級(jí)體系和定義類(lèi)的屬性是密不可分的,兩個(gè)環(huán)節(jié)必須同時(shí)進(jìn)行,而且,在實(shí)現(xiàn)過(guò)程中會(huì)出現(xiàn)不斷的循環(huán)往復(fù),直到合理、滿意為止。基于本體論的網(wǎng)絡(luò)信息資源檢索模型見(jiàn)圖2。
在本體的構(gòu)建過(guò)程中,如果存在著現(xiàn)有的本體資源,應(yīng)將其導(dǎo)入并在其基礎(chǔ)上進(jìn)行添加和完善,這樣可以減少不必要的工作量,提高本體構(gòu)建的效率,促進(jìn)資源共享。目前,對(duì)于網(wǎng)絡(luò)信息資源而言,沒(méi)有一個(gè)標(biāo)準(zhǔn)的本體資源可以復(fù)用。但是各個(gè)網(wǎng)站已經(jīng)有了自己的網(wǎng)站分類(lèi)目錄,可以為網(wǎng)絡(luò)信息資源本體的構(gòu)建提供參考。通過(guò)參考和比較搜狐、網(wǎng)易、Yahoo、新浪、Google等網(wǎng)站的分類(lèi)目錄,在本體的分類(lèi)組織思想的基礎(chǔ)上,符合概念邏輯,采用綜合法對(duì)網(wǎng)絡(luò)信息資源做如下的一級(jí)分類(lèi)(表1):オ

其中,每一個(gè)一級(jí)子類(lèi)包含著不同層數(shù)的次級(jí)子類(lèi)[8]。網(wǎng)絡(luò)信息資源本體中類(lèi)的關(guān)系包括:(1)每一個(gè)子類(lèi)由其下級(jí)子類(lèi)構(gòu)成;(2)子類(lèi)完全繼承其上一類(lèi)的屬性;(3)同一層次的類(lèi)互為不相交類(lèi);(4)每個(gè)類(lèi)的個(gè)體不能成為其同級(jí)類(lèi)的個(gè)體,但可以存在關(guān)聯(lián)。
類(lèi)目劃分一般須遵守相應(yīng)的概念邏輯規(guī)則[5]:(1)每次劃分只能按一個(gè)分類(lèi)標(biāo)準(zhǔn),一般不得同時(shí)采用兩個(gè)或兩個(gè)以上的標(biāo)準(zhǔn)。(2)劃分以后所得的子類(lèi)的外延之和應(yīng)等于母類(lèi)的外延。(3)劃分出來(lái)的各個(gè)子類(lèi)應(yīng)該相互排斥,不能交叉重疊,界限分明,類(lèi)目之間不應(yīng)存在相互交叉現(xiàn)象。
因?yàn)橹袊?guó)是體育大國(guó),所以把體育從休閑娛樂(lè)中分離出來(lái),成為一級(jí)類(lèi)。越來(lái)越多的人走出了國(guó)門(mén),出國(guó)成為人們?cè)絹?lái)越關(guān)注的話題,所以把出國(guó)列為一級(jí)類(lèi)。一級(jí)類(lèi)中的參考,是就目前最新出現(xiàn)的事物、概念進(jìn)行的匯總,歸為參考類(lèi)。這樣在網(wǎng)絡(luò)上查找所需的信息資源時(shí)就會(huì)明確歸類(lèi),直接到所需內(nèi)容的類(lèi)去查找,提高了查全率與查準(zhǔn)率。
類(lèi)目設(shè)置充分體現(xiàn)了網(wǎng)絡(luò)信息組織的動(dòng)態(tài)性,要根據(jù)網(wǎng)絡(luò)信息資源數(shù)量的分布情況、信息的用戶訪問(wèn)率,隨時(shí)進(jìn)行類(lèi)目結(jié)構(gòu)的調(diào)整或類(lèi)目的增、刪、改,并根據(jù)網(wǎng)絡(luò)的需求進(jìn)行改造。例如,對(duì)于新生的事物,網(wǎng)絡(luò)類(lèi)目就要及時(shí)增加其內(nèi)容,這樣才能完善自身的網(wǎng)絡(luò)信息資源。此外,對(duì)各自網(wǎng)站來(lái)說(shuō),用戶是不盡相同的,那么不同的用戶對(duì)網(wǎng)站的不同內(nèi)容,興趣程度也不同,這也需要對(duì)網(wǎng)絡(luò)類(lèi)目做出調(diào)整,要把大多數(shù)用戶感興趣的類(lèi)目劃分出一個(gè)一級(jí)類(lèi)目,以便于用戶查找。分類(lèi)的層次也不要太多,不應(yīng)該出現(xiàn)轉(zhuǎn)換十多次還找不到所需信息的情況。各個(gè)網(wǎng)站要結(jié)合自己的分類(lèi)特點(diǎn),分類(lèi)對(duì)象要擴(kuò)大到網(wǎng)站所包含內(nèi)容的一切可利用的資源,讓各種類(lèi)型的網(wǎng)絡(luò)信息資源都能在分類(lèi)法中找到相應(yīng)的位置。
基于本體論的網(wǎng)絡(luò)信息資源分類(lèi)組織方法與其他的分類(lèi)組織方法相比較,其優(yōu)點(diǎn)是:(1)突出大多數(shù)用戶感興趣的類(lèi)目,通用性強(qiáng);(2)把網(wǎng)絡(luò)資源分成若干個(gè)一級(jí)類(lèi),類(lèi)名是網(wǎng)絡(luò)資源的本源,也就是本體,用戶進(jìn)行檢索時(shí),就歸屬到對(duì)檢索內(nèi)容所屬的類(lèi)進(jìn)行查找,提高了查全率與查準(zhǔn)率;(3)網(wǎng)站可以隨時(shí)對(duì)領(lǐng)域本體進(jìn)行補(bǔ)充、刪減,具有較強(qiáng)的動(dòng)態(tài)性及實(shí)用性;(4)采用本體對(duì)網(wǎng)絡(luò)資源進(jìn)行分類(lèi),是以知識(shí)分類(lèi)、概念邏輯為基礎(chǔ)的,具有較強(qiáng)的完整性和邏輯性。
五、結(jié)論和展望
基于本體的網(wǎng)絡(luò)信息資源分類(lèi)目錄的實(shí)現(xiàn),有助于提高網(wǎng)絡(luò)信息資源的查準(zhǔn)率和查全率。本體構(gòu)建從語(yǔ)義層面上對(duì)網(wǎng)絡(luò)信息資源進(jìn)行了描述,在對(duì)網(wǎng)絡(luò)信息資源進(jìn)行搜索時(shí),可以確保具有相同語(yǔ)義的信息被搜索到,同時(shí)排除名稱(chēng)相同、語(yǔ)義不同的信息,從而提高搜索的查全率和查準(zhǔn)率。基于本體的網(wǎng)絡(luò)信息資源分類(lèi)組織的實(shí)現(xiàn),還需要不斷地完善和改進(jìn),因?yàn)殡S著社會(huì)的不斷發(fā)展、進(jìn)步,新事物、新概念也不斷在產(chǎn)生,舊的事物也會(huì)被取而代之,要不斷對(duì)網(wǎng)絡(luò)信息資源的分類(lèi)進(jìn)行補(bǔ)充和調(diào)整。此外,在今后的研究中還應(yīng)對(duì)分類(lèi)方法進(jìn)行評(píng)價(jià),這樣才能使領(lǐng)域本體在網(wǎng)絡(luò)信息資源分類(lèi)中更加完善。
參考文獻(xiàn):
[1] 喬燕鴻.基于本體論的信息組織研究[D].鄭州:鄭州大學(xué)博士學(xué)位論文集,2007.
[2] 曹樹(shù)金,羅春榮.信息組織的分類(lèi)法與主題法[M].北京:北京圖書(shū)館出版社,2000.
[3] 張燕飛.信息組織的主題語(yǔ)言[M].武漢:武漢大學(xué)出版社,2005.
[4] 馬張華,侯漢清.文獻(xiàn)分類(lèi)法主題法導(dǎo)論[M].北京:北京圖書(shū)館出版社,2002.
[5] 游春山,狄九鳳.信息組織理論與實(shí)踐[M].北京:北京大學(xué)出版社,2001.
[6] 馬費(fèi)城,李剛,查先進(jìn).信息資源管理[M].武漢:武漢大學(xué)出版社,2000.
[7] 譚華軍.知識(shí)分類(lèi)[M].南京:東南大學(xué)出版社,2003.
[8] 艾偉.本體的構(gòu)造及其研究[D].武漢:武漢理工大學(xué),2005.
(責(zé)任編輯:楊 放)