●孫凌云(廣東工業大學 圖書館, 廣州 510090)
知識組織系統,如分類法、詞表、詞匯數據庫、本體、敘詞表都旨在揭示某一領域的潛在語義結構。現代的數字化信息系統提供了比傳統的物理圖書館更多的映射方法和信息選擇次序。數字化環境使得從復雜情景中揭示信息的可能性更大。因此,我們在復雜的、跨學科的知識領域開發對于終端用戶操作有用且有意義的知識組織系統所面對的技術和智力上的挑戰同樣巨大。使用相應的工具來輔助利用信息資源,進行信息資源的組織和檢索,正是網絡環境下知識組織系統的主要應用方向。一方面網絡知識組織系統是傳統知識組織系統的重要組成部分與分支;另一方面網絡知識組織系統超越了傳統的知識組織系統,是其未來發展方向。
知識組織系統 (knowledge organization systems,簡稱KOS)是我們用來定義并組織表述真實世界物體的術語和符號的系統,在具體應用中我們往往將它們泛指為語義工具。不論KOS是以什么形式出現,其基本方法都是相同的,不同的是采用這些方法的程度和范圍。KOS的應用經歷了四個階段:查尋、查尋加瀏覽、分面加多維、檢索中加入屬性特征。
隨著現代信息技術和數字化資源的迅猛發展,網絡環境下KOS(netwo rkedkn owl edgeor gan izat ions ystems,簡稱NKOS)呈現出新的特點:① 吸取不同知識組織系統的特長,集中起來優化使用;② 等級結構與元數據式的“特征”結合;③ KOS、元數據與專用置標語言的結合使用;④ 多個知識組織系統結構在學習科學概念中的結合使用;⑤ 對計算機可理解性的強調;⑥ 可視化與傳統形式的結合使用。網絡環境下的KOS(NKOS)正在從機器可讀走向機器可理解。
Gail.Hdege將NKOS分為術語列表、分類法和關系列表。術語列表,包含一系列有完整定義的術語,通常不包括術語之間的關系,如規范檔、術語表、字典、地名詞表等;分類法,強調關于主題的集合的創建,對術語之間的關系揭示著重于屬分關系,一般是樹形結構的,如標題詞表、分類法、專類分類法、類目結構等;關系列表,強調術語及其之間的多方面描述,術語之間關系的揭示不僅僅局限于用、代、屬、分參等關系,還可以包括整體部分關系、蘊涵關系等多種復雜的關系,一般是網狀結構的,如敘詞表、語義網絡和本體等。[1]下圖所示為目前較為認同的NKOS分類體系。

圖 知識組織系統結構
NKOS的表示是NKOS體現其價值與作用的基礎,如果無法以恰當的方式表達NKOS,就無法對其進行有效利用。因此將NKOS所描述的概念、概念間的關系和知識結構以機器可理解的形式表示出來是NKOS要解決的首要問題。NKOS發展前期是KOS的電子化,包括KOS的MARC描述和數據庫化,用數據庫存儲和表示便利了對KOS的管理和訪問。隨著web網的普及,實現了用HTML網頁提供基本的瀏覽和查詢功能。KOS用HTML表示,不同KOS在體例上、結構上、內容上的異構性依然存在,不便于計算機的自動處理和利用。由于NKOS是基于網絡的,而語義web的基礎語言是XML,為了保障兼容性,合適的NKOS表示語言應當是基于XML的。
在基于XML的語言體系中,SKOS是一種新興的NKOS表示語言。SKOS是W3C于2004年發布的作為受控詞表乃至概念框架表示的語言標準,目前尚處于發展階段,但它的簡潔、通用、易擴展、與語義web和傳統圖書館學情報學聯系緊密等特點,已逐漸引起人們的重視。目前國內詳細介紹SKOS的文章很少。SKOS包括三個主要部分:核心集(SKOS Core),用于表示除Ontology外的幾乎所有其他NKOS;映射(SKOS Mapping),用于概念框架之間的映射;擴展(SKOS Extensions),用于輔助SKOS的特定應用。其中SKOS Core比較成熟,已經形成了相應的語法標準和應用標準,而后兩者還處于發展階段。[2]
從JCDL、ECDL、DCMA歷次會議NKOS研究主題可以看出,2002年之前敘詞表、分類和元數據是討論的重點,2002年之后,本體、語義網、互操作、標準/協議、主題地圖、系統管理和服務成為NKOS研究的熱點。[3]目前NKOS研究熱衷于技術,其技術研究與實踐聯系非常緊密,幾乎每次的NKOS分會討論中都有相關技術的應用實例報告,并且均是當前項目的最新進展。目前,世界范圍內有很多已建成或在建的NKOS項目。
互操作主要是為解決多語言映射和異構系統的問題。語言障礙和異構系統是用戶利用知識信息的最大障礙。因此,互操作成為NKOS重點研究的一項技術。
Marcia Lei Zeng和Lois Mai Chan兩位學者總結了KOS互操作的8種實現方式:繼承/仿建,以現有的復雜的詞表為原型,創建專業的或簡單的詞表;翻譯/改編,從其他語言的詞表翻譯、改編形成自己的詞表;衛星子表,對現有詞表的某個主題進行擴展,形成新的子表,稱為原表的衛星;直接映射,直接在不同KOS的詞語之間或者詞語與分類號之間建立等價關系;共現映射,通過KOS詞語在元數據記錄中的共現關系建立術語間的映射;中心轉換,將參與互操作的多個KOS映射到一個共同選定的中心KOS上,兩個KOS之間的互操作可以通過中心KOS的轉換實現;臨時列表,根據查詢詞臨時從不同的KOS提取相匹配的對象,組建臨時對應列表;協議連接,通過建立KOS服務協議供其他應用程序訪問,創建連接環境,實現KOS 的互操作。[4]
對于獨立創建的KOS,映射和協議是實現KOS互操作的主要方式。在參與互操作的KOS比較明確時,映射方式比較適用。而在參與互操作的KOS并不明確時,協議方式較為合適。臨時列表是基于對查詢提問的字面匹配的,互操作的效率和準確性不是很高,但實現起來比較簡單。可見,各種互操作方式有其各自的特點和適用范圍,在具體的信息資源共享活動中需要從實際出發選擇合適的方式。
Z39.19是關于詞匯控制工具最主要的標準。它提供了單語種詞匯控制工具(包括同義詞環、專類類表和詞表等)的內容、顯示、構建、維護和管理等方面的原則和規范,充分考慮了標引非傳統紙質文獻的要求,也提出了在網絡環境下的顯示要求。BS5723是英國制定的關于單語言詞表的標準,頒布于1987年。2005年發布的《BS8723:用于信息檢索的結構化詞匯》全面取代了BS5723。BS8723共有5個部分,其中第1、2部分已于2005年出版,第3、4部分于2007年出版,第5部分尚在擬定中。越來越受到關注的ISO NP 25964(全稱是Structured vocabularies for information retrieval),即用于信息檢索的結構化詞匯,其主要內容就是源于BS8723協議。
W3C在參考了多種現存的KOS標準后于2004年發布SKOS推薦標準,它是一個基于語義網技術表示受控詞表及其它知識工具的概念框架。SKOS是歐洲學者提出的,他們大力研究并積極推廣,但是北美學者對此似乎反應冷淡,這不知是由于學術背景的差異還是歐美的學術對峙。鑒于W3C在網絡語言標準化方面的權威地位,SKOS盡管還是一個推薦標準,但已經被用于若干大型詞表的表示,包括歐洲的多語言環境詞表GEMET、英國的檔案詞表UKAT、澳大利亞公共事務信息服務詞表APAIS等。北京大學信息管理系KVision研究小組采用SKOS描述了中國分類主題詞表的一個片斷,并基于此實現了一個語義檢索系統。
3.3.1 信息檢索
多年以來,只有接受過訓練的編目及標引人員會使用KOS進行標引,生產相應的服務產品。KOS的用戶大多是圖書館員及其他專業檢索者,但是近年來,由于電子數據和電子出版物的激增,以及對信息檢索困難的關注,人們對專業人員和最終用戶都能使用的KOS 重新產生了興趣。[5]
EdwardT.O’Neill博士和麥麟屏教授提出對《美國國會圖書館主題詞表(LCSH)》的應用改造,在網絡環境下要求KOS具有簡單易用性。Edward T.O’Neill博士和麥麟屏教授的文章介紹了由他們主要負責、OCLC牽頭、有美國國會圖書館(LC)和美國圖書館學會(ALA)圖書館館藏與技術服務協會/主題分析委員會ALCTS/SAC參與的《FAST(主題詞匯的分面式應用)》項目的工作成果是一個建立在LCSH的術語和關系上、在結構上趨向于后組配、句法簡單的、用于處理數字化資源的詞匯表。隨著FAST在2003年年底的正式推廣,處理網絡資源的工作從此有了可靠的、規模龐大的、綜合的主題詞匯表,而對這個詞匯表的管理工作量又是微乎其微的,基本上是全自動化的,這種簡單易用的工具將被大批從未受過圖書館學專業技能訓練的人所使用。FAST的意義在于它對傳統知識組織系統工具的開發、改造、利用,并投身于對新的網絡環境的服務義務之中,其影響將是巨大的。
3.3.2 術語服務和詞匯注冊
術語服務。通過Web服務技術在網絡上提供分布式的詞匯服務是目前NKOS服務的一種主要形式。已提供這類服務的詞表有:AGROVOC、AAT、CSA/NBII生物復雜性詞表(Biocom plexity Thesaurus)、美國國家農業詞表(NAL)、亞歷山大數字圖書館項目(ADL)中的地名表協議等。
詞匯注冊服務。“分類法倉庫”(Taxonomy Warehouse) 站點提供KOS的注冊服務,任何機構都可以將自己創建的KOS提交到該站點注冊。目前在該站點登記在冊的KOS多達660個。類似的項目還有:Becta Terminology Studio,HILT Terminoloyg Service,XMDR Extended Metadata Registry,NSDL Metadata Registry等。詞匯注冊服務可以作為數字圖書館體系結構中的一個關鍵組件來實現,它的主要功能有:登記和管理創建者提交的各類NKOS;發布和發現關于術語的信息;證實術語的真實性和狀態;發現術語間的關系;支持推理、映射等功能;提供對相關資源的導航;促進不同控制詞匯系統間的互操作等。詞匯注冊服務要求采用開放標準和通用結構(如Zthes,SKOS,MARC等)描述登記在案的KOS,它還可以提供編程接口,同時向用戶和職能代理提供服務。
3.3.3 其他應用
出版商采用電子排版系統開發其出版物的文摘和索引服務產品。大型的期刊出版商,如Elsevier建立了它們自己的可提供書目記錄的系統,且書目記錄能夠連接到文獻全文。隨著在線電子期刊內容的增長,人們越來越需要系統由單純提供目次和期刊卷期瀏覽,轉變為支持全文檢索和KOS檢索。電子期刊產生了附屬的KOS,特別是分類表。例如,Elsevier的網站提供主題分類表,為該網站2000多個子網站提供檢索入口。
商業領域應用規范檔和分類表。例如美國應用在采購和政府統計中的《標準工業分類表》(SIC)和《北美工業分類表》(NAICS);疾病與治療方案一一對應的疾病碼在醫生、醫院和保險公司中使用。越來越多的組織機構建立網站后,將創建附屬的KOS,以支持其運作。
團體機構是KOS最大的創造者和使用者。企業內網和知識管理系統的創建者已經發現了數百種專門的分類表、術語表以及其他在組織內使用的詞表,其中很多都是為特定任務創建的,其適用的主題領域及目標用戶都比較窄,但是對這些用戶來說,它們仍是豐富的情報資源。例如,美國能源部(DOE)的環境管理科學計劃(EMSP) 和科學技術信息辦公室創建數字圖書館為EMSP的管理者提供支持。研究人員編制了“需求范疇表”和“科學范疇表”來組織環境科學網(ESN)。ESN利用這些分類表為DOE內部的其他相關資料及來自美國環境保護署(EPA)、美國航空航天總署(NASA) 分布數據庫的相關資料提供支持。圍繞這些分類表組織的詞表,將與網絡挖掘工具一起使用,將會為特定主題領域的計劃管理者提供更相關、更準確的網絡資源。
NKOS代表了知識組織系統的發展方向:數字化、網絡化、語義化、協議化和自動化,其技術、方法的廣泛應用為知識組織系統的發展帶來了勃勃生機。NKOS除了為特定社群或用戶提供信息檢索的主要功能外,還能夠在促進數字圖書館發展中發揮作用。在這方面還有很多實際的應用性強的研究課題,如NKOS的半自動構件和維護,NKOS輔助信息資源組織檢索,知識組織系統最前沿的發展——語義網(Semantic Web) 和實用分類系統(Ontologies)等。在研究技術的同時,研究者必須關注最終用戶的需求,在以用戶為中心的基礎上研究開發新技術。NKOS也將隨著技術的開發和廣泛應用而迅速發展。
[1] Gail H.Systems of Knowledge Organization for Digital Libraries:Beyond Traditional Authority Files[M].Waste mston:The Digital Library Federation,2003:4-7.
[2] Zeng ML,Lois Mai Chan.Trend and issues in establishing interoperability among knowledge organization systems[J].Jounralof American Societyfor Information Science and Technology(JASIST),2007,55(5):377-395.
[3]王一丁,王軍.網絡知識組織系統表示語言:SKOS[J].大學圖書館學報,2007(4):30-35.
[4]司莉,等.知識組織系統在我國數字圖書館中的應用及界面研究[J].情報科學,2007(3):446-450.
[5]司莉,舒欣.國外網絡知識組織系統研究現狀與發展趨勢[J].圖書情報知識,2008(9):82-85.