陳紅艷
關鍵詞:網(wǎng)絡敘詞表;詞表構建;面向用戶
摘要:近年來,網(wǎng)絡敘詞表作為一種新型語義工具,引起了國內(nèi)外信息組織領域的廣泛關注。文章從網(wǎng)絡敘詞表的功能定位、結構設計、編制模式、構建標準等4個方面,探討了網(wǎng)絡敘詞表在構建過程中的幾個關鍵問題,以期對我國網(wǎng)絡敘詞表構建的實踐提供指導,擴大網(wǎng)絡敘詞表的社會化應用領域。
中圖分類號:G254.2文獻標識碼:A文章編號:1003-1588(2016)07-0131-03
1 背景
作為一種新型語義工具,網(wǎng)絡敘詞表是敘詞表在網(wǎng)絡環(huán)境下的新形式和新發(fā)展,其編制與應用已引起國內(nèi)外信息組織領域的廣泛關注。與傳統(tǒng)敘詞表相比,網(wǎng)絡敘詞表的構建目的從以資源為中心的標引應用發(fā)展為以用戶為中心的檢索需求,其構建方式從人工編制發(fā)展為以計算機為主、人工為輔的模式,其使用群體從適用于專業(yè)人員發(fā)展為面向大眾用戶,其載體形式從紙本印刷型轉(zhuǎn)變?yōu)榫W(wǎng)絡數(shù)字化,其格式類型從單一版本發(fā)展為多數(shù)據(jù)格式并存。
網(wǎng)絡環(huán)境下,一方面,敘詞表的應用領域得到大大擴展,在知識導航、信息分類、數(shù)據(jù)挖掘、語義檢索等領域都有重要應用;另一方面,人們對敘詞表也提出了更高的期望和要求,期望敘詞表不僅能保持傳統(tǒng)優(yōu)勢,而且能增加詞間關系的類型、吸收自然語言的長處,從而更好地符合用戶的需求,適應時代的需要。基于此,筆者以面向用戶的網(wǎng)絡敘詞表為對象,在對網(wǎng)絡敘詞表構建過程分析的基礎上,對其中的幾個核心問題進行深入探討,以期對我國網(wǎng)絡敘詞表構建提供實際參考。
2 國內(nèi)外研究現(xiàn)狀
網(wǎng)絡敘詞表構建的實踐在國外起步較早。據(jù)Taxonomy Warehouse網(wǎng)站[1]收錄統(tǒng)計,歐美各國在網(wǎng)絡環(huán)境中使用的分類表、敘詞表、術語表、本體等共計674部,主要應用于網(wǎng)絡數(shù)據(jù)庫、搜索引擎、Web網(wǎng)頁等網(wǎng)絡信息資源的組織與優(yōu)化。其中,具有代表性的敘詞表有聯(lián)合國糧農(nóng)組織數(shù)據(jù)庫使用的農(nóng)業(yè)敘詞表AGROVOC、美國國家醫(yī)學圖書館的醫(yī)學主題詞表MeSH、美國國會圖書館標題表LCSH等。有關網(wǎng)絡敘詞表構建與設計方面的研究,國外主要集中在詞表設計方法、框架、實現(xiàn)方法、敘詞表構建與維護的軟件及管理系統(tǒng)等。McCulloch從敘詞表構建中的詞匯選擇、結構、標準以及構建軟件等多方面,對網(wǎng)絡環(huán)境下的敘詞表構建提出具體指導意見[2]。Nielsen對選擇詞匯的各種方法進行分析與比較,說明了面向敘詞表設計的任務要求[3]。Glenda對比分析了三種常用的專業(yè)編制敘詞表軟件——Tree Tree、MultiTes、WebChoir,為用戶選擇軟件提供指導[4]。Shiri對網(wǎng)絡環(huán)境下敘詞表的特征及功能進行了深入研究,尤其是對敘詞表增強網(wǎng)絡用戶檢索的方法、策略提出具體措施[5]。
在國內(nèi),中國科學技術信息研究所自2009年起開始對《漢語主題詞表》進行網(wǎng)絡化改造,為網(wǎng)絡環(huán)境下專業(yè)敘詞表的修訂與構建奠定基礎,已建立了《漢語主題詞表》服務系統(tǒng),提供在線概念檢索和輔助標引服務,通過可視化技術展示各類概念關系。近年來,我國國家社會科學基金項目“網(wǎng)絡環(huán)境下敘詞表的編制模式與應用方式研究”“基于知識組織的術語服務研究”“社會化網(wǎng)絡環(huán)境下信息組織的理論與方法創(chuàng)新研究”“敘詞表與分眾分類系統(tǒng)的集成研究”“中外分類知識組織體系互操作實證研究”“基于敘詞表自動集成的領域本體構建方法研究”“中文知識組織系統(tǒng)形式化語義描述標準體系研究”等,研究成效顯著,產(chǎn)生了一大批高質(zhì)量的研究成果,有效推動了我國網(wǎng)絡敘詞表的研究進展。國內(nèi)學者研究主要表現(xiàn)在對網(wǎng)絡環(huán)境下的敘詞表編制模式、收詞新來源、編制標準、概念分類、詞間關系細化以及敘詞表的發(fā)展趨勢等方面[6],而對于面向用戶的網(wǎng)絡敘詞表構建過程中所涉及的關鍵問題還未進行系統(tǒng)深入的探討。
3 網(wǎng)絡敘詞表構建的幾個關鍵問題
網(wǎng)絡敘詞表的構建是一項系統(tǒng)工程。編制一部網(wǎng)絡敘詞表的一般程序大體上包括總體設計、規(guī)范制定、收集與整理詞匯、錄入數(shù)據(jù)與網(wǎng)絡出版、測試與維護等五個階段。每一階段都有其不同的核心任務。在分析用戶需求特點及結合開發(fā)單位實際情況,對所要編制的敘詞表進行設計規(guī)劃,明確詞表的使用對象與目標、詞匯來源、詞表的結構等核心內(nèi)容的前提下,以下幾個關鍵問題需要重點考慮。
3.1 網(wǎng)絡敘詞表的功能定位
在傳統(tǒng)環(huán)境下,敘詞表主要應用于圖書館或相關信息部門,其應用領域主要集中在對文獻信息的標引。隨著信息技術的發(fā)展,網(wǎng)絡敘詞表已逐步成為知識組織的普及性工具,支持網(wǎng)絡環(huán)境下不同信息應用平臺的精確知識描述和知識檢索,提高各類型平臺信息的可獲得性和可用性[7]。當前,網(wǎng)絡敘詞表已經(jīng)被廣泛應用到電子政務、電子商務以及網(wǎng)絡數(shù)據(jù)庫中,通過相連或嵌入詞表的形式輔助用戶檢索,不僅對文本資源進行組織,還對圖像、視頻、音頻等多媒體非文本資源進行標引與描述。例如:英國國家數(shù)字檔案館使用的《UNESCO敘詞表》、STI數(shù)據(jù)庫中使用的《NASA主題詞表》、UMI數(shù)據(jù)庫中的《ProQuest受控主題詞表》《ERIC網(wǎng)絡敘詞表》《一體化醫(yī)學語言系統(tǒng)(UMLS)》等,均滿足了終端用戶從檢索詞匯到檢索相關信息的連續(xù)檢索過程,優(yōu)化了用戶檢索效果。
網(wǎng)絡敘詞表具有開放性特點,任何終端用戶皆可訪問使用。在信息利用的不同階段,網(wǎng)絡敘詞表通過提供特定的語境信息,發(fā)揮著信息標引、檢索、瀏覽、導航、關聯(lián)等多種作用。由于網(wǎng)絡敘詞表對不同類型用戶所產(chǎn)生的作用及影響不同,因此,要根據(jù)用戶的實際需求設計適合的網(wǎng)絡敘詞表。在深入分析網(wǎng)絡敘詞表需求環(huán)境的基礎上,結合具體信息場景,擴大網(wǎng)絡敘詞表的應用領域,明確網(wǎng)絡敘詞表的功能定位。
為進一步拓展其功能,網(wǎng)絡敘詞表必須與專業(yè)網(wǎng)站、平臺、數(shù)據(jù)系統(tǒng)等相關聯(lián),使其成為從信息組織到知識組織,進而轉(zhuǎn)換到知識發(fā)現(xiàn)的工具,優(yōu)化信息內(nèi)容的呈現(xiàn)方式,提高用戶信息利用效率。
3.2 網(wǎng)絡敘詞表的結構設計
敘詞表的結構決定了敘詞表的功能,要充分發(fā)揮一部敘詞表的功能,必須為其設計合理的結構。網(wǎng)絡敘詞表的結構通常包括宏觀結構和微觀結構。其中,宏觀結構是指后臺數(shù)據(jù)庫(詞表內(nèi)容系統(tǒng))和前臺網(wǎng)站系統(tǒng)(即各功能用戶界面)。后臺數(shù)據(jù)庫主要實現(xiàn)儲存詞匯、用戶檢索、瀏覽提取數(shù)據(jù),前臺網(wǎng)站系統(tǒng)是聯(lián)系用戶與敘詞表的平臺,便于二者交流。
網(wǎng)絡敘詞表的微觀結構是詞表的基本組成單元,主要是指敘詞款目的內(nèi)容組成及其顯示方式。傳統(tǒng)敘詞表的敘詞款目著錄事項一般包括:敘詞/非敘詞、標記項(分類號、范疇號等)、注釋項(含義、范圍說明等)、參照項[8]。這里的參照項是通過詞匯間的語義關系來實現(xiàn)。對于傳統(tǒng)敘詞表,用戶可以選擇瀏覽有關詞匯的歷史、范疇注釋、定義,還有所有詞匯間語義關系。為了適應網(wǎng)絡應用環(huán)境,敘詞表在結構上需要做出調(diào)整,除了包含等級關系、等同關系和相關關系等三種基本詞間關系以外,可適當添加新型詞間關系以進一步拓展敘詞表功能。在全面抽取領域?qū)I(yè)術語的基礎上,采用分面標記方法自定義詞間關系,細分與歸類不同概念詞匯間存在的一系列關系。這樣既可以使敘詞表詞間關系處理更加靈活,又可以滿足用戶的個性化需求,提高信息檢索的準確率[9]。
為方便用戶多途徑選擇敘詞,網(wǎng)絡敘詞表通常提供了按字母順序、主題類別、等級結構、KWOC(題外關鍵詞)、KWIC(題內(nèi)關鍵詞)等多種顯示方式。但無論哪一種顯示方式,都需揭示相關詞匯間的關系并在詞匯下實行超鏈接。通過詞匯間所存在的語義關系,使用戶清晰了解概念的內(nèi)涵與外延,根據(jù)所檢索的主題選擇適當檢索詞匯,提高檢準率和檢全率;實行超鏈接,方便用戶在不同詞匯間跳轉(zhuǎn),提高詞表的使用效率。
3.3 網(wǎng)絡敘詞表的編制模式
敘詞表的編制是一項極其耗時耗力、具有知識密集型特征的工作。傳統(tǒng)的敘詞表編制速度緩慢,無法及時收錄和補充覆蓋各學科領域的新詞匯,詞表更新、維護效率較低。在網(wǎng)絡環(huán)境下,信息技術的發(fā)展讓改變單一、獨立、封閉的敘詞表編制體系成為可能。采用多用戶、多單位協(xié)同編制模式,將各個學科領域的專業(yè)人員、用戶納入編制系統(tǒng)中,實現(xiàn)敘詞表編制的協(xié)同操作。從編制時間上而言,通過協(xié)同編制能加快編制速度,適應網(wǎng)絡時代信息組織與信息檢索的發(fā)展;從空間上來講,通過網(wǎng)絡環(huán)境下的協(xié)同編制,可以實現(xiàn)不同區(qū)域內(nèi)的領域?qū)<耶惖赝瓿赏恢R組織體系的構建。通過敘詞表的協(xié)同編制,可以不受時空限制,實現(xiàn)知識組織體系的快速構建[10]。
網(wǎng)絡敘詞表是在網(wǎng)絡環(huán)境下建立和使用的,其使用對象面向的是終端用戶,利用Web2.0技術,加強與用戶互動,完成在線討論、修訂和分工管理[11]。在網(wǎng)絡敘詞表構建前期,可以通過在相關的網(wǎng)站上公布固定表單格式,鼓勵用戶提供詞匯,增加詞匯的收錄途徑。網(wǎng)絡敘詞表檢測階段,也可鼓勵終端用戶使用,提供反饋使用效果。詞表建成后,可在網(wǎng)站用戶界面上開設一個專欄,采取互動的方式,廣泛聽取用戶意見,分析用戶對使用詞匯情況的反饋,并記錄用戶推薦的新詞匯和相關詞匯,及時更新詞表,最大限度地滿足用戶使用需求。
采取協(xié)同編制的詞表構建模式,吸引眾多社會力量參與,一方面是保障詞表的維護和更新,另一方面用戶參與編制擴大了網(wǎng)絡敘詞表的影響力和社會化應用。
3.4 網(wǎng)絡敘詞表構建標準的確立
每一部網(wǎng)絡敘詞表的構建都是結合開發(fā)機構的實際情況、用戶需求以及詞表的使用目的等因素,綜合考慮進行編制,特色鮮明。為了不同學科、專業(yè)信息之間的交融,提高詞表間的兼容性和適用性,要求網(wǎng)絡敘詞表在建設初期需要確立和遵循相應的國家標準和國際標準,以利于詞表日后的應用及發(fā)展。
目前,構建敘詞表的最新國際標準是ISO25964[12],包括兩部分ISO25964-1——用于信息檢索的敘詞表和ISO25964-2——與其他詞表的互操作,涉及單語種敘詞表和多語種敘詞表構建與維護。此外,美國標準(ANSI/NISOZ39.19-2005)是2005年由美國國家標準協(xié)會通過的單語種受控詞表的編制規(guī)則。該標準提出了關于受控詞表內(nèi)容、顯示排列、構建、測試、維護和管理的準則和公約,對互操作、新型知識組織工具等新內(nèi)容進行了補充。它涵蓋了構建受控語言的所有方面,涉及詞匯選擇、詞匯格式、復合詞的使用、建立和顯示詞匯之間的各種關系的各項規(guī)定和準則。此標準還對計算機屏幕格式的敘詞表的瀏覽、導航、顯示等相關問題等給予特殊說明[13]。
此外,2005年萬維網(wǎng)聯(lián)盟(W3C)首次發(fā)布了專門用于對敘詞表、分類法等知識組織系統(tǒng)進行語義化描述的簡單知識組織系統(tǒng)語言(簡稱SKOS),并于2009年8月將其定為正式標準。SKOS是采用RDFS和OWL建模語言定義的一套詞匯,對詞表的結構、內(nèi)容和映射關系進行描述,是一種適用于網(wǎng)絡環(huán)境下詞表應用的新的表示格式[14]。
4 結語
我國網(wǎng)絡敘詞表研究剛剛起步,在關注和遵守國際標準的基礎上,一定要結合漢語的特點,盡快建立我國網(wǎng)絡敘詞表的構建標準,這不僅有利于敘詞表的良性發(fā)展,還利于敘詞表之間的互操作及網(wǎng)絡數(shù)據(jù)庫的跨庫檢索的實現(xiàn)。在未來,我們應充分利用信息技術,加快我國網(wǎng)絡敘詞表的建設步伐,有效推動敘詞表從圖書館拓展到社會其他領域的信息利用環(huán)境中,使之成為信息組織和知識組織的普及工具。
參考文獻:
[1] Taxonomy Warehouse[EB/OL]. [2016-01-05].http://www.taxonomywarehouse.com/default.aspx.
[2] McCulloch,E.Thesauri:practical guidance for construction[J].Library Review,2005(7):403-409.
[3] Nielsen,M.L.A Framework for Work Task Based Thesaurus Design[J].Journal of Documentation,2001(6):774-797.
[4] Glenda,B.Thesaurus Construction Software Part 1 and 2[EB/OL].[2016-01-06].http://www.willpowerinfo.co.uk/thesbibl.htm.
[5] Shiri, A, Revie,C. Usability and user perceptions of a thesaurus-enhanced search interface[J].Journal of Documentation,2005(5):640-656.
[6] 余豐民.國內(nèi)主題詞表研究脈絡初探[J].情報科學,2014(5):12-17.
[7] 周曉英,曾建勛.主題詞表的社會應用研究[J].數(shù)字圖書館論壇,2014(10):2-6.
[8] 張燕飛.信息組織的主題語言[M].武漢:武漢大學出版社,2005.
[9] 王世清,常春.敘詞表編制標準的詞間關系比較研究[J].情報理論與實踐,2010(8):42-46.
[10] 趙捷,曾建勛,吳雯娜.網(wǎng)絡環(huán)境下敘詞表協(xié)同編制系統(tǒng)的構建[J].圖書情報工作,2011(22):6-10.
[11] 張忠秋.我國分類表與主題詞表發(fā)展與近期任務研究[J].圖書館建設,2013(2):16-19.
[12] ISO 25964-1:2011(en)[EB/OL].[2016-05-28].https://www.iso.org/obp/ui/#!iso:std:53657:en.
[13] ANSI/NISO Z39.19-2005. Guidelines for the Construction,F(xiàn)ormat, and Management of Monolingual ControlledVocabularies[EB/OL].[2016-01-28].http://www.niso.org/apps/group_public/download.php/12591/z39-19-2005r 2010.pdf.
[14] 歐石燕.中文敘詞表的語義化轉(zhuǎn)換[J].圖書情報工作,2015(16):110-118.
(編校:崔萌)