王冠華,危 紅
2010年中國科學技術信息研究所啟動《漢語主題詞表》 (工程技術版)(以下簡稱“《漢表》”)的修訂,2013年基本完成。新《漢表》是建立在網絡環境下的在線《漢表》,是由基礎詞庫、核心詞庫、敘詞詞庫等構成的知識組織系統,采用在線平臺進行編制,提供基于知識組織的術語服務,加強與用戶的交互,并建立動態變化的專業知識體系更新與維護機制,其智能化和可視化技術提供了更多人性化的應用方式[1]。
新《漢表》 的基礎詞庫來源包括80余種的中文敘詞表,截止2010年6月的全國科學技術名詞審定委員會公布的科技術語,1600余種的術語標準,約200種的理工類詞典(含百科),約300萬條萬方中文期刊、學位論文關鍵詞、維普中文期刊關鍵詞以及約100萬條的網絡百科詞匯。按詞形查重后總計360萬條。其中,約30萬條無法歸類,主要為網絡詞匯,330萬條詞匯有分類;161萬條詞匯有英文譯稱,27萬條詞匯有注釋,21萬條詞匯有用/代關系,32萬條詞匯有屬/分關系,10萬條詞匯有相關關系[2]。不同來源的數據、概念的合并和關聯都會加大概念體系的復雜度。如何合并相同概念,構建同義詞群;如何區分敘詞的等級關系;如何注意到等同關系、等級關系、相關關系之間既有語詞客觀的聯系,又有很大的人為性,且相互間不是絕對的,是可以相互轉換的;如何在多人協同工作模式下,使敘詞的詞間關系得以控制,是詞表修訂工作中詞間關系建設質量的體現。
等同關系用于同義詞或近義詞之間,即一般的異形同義詞、同一概念的不同譯名之間、舊稱與新稱之間、俗稱與學名之間、中文全譯名與外文縮寫詞之間、別名與產品型號名之間;還用于準同義詞之間,即一般準同義詞之間、部分反義詞之間,用于泛指敘詞與專指敘詞之間,須將使用頻率低的專指詞歸納到所從屬的泛指敘詞。準同義詞的詞義不同,但從文獻處理與情報檢索方面考慮,需要將它們作為同義詞來處理,以免分散文獻[3]。
雖然新《漢表》在線平臺對庫中詞匯有同義詞推薦功能,方便了同義詞的詞群建立,但新《漢表》的海量詞匯,致使推薦的同義詞建群的準確率不太高,真正等同關系的建立,還是依賴于編表人員的判斷。一般來說,同義詞群是一個概念的多個表達詞匯的匯集。這個詞群中所包括的詞匯不全是同義詞,它可以有準同義詞、部分反義詞,以及0詞頻的下位敘詞。

圖1 以廢棄物為敘詞的詞群
如圖1所示,這是具有大量入口詞(即非優選詞)的詞群,詞頻的高低是敘詞(即優選詞)選取的依據之一,廢棄物作為這個詞群中詞頻最高的詞,可選做優選詞;廢物作為同義詞、三廢作為準同義詞、零廢品作為反義詞,因其詞頻低于廢棄物,可作為入口詞;中級廢物、二次廢物、次生廢物等在詞義上具有上下位關系,但因其0詞頻,則采用用代關系,而不是屬分關系。廢棄物作為敘詞具有唯一性,其它詞均作為非敘詞(即入口詞、非優選詞)。
如圖2所示,按詞群的詞頻看,SBR法的詞頻最高,但敘詞是序批式活性污泥法。序批式活性污泥法是環境工程專業名詞,按中華人民共和國環境保護標準《環境工程 名詞術語》(HJ 2016-2012)的定義:英文定義為sequencing batch reactor activated sludge process(縮寫SBR);中文定義為在同一反應池(器)中,按時間順序由進水、曝氣、沉淀、排水和待機5個基本工序組成的活性污泥污水處理方法,簡稱SBR法。SBR法是序批式活性污泥法的簡稱,是一種按間歇曝氣方式來運行的活性污泥污水處理技術。項目組規定,對于以英文縮略語、中英文組合、中英文縮略語組合的敘詞,應列出相對應的全中文敘詞,與原有敘詞之間可建立用代關系。而序批式活性污泥法為國家標準的名稱術語,是在文獻標引與檢索中用于表達文獻的主題而規范化的詞,可作為敘詞,其外文縮寫詞或相同概念的不同表達方法的詞匯做非敘詞,以用代關系來表達。

圖2 以序批式活性污泥法為敘詞的詞群
構建同義詞群還需注意多個合成詞組成的復雜概念敘詞,由于合成詞位置不同而出現的不同詞形敘詞,需要認真甄別是否是同一概念。比如,安全生活與生活安全;安全系統與系統安全,按詞義看,前者可作為同義詞來建群,后者則分別為兩個詞族的下位詞。
嚴格意義上的概念等級關系中,表達涵義較為寬泛的上位概念的外延包含屬于上位詞的較小的、更為專指的下位概念的全部外延,即屬種關系。從傳統紙質檢索系統發展到現在的網絡和電子信息檢索系統,檢索主體和客體都發生了轉變,知識組織工具為適應這種轉變,在對概念語義關系的揭示上也在不斷拓展和演化。美國標準ANSI/NISOZ39.19在2005年的第4版中等級關系拓展到3種不同的邏輯關系,即屬種關系、實例關系、整部關系,該標準沿用至今。
中國標準中對敘詞間等級關系只規定了2種類型,即通用屬分關系與整體部分屬分關系。通用屬分關系是以概念之間是否具有包含關系為基礎;事物的整體與部分之間一般不構成屬分關系,只有特定的整體部分關系可作為屬分關系處理,即表示行政區劃、地理區域的詞,表示人體、生物體的系統與器官的詞,表示某些行政與社群結構的詞。
新《漢表》詞間等級關系的建立,實際上就是構建一系列詞族,即以詞族形式顯示等級關系。其等級關系包括屬種關系、整體與部分關系、實例關系(通常用專有名詞表示)。需要注意的是,切勿把分類法中所列的某些類目名稱,移植到族首詞的等級關系中,因為在分類檢索語言體系中,用來揭示文獻主題內容的標識符是分類號,而不是類目名稱,其所顯示的每一級分類號都是受學科體系分類等級控制的。多數情況下,孤立的類名是看不出這些層次關系的。在敘詞檢索語言體系中,標識符就是敘詞。每個敘詞概念的等級,都定位在該敘詞所在詞族的屬分關系鏈中,通過敘詞屬分關系鏈就可確定其級別。所以,嚴格按敘詞概念的本質屬性,建立屬分等級關系就顯得特別重要。
典型的屬種關系包括相同屬性的事物(實體)、相同屬性的活動(過程)、相同屬性的狀態(形態)、相同屬性的形狀(尺度)、相同屬性的特征(特性)、相同屬性的學科(理論)、相同屬性的結構(系統)、相同屬性的組織(社會機構)[4],如圖3、圖4、圖5所示。

圖3 相同屬性的事物

圖4 相同屬性的活動

圖5 相同屬性的結構
在詞族加工過程中,很多詞匯的等級關系并不明顯,有些介于等級關系和相關關系之間,有些類似分類法“類”的關系。如果按嚴格的等級關系,一些詞語具有某種等級關系,卻又游離在“分類”和“詞族”兩種等級之外,進不了詞族[4]。因此在建立等級關系時,需要編表人員仔細分析、判斷、歸納,可考慮進行必要的變通,比如涉及一些與機理(原理、機制、理論)、工藝(技術、加工、生產、制造)、方法、性質等相關的語詞,可根據詞量的大小來設定建等級關系還是等同關系或相關關系。比如,廢水處理、廢水處理工藝、廢水處理方法、廢水處理技術就建為同義詞群。有些獨詞,不適合建立參照關系,則可以考慮作為最相關詞的下位詞,這種變通對查詞、自動標引有利,也不會引起歧義。

圖6 不典型的等級關系
當一個概念在邏輯上可以隸屬于多個不同的族類,這種關系稱為多等級族關系,此類關系的存在是基于對概念詞匯的不同角度建立屬分關系而形成的。即在不同詞族中,會同時出現一個概念的敘詞,或在同一詞族中也會出現敘詞多屬的情況。比如廢液分工業廢液、黑液、酒精廢液等等,工業廢液又分輕工業廢液、化工廢液、皮革廢液等等,輕工業廢液又分制漿廢液、食品工業廢液、染色廢液等等,制漿廢液又分制漿黑液;而黑液又分制漿黑液,其中制漿黑液,既屬于制漿廢液,又屬于黑液,它同時分屬于兩個不同的上位概念,且還是同一詞族廢液下分的敘詞多屬。
新《漢表》的編制過程中,建立敘詞的屬分關系必須要明確相關敘詞的概念大小與等級關系,否則,將造成屬分關系的混亂。比如某某設施、設備、裝置等敘詞,如何區分這些敘詞的概念大小,項目組給出的參考是:裝備>設備>機械>機器>裝置>機構;組件>器件(零件)>部件>元件;系統≈設備(采油系統、采油設備);系統≈裝置(檢測系統、檢測裝置);系統≈機構(啟動系統、啟動機構);系統≠機械、裝置、機構(管理系統、管理裝置、管理機構)。但在實際編制過程中,并不能完全按上述給出的參考來完成敘詞的等級關系,如果一個概念的前方匹配一致,只是設備或裝置的詞不同,且詞頻低,詞族聚詞又太少,這時的等級關系可轉化為等同關系,某某設備或某某裝置可按同義詞來構建詞群。

圖7 安全設備、安全設施

圖8 防雷裝置
如圖7所示,安全設施和安全設備的詞頻都不低,且詞族聚詞也不少,各自均有下位詞,因而可分為兩個詞族。圖8所示,防雷設施和防雷設備并沒有分為兩個詞族,雖然它們的詞頻也不算太低。因為防雷系統、防雷設施、防雷設備幾乎沒有不同下位詞的詞族聚詞,所以可與防雷裝置構成同義詞群,根據詞頻及下位類詞,選擇防雷裝置為敘詞。
正確理解等同、等級關系的構建原則是建立等同、等級關系的前提條件。尤其需要注意那些容易出錯的典型的字面成族、分類法的從屬派生關系與敘詞法的屬分關系混淆不清,如事物與方面、整體與部分關系等,泛指概念屬專業概念,即小帽子大身體。對于復合概念,保留詞頻較高的詞匯,并注意其多屬特征,刪除詞頻較低的詞匯。在同一詞族,要注意敘詞中的部分詞匯的詞形相同。在構建詞間關系的過程中,大多數的前方一致檢索是構建等同關系的重要手段,大多數的后方一致檢索則是構建等級關系的重要手段,以相同詞尾結束的詞語,有相當一部分具有成族性。網絡環境下的新《漢表》,不只是單純的詞表,它具備了紙質文獻環境下所不具有的動態、開發、便于更改增刪和維護等功能。它的詞間關系揭示更為深刻,對于用戶檢索用詞和文獻主題的準確表達考慮更為充分,實現了敘詞表詞庫與用戶檢索用詞最大限度的一致,從而能為更大范圍的人群使用。
[1] 曾建勛,常春,吳雯娜,等.網絡環境下新型《漢語主題詞表》 的構建[J]. 中國圖書館學報,2011(4):43.
[2] 中國科學技術信息研究所.《漢語主題詞表》(工程技術版) 編制方法培訓[Z].2011.
[3] G B 13190-1991,漢語敘詞表編制規則[S].
[4] 陳樹年.詞間關系及其處理[Z].2012.