鄧倩
【摘 要】標引通過對文檔信息內容特征的處理,形成信息集合以提供用戶檢索利用。隨著網絡的普及和信息技術的廣泛應用,利用主題詞對信息資源進行檢索已成為核電站各類用戶獲取信息的重要途徑。論文系統介紹了主題詞表的編制過程、編制技術及特點。
【Abstract】By processing the information content of the document, the information collection is formed to provide user retrieval and utilization. With the popularization of the internet and the wide application of information technology, the use of subject thesaurus to retrieve information resources has become an important way for all kinds of users of nuclear power plants to obtain information. This paper introduces the preparation process, preparation technology and characteristics of thesaurus.
【關鍵詞】標引;主題詞表;文檔管理
【Keywords】indexing ; thesaurus; archive management
【中圖分類號】TM623 【文獻標志碼】A 【文章編號】1673-1069(2017)12-0013-03
1 前言
《廣東核電合營有限公司主題詞表》于1996年完成編制,是單一文檔標引工具,僅包括字順表和英漢對照表,是一本不具有語義關系的、不完整的主題詞表,其缺陷主要體現在:詞量偏少、收詞范圍偏窄、無分類,無法實現系統性查詞及準確定位等。隨著網絡化的應用,對檢索系統的實用性、易用性提出更高要求,特別是自然語言檢索功能。因此2007—2008年大亞灣核電運營管理有限責任公司啟動“壓水堆核電站主題詞分類研究”項目,對原詞表進行全面修訂。
2 標引與主題詞表
標引是通過對文檔信息內容特征的處理,形成信息集合以提供用戶檢索利用,是文檔檢索的基礎和建立各種信息檢索系統的前提條件。
主題詞表又稱主題詞典、敘詞表,它是將自然語言中的名詞術語經過規范化和優選處理,轉變為主題詞的名詞術語控制工具,主要用于文檔主題標引、信息檢索、組織目錄和索引,是揭示信息資源內容、組織信息檢索系統的重要工具,也是信息存儲和檢索過程中連接標引人員和用戶思路的橋梁。一個好的詞表,不僅能幫助標引人員提高查詞速度,減少選詞錯誤,還能引導標引人員在標引時做出正確的判斷,提高標引效率。
一本兼具科學性、專業性與實用性的主題詞表,在提高文檔信息處理的質量和效率的同時,還能成為信息檢索的導航工具。隨著網絡的普及和信息技術的廣泛應用,利用主題詞對信息資源進行檢索已成為用戶獲取信息的重要途徑。
3 詞表編制的指導思想和原則
①在保證主題詞表科學性的前提下,加強實用性,充分滿足計算機和網絡環境下文檔標引和檢索的需求;充分滿足最終用戶——一般員工的檢索要求,提高其自然語言檢索能力。
②在保證主題詞表為綜合性詞表的前提下,兼顧專業信息標引和檢索的需要,處理好主題詞的專指性。
③要考慮到主題詞表的修訂換版給標引一致性和檢索實踐帶來的影響,例如:對部分刪除的主題詞的處理,應先刪除已標引文檔中的記錄,再刪除主題詞的步驟。
4 詞表的編制方法和過程
4.1 字順表
4.1.1 選詞依據
①來源之一:核電生產建設活動中產生的約30萬份文件和檔案。在增補主題詞的過程中,通過查閱文件檔案,將用戶的習慣用語作為非正式主題詞,提高文檔的查全率。
②來源之二:專業詞典,主要包括英法漢核能詞匯、英漢原子能詞典。
③來源之三:電站生產管理信息系統(以下簡稱COMIS),該系統包含電站所有設備目錄,從中增補了大量設備類主題詞。
4.1.2 選詞范圍和重點
涵蓋壓水堆核電站從建設到生產的各主要專業活動,由于壓水堆核電站的日常運營活動是以系統和設備為核心,因此著重增補設備類主題詞,占總量的35%。
4.1.3 主表的構成
主表形式發生變化,由單一的主題詞表演變成“基本詞匯+子表”,“子表”是把代表生產活動特點的各類代碼進行剝離而形成的,包括:系統代碼表、廠房/建筑物代碼表、組織機構代碼表、LOT包。這樣的構成方式既體現了壓水堆核電站的管理特點,也符合用戶的檢索習慣。
4.1.4 審詞方式
新增詞匯均通過專業部門審查,審查內容主要包括:詞匯是否反映電站生產實際、詞量是否足夠,多次溝通后,最后項目小組根據反饋意見完成修訂。
4.2 主題詞范疇表
4.2.1 范疇表分類方案
范疇表共設15個一級類目,包括:電站建設、機組運行、維修管理、生產計劃與聯網、設備、反應堆結構與設施、檢查監督與試驗、工程改進、化學與環境監測、安全管理、質量保證、應急準備與響應、信息管理、綜合、基本術語。
4.2.2 類目設計思路
既全面覆蓋,又突出重點。“全面”是指涵蓋了壓水堆核電站從建設、生產、運營、維修到工程改進的全過程,涵蓋各主要專業活動,“突出重點”是指體現生產運營活動的主要專業活動的主題詞(機組運行、維修、檢查監督與試驗、設備)占到了總量的43%。為了緊扣核電站以系統和設備為中心的管理導向,設立“設備”作為一級類目。同時考慮到壓水堆核電站與常規電廠的區別,設立“反應堆結構與設施”作為一級類目。endprint
4.2.4 詞量統計
4.3 族系表
4.3.1 工作依據
漢語主題詞表、電力主題詞表。
4.3.2 族首詞的設立依據
由于族系表將應用在檢索系統進行自動擴檢、上位詞登錄及族性檢索,在設立族首詞時,除參考權威詞典外,還根據壓水堆核電站的技術特點和工作實際情況進行了探索,新增346個族首詞,例如:除鹽器、變電站、維修等。
5 主題詞表修訂技術與規范
5.1 主題詞修訂原則
①依據科學性與實用性、綜合性與專業性相結合的原則選詞。在主題詞修訂過程中,注意詞的學名與俗名的關系處理和詞形的選擇,學名具有科學性與穩定性,俗名具有實用性和階段性。
②對原主題詞使用頻率很低的,可作為刪除或作為另一主題詞代用詞的依據,對有一定標引頻率的關鍵詞,作為主題詞預選范圍。
③遵循GB 13190-91“漢語敘詞表編制規則”中“4 敘詞選定”和“5 詞間關系處理”的規定。
5.2 新增主題詞規則
①選定的主題詞,須一詞一義,詞形簡練,概念明確,符合科學性。不選用概念容易混淆、詞義不清的詞語作為正式主題詞。
②選定的主題詞以名詞為主,避免使用單字形動詞,對于形容詞、副詞、數詞及量詞,要慎重處理,一般不選。
③詞組型的主題詞組,對于兩個或兩個以上具有交叉關系的簡單概念綜合而形成的復合概念,對于事物與事物方面所構成的復合概念,就收選為主題詞。
④將專有名稱收選為主題詞,但對于不同詞形的同一名稱建立用代關系,把最通用或慣用的名稱作為正式主題詞,其他名稱作為非正式主題詞。
5.3 主題詞修改、刪除規則
①主題詞內涵具有時代局限性或詞義不清,概念易混淆,孤立的沒有任何參照關系或過于專指或詞形過長可以組配表達,則考慮刪除。
②主題詞有錯別字或詞義錯誤,修改更正該詞;若不能更正,則刪除。
③對主題詞間的概念關系起到承上啟下作用的主題詞不能刪除。
④該詞為起到概括或限定上位主題詞概念外延作用的下位主題詞,即可枚舉的屬種關系,一般處理時,或者其下位主題詞全部保留,或者全部改為被代詞。
5.4 主題詞參照關系的修訂和建立規則
建立和修改主題詞間關系的原則,依據GB 13190-91“漢語敘詞表編制規則”中“5 詞間關系處理”的規定。以下為補充規定:
①屬分關系反映的是屬種概念的包含關系,因此需要建立概念成族的屬種關系,修改非概念屬種關系包括非概念屬種關系的字面成族。一般屬種關系包括表達概念的物體之間、工藝之間、學科之間、現象之間的主題詞屬種關系,只有行政、地理區域的詞,人體、生物體的系統和器官的詞,不存在屬分關系。
②對較專指的族首詞或族內數量偏多或層次級別過多時,適當歸并詞族,取消族首詞或分解詞族,截斷屬分關系,形成新的族首詞(即使族首詞間從概念上具有屬分關系)。
③當族內詞與其上位主題詞具備屬分關系時,同一等級的分項可以存在多種劃分標準,同級族內詞按字順排列。
6 詞表概況
①編制完成一個完整的專業性的壓水堆核電站主題詞表,包括主表、范疇表、族系表。
②詞表總量為14958 條,其中正式主題詞14313條,非正式主題詞 645條,族首詞346條,入族詞有4518條。
③字順表由主表和子表組成。子表包括:系統代碼表、建筑物/廠房代碼表、組織機構代碼表、LOT包號。(表2)
④范疇表共設15個一級類目。包括:電站建設、機組運行、維修管理、生產計劃與聯網、設備、反應堆結構與設施、檢查監督與試驗、工程改進、化學與環境監測、安全管理、質量保證、應急準備與響應、信息管理、綜合、基本術語。
7 詞表特色
①體現壓水堆核電站的管理重心和技術特點,具有極強的實用性。
②具有較多的先組式復合主題詞,便于在計算機檢索中提高查準率和避免發生虛假的組配現象。
③主題詞及范疇表類目設置來源于壓水堆核電站的建設和生產實際,符合廣大用戶的檢索習慣。
8 詞表應用前景
①為國內壓水堆核電站文檔管理領域首創,可成為中國壓水堆核電站之間信息處理和信息交流的底層支持性文件。
②范疇表、族系表的編制,為同行業文檔工作者從事主題標引工作提供了通用的規范化詞表。
③由于主題詞來自于電站的大量文檔,反映了電站的建設和生產實際情況,因此可成為各基地電站信息查詢和信息交流的便利工具。
④族系表的編制和詞間關系的不斷完善,為網絡環境下豐富計算機的自動檢索方式創造了必要條件。
9 結語
編制完成的主題詞表結構嚴謹,特色鮮明,以核電站生產和設備管理為主線,包含壓水堆核電站建設、設計、運營、維修等主要電站活動,具有極強的實用性,同時填補了國內核電行業的空白,是核電領域首部字順表、范疇表、族系表俱全的專業性詞表。大亞灣核電已經安全運行了50多年,在為國家、集團創造了良好的經濟效益的同時,也積累了大量寶貴的知識財富和反映壓水堆核電運行歷史、經驗和技術積累的檔案。如何利用好這些寶貴的檔案,冀望《壓水堆核電站主題詞表》的編制成功,能深化文檔信息資源的挖掘,提升文檔檢索效率和文檔服務水平,為核電站的安全運營做出更大的貢獻。
【參考文獻】
【1】張燕飛,信息組織的主題語言[M].武漢:武漢大學出版社,2005.endprint