張 榕
(北京語言大學漢語速成學院,北京 100083)
面向術語識別的術語界定研究
張 榕
(北京語言大學漢語速成學院,北京 100083)
術語的界定問題一直都是術語學界研究的課題。術語與普通詞語之間的交融滲透關系使得術語的界定復雜。如何提供一種可操作的術語界定標準來指導術語識別是亟待解決的現實問題。提出一種面向術語識別的術語界定方法,對于術語詞典的編纂與更新都是一項有意義的工作。
術語界定,術語識別,定義性描述
術語尤其是新術語的識別一直都是術語學研究的重點之一。近年來該領域的研究成果頗豐。施水才[1]、劉豹[2]、何琳[3]等都使用各種語言學及統計學的方法進行術語的識別發現。然而究竟哪些詞語是術語需要被識別出來,學界在該問題上的處理始終存在一定的盲目性與主觀性。各家各派從不同的角度對術語界定問題都進行過闡述,遺憾的是這些術語界定,在面向中文信息處理的目標背景下,可操作程度較低。術語的界定原則與術語識別的最終結果,以及術語詞典編纂的收詞原則緊密相關。如何給出一個科學的、可操作的術語界定方法以服務于術語識別、術語詞典編纂是本文的研究重點。
一個詞語在一個上下文中可以是術語,在另一個上下文中可能是普通詞語。術語本身是一個詞語,和普通詞語之間互相滲透表現為術語也可泛化為普通詞語;普通詞語可以抽象為術語。
1.術語的泛化現象
術語的泛化指特定領域的術語,在通用領域被廣泛使用,成為日常用語的過程。術語的泛化改變了術語的單義性和專業性的特性。單義性指在一個特定領域內,一個術語只表述一個概念,同一個概念只用同一個術語來指稱,術語與概念之間一一對應[4]。術語的泛化使得術語含有一個以上的概念,但由于這些概念分屬不同的領域,所以并不會造成理解上的混淆。舉例如下。
在計算機科學技術領域,“軟件”指一系列按照特定順序組織的計算機數據和指令的集合,一般來講軟件被劃分為系統軟件、應用軟件和介于這兩者之間的中間件;在普通詞匯中指服務水平、管理模式、人員素質、企業氛圍等內容。
在遺傳學中,“克隆”有兩個含義:(1)又稱“無性[繁殖]系”,遺傳組成完全相同的分子、細胞或個體及其組成的一個群體。(2)利用體外重組技術將某特定的基因或DNA序列插入載體分子的操作過程。而現在也指復制與原件完全一樣的副本的過程。
有些術語已經成為日常用語,經過泛化后的術語具有了多義性和普遍性。例如“盲點”:
“這件事情你沒弄明白,是你理解上的盲點吧。”
2.普通詞語的專業化現象
與術語的泛化相對應的是普通詞語的專業化現象。某些普通詞語在特定領域與語境下,可以專業化為術語。但在不同的上下文環境、不同的領域中,這些詞語的概念內涵不盡相同,有時甚至完全不同。普通詞語成為術語,概念上可能保持一致,也可能指代不同的概念內涵。
(1)普通詞語可成為具有相同概念的術語。例如“失眠”在《現代漢語詞典》中的釋義為:“夜間睡不著或醒后不能再入睡。”而在醫學科技詞典中的釋義為:“由于精神活動長期過度緊張,致使大腦的興奮和抑制功能失調,精神活動能力因而受到影響而造成的不充分的睡眠或不完全的睡眠,臨床特點是失眠、多夢,常伴有頭痛、頭昏、胸悶、心悸、腹脹、注意力不集中,臨床表現有入睡困難、多夢、易醒、醒后難以再入睡。”
普通人對“失眠”一詞的理解與專科大夫的理解就有很大的區別。可見日常生活中一個很普通的詞語,在某個特定領域,對該領域的研究者來說是一個專業術語。
(2)普通詞語可以成為具有不同概念的術語。例如“指針”“協議”“地址”三個詞語可以被認為是普通詞語,也可被認為是專門術語。在《現代漢語詞典》中的義項就是它們作為普通術語的解釋,在計算機詞典中的義項就是它們作為術語的解釋。
在《現代漢語詞典》中的釋義分別如下:
指針:(義項1)鐘表的面上指示時間的針,分為時針,分針,秒針;儀表指示度數的針。 (義項2)比喻辨別正確方向的依據。
協議:(義項1)協商 (義項2)國家,政黨或團體間經過談判,協商后取得的一致意見。
地址:人、團體居住或通信的地點。
計算機詞典中的釋義分別如下:
指針:保存對象地址的變量。
協議:一種成文的公約集,管轄兩臺相互通信的系統間的信息交換格式化和相對定時。
地址:(義項1)數據源出地和目的地的代碼。 (義項2)確定傳輸目的地和來源的數字位或字符序列。 (義項3)文件的位置。可以使用地址查找Internet 和計算機中的文件。Internet 地址也稱為URL。
可見一個詞語是否為術語并不是一成不變的,而是與領域以及不同的使用對象緊密相關的。術語的泛化以及普通詞語的專業化兩個過程是聯動的。
術語的界定始終是術語學界和語言學界爭議的問題。國際標準、國家標準、辭書、詞典都曾經給術語下過定義,一些專門從事術語研究的專家學者也紛紛發表各自的觀點,其中包括:“術語指專業領域中一般概念的文字指稱”[5]“術語是指稱專業概念的詞或詞組”[6]“通過語音或文字來表達或限定專業概念的約定性符號”[4]“術語是經常在專業領域中出現,而很少在其他領域中出現的詞語”[7]等多達幾十種的界定方法。上述的術語界定在術語識別的任務前提下,都不能或不完全能準確提供一個可操作性標準,給術語識別以及術語詞典的收詞造成了一定的困難。在該背景下,本文提出一種可操作的術語界定方法,來提高術語識別、術語詞典編纂的客觀性,這是前人的工作尚未涉及的。
上述對術語的各種界定,例如,什么是“專業領域”“專業概念”,針對不同的人群,有不同的理解。對某個領域的專家來說屬于專門領域、專業概念的詞語對普通人群可能就是一個普通詞語。這些概念和術語一樣也是需要界定的。人都難以界定的概念,對于進行中文信息處理的計算機而言,更難具有實際的操作性。
例如“門”這個概念,一般對普通人來講就是“指房屋等的出入口”。但是在建筑學里,“門”的概念是指在出入通道處所設可開關或轉動的裝置。在生物學里,“門”的概念是指生物分類法中的一級,位于界和綱之間。在電子學中“門”是一種邏輯電路。若按照上述的術語界定方式去判斷,“門”很大概率是一個普通詞語,它可能出現在多個領域中,不具有領域特異性,如果按照通常的術語識別方法,例如tf-idf的方法(一種用于資訊檢索與資訊探勘的常用加權技術),則抽取出該詞語的概率很低。由此本文提出了一種不同于前人的術語的界定方式。該方法建立在國家標準《術語工作 計算機應用 數據類目》(terminology work computer applications data categories)的基礎之上。其中關于術語的界定為:專門語言中表達已定義概念的詞語的指稱。
以術語識別為目的驅動,本文將術語定義為:在某一特定領域內,有定義性描述的詞或詞組。該界定方法將術語與被定義項的關系結合起來。某種程度上可以認定:術語是某一特定領域的被定義項。一個詞語是否為術語,它所在的上下文即句子起了決定性的作用。例如以下兩個句子:
(1)門是指在出入通道處所設可開關或轉動的裝置。
(2)客廳的門通向臥室和廚房。
依據本文的界定標準,句1中的“門”就可以被認作是術語。句2中“門”只是個普通詞語。因為句子1中的“門”存在于定義性描述的語句中,以一個被定義項的語言形式存在。
依照這一界定標準可提高術語識別的客觀性與可操作性,理據如下:
首先概念清晰。該界定排除了人名、地名、機構名等命名實體類專用名詞。因為這些專名指稱現實中的唯一個體,不可能有定義。排除了各種修飾性的語言成分如形容詞、副詞、成語、俗語等。能被抽出來的一定在某專業領域有定義性描述,符合前面所列的所有關于術語的定義。
其次可操作性強。因為定義性描述是由語言形式表現的,根據這些形式特點可建立起形式系統,設計算法,讓計算機自動操作。
再者能與專業領域直接建立聯系。縱觀前面引用的各種有關術語的界定,核心都是要同專業領域相關。定義的語言內容本身及定義的上下文語境會明確地指示該術語所述的專業領域。該界定解決了同一個詞形用在不同領域充當術語的身份辨認問題。
同時預測到對該界定方法可能有如下缺陷。第一,認為大量的術語在文本中的出現都是使用性出現,并非定義性出現,按照這種方法無法抽取出來;第二,這種方法能抽取新術語,抽不出老術語。比如,能從網上抽出“藍牙”“WiFi”這類較新術語,因為這類術語能找到定義;但是“電燈”“電話”這類老術語因為找不到定義,也就抽不出來了,但只要認真分析,就可以看出這種批評是不正確的。
基于中文信息處理的術語研究通常分為兩種類型:
(1)以構建術語表為目的,抽取術語的詞形,識別其所屬的領域;
(2)事先已有術語表,在上下文語境中識別術語的各種詞例,目的是研究術語出現的頻率、用法等動態性質。
術語的識別就是抓住術語出現的源頭,將所有定義性描述的詞語給找出來。第一種缺陷中指出的沒有定義性描述的術語可能在一篇文本中無法被識別,但只要它是術語,就一定會作為被定義項在句子中出現,基于大規模的真實語料,這是完全能被識別發現的;同時可通過術語聚類方法,識別出該術語所在的領域,進行領域分類后放進術語詞典的收詞表中。當然,具體操作中要看能否把術語出現的源頭都找到。誠如第二種缺陷所指出的,用這種方法識別出的術語多數是新術語。因為幾十年前、幾百年前出現的術語,其定義所在的文本許多尚未數字化,更不會進入網絡,計算機暫時還沒法抽取到,但那些老術語早已收進各種術語詞典中。對于它們來說,第一種類型的術語識別工作根本沒必要重復去做。
依據已有的術語界定標準進行的術語識別存在以下幾個問題。第一,抽取出來的詞語若果真是術語,絕大多數都是各種術語表中已經收錄的,從構造術語表的角度看并無很大意義。第二,抽取出來的詞語中包含著一定數量的非術語,仍需花費大量人力去鑒別。比如使用tf-idf的方法,識別出來的只是領域特異詞,即在某個領域經常出現而在其他領域很少出現的詞語,但這些詞語中有可能是人名、地名、常用語、俗語。使用互信息的統計方法抽取出來的也會有一些非術語的固定詞語搭配。第三,把所有的詞語都作為初選的對象,極為低效。依據本文的術語界定方式可抽取出新術語,連同術語詞典中的老術語,就可以構造出完整的術語表,并不斷補充發展。利用這樣的術語表,就可采用一般的分詞和詞義排歧的方法,在大規模文本的各種上下文語境中抽取術語的詞例,完成第二種類型的工作,而上述兩項工作的結合,正是術語詞典編纂的主要任務。本文的術語界定研究對于術語識別、術語詞典的編纂與更新都是一項有意義的工作。
[1] 施水才,王楷,呂學強.基于條件隨機場的領域術語識別研究[J].計算機工程與應用,2013(10):147-149.
[2] 劉豹,張桂平,蔡東風.基于統計和規則相結合的科技術語自動抽取研究[J].計算機工程與應用,2008(23):147-150.
[3] 何琳.基于多策略的領域本體術語抽取研究[J].情報學報, 2012(8):45-47.
[4] 馮志偉.現代術語學引論[M].北京:語文出版社,1997.
[5] ISO/TC 37. Terminology work-Vocabulary-Part 1:Theory and application[S].
[6] 標準化與信息分類編碼研究所. GB/T 10112—1999 術語工作 原則與方法[S]. 中國標準出版社,2004.
[7] 王強軍.信息技術領域新術語提取的初步研究[J]. 術語標準化與信息技術,2003(1):32-35.
動 態
電氣工程名詞審定委員會第四次會議紀要
2014年7月19日,中國電工技術學會在北京鐵道大廈召開了電氣工程名詞審定委員會第四次會議(全體),與會的領導及專家共50多人。會議由中國電工技術學會理事、電氣工程名詞審定委員會主任顧國彪院士主持。中國電工技術學會副理事長兼秘書長裴相精講話,感謝各位專家百忙之中前來參加會議并積極完成名詞定義階段的工作。全國科學技術名詞審定委員會審定室主任鄔江,根據目前上報的詞條定義撰寫中的問題,向與會專家講解了撰寫名詞定義工作中應注意的問題及解決思路。全國科學技術名詞審定委員會副主任劉青也參加了本次會議,他在講話中指出,此次由中國電工技術學會組織審定電氣工程名詞的工作非常重要和及時,該名詞是我國科技名詞規范化事業的重要組成部分,并對如何解決工作中存在的問題提出了一些建議。
(史金鵬)
Research on Term Definition Based on Term Identification
ZHANG Rong
s: Term definition is one of hot topics for terminology researchers. The interrelate relations between terms and common words make term definition more complicated. In this paper, we propose a kind of definition which provides a workable criterion for term identification. The research is helpful for the compilation and updating of term dictionaries.
term definition, term identification, definitional description
2014-02-19
張榕(1975—),北京語言大學漢語速成學院講師,博士,研究方向為英語語言文學。通信方式:lostballoon@sina.com。
H083;N04
A
1673-8578(2014)04-0005-04