那日松 劉 青 陳永朝 朱 磊
(1.杭州師范大學,浙江杭州 310012 2.全國科技名詞審定委員會,北京 100717 3.比利時魯汶大學,比利時魯汶)
法律領域術語部件的描述
那日松1劉 青2陳永朝3朱 磊1
(1.杭州師范大學,浙江杭州 310012 2.全國科技名詞審定委員會,北京 100717 3.比利時魯汶大學,比利時魯汶)
從實現自動抽取法律術語的目的出發,立足于法律術語具有術語部件的特點,建立了由579條部件組成的法律術語部件庫,并針對各種屬性的術語部件做出統計分析,完成了每個法律術語部件“生成能力”和“貢獻度”兩個屬性的詳細描述。
法律術語,術語自動抽取,術語部件,貢獻度,生成能力
任何領域的術語都有其構成的部件。比如信息科學領域術語多用“程序”“自動”“操作”“軟件”“數據”“型”等部件;而法律術語多用“法”“案”“罪”“證據”“犯”等部件。不同領域術語方面的差異從表面上來看,主要表現在部件使用的不同上。本文基于這個特點,重點搜集、總結和描述法律術語部件,把法律術語分為有特殊標記的法律術語和無特殊標記的法律術語兩類,建立了應用于法律術語自動抽取研究的法律術語部件庫。這對于自動發現和判斷法律術語具有重要的作用。
本研究使用由8589條詞條構成的法律術語庫[1],分析所用語料來源于香港雙語法律信息系統(Bilingual Legal Information System,BLIS)[2],分詞工具使用漢語分詞系統 (Institute of ComputingTechnology,Chinese Lexical Analysis System,ICTCLAS)。
課題組主要依據GB/T 19102—2003對術語部件的定義和描述,參照吳云芳在信息科學與技術領域選取術語部件的方法來選取法律術語部件。
2003年,GB/T 19102—2003《術語部件庫的信息描述規范》中對“術語部件”給出的定義是:術語部件是組成多詞術語的詞。特定領域中結合緊密、生成能力強、使用穩定的語言片段也可以看作術語部件[3]。
吳云芳通過對30 000條信息科學與技術領域的術語進行分析,給出術語部件描述的方法與策略,并由何燕將術語部件庫應用到術語自動抽取工作中[4]。吳云芳認為單詞型術語本身就是術語部件,術語部件比術語有更強的術語生成能力[5]。她把單詞型科技術語和科技術語中出現較多的單字選為科技術語部件。參照她的方法,課題組把選擇法律術語部件的重心放在單詞型法律術語和一些法律術語中出現較多的單字上。
課題組要建立的法律術語部件庫中包括對每個術語部件的屬性的詳細描述,為實現法律術語自動抽取研究服務。在術語提取中結合術語部件庫,可以提高術語識別的正確率與召回率[4]。
法律術語部件庫的建立主要包含兩部分內容:法律術語部件的選取和法律術語部件屬性的描述。建設法律術語部件庫的基本流程如圖1所示。
1.法律術語部件的選取
法律術語部件的選取包括選取單詞型法律術語部件和選取單字術語部件兩方面工作。
(1)單詞型法律術語部件
對法律術語庫中的法律術語進行自動分詞標注,選取單詞型法律術語,再通過人工標注進行篩選,最后共獲得459個單詞型法律術語部件。
(2)單字術語部件

圖1 術語部件庫建設的基本流程
首先對法律術語庫進行字頻統計,總共有1607個單字,然后通過人工標注對獲得的所有單字進行數字和標點符號的過濾,最后剔除與單詞型法律術語部件共同的單字(也有部分單詞型法律術語是單字)后得到120個單字部件。
2.法律術語部件的描述
吳云芳認為:部件描述是從內部結構出發來為術語的自動發現提供知識[5]。為了更好地表示和掌握這些具有領域特異性的術語部件,同時從實現法律術語自動抽取服務這個目標出發,課題組選擇了兩個不同的屬性進行描述。
(1)對生成能力的描述
課題組將法律術語部件在法律術語庫中出現頻次的多少,以及該術語部件對于包含它的詞/詞組中所起的作用視為該法律術語部件的生成能力。課題組重點關注法律術語部件的術語生成能力,統計每個術語部件構成的法律術語個數的統計。例如:在法律術語庫中包含“條例”部件的法律術語有1342個,占整個法律術語庫的15.6%,那么15.6%即為部件“條例”的生成能力。
所有的法律術語部件都有生成能力,但是能力的強弱不同,有些部件生成能力較強,如“罪”,很多新生術語會包含該部件;有些部件生成能力較弱,如“服刑”,很少有法律術語包含該部件。不管生成能力強弱,法律術語部件對于包含它們的詞/詞組被判斷為法律術語都起到關鍵的作用。
(2)對貢獻度的描述
課題組首次提出對法律術語部件貢獻度的描述。所謂貢獻度,即法律術語部件對包含它的詞/詞組被判斷為法律術語起到的作用或貢獻程度。例如:部件“條例”在法律術語庫中出現1342次,而包含部件“條例”的這1342個條目全都成為了法律術語,因此部件“條例”的貢獻度是100%的。
大部分單詞型法律術語基本上都具有100%的貢獻度,而大部分單字部件不具有100%貢獻度。這也說明了有些部件直接決定一個條目是否為術語,而有些部件還需要其他信息(搭配)的輔助才可以決定一個條目是否為術語。比如部件“則”單獨出現時無法提供完整的法律相關概念和信息,但當有其他信息輔助時,有可能將該條目判斷為法律,“原則”和“否則”均不是法律術語;“通則”和“規則”是法律術語,也具有法律概念。在法律術語庫中共出現了6個帶部件“則”的搭配:附則、規則、守則、原則、準則和通則,6個搭配中除了“原則”外都具備法律概念,因此部件“則”的貢獻度為83.3%(5/6)。
因此,在描述法律術語部件時,需要對不能有100%貢獻度的部件做特殊處理。以部件“法”為例,課題組以法律術語庫中的條目為考察對象,提取出所有包含部件“法”的搭配,然后選擇對法律術語判斷起到排除作用的搭配,也即包含部件“法”但是沒有法律概念的條目,例如“辦法”“語法”“分類法”等,把這些條目列出來,用于今后排除非法律術語操作的參考。
建立的部分法律術語部件庫如圖2所示:

圖2 法律術語部件庫
該法律術語部件庫現階段包含579條法律術語部件,對法律術語庫中全部8589條法律術語的覆蓋率為96.7%。其中單詞型法律術語部件的覆蓋率為81%;單字法律術語部件的覆蓋率為88.24%。
法律術語部件庫的建設是一個不斷完善的過程,需要時時更新部件和屬性描述。隨著法律術語部件庫的完善,可以更多地發現法律術語判斷中的問題,并為法律術語自動抽取工作服務。
[1]那日松,劉青,朱磊.法律術語特征研究[J].中國科技術語,2011(4):22-26.
[2]揭春雨,劉曉月,冼景炬,等.從網絡獲取香港法律雙語語料[C]//全國第八屆計算語言學聯合學術會議論文集.北京:清華大學出版社,2005:193-199.
[3]中國標準研究中心.GB/T 19102—2003術語部件庫的信息描述規范[S].北京:全國術語標準化技術委員會,2003:1-4.
[4]何燕,穗志方,段慧明,等.一種結合術語部件庫的術語提取方法[J].計算機工程與應用,2006(23):4-7.
[5]吳云芳,穗志方,邱利坤,等.信息科學與技術領域術語部件描述[J].語言文字應用,2003(4):34-39.
[6]馮志偉.現代術語學引論[M].北京:語文出版社,1997:1-18.
[7]封鵬程.現代漢語法律語料庫的建立及其詞匯計量研究[D].南京:南京師范大學,2005.
Building the Legal Term Component Database for Automatic Term Extraction
Narisong LIU Qing CHEN Yongzhao ZHU Lei
Based on the purpose of automatic extraction and characteristics of term components in the legal field,we constructed a legal term component database which is composed of 579 components.Also,based on statistical analyses of these term components,we described the“generation capacity”and“contribution”of each term component.
legal term,automatic term extraction,term component
N04;D9
A
1673-8578(2011)06-0013-03
2011-10-09
國家自然科學基金專項基金項目“基于語料庫的術語自動處理關鍵技術研究”(J1025001)
那日松(1980—),女,內蒙古興安盟人,博士,杭州師范大學應用語言學研究中心助理研究員,研究方向為計算語言學、術語學等。通信方式:narsujin@163.com。