999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場的汽車領域術語抽取

2013-09-27 12:33:14雙,忠,婧,
大連理工大學學報 2013年2期
關鍵詞:特征汽車方法

李 麗 雙, 黨 延 忠, 張 婧, 李 丹

(1.大連理工大學 計算機科學與技術學院,遼寧 大連 116024;2.大連理工大學 管理科學與工程學院,遼寧 大連 116024)

0 引 言

術語是代表特定學科領域基本概念的語言單元,可以是詞也可以是詞組,在我國又稱為名詞或科技名詞.術語抽取是信息處理領域中一項重要的研究任務,在詞典編撰、領域本體構建[1]、機器翻譯等領域都有重要的應用.

目前比較常用的術語抽取方法主要有三大類:一是基于規則的方法,主要是根據語言學及領域知識制定相應的規則模板,與規則模板匹配的視為術語,此方法受限于規則模板的質量,不夠靈活.二是基于統計的方法,又分為基于統計量度和統計機器學習的方法.目前常用的統計量參數有頻率、假設檢驗(t檢驗、卡方檢驗等)、似然比、信息熵和互信息.文獻[2]通過計算字串的互信息得到候選術語,最終取得75%的F-值.文獻[3]提出一種基于質子串分解的算法,利用C-value和F-MI參數來進行術語的抽取.由于沒有大規模的標注語料,基于統計機器學習方法的中文領域術語抽取的研究不多,文獻[4]和[5]基于條件隨機場(CRFs)對科技術語和軍事領域術語進行抽取,F-值分別達到84.4%和76.46%.文獻[6]利用隱馬爾可夫模型對計算機術語進行識別.文獻[7]將語言學方法和統計方法進行一體化處理,同時考慮了詞所在句子的術語度,利用CRFs進行計算機領域術語抽取,F-值為79.64%.三是統計與規則相結合的方法,文獻[8]首先利用語言學規則獲取候選術語,再利用統計的方法進行過濾.文獻[9]首先利用C-value和互信息獲取候選術語,然后根據術語的詞性規則和詞典特征進行過濾,最終F-值達到42%.本文主要就汽車領域的術語抽取任務展開討論,分析該領域術語的特點及抽取難點,利用目前較為流行的條件隨機場(CRFs)模型,選取詞、詞性、詞典及頻率等特征進行汽車領域術語的抽取.

1 汽車領域的術語抽取

1.1 汽車領域術語

本文利用有監督的統計機器學習方法進行領域術語抽取,需要一定規模的帶標簽的訓練語料.由于沒有標注好的汽車領域標準語料,需要人工標注.目前缺少一個關于汽車領域術語的統一標準,本文對《汽車行業名詞術語匯編》中和汽車零部件相關的7 525個術語進行了學習和分析,統計得到單詞型術語占9%,由兩個單詞組成的復雜術語占35%,三詞術語占31%,四、五、六詞術語分別占15%、6%、2%,七詞及以上術語占2%,即復雜術語一般由2~4個單詞組成,占全部術語的81%,符合中文術語的一般性特點.為了方便人工標注,本文分析了汽車領域術語的特點并借助前人對領域術語特點的研究成果,制定了一定的標注標準,凡是符合標注標準的詞都被視為汽車領域的術語.標注標準如下:

(1)描述或表示汽車的詞,一般是隨著汽車領域的產生和發展而出現的,比如“轎車”“兩廂車”等,由于汽車領域外來詞匯比較多,通常情況下人們會用外文直接描述,像類似于 “SUV”(運動型多用途汽車)“RV”(休閑車)等英文單詞或縮略詞也歸于汽車領域術語.

(2)表示汽車零部件或組成成分的詞,如“底盤”“后視鏡”,另外像“氣門”“活塞”等機械領域的詞,雖然不是專屬于汽車領域的,但也是描述汽車結構或功能所必需的,視為領域術語.

(3)與汽車相關的系統或結構,如“防抱死制動系統”“高壓共軌系統”等,相應的英文縮略詞同樣作為術語.

(4)一些詞在通用領域也有應用,但是在汽車領域表示特定的含義,如“抬頭”“塌屁股”描述的是汽車的某種狀態,可作為汽車術語.

(5)要遵循術語應盡可能詳細和完整的原則,如類似“1.6升5缸發動機”“四行程發動機缸內燃油直噴技術”,要將其作為一個整體.

(6)描述汽車品牌及其型號的詞語在本文中不作為領域術語,可單獨作為一類詞進行識別.

(7)文章中若出現英文縮寫和中文譯文聯合使用的情況,按兩個術語分別標注.如“ABS(防抱死制動系統)”,標注為“ABS”和“防抱死制動系統”兩個術語.

1.2 汽車領域術語抽取任務的特點

通過對汽車領域術語特點的分析可以看出領域術語在結構上比較復雜,所以與一般的命名實體識別相比,領域術語的自動抽取具有其特殊性,具體表現在:

(1)沒有明確的關于領域術語的定義,不能清晰地界定術語的邊界.目前已有的詞典或是詞表不足以涵蓋全部的術語,而且隨著技術的進步,新的產品或應用會不斷增多,相應的術語表示也會不斷豐富.比如“綠色汽車”“零公里”是近幾年提出的概念.

(2)由于汽車領域引入國外技術比較多,在表述時多采用音譯詞或是英文縮寫,比如“皮卡”(“pick-up”的音譯)“RV”(休閑車),而且由于使用習慣等原因,在表述時使用的不同的名稱代表同一事物,比如“皮卡”和“轎卡”就代表同一類型汽車,在使用時比較隨意,沒有特定的用法.

(3)汽車領域的術語模式多變,表現在長度、詞性、組成模式等方面.例如,“懸架”和“綜合電子控制動力轉向系統”相差10個字長,還有類似于“可變預行程tics系統”和“D2T式制動器”的中英文混合術語.

(4)一般的命名實體(人名、地名或組織機構名等)通常會存在比較明顯的特征詞,上下文環境也相對規律,而就汽車領域術語而言很難找出比較統一的特點,而且中英文混用的現象明顯.

(5)領域術語的一個公共特點就是存在嵌套(網狀術語),比如“曲軸箱換氣式二行程發動機”,其中“曲軸箱”“二行程發動機”“發動機”本身又都分別作為術語出現.

2 基于CRFs的領域術語抽取

條件隨機場是一種判別式圖模型,由Lafferty等于2001年提出.CRFs同時具備最大熵模型(ME)和隱馬爾可夫模型(HMM)的特點,不存在HMM那樣嚴格的獨立性假設,而且其采用的是全局歸一化的方法,克服了最大熵馬爾可夫模型的標記偏置問題,是目前處理序列化數據分割與標注問題最好的統計機器學習模型,在分詞、命名實體識別等問題上已經得到廣泛的應用.雖然領域術語和一般的命名實體在自身結構、所運用的環境等方面有很大的不同,但是就其識別任務而言也有一定的相似性,故本文將領域術語的識別任務轉化為序列標注問題,利用CRFs進行汽車領域術語的識別.

汽車領域術語識別的基本流程是:

(1)獲取語料,進行去噪、去重、分詞和詞性標注等一系列預處理.

(2)選取合適的特征,使用CRFs訓練模型.

(3)在測試語料上用訓練出來的模型進行識別.

(4)分析結果.

2.1 語料預處理

從網頁上爬取一定規模的原始語料,去除HTML標簽提取網頁正文,獲得純文本.將獲取的純文本語料使用本實驗室開發的分詞工具對語料進行分詞和詞性標注處理.本文將術語識別任務轉換為序列標注問題,采用目前比較流行的BIO短語組塊標記方法來表示序列的標注結果,其中B表示術語的開始,即首詞;I表示術語除首詞以外的部分;O表示其他非術語詞,如“鼓/B式/I制動器/I一般/O用于/O后輪/B”.

2.2 特征選取

基于CRFs的術語抽取,選擇合適的特征很關鍵.文獻[4]使用詞本身和詞性作為特征,文獻[5]選取了6個特征,即詞本身、詞性、左信息熵、右信息熵、互信息和TF/IDF.文獻[7]將術語的統計信息融合到CRFs模型的特征中,并使用背景語料來強化詞語的術語特性,即使用了詞的頻率、領域頻率差、詞頻的Rank值,以及術語所在句子的信息.本文總結了前人的工作,并結合汽車領域術語的特點,選取了9個特征,分別介紹如下:

(1)詞本身Word

根據領域術語的特性可知,有些詞只在本領域流通,故詞本身包含了術語最大的信息,所以使用詞本身作為特征.

(2)詞性POS

通過對已有的汽車術語資源分析可知雖然組成詞性模式有很多種,但是大部分是名詞性短語,統計得到前三位詞性組合模式為“n+n”“v+n”“n”,可見詞性對于術語的識別是一個重要特征.另外,汽車領域中一些術語由中英文搭配組成,用詞性作為特征可以將此種情況考慮在內.

(3)詞的長度WordLen

領域術語中有一部分詞是未登錄詞,通用的分詞系統對于未登錄詞的處理辦法通常是分成單個字,比如“排擋桿”被標記為“排/v 擋 /Ng桿/Ng”,可以利用這個特性,通過考慮當前詞的長度來判斷其是否作為術語中的一部分.

(4)是否在已知詞典中IsDic

本文整理的詞典中共7 525條術語,由3 109個詞組成,可知一些詞不止在一個術語中出現.由2.1的分析可知,復雜術語占80%以上,單詞在復雜術語中出現的位置信息可以作為一項特征.經分析統計,詞典中的3 109個詞按在術語中的所處位置可分為以下6種情況:

(i)只作為單詞性術語,如“外胎”,詞典中不存在其出現在復雜術語中的情況.此類詞共166個,占5.34%,記為OS;

(ii)可單獨使用也可以作為復雜術語的一部分,占8.11%,記為DS;

(iii)只出現在復雜術語的開頭,占14.09%,記為DB;

(iv)只作為復合詞的結尾,占20.75%,記為DE;

(v)只出現在復合詞的中間位置(針對由兩個以上的詞組成的術語),占40.59%,記為DI;

(vi)只出現在復合詞中,但其出現的位置不固定,占11.13%,記為OD.

根據以上分析,本文將詞典特征分為7個值,分別為OS、DS、DB、DE、DI、OD、O,其中O為當前詞不在詞典中.

(5)當前詞前后窗口大小范圍內的詞的詞典特征WinDic

文獻[9]指出,一個候選術語,如果其前后窗口大小范圍內的詞中,已在詞典中存在的詞所占的比例大于一定閾值,則此候選術語也被視為術語.文獻[10]分析得到一個領域通用詞,如“是”,其周圍的詞通常是領域相關的.本文結合這兩個特點,將上下文的詞典特征分為3種類型:一是當前詞窗口范圍內的詞在詞典中出現的比例大于閾值且當前詞也在背景語料中出現,其值為1;二是比例大于閾值,但是當前詞不在背景語料中出現,值記為2;三是除去一、二外的情況,值記為3.

文獻[7]將術語的統計信息融合到CRFs模型的特征中,并使用背景語料來強化詞語的術語特性.本文借鑒文獻[7]中采用的統計特征,在前文介紹的特征的基礎上加入和頻率有關的特征(6)~(9):

(6)當前詞在領域語料中的頻率DomainFreq

記C_word為當前詞在語料中出現的頻次,C為語料中的總詞數,則當前詞的頻率為

由于計算出的頻率值是浮點數,不能直接用于CRFs的特征值,可以把浮點值按大小分為幾類,本文按五類劃分,即特征值取1到5.

(7)當前詞在背景語料中的頻率ContrastFreq

選用計算機語料作為背景領域語料,共8 014行,20 800個詞.頻率的計算方法和特征值的取值方法與汽車領域相同.

(8)當前詞在兩類語料中的頻率差ΔFreq

(9)當前詞所在句子中的所有詞的語料頻率差之和Sen_ΔFreq

3 實 驗

3.1 實驗數據

使用Heritrix從“太平洋汽車網”的“汽車知識”版塊爬取約500篇網頁,去除HTML標簽等噪音得到純文本文檔,進行去重處理,得到約1MB的領域語料,共529 651字.為了減少數據不平衡的影響,將語料分成5組,進行5倍交叉測試.

以第一組數據為例,測試語料中共2 069條術語(不包含重復),將分詞后的組成成分的個數作為計算詞長的標準,如“汽車發動機”分詞后為“汽車/t發動機”,計其詞長為2.經過分析可以看出本語料包含的術語在長度上基本符合一般領域術語的分布規律.各長度所占比例如圖1所示.

圖1 測試語料中各長度的術語所占比例Fig.1 The proportion of each length term in test corpus

3.2 實驗結果

3.2.1 評價標準及結果 采用準確率(P)、召回率(R)以及F-值作為評價指標(術語數包含重復個數),計算方法如下:

本文采用了9個特征進行術語抽取,為了驗證特征的有效性,將各組特征分別加入到特征集中,實驗結果如表1所示,其中各組結果均為交叉測試得到的平均值.

表1 不同特征的識別結果Tab.1 The results based on different features

由表1可以看出,使用詞本身、詞性、詞長時正確率最高,加入詞典特征后正確率有所降低,召回率提高.加入詞典特征正確率反而降低,分析原因可能是有些字在有些詞中屬于術語的一部分,而在有些詞中則不是,比如詞典中的“差速器”分詞后為“差/速/器”,而在語料中,“差”這個字多用在“之/差”、“較/差”等詞中,從而干擾了正確率.在前6個特征的基礎上加入詞在領域語料和背景語料的頻率特征后召回率增加,正確率略有降低,F-值達到82.50%.加入詞所在句子的頻率特征后召回率達到最高的80.63%,但同時也導致正確率降低,F-值略有降低.

3.2.2 不同長度的詞的識別結果 統計各個長度術語的識別的情況,結果見表2.

表2 各個長度的術語的識別情況Tab.2 The identification results of different lengths of terms

其中百分比是指各長度正確識別的術語(不包含重復詞)占測試語料中該長度的術語數的比例.從表中可以看出,簡單術語識別效果最好,5詞以上復雜術語的識別效果最差.

3.3 識別結果分析

以第一組為例分析實驗結果,發現錯誤主要集中在以下幾個方面:

(1)識別詞語不全,如“多連桿懸架橫梁”識別成了“連桿懸架橫梁”,“雙重防震懸架橫梁”識別成了“懸架橫梁”.

(2)由于分詞錯誤導致的錯誤,如“定鉗式盤式制動器”被識別成“下定鉗式盤式制動器”,因為分詞的結果是“裝/v下定/v鉗/Ng式/k盤/qr式/k制動器/n”,CRFs模型共識別出1 437個術語(不包含重復),其中錯誤的占323個,有17個詞是因為分詞錯誤導致的.

(3)識別出的詞比正確的術語多出一部分,除去因為分詞錯誤的情況外,還有比如“車載gps”識別成“車載gps價格”,“減速器”識別成“帶有減速器”的情況.

(4)由于沒有統一的標準,在標注上有一些歧義,比如根據標注規則,“3.2升fsi發動機”被判定為一個術語,但是識別結果是“fsi發動機”,類似的還有“車蠟”被識別成“高檔車蠟”,這類詞不能斷定其錯誤,和術語判定標準有關.

(5)一些詞不被認為是汽車領域的術語,但因其自身特點或其所處上下文環境和術語類似也可能被識別出來,比如“激光”“超聲波”等.

(6)由于人工標注上不可避免的錯誤導致識別結果不正確.

由表2可知單詞型術語識別效果最好,長術語較差.其中,單詞型術語中諸如“SUV”“RV”等英文縮寫詞識別效果較差,分析原因可能是由于這類詞所處的語言環境相對不固定,再加上語料稀疏.長術語識別效果較差可能是由于出現頻次少,組成詞串的各個詞之間的聯系不緊密.

4 與其他方法的比較

文獻[7]用語言學和統計相結合的方法從計算機科學領域論文中抽取計算機術語,將語料的語言學特征和統計學特征綜合起來作為CRFs訓練的特征,進行術語抽取,其在計算機科學領域中抽取計算機術語的最高F-值達到79.64%.其采用的特征分別為詞本身、詞性、當前詞在兩類語料中的詞頻差ΔFreq和當前詞所在句子中的所有詞的語料頻率差之和Sen_ΔFreq.本文將文獻[7]的方法在選用的語料上進行了實驗.選取的特征與文獻[7]相同,進行5倍交叉驗證,實驗結果如表3所示.從表3可以看出,本文的方法比采用文獻[7]的模型其F-值高2.11%.實驗結果表明,對汽車領域,本文通過選取有效的特征,建立了有效的術語抽取模型.

表3 與文獻[7]的比較Tab.3 Comparison with Lit.[7]

基于CRFs的方法必須以標注語料為基礎,人工標注語料費時費力,因此研究初期本文也采用了基于統計量的無監督方法在語料上進行了實驗.將術語抽取分為候選術語抽取和術語確定兩步,文本預處理上采用Pat-tree結構.Pat-tree采用半無限長字符串,是一種壓縮的二叉查詢樹,可以快速地得到任意長度的字符串及其在文本中出現的頻次.候選術語利用計算詞串內部關聯度[9](SEF)和外部關聯度[9](C-value)獲取.術語的確定利用候選術語和候選詞鄰接詞的詞性信息.本文總結了正確術語的詞性組合規律,從3 000行已標注語料統計術語前后的詞性搭配情況,構建詞性規則庫,把不在規則庫中的候選詞串過濾,剩下的則是最終正確的汽車領域術語.用該方法在同樣語料上測試的F-值為15.41%,要遠低于基于CRFs的有監督的機器學習方法.這主要是由于語料的規模和數據稀疏問題導致統計信息不足,在很大程度上影響了無監督的統計方法在汽車領域語料上的術語抽取效果.

5 結 語

本文主要針對汽車領域進行術語抽取,將其轉化為序列標注問題,使用CRFs模型將詞、詞性、詞典、領域頻率等多個有效特征整合,采用交叉驗證的方法,最終的F-值達到82.50%,由于CRFs模型融合了多種有效特征,在汽車領域術語的抽取實驗中取得了較好的效果.

[1]溫 春,王曉斌,石昭祥.中文領域本體學習中術語的自動抽?。跩].計算機應用研究,2009,26(7):2652-2655.WEN Chun,WANG Xiao-bin,SHI Zhao-xiang.Automatic domain-specific term extraction in Chinese domain ontology learning [J].Application Research of Computers,2009,26(7):2652-2655.(in Chinese)

[2]張 鋒,許 云,侯 艷,等.基于互信息的中文術語抽取系統[J].計算機應用研究,2005,22(5):72-73.ZHANG Feng, XU Yun, HOU Yan,etal.Chinese term extraction system based on mutual information [J].Application Research of Computers,2005,22(5):72-73.(in Chinese)

[3]何婷婷,張 勇.基于質子串分解的中文術語自動抽取[J].計算機工程,2006,32(23):188-189.HE Ting-ting,ZHANG Yong.Automatic Chinese term extraction based on decomposition of prime string[J].Computer Engineering,2006,32(23):188-189.(in Chinese)

[4]劉 豹,張桂平,蔡東風.基于統計和規則相結合的科技術語自動抽取研究[J].計算機工程與應用,2008,44(23):147-150.LIU Bao,ZHANG Gui-ping,CAI Dong-feng.Technical term automatic extraction research based on statistics and rules [J].Computer Engineering and Applications,2008,44(23):147-150.(in Chinese)

[5]ZHENG D Q,ZHAO T J,YANG J.Research on domain term extraction based on conditional random fields[C]//ICCPOL 2009,LNAI 5459.Berlin:Springer-Verlag,2009:290-296.

[6]岑詠華,韓 哲,季培培.基于隱馬爾科夫模型的中文術語識別研究[J].現代圖書情報技術,2008(12):54-58.CHEN Yong-hua,HAN Zhe,JI Pei-pei.Chinese term recognition based on hidden Markov model[J].New Technology of Library and Information Service,2008(12):54-58.(in Chinese)

[7]章承志.基于多層術語度的一體化術語抽取研究[J].情報學報,2011,28(3):275-285.ZHANG Cheng-zhi.Using integration strategy and multi-level termhood to extract terminology [J].Journal of the China Society for Scientific and Technical Information,2011,28(3):275-285.(in Chinese)

[8]周 浪,史樹敏,馮 沖,等.基于多策略融合的中文術語抽取方法[J].情報學報,2010,29(3):460-467.ZHOU Lang,SHI Shu-min,FENG Chong,etal.A Chinese term extraction system based on multistrategies integration [J].Journal of the China Society for Scientific and Technical Information,2010,29(3):460-467.(in Chinese)

[9]JI L,SUM M,LU Q,etal.Chinese terminology extraction using window-based contextual information[C]// CICLing 2007,LNCS 4394.Berlin:Springer-Verlag,2007:62-74.

[10]YANG Y H,LU Q,ZHAO T J.Chinese term extraction using minimal resources [C]//Proceedings of the 22ndInternational Conference on Computational Linguistics.Manchester:[s n],2008:1033-1040.

猜你喜歡
特征汽車方法
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
汽車的“出賣”
抓住特征巧觀察
汽車們的喜怒哀樂
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
3D 打印汽車等
決策探索(2014年21期)2014-11-25 12:29:50
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 97人人做人人爽香蕉精品| 极品国产在线| 在线观看视频一区二区| 国产真实乱了在线播放| 国产成人亚洲精品色欲AV | 色精品视频| 国产尤物在线播放| 免费人成又黄又爽的视频网站| 国产在线啪| 亚洲精品在线观看91| 蜜臀av性久久久久蜜臀aⅴ麻豆| 欧美午夜理伦三级在线观看| 国产一级妓女av网站| 免费一级α片在线观看| 日韩av在线直播| 99久久人妻精品免费二区| 四虎影视永久在线精品| 青草娱乐极品免费视频| 亚洲欧美日韩另类在线一| 日韩av无码精品专区| 成年人国产网站| 一本综合久久| 久久国产精品影院| 看av免费毛片手机播放| 久久综合婷婷| 视频一区亚洲| 国产97视频在线观看| 狠狠做深爱婷婷综合一区| 国产在线98福利播放视频免费| 一区二区自拍| 国产噜噜在线视频观看| 波多野结衣中文字幕一区二区| 国产成人精品免费av| 茄子视频毛片免费观看| 久久久久亚洲精品成人网| 精品91视频| 制服丝袜无码每日更新| 四虎成人在线视频| 欧美中文字幕无线码视频| 亚洲无码精彩视频在线观看| 欧美日韩北条麻妃一区二区| 欧美一级专区免费大片| 秋霞国产在线| 国产成人精品日本亚洲| 日韩精品成人在线| 欧美综合激情| 男女性色大片免费网站| 精品剧情v国产在线观看| 日本亚洲最大的色成网站www| 欧美日韩国产成人在线观看| 超碰aⅴ人人做人人爽欧美 | 色噜噜狠狠色综合网图区| 色有码无码视频| 午夜精品区| 国产网站黄| 欧美在线伊人| 在线日韩一区二区| 人人妻人人澡人人爽欧美一区| 国产女同自拍视频| 欧美在线黄| 午夜视频www| 欧美精品不卡| 91在线播放免费不卡无毒| 中文字幕永久在线看| 无码精品一区二区久久久| 无码福利日韩神码福利片| 激情综合婷婷丁香五月尤物| 国产一区自拍视频| 欧美日韩精品一区二区在线线| 国产精品va免费视频| 色噜噜中文网| 亚洲中文字幕在线一区播放| 国产69精品久久久久孕妇大杂乱| 四虎永久在线视频| 免费观看男人免费桶女人视频| 国产毛片基地| 毛片a级毛片免费观看免下载| 欧美成人精品一区二区| 六月婷婷激情综合| 国产精鲁鲁网在线视频| 欧美精品在线看| 亚洲欧洲日韩久久狠狠爱|