劉里,肖迎元
(1.天津理工大學 計算機視覺與系統省部共建教育部重點實驗室,天津 300384; 2.天津理工大學 天津市智能計算及軟件新技術重點實驗室,天津 300384)
基于術語長度和語法特征的統計領域術語抽取
劉里1,2,肖迎元1,2
(1.天津理工大學 計算機視覺與系統省部共建教育部重點實驗室,天津 300384; 2.天津理工大學 天津市智能計算及軟件新技術重點實驗室,天津 300384)
針對領域術語抽取中含字長度較大的術語被錯誤切分的問題,本文提出一種基于術語長度和語法特征的統計領域術語抽取方法。本方法在利用機器學習抽取候選術語時,加入基于術語長度和語法特征的約束規則;在使用統計方法確定候選術語的領域性時,充分考慮詞長比這一概念的重要性,將其作為判斷術語領域性的重要權值。實驗表明,提出的方法能夠正確抽取含字長度較大的領域術語,抽取結果的準確率和召回率相比以往的方法有所提高。
自然語言處理; 術語抽取; 支持向量機; 術語長度; 語法特征; 詞長比; 領域相關性; 領域一致性
Abstract:A statistical domain terminology extraction method based on word length and grammatical feature is proposed to resolve the incorrect segmentation of long terminology. Constraint rules based on word length and grammatical feature are added in when machine learning is utilized to extract candidate terminology. When a statistical method is used to determine the domain of candidate terminology, the importance of the concept of word length ratio is fully considered and is used as an important weight for judging the terminology domain. The experiment shows that long terminology can be correctly extracted through this method. Moreover, the precision and recall rate of the proposed extraction method are superior to those of traditional methods.
Keywords:natural language processing; terminology extraction; support vector machine; word length; grammatical feature; word length ratio; domain relevancy; domain consensus
術語是在特定專業領域中一般概念的詞語指稱[1]。領域術語抽取在自然語言處理領域有廣泛的應用,是文本信息處理的重要基礎,廣泛應用于本體構建、文本挖掘、潛在語義分析等領域。現有的術語抽取方法可以分為三類:基于語言學的方法、基于統計的方法和混合方法。
基于語言學的方法主要通過語義詞典、語言規則或者淺層解析技術來獲取術語。常見的技術有基于知網、同義詞詞林[2]、領域詞庫[3]或者語序位置特征[4-5]抽取術語等。由于基于語言學知識的抽取方法主要是依靠模式匹配,存在以下三點不足:1)依賴人類的語言學知識,相似的問題不同的人處理方法不一樣,導致處理結果不一致;2)效果與具體語種相關,目前該方法對英語等西方語言更適合一些;3)依賴規則或模板的質量,“精密”的模式需要語言學專家的參與,耗費大量的人力。
基于統計的方法是利用術語在語料中的統計信息進行抽取。常見的方法有詞頻逆文檔頻率(term frequency- inverse document frequency,TF- IDF)術語抽取算法[6]、C- value方法[7]、基于條件隨機場的方法[8]、基于互信息和似然度的方法[9]、結合最大似然估計和k- means的抽取方法[10]等。這一類方法由于沒有過多考慮語言學規則、語義信息,不受語言類型及句型的限制,所以實現簡單,系統的健壯性較好,適用于各領域。但是此類方法仍然存在以下三點不足:1)所用信息數據粒度較粗,使得低頻詞不易提取,經常會提取到意義不完整的字符串,準確率不高;2)需要大規模的訓練語料庫支持,模型的訓練效果直接依賴于語料的規模;3)需要處理大量的特征數據,對計算時間和空間的要求較高。
將語言學和統計方法結合起來,則能有效地改善術語抽取的性能,這就是混合方法的優勢。例如:結合低頻詞檢測和維基百科的方法、結合決策樹與關鍵詞共現信息的方法等[11-12]。
為了進一步提高領域術語抽取效果,本文提出了一種新的混合抽取方法,在統計方法的基礎上結合術語長度信息和語法特征,能夠更有針對性的抽取字數較多的領域術語。
術語抽取的一個重要問題是候選術語抽取(包含未登陸詞識別)。機器學習工具能夠以較高的自動化程度抽取候選領域術語。然而,使用沒有領域詞典支持的分詞工具,對含字長度較大的領域術語難以做出正確切分,這就使機器學習的抽取效果受到了限制。本文為了協助候選術語抽取工作,將術語長度和語法特征的統計結論應用到機器學習階段。
研究術語系統中的用字、用詞情況,能對術語抽取工作提供有用的計量參照。其中一種用字情況的統計稱為術語含字長度,定義為術語包含的字數。目前,對術語含字長度的相關統計數據表明,領域術語中含字長度較大的術語占較多數:在研究人員所統計的語料庫中,取值不小于4的術語數量占術語總數的比重超過80%[13]。常見詞的含字長度集中在2~4,領域術語常常由多個相鄰的詞語組合而成。本文將此作為關于術語長度信息的統計結論。
對含字長度2以上的術語進行切分與詞性標注后,發現非語素詞、語氣詞和狀態詞幾乎沒有出現過,而嘆詞、成語、擬聲詞、代詞、處所詞和標點符號也極少出現(術語中的英文字符串可鄰接或包含特定標點)。術語第一個詞很少是助詞、連詞、后接成分,術語末尾的詞很少是前接成分、方位詞、連詞和助詞。另外,包含名詞、動詞、量詞、后接成分、習用語、簡稱或英文單詞的術語占了99%以上[14]。本文將此作為關于術語語法結構的統計結論。
將上述統計結論歸結為如下機器學習可利用的約束規則,描述為
1)術語中不包含非語素詞、語氣詞、狀態詞、嘆詞、成語、擬聲詞、代詞、處所詞和標點符號(英文字符串可鄰接或包含特定標點);
2)術語不以助詞、連詞、后接成分開頭;
3)術語不以前接成分、方位詞、連詞、助詞結尾;
4)術語中至少包含一個名詞、動詞、量詞、后接成分、習用語、簡稱或英文字符串;
5)對符合條件1)~ 4)的詞語連接上下文,組合成新詞,且確保新詞符合條件1)~4),結合機器學習的語言規則對新詞繼續進行識別。
利用機器學習抽取候選術語,并加入了約束規則,目的是在沒有領域詞典支持的情況下達到較好的候選術語抽取效果。
候選術語需要進一步過濾才能得到最終的術語抽取結果。在語料庫中,含字長度較大的領域術語容易成為低頻詞,不容易被統計方法獲取到。本文利用提出的詞長比的概念,提升含字長度大的術語的領域性權重,再結合經典的領域性算法,就能有效的提取出含字長度較大的領域術語,最終提高領域術語抽取的總體效果。
本文術語抽取的基本流程是:利用支持向量機(support vector machine,SVM)結合約束規則在目標語料中抽取出候選術語集,然后利用結合詞長比概念的領域性過濾得到最終結果。流程如圖1所示,需要說明的是:
1)本文方法的輸入是領域語料庫,輸出是領域術語集。其中領域語料庫包括訓練語料庫、目標語料庫和用于領域性過濾的平衡語料庫。目標語料庫由單個領域的文檔組成,平衡語料庫為了體現領域術語在領域文本與非領域文本中分布的差別,由多個不同領域的語料庫組成。
2)輸入的語料庫都行進了預處理工作。預處理包括標準化處理、分詞與詞性標注。標準化處理是大多數中文信息處理的基礎性工作,本文是指將語料庫中的無用成分去除,僅保留純文本。訓練語料庫與平衡語料庫都包含正確的領域術語標注結果。
3)本文使用了文獻[15]中的SVM模塊進行機器學習。SVM訓練的結果是一系列的語言規則。
4)使用SVM訓練得到的語言規則對目標語料庫進行候選術語抽取時,將本文1.1節歸結的約束規則結合到語言規則中,提高候選術語抽取的效果。
5)對候選術語進行領域性過濾時,利用了詞長比概念,提升含字長度大的術語的領域性權重,過濾效果更好。

圖1 術語抽取流程Fig.1 Terminology extraction process
相對于常見的術語抽取方法,本文利用了術語含字長度、術語語法結構特征,并根據術語含字長度特征提出了詞長比的概念。在抽取候選術語、確定術語領域性時充分利用了這幾種理論,提高術語抽取效果。
選術語抽取由標準化處理、分詞與詞性標注、利用SVM和約束規則抽取候選術語3個步驟組成。
語料庫預處理包括標準化處理,分詞與詞性標注。首先進行標準化處理,將選定的語料庫標準化為統一的格式。本文對標準化的要求是:1)僅保留文本。去除圖片、超鏈接、公式、HTML語言、空行等不需要的元素;2)只使用全角標點符號,將半角標點用全角標點替換;3)文本編碼采用UTF- 8。
下文是一段文本經過標準化處理后的片段。以這段文本為例,介紹候選術語抽取工作:
12月31日,瑞星全球反病毒監測網率先截獲一個主要偷竊網絡游戲“傳奇”玩家密碼的木馬病毒,并命名為“少女心事”(Trojan.PSW.Legend.Flash)病毒。據瑞星反病毒工程師介紹,該病毒會偽裝成微軟播放器可以播放的電影文件,并且會用很有誘惑力的名字比如“少女心事”、“愛情故事”等等,來欺騙用戶下載運行。等用戶點擊運行后會顯示 “意外錯誤,系統找不到Flash播放插件”,這時候用戶就已經被感染。
使用NLPIR漢語分詞系統(又名ICTCLAS 2016)[16]對文本進行分詞與詞性標注。下文是部分切分結果:
并且/c 會/v 用/p 很/d 有/vyou 誘惑力/n 的/ude1 名字/n 比如/v "/n 少女/n 心事/n "/n、/wn "/n 愛情/n 故事/n "/n 等等/udeng
該模塊使用SVM進行候選術語抽取,即將SVM分類器作為術語的初級判別器。輸入是經過分詞和詞性標注的語料,輸出的是進行了候選術語標注的語料。SVM采用的語言規則由400個文檔訓練得到,并結合了本文1.1節的約束規則1)~ 5)。示例文本經過SVM抽取,得到了候選術語抽取結果(候選術語以“/term”標識),如下文所示:
12月/t 31日/t,/wd 瑞星全球反病毒監測網/n/term 率先/d 截獲/v 一個/mq 主要/d 偷竊/v/term 網絡游戲/n/term "/n 傳奇/n/term "/n 玩家密碼/n/term 的/ude1 木馬病毒/n/term,/wd 并/cc 命名/v 為/p "/n 少女心事/n/term "/n(/wkz Trojan.PSW.Legend.Flash/x)/wky 病毒/n/term。/wj 據/p 瑞星反病毒工程師/n/term 介紹/v,/wd 該/rz 病毒/n/term 會/v 偽裝/vd 成/v 微軟播放器/n/term 可以/v 播放/v/term 的/ude1 電影文件/n/term,/wd 并且/c 會/v 用/p 很/d 有/vyou 誘惑力/n/term 的/ude1 名字/n/term 比如/v "/n 少女心事/n/term "/n、/wn "/n 愛情故事/n/term "/n 等等/udeng,/wd 來/vf 欺騙/v 用戶/n/term 下載/v/term 運行/vi。/wj 等/v 用戶/n/term 點擊/n 運行/vi/term 后/f 會/v 顯示/v "/n 意外/a/term 錯誤/n/term,/wd 系統/ad/term 找/v 不/d 到/v Flash/x 播放插件/n/term "/n,/wd 這時候/rzt 用戶/n/term 就/d 已經/d 被/pbei 感染/v/term。/wj
可見,使用SVM結合約束規則在“電腦病毒”領域進行候選術語抽取,能夠將大部分含字長度較大的候選領域術語準確的抽取出來,一定程度上修正了由于沒有領域詞典支持而對目標領域語料庫產生的錯誤切分與標注現象。
此處產生的候選術語,包含大多數的領域術語,同時還包含部分非領域術語。如何將領域術語過濾出來,得到更精確的術語抽取最終結果,需要使用領域性過濾算法進行進一步處理。
常用的領域性過濾算法,僅考慮術語的分布信息,對于含字長度較大的術語,由于這類術語常常帶有詞頻低等語法特性,效果并不理想。詞長比過濾算法在確定候選術語的領域性時,充分考慮術語詞長比的重要性,將其作為領域性算法的重要權值。詞長比過濾算法的三個重要參數是詞長比、領域相關性和領域一致性。
結合本文關于術語含字長度的統計結論與領域性算法的運算需求,本文將詞長比(word length ratio,WLR)定義為術語含字長度與語料庫中詞語平均含字長度的比值:

(1)

根據術語含字長度的特性,候選術語的詞長比越大,領域隸屬度越高,成為領域術語的可能性越大。由式(1)可知,詞語的含字長度越大,其對應的WLR值越高。對于大部分中文語料來說,雙字詞占大多數,語料庫中詞語的平均含字長度接近2,雙字詞的WLR值就接近1。對于2個字以上的詞,能夠得到較高的WLR值;對于大量的單字詞,其WLR值較小。將WLR值作為領域性的權值之一,就可以使術語長度特征在領域性中有所體現。
領域相關性(domain relevancy,DR)定義術語對領域的關聯度。計算領域相關性,需要引入平衡語料庫,利用詞語在領域語料庫中的概率和在平衡語料庫中的概率差距來表示領域相關性。更確切的說,給定了n個領域的語料庫(C1,C2,…,Cn),詞語t對于語料庫Ci的領域相關性定義為:

(2)
式中:tfi為詞語t在語料庫Ci中的詞頻,Cbalance-i為去除了Ci的平衡語料庫,P(t|Ci)和P(t|Cbalance-i分別為t在Ci和Cbalance-i中出現的概率。其中:
(3)
式中:tfbalance-i為詞語t在Cbalance-i中的詞頻,ni和nbalance-i分別為Ci和Cbalance-i中的文檔數目。
從式(2)可以看出,如果詞語在領域語料中出現的概率大于平衡語料中出現的概率,DR(t,Ci)>0,詞語和該領域正相關。比如“瑞星反病毒工程師”在“電腦病毒”領域出現的概率大于在平衡語料出現的概率,其和“電腦病毒”領域正相關;相反,“名字”在“電腦病毒”領域出現的概率小于在平衡語料出現的概率,其和“電腦病毒”領域負相關。
領域一致性(domain consensus,DC)用來描述一個詞在特定領域分布的均勻情況,這個標準對于獲取高質量的領域術語起著重要作用,可以發現只在小部分文檔中出現的詞語。詞語t在領域語料庫Ci的分布情況在文檔dj∈Ci的范圍內可以被表示為變量DC(t,Ci),領域一致性定義為:
(4)
式中:freq(t,dj)表示詞語t在文檔dj中的頻率。
DC的定義類似于信息熵(H(P(t,Cj)),熵H描述了t在Ci中的分布情況)。詞語在語料庫中分布的越均勻,也就是說詞語在越多的文本中出現,DC值越高。如果詞語僅在一個文本中出現,則DC=0。比如“裸奔”(指電腦在不安裝殺毒軟件的狀態下運行)僅在一篇“電腦病毒”領域的文本中多次出現,但是在平衡語料的其他文本中沒有出現,其DC=0。即使其DR值為正,也不能成為領域術語。
詞長比過濾借鑒并改進了文獻[17]設計的術語相關性權值計算方法,將WLR、DR、DC三種信息結合起來計算術語的領域性(domain degree,DD)。詞長比過濾算法:
DD(t,Ci)=
WLR(t,Ci)(αDR′(t,Ci)+(1-α)DC′(t,Ci))
(5)
式中:0<α<1,經過多次實驗結果的對比,α取值為0.7時效果最好。WLR(t,Ci)為t在Ci中的詞長比,DR′(t,Ci)和DC′(t,Ci)分別為經過標準化的DR與DC值,如下:
(6)
實際運算時,對每個候選術語分別計算WLR,DR和DC值,代入式(5)得到候選術語的領域性。
實驗使用了兩種語料庫:官方TanCorp[18]語料庫中的電腦病毒語料和從維基百科抽取到的領域網頁語料庫。TanCorp包含14 150個文本,其中“電腦病毒”領域包含了619個文本文件。維基百科網頁語料庫是一個開放領域語料庫,包含“電腦病毒”領域語料,實驗抽取了17 325個文本文件,其中“電腦病毒”領域包含了941個文本文件。
選擇維基百科中的“電腦病毒”語料作為訓練語料,進行人工術語標注,標注術語506個。TanCorp中的“電腦病毒”語料作為目標語料,TanCorp語料庫作為平衡語料。對目標語料——TanCorp“電腦病毒”領域語料庫進行人工標注,標注領域術語342個,以此作為參考評價試驗結果。
采用維基百科語料庫“電腦病毒”領域400個文檔對SVM進行訓練。將SVM使用的特征選定為詞的字面描述、詞性、詞頻和候選術語上下文信息的組合。訓練完成生成一系列語言規則,再采用1.1節中的約束規則進行候選術語抽取。利用SVM抽取得到了535個候選術語。對候選術語進行詞長比過濾得到最終結果。
為了說明詞長比在領域性過濾中的作用,表1、2、3分別列舉了DR、DC、DD值最高的10個詞語。其中DR、DC的取值代表了未考慮詞長比的過濾效果,而DD取值代表了加入詞長比要素的過濾效果。需要說明的是:1)表中顯示的結果已經經過四舍五入;2)經統計,TanCorp語料庫詞語的平均含字長度是1.90,每個候選術語的WLR值根據這個數據計算出來。

表1 DR得分最高的10個術語
由表1和表2可見,僅僅通過計算領域相關性和領域一致性,并沒有使這個領域大多數典型的病毒名稱得到較高的權值。由于這些術語的含字長度都較大,詞長比賦予了它們較高的權值。從表3的結果可以看出,考慮到詞長比因素之后,典型的“電腦病毒”領域的術語被正確的抽取了出來。

表2 DC得分最高的10個術語

表3 DD得分最高的10個術語
將本文提出的術語抽取方法與常用的術語抽取方法進行比較,使用準確率P和召回率R作為指標進行評價:
(7)
式中:T1為抽取正確的術語數量,T2為抽取到的術語總數,T3為語料庫中人工標注的術語總數。
實驗對比了幾種常見的術語抽取方法,包括基于語言特性統計模型(以領域相關性DR和領域一致性DC為抽取標準,簡稱DR+DC)的方法,互信息結合似然度的方法[9]和C- value方法[7],結果如表4所示。
在經過多次實驗對比并參考相關研究之后,在基于語言特性統計模型方法的抽取實驗中,將DR與DC的閾值分別為設定為0.3和0.4;參考這一標準,基于詞長比過濾的抽取實驗中,領域性DD閾值設置為0.3。
表4幾種術語抽取方法的準確率和召回率比較
Table4Precisionandrecallcomparisonofterminologyextractionmethods

方法抽取總數抽取正確標注準確率/%召回率/%本文方法23921434289.562.6DR+DC21314834269.543.3互信息+似然度20914034267.040.1C-value19613334267.938.9
從表4的實驗結果可以看出,本文提出的方法在與DR+DC方法、互信息+似然度方法和C- value對比中,準確率和召回率均有提高。術語長度信息和語法特征在基于統計的術語抽取中起到了顯著作用。表5是實驗中幾種方法產生的部分錯誤結果。通過分析錯誤結果,可以得知具體是哪些細節影響了抽取效果。
表5幾種方法的部分錯誤結果
Table5Partofmistakesappearinterminologyextractionmethods

方法錯誤結果是否抽取到錯誤原因本文方法7939否純數字結構DR+DC特洛伊木馬黑色星期五否否DC不符合要求切分錯誤互信息+似然度卡巴斯基黑色星期五否否低頻詞切分錯誤C-value防不勝防是成語黑色星期五否切分錯誤名稱是領域性不對
對表5的錯誤結果進行分析,得到以下結論:
1)本文的術語抽取方法有較高的準確率與召回率,其錯誤結果大多產生于候選術語抽取階段,抽取規則沒有覆蓋到的內容。例如,由于純數字結構,“7939”沒有被作為候選術語保留下來。
2)基于語言特性統計模型抽取術語,只考慮術語的分布規律,準確率不理想。“特洛伊木馬”的DC值沒有滿足閾值,只有進行詞長比過濾才能得以保留,可見詞長比的重要性;“黑色星期五”則是由于沒有約束規則支持,在預處理階段沒有被正確切分出來。
3)互信息+似然度的方法對低頻詞的處理效果不理想。本實驗采用的電腦病毒語料庫存在部分低詞頻術語,比如“卡巴斯基”等,不能被成功抽取;由于沒有約束規則支持,“黑色星期五”又一次出現了切分錯誤。
4)C- value方法因為沒有約束規則支持,導致“防不勝防”類似的成語沒有被去除;“黑色星期五”仍然被錯誤切分;同時,這種方法也沒有經過機器學習步驟對術語的多個特征進行識別,抽取到了“電腦病毒”領域外的術語,比如“名稱”。
綜合以上,本文采用的基于術語長度信息和語法特征的約束規則,以及詞長比過濾方法,在抽取領域術語的實驗中發揮了顯著作用。抽取結果有較高的準確率和召回率,優于其他幾種常用的術語抽取方法。
1)本方法將基于術語長度和語法特征的統計結論作為約束規則應用到機器學習中,再將詞長比的概念結合經典的領域性算法,提升含字長度大的術語的領域性權重,能夠較準確的抽取含字長度較大的候選領域術語。
2)以往的方法需要領域詞典的支持才能對含字長度大的術語做出正確切分,然而大多領域并沒有詞典支持,本文提出的詞長比的概念能夠有效的應對這種情況。本方法能夠更廣泛的應用于多種領域的術語抽取中。
3)本方法在機器學習階段添加的是統計得到的約束規則,規則的完善程度決定了抽取質量。規則的完善是逐步的,目前實驗中也發現了規則沒有覆蓋到的情況,比如約束規則對純數字結構的術語不能做出正確的識別。
在接下來的研究中,將進一步完善約束規則,提高候選術語抽取效果;同時,還會測試詞長比概念與其他統計抽取方法結合產生的效果,探索最合適的方法組合。
[1] 于欣麗, 全如, 粟武賓, 等. GB/T 10112-1999, 術語工作原則與方法[S]. 北京: 國家質量技術監督局, 1999. YU Xinli, QUAN Ru, SU Wubin, et al. GB/T 10112-1999, Terminologywork- principles and methods[S]. Beijing: General Administration of Quality Supervision, Inspection and Quarantine of the People′s Republic of China, 1999.
[2] 曾聰, 張東站. 基于同義詞詞林和《知網》的短語主題提取[J]. 廈門大學學報:自然科學版, 2015, 54(2): 263-269. ZENG Cong, ZHANG Dongzhan. Phrase subject extraction based on synonyms and HowNet[J]. Journal of Xiamen University: natural science, 2015, 54(2): 263-269.
[3] KANG N, SINGH B, BUI C, et al. Knowledge- based extraction of adverse drug events from biomedical text[J]. BMC bioinformatics, 2014, 15(1): 64-64.
[4] SHAREF N M, NOAH S A, MURAD M A A. Linguistic rule- based translation of natural language question into sparql query for effective semantic question answering[J]. Journal of theoretical and applied information technology, 2015, 80(3): 557-575.
[5] 張莉, 劉昱顯. 基于語序位置特征的漢英術語對自動抽取研究[J]. 南京大學學報: 自然科學, 2015(4): 707-713. ZHANG Li, LIU Yuxian. Research on automatic Chinese- English term extraction based on order and position feature of words[J]. Journal of Nanjing University: natural sciences, 2015(4): 707-713.
[6] BOLSHAKOVA E, LOUKACHEVITCH N, NOKEL. Topic models can improve domain term extraction[C]//Proceedings of the 35th European Conference on Advances in Information Retrieval. Berlin, 2013: 684-687.
[7] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi- word terms: the C- value/NC- value method[J]. International journal on digital libraries, 2000, 3(2): 115-130.
[8] ESPINOSA A L, SAGGION H, RONZANO F. TALN- UPF: Taxonomy learning exploiting CRF- based hypernym extraction on encyclopedic definitions[C]//Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). Denver, Colorado, 2015: 949-54.
[9] PANTEL P, LIN D. A statistical corpus- based term extractor[M]. Berlin, Springer, 2001: 36-46.
[10] GELBUKH A, SIDOROV G, LAVIN V E, et al. Automatic term extraction using log- likelihood based comparison with general reference corpus[J]. Natural language processing and information systems, 2010: 248-255.
[11] ITTOO A, BOUMA G. Term extraction from sparse, ungrammatical domain- specific documents[J]. Expert systems with applications, 2013, 40(7): 2530-2540.
[12] LOPEZ P, ROMARY L. HUMB: Automatic key term extraction from scientific articles in GROBID[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Los Angeles, California, 2010: 248-251.
[13] 李蕓, 王強軍. 信息技術領域術語字頻、詞頻及術語長度統計[C]//第一屆學生計算語言學研討會論文集. 北京, 2002: 268-274. LI Yun, WANG Qiangjun. Character frequency, word frequency and length of term in the field of information technology[C]//Proceedings of the First Student Workshop on Computational Iinguistics (SWCL 2002). Beijing, 2002: 268-274.
[14] 周浪, 張亮, 馮沖, 等. 基于詞頻分布變化統計的術語抽取方法[J]. 計算機科學, 2009, 36(05): 177-180. ZHOU Lang, ZHANG Liang, FENG Chong, et al. Terminology extraction based on statistical word frequency distribution variety[J]. Computer science, 2009, 36(05): 177-180.
[15] CUNNINGHAM H, BONTCHEVA K, TABLAN V, et al. GATE[EB/OL]. Sheffield, The University of Sheffield, 2016. [2016-05-11]. https://gate.ac.uk/.
[16] 張華平. NLPIR漢語分詞系統[EB/OL]. [2016-05-11]. http://ictclas.nlpir.org/.
[17] BRUNZEL M, SPILIOPOULOU M. Domain relevance on term weighting[M]. Berlin, Springer, 2007: 427-432.
[18] 譚松波, 王月粉. 中文文本分類語料庫-TanCorpV1.0[EB/OL]. [2016-05-11]. http://www.datatang.com/data/11970.
Astatisticaldomainterminologyextractionmethodbasedonwordlengthandgrammaticalfeature
LIU Li1,2, XIAO Yingyuan1,2
(1.Key Laboratory of Computer Vision and System, Ministry of Education, Tianjin University of Technology, Tianjin 300384, China; 2.Tianjin Key Laboratory of Intelligence Computing and Novel Software Technology, Tianjin University of Technology, Tianjin 300384, China)
10.11990/jheu.201605037
http://www.cnki.net/kcms/detail/23.1390.u.20170427.1511.084.html
TP181
A
1006- 7043(2017)09- 1437- 07
2016-05-12. < class="emphasis_bold">網絡出版日期
日期:2017-04-27.
國家自然科學基金項目(71501141,61301140);天津市科技特派員項目(15JCTPJC63800).
劉里(1983-), 男, 講師,博士; 肖迎元(1969-), 男, 教授, 博士生導師.
劉里, E- mail: llwork@yeah.net.
本文引用格式:劉里,肖迎元. 基于術語長度和語法特征的統計領域術語抽取[J]. 哈爾濱工程大學學報, 2017, 38(9): 1437-1443.
LIU Li, XIAO Yingyuan. Extraction of terminology from statistical domains on the basis of word length and grammatical feature[J]. Journal of Harbin Engineering University, 2017, 38(9): 1437-1443.