詞語搭配抽取系統的對比研究

2016-05-11 06:58:30杜友福

現代計算機 2016年9期

薛　晶，杜友福，黃　嵐

（長江大學計算機科學學院，荊州　434023）

詞語搭配抽取系統的對比研究

薛晶，杜友福，黃嵐

（長江大學計算機科學學院，荊州434023）

摘要：詞語搭配抽取系統是自動抽取搭配的有效工具，對自然語言處理和語言學習具有重要作用。從語料庫來源、抽取方法和抽取結果三方面對常用的搭配抽取系統作比較分析，以便找到一種適合于特定情況的系統。

關鍵詞：詞語搭配抽取；抽取方法；語料庫

0　引言

詞語搭配自動抽取是指通過計算機的計算能力和程序設計語言從語料庫中實現對句子分析和詞語抽取，是計算語言學中非常關鍵的部分[1]。為了實現詞語搭配的高效、準確抽取，目前已有不少抽取系統問世，典型的有FLAX語言學習系統、美國當代英語語料庫和詞匯導師系統等。我們從三個方面對常用抽取系統做了比較分析，以便找到一種適用于特定情況的系統。

1　對比框架

語料庫是通過對自然語言運用的隨機抽樣，由大量實際使用的語言信息集成供研究學習的文本組合。通過語料庫可以清楚查看某個詞或短語的使用頻率和典型搭配[2]。語料庫信息量大，可以給詞語搭配抽取提供豐富可靠的數據資源。同時，研究發現語料庫呈現的語言搭配不少存在語法結構沖突問題，搭配抽取后，學習者需要分析觀察大量搭配數據來歸納語言現象，總結規則[3]。因而我們的比較研究基于以下3個方面：

（1）語料庫來源是否符合語料庫真實性、代表性（包括平衡性和多樣性）、動態性和開放性建設原則[4]；

（2）抽取方法是否考慮搭配的語法結構關系，是否考慮優缺點和適用范圍；

（3）抽取結果是否便于學習者進行歸納式學習[3]，探索詞語搭配規則。

2　常用抽取系統的對比分析

2.1語料庫來源

語料庫建設真實性原則指語料庫中的語料必須是真實的；代表性原則指語料選取覆蓋范圍廣，構成語料取自不同領域，具有多樣性和平衡性；動態性原則指語料庫中的語料應及時更新；開放性原則指語料庫本身是開放的，與其他語料庫可實現對接[4]。

FLAX語言學習系統（以下簡稱FLAX）主要以英國國家語料庫（British National Corpus，BNC）、英國學術英語語料庫（The British Academic Written English，BAWE）和維基百科語料庫（Wikipedia）（詳見表1）三大語料庫為支撐，三者互為補充，BNC語料庫雖提供的短語較少，但提供詞語出現的擴展語境更為詳盡；BAWE語料庫和維基百科語料庫提供的文檔雖然存在不完整性和重復性問題，但卻是當前最真實的[5]，滿足語料庫建設真實性、動態性和開放性原則。

詞匯導師系統（The Compleat Lexical Tutor，以下簡稱CLT）提供Brown語料庫、BNC口語、BNC書面語、BNC人文、BNC法律、BNC社會科學、BNC醫學和學術摘要等32種語料庫（詳見表2）。其中1000、2000常用詞和學術英語詞族表可以用來測量語篇用詞量，滿足語料庫建設真實性、代表性和開放性原則。

美國當代英語語料庫（The Corpus of Contemporary American English，以下簡稱COCA）現有4.5億詞條，由美國1999-2012年口語、小說、流行雜志、報紙和學術文章五種不同文體組成，五種文體各占20％呈均衡分布，在每五年的時間段也是基本均衡分布的（詳見表3）。這五部分以每年2000萬詞的速度進行擴充，以每年至少2次的頻率進行更新[6]，滿足語料庫建設真實性、動態性、代表性和開放性原則。

表1　FLAX系統語料庫來源及類型

表2　CLT的語料庫來源及總詞數

表3　COCA五大類型語料庫及五年時段的詞數分布

2.2搭配抽取方法

詞語搭配自動抽取的方法主要分為：基于規則的方法，基于統計的方法和統計與規則相結合的方法[7]。基于規則的方法是通過預先設定規則模板，把待處理語料中與規則模板相匹配的詞語作為候選項。基于統計的方法則通過對語料庫中詞間搭配強度進行統計評分來判斷一組詞語是否構成搭配。考慮到基于規則方法難以窮舉所有語言現象搭配規則的限制性和基于統計方法易忽略語言結構化特征的局限性[8]，通常采用規則和統計相結合的方法，該方法結合前兩者的優點，根據短語形成規則生成短語，然后通過統計方法抽取短語之間的搭配。

FLAX采用基于規則和統計相結合的抽取方法。先選取與預設語法結構類型匹配的詞語項，然后基于統計方法計算共現頻數，過濾頻數低于100次的非典型搭配。共現頻數指同一文檔或話題中出現的詞對，當共同出現的頻數達到一定值時，即可認定為構成搭配。FLAX雖然預先通過基于規則的方法匹配過濾，但是它只能抽取連續詞類型的搭配，不能處理詞語之間有間隔的情況，對非連續的詞語搭配抽取并不適用[7]。

CLT采用基于統計的方法抽取。運用檢索工具以“語境中關鍵詞”（Key Word in Context，KWIC）形式檢索節點詞，提取設定跨距內與節點詞達到設置共現頻數以上（介于1次至15次）的詞語項。這里節點詞即在抽取系統中查詢其搭配行為的關鍵詞，跨距是以關鍵詞為中心左右顯示的詞數，跨距大小的設置直接關系搭配抽取結果[9]。CLT將跨距設定為-4/+4，據以往研究結果，英語語言中這種設定是較為合適的[10]。雖然在CLT跨距內共現頻數的設置可使學習者清楚看出與節點詞經常在一起的搭配詞，但忽視了共現詞與節點詞的語法關系，學習者無法確定每一搭配詞是否為顯著搭配。

COCA則有效綜合了前兩者的優點，先基于規則的方法，選取符合預設語法結構的匹配項，設置跨距（設置為-9/+9），然后計算跨距內節點詞和共現詞的共現頻數及互信息MI值。在搭配抽取中，互信息是衡量一個詞出現情況下另一個詞出現的概率，MI值越大，節點詞與共現詞之間的搭配強度越強。給定兩個單詞語w1和w2來說，它們的互信息如下：

其中，C（w1，w2）表示w1和w2的共現次數，C（w1）、C（w2）為詞w1，w2出現的次數，N為語料庫中的詞語總數。

COCA的抽取方法可以有效抽取非連續性搭配，同時綜合兩種統計方法可以實現優勢互補，計算跨距內共現頻數也有利于緩解小概率事件互信息較大，稀疏數據過評的問題。

2.3抽取結果顯示

FLAX以搭配的語法結構和在語料庫中的出現頻數來分組顯示抽取結果，客服傳統索引方式在“語境中的關鍵詞（KWIC）”檢索時費時耗力的局限性，同時也降低了對學習者英語水平以及語言學知識的要求[5]（見圖1中A）。結果顯示界面我的櫻桃籃子（My Cherry Basket）模塊幫助學習者創建詞語搭配查詢結果存儲目錄，方便以后調用（見圖中B）。活動（Activities）模塊可以從大量文本文檔中自動生成語言學習練習[11]，如詞語搭配、詞語搭配接龍和同義詞辨析等（見圖中C）。CLT以“語境中關鍵詞（KWIC）”和在語料庫中的共現頻數（大于2）來顯示，方便學習者更好了解搭配使用語境，但歸納起來費時費勁（見圖2）。在CLT中，教師可自行輸入外部材料為學習者準備合適的練習[12]。COCA的顯示方式更為多樣化，既有“列表+共現頻數+互信息”（見圖3中A）和“柱狀圖+共現頻數”（見圖3中B）組合顯示方式也有語境信息的詳細羅列（見圖3中C）。Compare模塊便于學習者通過兩個同義詞在五種不同文體中不同時間段的搭配抽取結果對比來區分詞語使用差別（見圖4）。

圖2　CLT搭配抽取結果顯示界面

圖3　COCA搭配抽取結果顯示界面

圖4　COCA中Compare模塊查詢結果顯示界面

圖1　FLAX搭配抽取結果顯示界面

3　結語

基于上述分析，我們得到三大系統的比較結果，結論如表4所示。從語料來源來看，COCA的語料來源種類最為多樣，更能體現語體的歷史變遷；從抽取方法來看，FLAX和COCA采用基于統計和規則相結合的方法進行抽取更易于得到符合語法結構的典型搭配；從抽取結果來看，FLAX更適于語言初學者使用，易于發現語言搭配規則，CLT中教師可以進行自主命題則便于教師更好地把握學習者語言學習情況，COCA則有助于學習者探索詞語運用的細微差別。我們在比較研究后，對于選取合適的系統進行自然語言處理、學習者準確使用詞語組合，教師引導學習者自我發現詞語運用規律，培養學習者自主學習能力有一定的幫助作用。

表4　抽取系統比較結果表

參考文獻：

[1]陳亞菊.現代漢語詞語搭配的自動抽取方法[D].華東師范大學，2005,10

[2]Hunston, S. Corpora in Applied Linguistics[M]. Cambridge: Cambridge University Press, 2002.

[3]甄鳳超.語料庫數據驅動的外語學習：思想、方法和技術[J].外語界.2005（4）：19-27.

[4]劉紅梅.基于語料庫的英語數據驅動學習[J].安徽師范大學學報，2007，11（6）：732-734.

[5]Shaoqun,WuandIan, H. Witten, Utilizing Lexical Data from a Web-Derived Corpus to Expand Productive Collocation Knowledge[J]. European Association for Computer Assisted Language Learning,2010:83-102.

[6]周韻.基于美國當代英語語料庫的自主寫作模式研究[J].英語教師，2013,7（7）：57-63.

[7]全昌勤，劉輝，何婷婷.基于統計模型的詞語搭配自動獲取方法的分析與比較[J].計算機應用研究，2004,10（9）:55-57.

[8]關毅，王曉龍，張凱.基于統計與規則相結合的漢語計算語言模型及其在語音識別中的應用[J].高技術通訊，1998,4:16-20.

[9]鄧耀臣，王同順.詞語搭配抽取的統計方法及計算機實現[J].外語電化教學，2005,10（105）：25-26.

[10]衛乃興.基于語料庫和語料庫驅動的詞語搭配研究[J].當代語言學，2002（2）：101-114.

[11]Shao-qun Wu，Ian H. Witten，First Person Singular: A Digital Library Collection that Helps Second Language Learners Express Themselves[J]. International Journal of Digital Library Systems, 2010:24-43.

[12]劉玉山，胡志軍.基于在線免費語料庫The Compleat Lexical Tutor的詞匯自主學習與評估[J].山東外語教學，2012（6）：64-68

薛晶（1990-），女，碩士研究生，研究方向為計算語言學

杜友福（1961-），男，碩士，教授，研究方向為人工智能技術、數據庫技術、網絡應用技術、軟件開發黃嵐（1982-），女，博士，講師，研究方向為數據挖掘、語義計算

A Comparative Study of Collocation Extraction System

XUE Jing，DU You-fu，HUANG Lan
（School of Computer Sciences, Yangtze University, Jingzhou 434023）

Abstract：Collocation extraction system is an effective tool for automatic collocation extraction, which plays an important role in natural language processing（NLP）and language learning. Compares and analyses the usual systems according to these three aspects: the source of corpus, the approaches of extraction and the results so as to find a system that suits a specific problem.

Keywords：Collocation Extraction; Extraction Approaches; Corpus

收稿日期：2016-01-05修稿日期：2016-02-26

作者簡介：

文章編號：1007-1423（2016）09-0017-05

DOI：10.3969/j.issn.1007-1423.2016.09.004

現代計算機2016年9期

現代計算機的其它文章: 軟件測試之黑白盒策略的應用; 基于工程教育專業認證理念的計算機類專業建設; 高職計算機網絡課程實驗教學改革探究; 基于單片機的LED點陣書寫顯示屏設計路徑研究; 基于ZigBee的CC2530定時器T3的分析與研究; 基于SVG的思維導圖的系統實現

詞語搭配抽取系統的對比研究

0 引言

1 對比框架

2 常用抽取系統的對比分析

3 結語

0　引言

1　對比框架

2　常用抽取系統的對比分析

3　結語