999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

詞語搭配抽取系統的對比研究

2016-05-11 06:58:30杜友福
現代計算機 2016年9期

薛 晶,杜友福,黃 嵐

(長江大學計算機科學學院,荊州 434023)

?

詞語搭配抽取系統的對比研究

薛晶,杜友福,黃嵐

(長江大學計算機科學學院,荊州434023)

摘要:詞語搭配抽取系統是自動抽取搭配的有效工具,對自然語言處理和語言學習具有重要作用。從語料庫來源、抽取方法和抽取結果三方面對常用的搭配抽取系統作比較分析,以便找到一種適合于特定情況的系統。

關鍵詞:詞語搭配抽取;抽取方法;語料庫

0 引言

詞語搭配自動抽取是指通過計算機的計算能力和程序設計語言從語料庫中實現對句子分析和詞語抽取,是計算語言學中非常關鍵的部分[1]。為了實現詞語搭配的高效、準確抽取,目前已有不少抽取系統問世,典型的有FLAX語言學習系統、美國當代英語語料庫和詞匯導師系統等。我們從三個方面對常用抽取系統做了比較分析,以便找到一種適用于特定情況的系統。

1 對比框架

語料庫是通過對自然語言運用的隨機抽樣,由大量實際使用的語言信息集成供研究學習的文本組合。通過語料庫可以清楚查看某個詞或短語的使用頻率和典型搭配[2]。語料庫信息量大,可以給詞語搭配抽取提供豐富可靠的數據資源。同時,研究發現語料庫呈現的語言搭配不少存在語法結構沖突問題,搭配抽取后,學習者需要分析觀察大量搭配數據來歸納語言現象,總結規則[3]。因而我們的比較研究基于以下3個方面:

(1)語料庫來源是否符合語料庫真實性、代表性(包括平衡性和多樣性)、動態性和開放性建設原則[4];

(2)抽取方法是否考慮搭配的語法結構關系,是否考慮優缺點和適用范圍;

(3)抽取結果是否便于學習者進行歸納式學習[3],探索詞語搭配規則。

2 常用抽取系統的對比分析

2.1語料庫來源

語料庫建設真實性原則指語料庫中的語料必須是真實的;代表性原則指語料選取覆蓋范圍廣,構成語料取自不同領域,具有多樣性和平衡性;動態性原則指語料庫中的語料應及時更新;開放性原則指語料庫本身是開放的,與其他語料庫可實現對接[4]。

FLAX語言學習系統(以下簡稱FLAX)主要以英國國家語料庫(British National Corpus,BNC)、英國學術英語語料庫(The British Academic Written English,BAWE)和維基百科語料庫(Wikipedia)(詳見表1)三大語料庫為支撐,三者互為補充,BNC語料庫雖提供的短語較少,但提供詞語出現的擴展語境更為詳盡;BAWE語料庫和維基百科語料庫提供的文檔雖然存在不完整性和重復性問題,但卻是當前最真實的[5],滿足語料庫建設真實性、動態性和開放性原則。

詞匯導師系統(The Compleat Lexical Tutor,以下簡稱CLT)提供Brown語料庫、BNC口語、BNC書面語、BNC人文、BNC法律、BNC社會科學、BNC醫學和學術摘要等32種語料庫(詳見表2)。其中1000、2000常用詞和學術英語詞族表可以用來測量語篇用詞量,滿足語料庫建設真實性、代表性和開放性原則。

美國當代英語語料庫(The Corpus of Contemporary American English,以下簡稱COCA)現有4.5億詞條,由美國1999-2012年口語、小說、流行雜志、報紙和學術文章五種不同文體組成,五種文體各占20%呈均衡分布,在每五年的時間段也是基本均衡分布的(詳見表3)。這五部分以每年2000萬詞的速度進行擴充,以每年至少2次的頻率進行更新[6],滿足語料庫建設真實性、動態性、代表性和開放性原則。

表1 FLAX系統語料庫來源及類型

表2 CLT的語料庫來源及總詞數

表3 COCA五大類型語料庫及五年時段的詞數分布

2.2搭配抽取方法

詞語搭配自動抽取的方法主要分為:基于規則的方法,基于統計的方法和統計與規則相結合的方法[7]。基于規則的方法是通過預先設定規則模板,把待處理語料中與規則模板相匹配的詞語作為候選項。基于統計的方法則通過對語料庫中詞間搭配強度進行統計評分來判斷一組詞語是否構成搭配。考慮到基于規則方法難以窮舉所有語言現象搭配規則的限制性和基于統計方法易忽略語言結構化特征的局限性[8],通常采用規則和統計相結合的方法,該方法結合前兩者的優點,根據短語形成規則生成短語,然后通過統計方法抽取短語之間的搭配。

FLAX采用基于規則和統計相結合的抽取方法。先選取與預設語法結構類型匹配的詞語項,然后基于統計方法計算共現頻數,過濾頻數低于100次的非典型搭配。共現頻數指同一文檔或話題中出現的詞對,當共同出現的頻數達到一定值時,即可認定為構成搭配。FLAX雖然預先通過基于規則的方法匹配過濾,但是它只能抽取連續詞類型的搭配,不能處理詞語之間有間隔的情況,對非連續的詞語搭配抽取并不適用[7]。

CLT采用基于統計的方法抽取。運用檢索工具以“語境中關鍵詞”(Key Word in Context,KWIC)形式檢索節點詞,提取設定跨距內與節點詞達到設置共現頻數以上(介于1次至15次)的詞語項。這里節點詞即在抽取系統中查詢其搭配行為的關鍵詞,跨距是以關鍵詞為中心左右顯示的詞數,跨距大小的設置直接關系搭配抽取結果[9]。CLT將跨距設定為-4/+4,據以往研究結果,英語語言中這種設定是較為合適的[10]。雖然在CLT跨距內共現頻數的設置可使學習者清楚看出與節點詞經常在一起的搭配詞,但忽視了共現詞與節點詞的語法關系,學習者無法確定每一搭配詞是否為顯著搭配。

COCA則有效綜合了前兩者的優點,先基于規則的方法,選取符合預設語法結構的匹配項,設置跨距(設置為-9/+9),然后計算跨距內節點詞和共現詞的共現頻數及互信息MI值。在搭配抽取中,互信息是衡量一個詞出現情況下另一個詞出現的概率,MI值越大,節點詞與共現詞之間的搭配強度越強。給定兩個單詞語w1和w2來說,它們的互信息如下:

其中,C(w1,w2)表示w1和w2的共現次數,C(w1)、C(w2)為詞w1,w2出現的次數,N為語料庫中的詞語總數。

COCA的抽取方法可以有效抽取非連續性搭配,同時綜合兩種統計方法可以實現優勢互補,計算跨距內共現頻數也有利于緩解小概率事件互信息較大,稀疏數據過評的問題。

2.3抽取結果顯示

FLAX以搭配的語法結構和在語料庫中的出現頻數來分組顯示抽取結果,客服傳統索引方式在“語境中的關鍵詞(KWIC)”檢索時費時耗力的局限性,同時也降低了對學習者英語水平以及語言學知識的要求[5](見圖1中A)。結果顯示界面我的櫻桃籃子(My Cherry Basket)模塊幫助學習者創建詞語搭配查詢結果存儲目錄,方便以后調用(見圖中B)。活動(Activities)模塊可以從大量文本文檔中自動生成語言學習練習[11],如詞語搭配、詞語搭配接龍和同義詞辨析等(見圖中C)。CLT以“語境中關鍵詞(KWIC)”和在語料庫中的共現頻數(大于2)來顯示,方便學習者更好了解搭配使用語境,但歸納起來費時費勁(見圖2)。在CLT中,教師可自行輸入外部材料為學習者準備合適的練習[12]。COCA的顯示方式更為多樣化,既有“列表+共現頻數+互信息”(見圖3中A)和“柱狀圖+共現頻數”(見圖3中B)組合顯示方式也有語境信息的詳細羅列(見圖3中C)。Compare模塊便于學習者通過兩個同義詞在五種不同文體中不同時間段的搭配抽取結果對比來區分詞語使用差別(見圖4)。

圖2 CLT搭配抽取結果顯示界面

圖3 COCA搭配抽取結果顯示界面

圖4 COCA中Compare模塊查詢結果顯示界面

圖1 FLAX搭配抽取結果顯示界面

3 結語

基于上述分析,我們得到三大系統的比較結果,結論如表4所示。從語料來源來看,COCA的語料來源種類最為多樣,更能體現語體的歷史變遷;從抽取方法來看,FLAX和COCA采用基于統計和規則相結合的方法進行抽取更易于得到符合語法結構的典型搭配;從抽取結果來看,FLAX更適于語言初學者使用,易于發現語言搭配規則,CLT中教師可以進行自主命題則便于教師更好地把握學習者語言學習情況,COCA則有助于學習者探索詞語運用的細微差別。我們在比較研究后,對于選取合適的系統進行自然語言處理、學習者準確使用詞語組合,教師引導學習者自我發現詞語運用規律,培養學習者自主學習能力有一定的幫助作用。

表4 抽取系統比較結果表

參考文獻:

[1]陳亞菊.現代漢語詞語搭配的自動抽取方法[D].華東師范大學,2005,10

[2]Hunston, S. Corpora in Applied Linguistics[M]. Cambridge: Cambridge University Press, 2002.

[3]甄鳳超.語料庫數據驅動的外語學習:思想、方法和技術[J].外語界.2005(4):19-27.

[4]劉紅梅.基于語料庫的英語數據驅動學習[J].安徽師范大學學報,2007,11(6):732-734.

[5]Shaoqun,WuandIan, H. Witten, Utilizing Lexical Data from a Web-Derived Corpus to Expand Productive Collocation Knowledge[J]. European Association for Computer Assisted Language Learning,2010:83-102.

[6]周韻.基于美國當代英語語料庫的自主寫作模式研究[J].英語教師,2013,7(7):57-63.

[7]全昌勤,劉輝,何婷婷.基于統計模型的詞語搭配自動獲取方法的分析與比較[J].計算機應用研究,2004,10(9):55-57.

[8]關毅,王曉龍,張凱.基于統計與規則相結合的漢語計算語言模型及其在語音識別中的應用[J].高技術通訊,1998,4:16-20.

[9]鄧耀臣,王同順.詞語搭配抽取的統計方法及計算機實現[J].外語電化教學,2005,10(105):25-26.

[10]衛乃興.基于語料庫和語料庫驅動的詞語搭配研究[J].當代語言學,2002(2):101-114.

[11]Shao-qun Wu,Ian H. Witten,First Person Singular: A Digital Library Collection that Helps Second Language Learners Express Themselves[J]. International Journal of Digital Library Systems, 2010:24-43.

[12]劉玉山,胡志軍.基于在線免費語料庫The Compleat Lexical Tutor的詞匯自主學習與評估[J].山東外語教學,2012(6):64-68

薛晶(1990-),女,碩士研究生,研究方向為計算語言學

杜友福(1961-),男,碩士,教授,研究方向為人工智能技術、數據庫技術、網絡應用技術、軟件開發黃嵐(1982-),女,博士,講師,研究方向為數據挖掘、語義計算

A Comparative Study of Collocation Extraction System

XUE Jing,DU You-fu,HUANG Lan
(School of Computer Sciences, Yangtze University, Jingzhou 434023)

Abstract:Collocation extraction system is an effective tool for automatic collocation extraction, which plays an important role in natural language processing(NLP)and language learning. Compares and analyses the usual systems according to these three aspects: the source of corpus, the approaches of extraction and the results so as to find a system that suits a specific problem.

Keywords:Collocation Extraction; Extraction Approaches; Corpus

收稿日期:2016-01-05修稿日期:2016-02-26

作者簡介:

文章編號:1007-1423(2016)09-0017-05

DOI:10.3969/j.issn.1007-1423.2016.09.004

主站蜘蛛池模板: 亚洲成人在线网| 日本午夜视频在线观看| 国产免费久久精品99re不卡| 亚洲日韩第九十九页| 久久中文电影| 22sihu国产精品视频影视资讯| 欧美成人精品欧美一级乱黄| 中文字幕啪啪| 久久精品最新免费国产成人| 精品精品国产高清A毛片| 风韵丰满熟妇啪啪区老熟熟女| 在线看片中文字幕| 日韩小视频网站hq| 嫩草影院在线观看精品视频| 精品视频一区在线观看| 亚洲乱码精品久久久久..| 制服丝袜一区二区三区在线| 2020国产精品视频| 欧美色丁香| 日韩国产亚洲一区二区在线观看| 精品少妇三级亚洲| 亚洲欧美另类日本| 亚洲六月丁香六月婷婷蜜芽| 色哟哟色院91精品网站| 国产成人综合亚洲欧美在| 色综合热无码热国产| 久久亚洲中文字幕精品一区| 综合成人国产| 国产在线精彩视频论坛| 东京热一区二区三区无码视频| 国产成人综合日韩精品无码首页| 在线无码九区| 就去吻亚洲精品国产欧美| 中文字幕不卡免费高清视频| 成人精品亚洲| 六月婷婷精品视频在线观看| 欧美天堂久久| 欧美另类精品一区二区三区| 狼友视频一区二区三区| 成人无码区免费视频网站蜜臀| 久久午夜夜伦鲁鲁片不卡| 成人日韩视频| 欧美性天天| 91亚洲国产视频| 一本大道视频精品人妻| 亚洲伊人天堂| a在线观看免费| 亚洲欧美日韩中文字幕一区二区三区| 91口爆吞精国产对白第三集| 成人一区专区在线观看| 国产精品美女在线| 一本无码在线观看| 国产亚洲精品91| 久久综合九色综合97婷婷| 青青草原国产av福利网站| 97综合久久| 全免费a级毛片免费看不卡| 国产男女免费视频| 国产精品人人做人人爽人人添| 在线免费a视频| 国产97视频在线观看| 日韩在线视频网| 四虎国产精品永久一区| 在线视频亚洲色图| 亚洲无码日韩一区| 2021国产精品自产拍在线| 91麻豆久久久| 国内精品久久人妻无码大片高| 国产一级毛片yw| 精品国产aⅴ一区二区三区| 国产导航在线| 国模极品一区二区三区| 国产精选自拍| 日韩欧美中文字幕在线精品| 欧美色视频在线| 国产丝袜无码精品| a级毛片在线免费| 亚洲天堂高清| 国产午夜一级毛片| 91成人免费观看在线观看| 欧美国产精品不卡在线观看| 国产xx在线观看|