999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則的英漢商務信函語塊提取研究

2013-09-12 07:57:54胡富茂
外國語文 2013年3期
關鍵詞:規則

胡富茂

(洛陽理工學院 外語系,河南 洛陽 471023)

1.引言

國內的語塊研究越來越細致與深入,涉及的方面主要包括搭配研究(繆海燕、孫藍,2005)、語塊運用與英語口語和寫作之間的關系研究(王立非、張巖,2006)、語塊學習在二語習得中的地位研究(濮建忠,2003)、語塊提取(李潔晶、趙曉臨,2007;衛乃興,2009;邢富坤,2012)等。語塊是語言的半成品,以整體形式儲存在大腦中,有較固定的語法結構限制和穩定的搭配意義,因此,在應用時具有快捷方便、準確流利的優勢。此種言語程式或行話由于出現頻率很高,并且形式和意義較固定,使用的語境也較固定,就像一個板塊一樣,如:cash on delivery(貨到付款)、confirming your order(確認你方的訂單)、accept your firm offer(接受你方的實盤)等。Sinclair(1991)認為:“那些出現頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構成”。“據電腦統計數據顯示,像這些語義較固定的各類形式的語塊在自然語言中占到90%的比例”(李太志,2006)。

本文提出了一種基于規則匹配的語塊自動提取方案,通過自動在互聯網上采集網頁構建動態語料庫,利用英漢商務信函語塊的結構、意義和功能等方面的特征,將英漢商務信函語塊分為全稱縮略語塊、慣用表達語塊、專業術語語塊三種類型,并制定英漢商務信函語塊自動提取規則,最終實現從語料中自動提取英漢商務信函語塊的功能。

2.構建動態語料庫

語料庫已成為語言學理論研究、語言學應用研究和語言信息處理不可缺少的基礎資源。為了對英漢商務信函語塊的語言學特點進行觀察總結,同時進行基于規則的英漢商務信函語塊提取,我們需要先構建一個規模足夠大的語料庫。顯然,通過手工的方法下載分析成千上萬的網頁、提取語料信息是不可行的。因此,通過動態語料庫構建的方式自動獲取大規模的文本語料就顯得尤為重要。

通過觀察,我們發現隨著互聯網在信息傳遞中的地位越來越突出,很多報紙、期刊紛紛建立網站,以與紙質媒體同步的速度提供大量文獻資料。這些文獻資料大都結構規范一致,信息完整。這也為后期英漢商務信函語塊的提取提供了方便。因此,我們希望對這些網站進行自動下載和分析,收集大量語料,構建英漢商務信函動態語料庫。

從互聯網上直接下載的語料是半結構化的,往往結構復雜,含有大量HTML語言標記,語料信息淹沒在蕪雜的網頁標記中,不方便直接提取文本內容。我們采用基于網頁結構分析的方法,通過HTML的起止標記來提取語料信息。HTML文檔包括文本和標記,一條基本的標記語句形式為:

<標記名稱 屬性列表(參數列表)>[</標記名稱>]

我們可以簡單地把標記分為兩類:包容標記和空標記。包容標記由一個開始標記和一個結束標記構成,中間是數據對象。空標記只有起始標記而沒有結束標記。因此可以通過對網頁中HTML標記的起止標記進行格式分析,判斷標記的意義,提取其中有效的信息。我們以《中國日報(財經頻道)》的英文官方網站“http://www.chinadaily.com.cn/business/”和中文官方網站“http://www.chinadaily.com.cn/hqcj/”為例,從網頁自動下載和語料信息抽取兩個方面來說明動態語料庫的構建方法。

2.1 網頁自動下載

首先,分析一下《中國日報(財經頻道)》英文官方網站的特點,該網站提供的每一篇文獻都有其單獨的網頁,網頁地址中的編號簡單遞增(如 http://www.chinadaily.com.cn/business/2011-02/26/content_12082981.htm)。利用網頁地址中編號的變化規律對網站進行爬取,就可以下載所有的文獻網頁。同樣,《中國日報(財經頻道)》中文網站提供的每一篇文獻也都有其單獨的網頁(如http://www.chinadaily.com.cn/hqcj/gjcj/2011 -02 -24/content_1849755.html),網頁地址中的編號簡單遞增。根據第一篇文獻的網頁地址向服務器發出HTTP請求,捕獲服務器的HTTP響應信息,取出信息內容存入結果文本。改變參數n和code的值,依次獲取所有文獻網頁。

2.2 語料信息抽取和格式化

每個網站都有自己的一套HTML起止標記模板,通過判斷這些標記的意義,我們可以解析出大量網頁的語料信息。

通過對上述網頁的HTML語言標記的格式分析,可以建立其邏輯結構圖,如圖1所示。

圖1 網頁邏輯結構圖

根據上面的起止標記可以解析得到網頁的標題、正文等信息。由于我們建立動態語料庫的目的是用于自動提取英漢商務信函語塊,而同時包含英漢商務信函語塊的句子一般只存在于網頁的正文中,因此,構建動態語料庫只需要提取網頁的正文部分。通過對《中國日報(財經頻道)》的英文官方網站和中文官方網站網頁HTML格式的分析,我們發現網頁正文部分起止標記如下:

<P class=MsoNormal style=[參數]align=[參數]>(正方信息)</P>

語料信息抽取主要利用起止標記,通過所設計的Extract類提供的屬性和方法提取網頁的正文信息。Extract類包含一個extract函數,該函數主要通過調用.NET Framework基類String類的成員public string Substring(int startIndex,int length)的方法實現單一信息的抽取功能,如抽取文章的標題等等。extract方法的數據輸入為:待抽取的HTML字符串(string strInput)、模板的起止標記字符串(string strLeft,string strRight)。輸出數據為抽取到的字符串(string strOutput)。具體流程如圖2所示:

圖2 語料信息抽取流程圖

解析得到的數據還需要進行數據清洗和格式化。許多網頁為了美觀都加入了大量的網頁特效標記、圖片以及超鏈接等等,如:換行符(<br> </br>)、鏈接標記(<a> </a>)、層標記(<div> </div>)、空格標記( )等,這些都需要經過特別處理來實現對語料信息的格式化。“正則表達式是處理此類語塊的強大工具。”(Friedl,2006)我們通過編程,利用正則表達式實現對數據的清洗和格式化處理工作。數據清洗和格式化用到的正則表達式舉例如下:

(<[a-zA-Z]+[^>]* >)|(</[a-zA -Zd]+>)|( )

第一個“|”號前面部分匹配HTML開始標記,它查找一個“<”字符,后面跟a到z之間的大小寫任意的任何一個或多個字母(“[a-zA-Z]+”部分中,“[a-zA -Z]”表示任意一個大寫或小寫字母,“+”表示一個或多個),接著是除“>”以外的零到多個任意字符(“[^>]* ”部分,“^”表示非,“[^>]”表示除“>”之外的任意字符,“* ”表示零或多個),最后以“>”字符結尾。

兩個“|”號中間的部分“(< /[a-zA -Zd]+ >)”匹配結束標記,它匹配一個“<”字符,后跟一個“/”字符,然后是a到z之間的大小寫任意的任何一個或多個字母或者數字(“d”表示數字),最后以“>”字符結尾。

最后的部分匹配空格標記“ ”。

如果還有其他特殊標記,可以參照上述方法設計相應的正則表達式進行清除。這樣就基本完成了數據清洗和格式化,得到干凈的文本,可以進行英漢商務信函語塊的提取。

3.基于規則的英漢商務信函語塊提取

基于規則的英漢商務信函語塊提取共包括三個步驟:英漢商務信函識別規則設計、文本預處理和后期處理。

3.1 英漢商務信函語塊識別規則設計

目前課題組初步構建了一個規模為200萬詞次的英漢商務信函語料庫,包括四個子庫:英語商務信函語料庫、漢語商務信函語料庫、英漢商務信函平行語料庫、漢英商務信函平行語料庫,該庫為動態的,可以自動獲取服務于語塊自動提取的知識資源。我們從語言學的研究角度,將英漢商務信函語塊分為全稱縮略語塊、慣用表達語塊、專業術語語塊三種類型:①全稱縮略語塊。經濟原則是大量商務縮略詞產生和被使用的最大原因。全稱縮略語塊涉及到貿易價格術語、保險、運輸、支付與結算等商務各個方面。例如:FOB(Free On Board)船上交貨、CFR(cost and freight)成本加運、FCA(Free Carrier)貨交承運人、FPA(Free from Particular Average)平安險、WPA(With Particular Average)水漬險,等等。②慣用表達語塊。慣用表達短語雖然專業性沒有那么強,但是也是較常用的。例如:In reply to your letter(茲復)、Thank you for your cooperation(多謝你方合作)、by the way(轉換話題)、such as(列舉事物)、general speaking(評價),等等。③ 專業術語語塊。商務英語信函中幾乎每個環節都有套話與行話。例如:confirming your order(確認你方的訂單)、accept your firm offer(接受你方的實盤),等等。

英漢商務信函語塊識別部分的主要任務是根據英漢商務信函語塊的結構特征、意義特征、功能特征,制定相應的規則識別出文本中的候選語塊,從全稱縮略語塊、慣用表達語塊、專業術語語塊三種分類中制定英漢商務信函語塊提取規則并進行識別。下表是在候選英語商務信函語塊識別過程中使用到的文本標記和句法特征詞規則。

表1 文本標記和句法特征詞規則

確定句子以后就可以利用英語商務信函語塊識別規則對候選英語商務信函語塊進行識別。下表是制定的候選漢語商務信函語塊提取規則。

找到候選漢語商務信函語塊以后,系統可以利用該規則進行查找,將找到的詞語與文本標記或句法特征詞之間的字符串作為候選縮略語。在英漢商務信函語塊提取階段,系統利用模板將候選英語商務信函語塊與候選漢語商務信函語塊進行逐一匹配,最后找出正確的英漢商務信函語塊。

3.2 文本預處理

文本預處理部分的主要任務是對動態語料庫中的語料進行初步的處理,提取出包含指定規則的句子用于英漢商務信函語塊識別。下面以縮略語的提取為例進行說明。該部分主要包括兩個步驟:

(1)去除不可能包含英漢商務信函縮略語語塊的括號。通過對實際語料的觀察,我們發現存在一些括號作為插入語用于解釋或說明。有的括號僅包含數字或者是數字加上特定符號(如百分號“%”、連字號“-”、斜杠“/”)等等。

對于這種括號中僅包含數字或者是數字加上特定符號的情況,由于括號內不可能包含英漢商務信函縮略語語塊,如果不預先處理,勢必會在下一步語塊識別中進行許多無用的提取,浪費系統資源和時間,并且影響準確率。因此,有必要預先去除這種括號。

(2)將文本切分為句子,提取出包含括號的句子。如果一個句子中含有多個括號,則以右括號“)”為標記,將句子切分為若干個子句,提取出包含括號的子句。

對英語文本進行句子切分,鑒于英語文本中句點“.”的情況復雜,“需要設計詳細的規則和相應的正則表達式,并結合一定的統計數據,才能提高英語句子自動切分的準確率”(Clough,2001)。我們采用了上述規則和統計相結合的句子切分方法,效果良好。“英語句子切分也可以用最大熵的方法解決”(Kit&Liu,2005)。漢語句子的切分也不容易,逗號“,”經常也可以作為斷句的標記,利用中文樹庫,“通過機器學習的方法可以達到比較理想的切分效果”(Xue,2005)。切分好的英、漢句子可以通過句長、雙語詞典等進行句對齊處理(Gale&Church,1991;Brown et al,1991;Chen,1993;Wu,1994;Li et al,2010)。

3.3 后期處理

我們安排了課題組中兩位外國語言學與應用語言學專業商務英語語言研究方向的教師(碩士學位)分別對測試語料中的英漢商務信函語塊進行人工合法性驗證,如果兩位教師的意見出現分歧,則以課題組共同的意見為準。

4.實驗測試及其分析

圖3 基于規則的英漢商務信函語塊自動提取系統層次結構圖

英漢商務信函語塊自動提取系統包括基礎資源層、提取規則層和應用層三個層次。具體層次結構如圖3所示。

各層次的主要功能和作用分別是:(1)基礎資源層。該層通過對互聯網中指定網站的網頁進行定期爬取和更新以及對網頁語料信息的抽取和格式化,自動構筑大規模英漢商務信函語料庫,為英漢商務信函語塊自動提取提供基礎資源;(2)提取規則層。該層為英漢商務信函語塊自動提取的規則庫。英漢商務信函語塊的自動提取規則主要通過人工內省的方式制定,輔之以規則與統計相結合的語言信息處理學習方法,從而對規則進行不斷完善;(3)應用層。該層將英漢商務信函語塊自動提取的多種規則綜合地應用到語塊的自動識別過程中,實現英漢商務信函語塊的自動提取。通過英漢商務信函動態語料庫的不斷更新,逐步構建起一個較大規模的英漢商務信函語塊庫。

英漢商務信函語塊自動提取系統包括動態語料庫構筑和英漢商務信函語塊自動提取兩大部分,共五個模塊。(1)網頁自動下載模塊。網頁自動下載模塊主要利用網頁地址編號將指定網站的網頁批量下載到本地硬盤;(2)語料信息抽取和格式化模塊。語料信息抽取和格式化模塊主要利用起止錨點標記對下載的網頁進行結構解析,抽取網頁正文部分的信息,利用正則表達式去除網頁特效標記和超鏈接標記等噪音,對語料信息進行數據清洗和格式化,最后得到干凈的文本語料;(3)文本預處理模塊。文本預處理模塊主要根據英漢商務信函語塊的文本標記集和句法特征詞集對輸入的語料文本進行初步的處理,在排除一些不可能包含英漢商務信函語塊的括號以后,提取出包含括號的句子;(4)英漢商務信函語塊識別模塊。英漢商務信函語塊識別部分的主要任務是根據英漢商務信函語塊的結構特征、意義特征、功能特征,制定相應的規則識別出文本中的候選語塊,從全稱縮略語塊、慣用表達語塊、專業術語語塊三種分類中制定英漢商務信函語塊自動提取規則進行識別;(5)后期處理模塊。后期處理模塊根據英漢商務信函語塊的類型對提取出的英漢商務信函語塊進行合法性驗證。

為了測試系統對開放性語料中英漢商務信函語塊自動提取的能力,我們進行了實驗測試。下文以縮略語提取為例進行說明。

4.1 測試語料

本次實驗的測試語料是從動態語料庫中隨機選取的500篇英文和500篇中文未經人工校對、自動分詞以及詞性標注的生語料,共計322156個英漢商務信函詞形,語料大小約4.1M。我們的語料收集范圍分為建立業務關系函、產品推銷函、資信查詢函、詢盤函、發盤還盤函、訂購函、裝運通知函、支付結算函、索賠函、保險函等,這些信函涉及商務活動的全過程。

4.2 測試評價標準

為了更加客觀地對系統性能進行評測,我們將準確率(Precision)、召回率(Recall rate)和F值(F values)作為測試結果的評價指標,將語言學家的意見作為參考標準。

一般情況下,達到一定的識別精度后,識別的準確率和召回率存在著一定的反相關性,準確率的提高以召回率的降低為代價。本研究希望通過語動態語料庫的不斷更新,逐步構建起一個較大規模的英漢商務信函語塊庫,因此我們相對更注重準確率的提高。

4.3 測試結果

利用基于規則的英漢商務信函語塊自動提取系統,我們最后提取到367個英漢商務信函縮略語語塊,其中正確的有360個。根據專家的反饋信息,測試語料中共有395個英漢商務信函縮略語語塊。測試結果見表3。

表3 基于規則的英漢商務信函語塊自動提取系統測試結果

經過分析,測試結果中共有218個不同的英漢商務信函語塊。下表是在測試結果中出現100次以上的英漢商務信函語塊。

表4 測試結果中出現100次以上的英漢商務信函語塊(部分)

4.4 測試結果分析

從測試結果來看,英漢商務信函語塊自動提取系統取得了較好的效果,測試的準確率為96.49%、召回率為94.99%、F值為95.73%。經過分析,出現錯誤提取和未能提取出英漢商務信函語塊的原因主要有以下幾個方面:

(1)英漢商務信函語塊都作為注釋放在括號中;

(2)括號中除了英漢商務信函語塊還包括其他信息。

造成提取問題的主要原因是因為自然語言系統并不是一個精心規劃的系統,很難用一套規則提取所有的英漢商務信函語塊,需要根據每種語言的具體情況不斷對規則庫進行完善。

5.結語

語塊數量如此之多,僅靠死記硬背是不現實的,因此,研究如何利用語料庫進行語塊的自動提取,在英漢語言教學和機器翻譯等方面的研究中具有十分重要的意義。我們利用計算機進行基于英漢商務信函語料庫的語塊提取研究,具有兩方面重要意義:(1)英漢商務信函語塊提取的實現為研制在互聯網上進行機器輔助英漢商務信函翻譯系統提供基礎;(2)我們構建的英漢商務信函動態語料庫是面向商務領域的一個特定的語料庫,它對商務英語學習者、商務漢語學習者、翻譯學習者及工作者的研究與學習起到指導作用。

[1]李潔晶,趙曉臨.慶祝楊惠中先生執教50周年暨應用語言學研討會綜述[J].外語界,2007(3):75-79.

[2]李太志.詞塊在外貿英語寫作教學中的優勢及產出性訓練[J].外語界,2006(1):34-39.

[3]繆海燕,孫藍.非詞匯化高頻動詞搭配的組塊效應——一項基于語料庫的研究[J].解放軍外國語學院學報,2005(3):41-44.

[4]濮建忠.英語詞匯教學中的類聯接、搭配與詞塊[J].外語教學與研究,2003(6):438-445.

[5]王立非,張巖.基于語料庫的大學生英語議論文中的語塊使用模式研究[J].外語電化教學,2006(4):36-41.

[6]衛乃興.語料庫語言學的方法論及相關理念[J].外語研究,2009(5):36-42.

[7]邢富坤.多詞單位的描寫識別與詞典編纂[J].當代語言學,2012(4):407-417.

[8]Brown,Peter F.,Jennifer C.Lai & L.Robert,Mercer.Aligning sentences in parallel corpora[C]//Proceedings of the29th Annual Meeting of the Association for Computational Linguistics.California:Berkeley,USA.1991:169 -176.

[9]Chen,Stanley F.Aligning Sentences in Bilingual Corpora Using Lexical Information[C]//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics.Ohio:Columbus,USA.1993:9-16.

[10]Clough P.A Perl Program for Sentence Splitting Using Rules[M].University of Sheffield,2001.

[11]Friedl,Jeffrey.Mastering Regular Expressions(3rd Edition)[M].Publisher:O’Reilly,2006.

[12]Li P,Sun M,Xue P.Fast-Champollion:a Fast and Robust Sentence Alignment Algorithm[C]//Proceedings of the23rd International Conference on Computational Linguistics.Posters,2010:710 -718.

[13]Gale,William A.& Kenneth W.Church.A Program for Aligning Sentences in Bilingual Corpora[C]//Proceedings of the29thAnnual Conference of the Association for Computational Linguistics.Berkeley,1991:177 -184.

[14]Kit,C.,Liu X.Period Disambiguation with MaxEnt Model[C]//Natural Language Processing-IJCNLP2005.Springer Berlin Heidelberg,2005:223 -232.

[15]Sinclair,J.M.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.

[16]Xue N,Xia F,Chiou F D,et al.The Penn Chinese Tree-Bank:Phrase Structure Annotation of a Large Corpus[J].Natural Language Engineering,2005,11(2):207-216.

[17]Wu,Dekai.Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria[C]//Proceedings of the32nd Annual Meeting of the Association for Computational Linguistics.Las Cruces,New Mexico,USA.1994:80 –87.

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: 性欧美久久| 国产综合精品一区二区| 青青网在线国产| 色呦呦手机在线精品| 国产第一页免费浮力影院| 午夜欧美理论2019理论| jizz在线观看| 亚洲开心婷婷中文字幕| 免费看av在线网站网址| 国产va视频| 国产成a人片在线播放| 亚洲熟女偷拍| 亚洲乱伦视频| 国产成人久视频免费| 狠狠色综合久久狠狠色综合| 波多野结衣在线一区二区| 国产精品lululu在线观看| 日本不卡视频在线| 精品视频在线一区| 毛片免费试看| 欧美一级夜夜爽www| 国产成人夜色91| 久久久久久尹人网香蕉| 看国产毛片| 青青久在线视频免费观看| 国产特一级毛片| 伊人久久精品无码麻豆精品| 亚洲最新在线| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产美女叼嘿视频免费看| 欧洲熟妇精品视频| 色偷偷综合网| 欧美亚洲国产精品第一页| 丰满人妻一区二区三区视频| 国产高清无码第一十页在线观看| 区国产精品搜索视频| 高清无码不卡视频| 精品国产污污免费网站| 69av在线| 亚洲欧洲一区二区三区| 亚洲天堂日韩在线| 免费全部高H视频无码无遮掩| 九色综合伊人久久富二代| 亚洲αv毛片| 亚洲区视频在线观看| 国产精品久久久久鬼色| 丁香亚洲综合五月天婷婷| 国产精品自在在线午夜区app| 日韩a级毛片| 国产美女精品在线| 国产精品福利社| 亚洲大尺码专区影院| 国产第一色| 国产精品2| 大陆精大陆国产国语精品1024 | 无码人妻免费| 欧美一级色视频| 亚洲欧美国产高清va在线播放| 中国黄色一级视频| 国产精品亚欧美一区二区| 国产午夜小视频| 日韩在线成年视频人网站观看| 亚洲综合片| 狂欢视频在线观看不卡| 亚洲视频a| 欧美不卡二区| 国产亚洲精久久久久久无码AV| 国产精选自拍| 亚洲第一成人在线| 青青草欧美| 热久久综合这里只有精品电影| 99久久国产自偷自偷免费一区| 一本大道东京热无码av| 亚洲成人www| 2019年国产精品自拍不卡| 91福利在线看| 人妻无码AⅤ中文字| 国产精品色婷婷在线观看| 国产精品流白浆在线观看| 国产一区二区网站| 日韩一级二级三级| 无码视频国产精品一区二区 |