王大鵬
(渤海大學(xué)大學(xué)外語教研部,遼寧錦州 121013)
語料庫是為一個(gè)或多個(gè)應(yīng)用目標(biāo)而專門收集,有一定結(jié)構(gòu)、代表性、可被計(jì)算機(jī)程序檢索、具有一定規(guī)模的語料的集合[1]。語料庫有多種分類維度:按時(shí)間來劃分,可以分為歷時(shí)語料庫和共時(shí)語料庫;按語料庫語種來劃分,可以分為單語語料庫和多語平行語料庫;按用途來劃分可以分為通用語料庫和專門用途語料庫;按建設(shè)結(jié)構(gòu)來劃分,可以分為生語料庫和標(biāo)注語料庫。生語料庫(Raw Corpus)即沒有經(jīng)過任何標(biāo)注加工的語料庫,是語言的原始數(shù)據(jù)。一些研究者認(rèn)為,語料庫必須經(jīng)過標(biāo)注加工,否者意義不大。筆者持相反態(tài)度,生語料庫體現(xiàn)了語言的最基本、原始的使用形態(tài),過多的主觀標(biāo)注反而有可能破壞語料的客觀性;加之語料庫的標(biāo)注精度一直以來是一個(gè)有待提高的問題,雖然目前詞性標(biāo)注的最高準(zhǔn)確率可以高達(dá)97%,但對于一個(gè)上億詞次的語料庫來說,3%的錯(cuò)誤率也是相當(dāng)驚人、龐大的數(shù)據(jù)。所以,生語料庫的存在有其重要意義,這與標(biāo)注語料庫的存在并不矛盾。
語料庫的標(biāo)注層次有很多,按研究目的,可分為詞性標(biāo)注、句法標(biāo)注、語音標(biāo)注、語義標(biāo)注等。同時(shí)為了更好的掌握語料庫信息,可以為語料庫添加標(biāo)記信息,即元數(shù)據(jù),通過元數(shù)據(jù)可以更好的了解語料庫的時(shí)間、作者信息、文體信息、語域等信息。目前,英語詞性標(biāo)注是所有標(biāo)注體系中最為成熟的,以標(biāo)注BNC 第二版的CLAWS4為例,其正確率高達(dá)97%,目前該詞性標(biāo)注器升級為CLAWS7,成功標(biāo)注了BNC 第三版。語音標(biāo)注程序中較為著名的是Praat,是由荷蘭阿姆斯特丹大學(xué)語音科學(xué)學(xué)院的兩位工程師Paul Boersma 和David Weenink 合作開發(fā)的,聲學(xué)分析能夠?yàn)檎Z音研究提供明確的、客觀的數(shù)據(jù),同時(shí)可以用其標(biāo)注和建設(shè)語音語料庫,但該程序的標(biāo)注主要靠手動(dòng)完成。語義標(biāo)注領(lǐng)域較為著名的程序是英國Lancaster 大學(xué)語料庫研究中心Paul Rayson 等人開發(fā)的基于網(wǎng)絡(luò)的語料分析工具Wmatrix,其內(nèi)嵌的模塊USAS(UCREL Semantic Annotation System),可自動(dòng)為文本進(jìn)行語義域(Semantic Domain/Field)賦碼。USAS的語義域賦碼集(Semantic Tagset)以《朗文多功能分類詞典》為基礎(chǔ),包括21個(gè)語義域[2]。句法標(biāo)注領(lǐng)域最為著名和成功實(shí)例是Stanford 大學(xué)自然語言處理實(shí)驗(yàn)室開發(fā)的基于概率上下文無關(guān)文法的句法標(biāo)注器Stanford Parser,可用其對語料庫進(jìn)行句法樹庫標(biāo)注。綜上所述,對語料庫進(jìn)行更為細(xì)致的標(biāo)注有利于全方位、多角度的研究語言和揭示語言的本質(zhì)。
UAM Corpus Tool 是Mick O’Donnell 設(shè)計(jì)開發(fā)的一套基于XML的語料庫標(biāo)注程序,集建庫、檢索和統(tǒng)計(jì)等多功能于一身。基于XML的標(biāo)注體系允許用戶按照研究內(nèi)容自主設(shè)定標(biāo)注集;原始語料庫和標(biāo)注語料庫分離式存儲(chǔ);標(biāo)注方案采用Standoff XML的模式存儲(chǔ),可跨庫用來標(biāo)注其它語料庫;對同一語料庫可進(jìn)行多維度、多重標(biāo)注;其最大特色是內(nèi)嵌了Stanford Parser 句法標(biāo)注程序,可以對語料庫進(jìn)行全自動(dòng)的句法樹庫標(biāo)注。Stanford Parser 可對漢語、英語、德語等多種語言進(jìn)行句法樹狀結(jié)構(gòu)標(biāo)注,圖形用戶界面(GUI)便于標(biāo)注操作和查看檢索。其運(yùn)行環(huán)境是基于JAVA,用戶需要安裝JDK 運(yùn)行平臺(tái)(Java Development Kit),以下是標(biāo)注實(shí)例(圖1)。UAM 內(nèi)置的句法標(biāo)注模塊較之獨(dú)立的Stanford Parser的優(yōu)勢在于:標(biāo)注層級結(jié)構(gòu)已經(jīng)制定完畢,點(diǎn)擊標(biāo)注按鈕,程序全自動(dòng)完成整篇、甚至整個(gè)語料庫的句法標(biāo)注;而獨(dú)立的句法標(biāo)注程序只展示單句的樹狀結(jié)構(gòu),若要對整個(gè)語料庫進(jìn)行標(biāo)注,則需要用戶手動(dòng)設(shè)置一系列輸入、輸出環(huán)節(jié),進(jìn)行簡單的編程操作才能完成。因此,UAM 內(nèi)置的STNFDParse 更適合于普通用戶使用,操作更便捷、效率更高。

圖1 英語句法標(biāo)注實(shí)例
本研究選取自建考研英語語料庫TEGC(Test of English for Graduate Candidates)中的閱讀部分為實(shí)驗(yàn)語料,運(yùn)用UAM內(nèi)置的STNFDParse模塊對語篇進(jìn)行句法標(biāo)注。語料選取范圍是從1990-2009年近20年的閱讀考題,選取本部分試題的原因在于所有語料均為書面語,語域分布合理且沒有重復(fù)篇章。將TEGC語料庫導(dǎo)入U(xiǎn)AM,點(diǎn)擊Add Layers,在Coding Object中選擇Automatic Grammar Analysis,軟件會(huì)自動(dòng)添加已經(jīng)設(shè)置好的STNFDParse 句法標(biāo)注Scheme,點(diǎn)擊Incorporate All Files 自動(dòng)標(biāo)注所有文本(圖2)。

圖2 TEGC語料庫句法標(biāo)注

圖3 未正確標(biāo)注的句子
標(biāo)注完成后對文本進(jìn)行人工校驗(yàn),發(fā)現(xiàn)其中有多處未能正確標(biāo)注的句子。X 是未成功標(biāo)記的部分(圖3),現(xiàn)在對此類未能標(biāo)注的句子和形符(token)進(jìn)行統(tǒng)計(jì),在Search 部分,編寫表達(dá)式“symbol containing anywhere x”提取未正確標(biāo)注的形符6567個(gè);提取以“句號(hào)結(jié)尾”未能標(biāo)注的句子“x containing anywhere .”共144個(gè),以驚嘆號(hào)和問號(hào)結(jié)尾的共2個(gè),總共146個(gè)句子;經(jīng)過人工校驗(yàn),保留133個(gè)確未正確標(biāo)記句子,整體未標(biāo)注率為11%。
通過對未能成功進(jìn)行句法標(biāo)注的133個(gè)句子做人工分析,結(jié)果發(fā)現(xiàn)這些句子的特點(diǎn)如下:1.句子超長且并列或平行結(jié)構(gòu)較多;2.句子超長且無標(biāo)點(diǎn)分割的復(fù)合長句;3.破折結(jié)構(gòu):經(jīng)校驗(yàn)發(fā)現(xiàn),破折號(hào)常會(huì)引起錯(cuò)誤標(biāo)注;4.括號(hào)結(jié)構(gòu):句中帶有多個(gè)括號(hào),結(jié)構(gòu)復(fù)雜;5.句子超長,有多個(gè)形容詞性修飾語或介詞性短語且逗號(hào)較多;6.省略無主句經(jīng)常引起錯(cuò)誤標(biāo)注。總體來說,句長、標(biāo)點(diǎn)符號(hào)、非語言性符號(hào)、并列結(jié)構(gòu)或省略等語法現(xiàn)象是引起句法標(biāo)注出錯(cuò)的高頻區(qū)域。由于此STNFDParse 是內(nèi)嵌在UAM軟件中的模塊,因此,本研究分析展示的只針對本套程序,并不能直接說明斯坦福大學(xué)的獨(dú)立句法標(biāo)注器Stanford parser的問題。
UAM Corpus Tool 集合了多種功能和語言學(xué)理念于一身,可用其可以進(jìn)行句法、語域、語義等多維標(biāo)注;它采用了XML的標(biāo)注和建庫模式;整合了斯坦福大學(xué)的句法標(biāo)注器;集成了對圖片進(jìn)行標(biāo)注的模塊。但同時(shí)本套軟件也存在相應(yīng)問題,如:進(jìn)程優(yōu)化不夠合理,導(dǎo)致檢索速度過慢,容易卡死;整合的句法標(biāo)注器經(jīng)常出現(xiàn)某些句子無法標(biāo)注的情況。本文基于實(shí)證研究,反應(yīng)出的問題客觀翔實(shí),希望能有助于作者完善本套程序。相信UAM 在進(jìn)一步的優(yōu)化、完善和集思廣益之后,能給語言學(xué)研究帶來更多驚喜。
[1]馮志偉.序言語料庫語言學(xué)的進(jìn)展[Z].2009:d9.
[2]孫亞.基于語料庫工具Wmatrix的隱喻研究[J].外語教學(xué)2012,(3)