999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Perl & R在語(yǔ)料庫(kù)語(yǔ)言學(xué)中的應(yīng)用

2018-02-01 10:48:49劉磊朱敏
軟件導(dǎo)刊 2018年1期
關(guān)鍵詞:語(yǔ)義詞匯文本

劉磊+朱敏

摘要:

語(yǔ)料庫(kù)語(yǔ)言學(xué)需要從大規(guī)模文本提取語(yǔ)言特征,通過量化分析研究語(yǔ)言規(guī)律。現(xiàn)有語(yǔ)料庫(kù)工具過于注重索引和檢索功能,無法開展涉及復(fù)雜統(tǒng)計(jì)的多因素分析。通過3個(gè)基于語(yǔ)料庫(kù)的研究實(shí)例,探討編程語(yǔ)言Perl和R在研究方法層面的應(yīng)用。結(jié)果表明,Perl和R能夠處理大規(guī)模文本,進(jìn)行多變量統(tǒng)計(jì)與可視化分析,可以彌補(bǔ)現(xiàn)有語(yǔ)料庫(kù)軟件的不足,幫助研究者分析數(shù)據(jù)與驗(yàn)證假設(shè),為后續(xù)定性研究奠定基礎(chǔ)。

關(guān)鍵詞:

語(yǔ)料庫(kù)語(yǔ)言學(xué);語(yǔ)料庫(kù)工具;Perl;R

DOIDOI:10.11907/rjdk.172822

中圖分類號(hào):TP312

文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)001005303

Abstract:Corpus linguistics aims to find language patterns based on linguistic features extracted from largescale texts. However, current corpus tools are dedicated to developing concordance and search functions while lack of functions to perform multivariate statistical analysis. This paper illustrates with three case studies how programming languages such as Perl & R can be used in corpusbased linguistic studies. It is found that Perl can extract linguistic features from texts and organize them in formats that are amenable to statistical analysis in R. When combined, these two kinds of software can help researchers explore the linguistic data and validate search hypothesis in a more flexible way and complement the functions of readymade corpus tools.

Key Words:corpus linguistics; corpus tools; Perl; R

0引言

基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究需要借助工具處理大量文本文件,提取其中的語(yǔ)言特征進(jìn)行統(tǒng)計(jì)分析。目前,語(yǔ)料庫(kù)工具已由第一代單機(jī)版進(jìn)化到第四代網(wǎng)絡(luò)版,界面更加友好,運(yùn)行速度更快,可以幫助研究者開展基于詞表、搭配和主題詞等功能的研究[12]。但現(xiàn)有工具過于注重檢索和索引功能,無法處理涉及復(fù)雜數(shù)據(jù)的多變量統(tǒng)計(jì)問題,研究者仍需編寫程序滿足特定的研究需求。本文探討如何用編程語(yǔ)言Perl和R解決現(xiàn)有工具面臨的技術(shù)問題,幫助研究者開展基于語(yǔ)料庫(kù)的量化實(shí)證研究。

1Perl & R簡(jiǎn)介

Perl的模式匹配功能強(qiáng)大,擅長(zhǎng)從大規(guī)模語(yǔ)料中提取各種詞匯和語(yǔ)法特征[3];R支持描述性、推論性和探索性統(tǒng)計(jì)以及數(shù)據(jù)可視化分析,在基于用法的語(yǔ)言學(xué)(usagebased linguistics)研究中應(yīng)用廣泛[4]。使用Perl & R開展量化研究涉及以下3個(gè)步驟:①建立子語(yǔ)料庫(kù)。語(yǔ)料庫(kù)通常包括豐富的元信息,如國(guó)別、區(qū)域、年代和文本類型等。Perl可以根據(jù)元信息從大型通用語(yǔ)料庫(kù)提取文本,構(gòu)建面向特定研究問題的子語(yǔ)料庫(kù);②檢索語(yǔ)言特征。Perl可以從經(jīng)過詞性或句法標(biāo)注的語(yǔ)料中提取詞匯語(yǔ)法特征,構(gòu)建特征矩陣;③進(jìn)行統(tǒng)計(jì)分析。用R處理步驟②得到的矩陣,分析特征變量間的關(guān)系,并以可視化方式呈現(xiàn)結(jié)果。

本文通過3個(gè)案例說明如何結(jié)合Perl和R開展基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)研究。

2案例分析

2.1短語(yǔ)框架

在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,短語(yǔ)框架是指由兩個(gè)以上詞語(yǔ)構(gòu)成,反復(fù)出現(xiàn)的連續(xù)或非連續(xù)詞語(yǔ)組合[5]。Sinclair[6]將語(yǔ)言中的短語(yǔ)化傾向稱為習(xí)語(yǔ)原則,是意義研究的基本單位。短語(yǔ)并不是完全固定的,在具體語(yǔ)境中,其內(nèi)部會(huì)產(chǎn)生變化,例如4詞短語(yǔ)框架“as * as the”中的 “*” 可由不同單詞替換,如“as well as the”、“as far as the”和“as soon as the”等。

本案例考察BNC語(yǔ)料庫(kù)國(guó)際事務(wù)類文本中3~6詞短語(yǔ)框架的分布情況,只考慮框架內(nèi)部的位置變化,一個(gè)n詞短語(yǔ)框架包含n-2種類型,例如5詞短語(yǔ)框架包括以下3種類型:A * C D E、A B * D E和A B C * E。具體研究步驟如下:①?gòu)腂NC語(yǔ)料庫(kù)選取有關(guān)世界事務(wù)的文本61篇,共2 325 465詞;②提取子語(yǔ)料庫(kù)中的連續(xù)n詞序列,統(tǒng)計(jì)其頻率和覆蓋率。有些序列的頻率雖高但覆蓋率低,如“the labour league of youth”共出現(xiàn)18次,但只出現(xiàn)在1個(gè)文本中。本研究關(guān)注反映語(yǔ)體一般屬性的n詞序列,將覆蓋率的值設(shè)定為大于等于5,排除類似上例話題性較強(qiáng)的專有名詞;③從連續(xù)多詞序列中提取多詞短語(yǔ)框架,統(tǒng)計(jì)其形符和類符頻率以及各框架槽位中的詞匯分布。

如表1所示,短語(yǔ)框架的類符數(shù)差異較大,如“in the * of the”的種類最多,而“by * end of the”只有一種類型“by the end of the”。進(jìn)一步分析后發(fā)現(xiàn),“in the * of the”槽位中的詞匯類型可分為以下3類:事件內(nèi)容(如“in the hands of the”)、事件時(shí)間或地點(diǎn)(如“in the middle of the”、“in the center of the”)和事件敘述方式(如“in the case of the”)。本案例的統(tǒng)計(jì)數(shù)據(jù)只反映了短語(yǔ)框架的總體分布趨勢(shì),研究者還需借助索引行觀察短語(yǔ)的具體語(yǔ)境,分析其意義和功能。endprint

2.2語(yǔ)體變異

語(yǔ)體變異源于變異社會(huì)語(yǔ)言學(xué),指語(yǔ)言隨時(shí)間、地域、場(chǎng)合以及使用者年齡、性別和社會(huì)階層不同而變化的現(xiàn)象。本案例研究英語(yǔ)情態(tài)動(dòng)詞“can”的后續(xù)實(shí)義動(dòng)詞語(yǔ)態(tài)在小說、新聞、通用和學(xué)術(shù)語(yǔ)體中的變化趨勢(shì),所用語(yǔ)料來自CRWON和CLOB語(yǔ)料庫(kù),共2 029 895詞。本研究用Perl提取與“can”共現(xiàn)的實(shí)義動(dòng)詞,然后使用R的對(duì)數(shù)線性模型分析動(dòng)詞語(yǔ)態(tài)在各語(yǔ)體中的分布是否存在顯著差異,得到表2所示的統(tǒng)計(jì)結(jié)果。

由表2可知,“can + 動(dòng)詞”結(jié)構(gòu)的語(yǔ)態(tài)(Voice)與文本類型(Genre)顯著相關(guān)。具體來說,與小說相比,新聞、通用和學(xué)術(shù)文體中動(dòng)詞被動(dòng)與主動(dòng)語(yǔ)氣的比值分別上升了3.8、5.3和12.6倍,計(jì)算方法如式(1)所示。其中OD為比值比(odds ratio),本例中代表各語(yǔ)體被動(dòng)與主動(dòng)語(yǔ)氣的比值,e≈2.718,estimate為表2 參數(shù)估計(jì)列的值[7]。

小說文本常用“can+主動(dòng)語(yǔ)氣”表明說話人的意愿,如“I know that I dont look old enough to handle this job but I assure you I can do it”;而學(xué)術(shù)文體在用can表達(dá)某一命題的可能性時(shí),經(jīng)常要隱藏事件的實(shí)施者,減少個(gè)人觀點(diǎn)的表達(dá),如“The actant analysis is a device that can theoretically be used to analyse any real or thematised action”。本案例說明除了對(duì)比不同語(yǔ)料間的詞頻差異外,語(yǔ)料庫(kù)語(yǔ)言學(xué)研究還可擴(kuò)展到語(yǔ)法層面,利用Perl和R提取語(yǔ)法結(jié)構(gòu),分析詞匯與語(yǔ)法間的相互關(guān)系。

2.3詞匯語(yǔ)義

基于語(yǔ)料庫(kù)的詞匯語(yǔ)義研究與搭配密切相關(guān),與中心詞共現(xiàn)的搭配詞可以反映該詞的語(yǔ)義特征,出現(xiàn)在相似語(yǔ)境的詞匯意義也相似[8]。表3說明了如何利用搭配詞分析中心詞“apricot”、“pineapple”、“digital”和“information”之間的語(yǔ)義關(guān)系,表中數(shù)字代表中心詞與搭配詞的共現(xiàn)頻率,用于構(gòu)建描述詞匯的特征向量[9],如f apricot = [01001101],f digital = [00111010]。

得到特征向量后,可根據(jù)式(2)計(jì)算向量間的歐幾里德距離,建立詞匯距離矩陣,然后使用聚類算法分析詞匯的意義聯(lián)系,從定量的角度驗(yàn)證人們對(duì)語(yǔ)言的直覺認(rèn)識(shí)。

本案例聚焦程度副詞“fairly”、“fucking”、“pretty”、“really”、“so”和“very”之間的語(yǔ)義關(guān)系。研究數(shù)據(jù)從BNC口語(yǔ)語(yǔ)料選取,共153篇,4 219 309詞。具體步驟如下:從語(yǔ)料提取上述6個(gè)強(qiáng)調(diào)詞所修飾的形容詞,然后按表3格式輸出搭配詞的種類和頻數(shù),最后用R進(jìn)行聚類分析。結(jié)果如圖1所示,其中縱軸為詞匯間的語(yǔ)義距離,如“very”與“really”之間距離最小,語(yǔ)義最接近。

圖1強(qiáng)調(diào)詞聚類

進(jìn)一步觀察發(fā)現(xiàn),“very”和“really”的高頻搭配詞都是“good”和“nice”,兩者合計(jì)占到各自搭配詞總數(shù)的29.6%和27.6%;低頻搭配詞如“small”和“expensive”的比例也相似,均為0.1%左右,因此兩者語(yǔ)義關(guān)系最近。另外,“so”的常見搭配是“funny”(6.5%)和“bad”(5.5%);“fairly”的高頻搭配是“easy”(5.5%)和“good”(4.8%),雖然被歸為一類,但由于距離較大,兩者意義還是相差較遠(yuǎn)。聚類分析為研究詞匯語(yǔ)義關(guān)系提供了新的視角,但也有其局限性。如“fucking”和“pretty”兩詞因?yàn)榇钆湓~相似,在層級(jí)圖上距離接近,但兩詞的使用可能與使用者性別有關(guān),需要考慮更多變量加以區(qū)分。

3結(jié)語(yǔ)

從以上案例可以看出,Perl可以快速?gòu)拇笠?guī)模語(yǔ)料提取各種語(yǔ)言特征及其頻率,構(gòu)建詞-詞或詞-文本共現(xiàn)矩陣,R擅長(zhǎng)矩陣處理和統(tǒng)計(jì)分析。兩者結(jié)合可以幫助研究者分析數(shù)據(jù),初步形成研究假設(shè),為后續(xù)定性研究奠定基礎(chǔ)。需要注意的是,工具是研究的“利器”,但研究者還需學(xué)習(xí)語(yǔ)言學(xué)理論,專注語(yǔ)言層面的分析,擴(kuò)展研究思路和視角。

參考文獻(xiàn):

[1]梁茂成.梁茂成談?wù)Z料庫(kù)語(yǔ)言學(xué)與計(jì)算機(jī)技術(shù)[J].語(yǔ)料庫(kù)語(yǔ)言學(xué),2015(2):1525.

[2]許家金,吳良平.基于網(wǎng)絡(luò)的第四代語(yǔ)料庫(kù)分析工具CQPWeb及應(yīng)用實(shí)例[J].外語(yǔ)電化教學(xué),2014(5):1015.

[3]NUGUES P M. Language processing with perl and prolog,second edition[M].Berlin:Springer,2014.

[4]LEVSHINA N. How to do linguistics with R[M].Amsterdam:John Benjamins,2015.

[5]RMER U. Establishing the phraseological profile of a text type:the construction of meaning in academic book reviews[J]. English Text Construction,2010,3(1):95119.

[6]SINCLAIR J. Trust the text: language, corpus and discourse[M].London:Routledge,2004.

[7]AGRESTI A. An introduction to categorical data analysis,second edition[M].Hoboken,NJ:Wiley,2007.

[8]梁茂成.語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的兩種范式:淵源、分析及前景[J].外語(yǔ)教學(xué)與研究,2012,44(3):323335.

[9]JURAFSKY D,MARTIN J H. Speech and language processing:an introduction to natural language processing[M]. Upper Saddle River,NJ:Prentice Hall,2009.

(責(zé)任編輯:何麗)endprint

猜你喜歡
語(yǔ)義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
如何快速走進(jìn)文本
主站蜘蛛池模板: 国产精品一区不卡| 免费看av在线网站网址| 好紧好深好大乳无码中文字幕| 暴力调教一区二区三区| 黄色网站在线观看无码| 国产欧美成人不卡视频| 日韩中文精品亚洲第三区| 欧美成人手机在线视频| 久热re国产手机在线观看| 亚洲首页在线观看| 72种姿势欧美久久久大黄蕉| 超碰91免费人妻| 亚洲成年人网| 91福利片| 亚洲AV成人一区二区三区AV| 国产国拍精品视频免费看 | 免费xxxxx在线观看网站| 国产在线第二页| 国产乱人伦精品一区二区| 亚洲精品图区| 国产手机在线小视频免费观看| 狠狠五月天中文字幕| 国产亚洲一区二区三区在线| 中文字幕 91| 色综合天天操| 久久精品人人做人人爽电影蜜月| 538精品在线观看| 9cao视频精品| 精品91视频| 欧美特黄一级大黄录像| 亚洲欧美成人影院| 欧美a在线视频| 国产自在自线午夜精品视频| 女人毛片a级大学毛片免费| 久久这里只有精品免费| 国产成人精品日本亚洲| 国产一级毛片高清完整视频版| 亚洲人成人伊人成综合网无码| 欧美成人午夜视频| 青青操国产| 人妻丝袜无码视频| 亚洲综合狠狠| 亚洲制服中文字幕一区二区| 五月婷婷欧美| 久久久精品无码一区二区三区| 亚洲无码高清一区二区| 91久久偷偷做嫩草影院| 黄色网页在线观看| 亚洲欧洲自拍拍偷午夜色| 欧美午夜一区| 精品国产免费第一区二区三区日韩| 亚洲国产欧美国产综合久久| 亚洲第一成人在线| 亚洲经典在线中文字幕| 亚洲浓毛av| 欧美日韩国产系列在线观看| 亚洲中文在线看视频一区| 亚洲成人一区在线| 亚洲一区黄色| 天堂岛国av无码免费无禁网站| 72种姿势欧美久久久久大黄蕉| 自拍欧美亚洲| 国产成人h在线观看网站站| 日韩无码黄色| 亚洲首页在线观看| 毛片最新网址| 亚洲婷婷丁香| 一区二区日韩国产精久久| 色一情一乱一伦一区二区三区小说| 国产91高跟丝袜| 久久久波多野结衣av一区二区| 97av视频在线观看| 高h视频在线| 国产精品福利导航| 国产激情无码一区二区免费| 国产一区成人| 亚洲精品国产精品乱码不卞| 亚洲一区二区三区麻豆| 在线欧美一区| 乱人伦99久久| 婷婷亚洲视频| 久久a级片|