999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英語文學語料庫中實用語言統計法研究

2020-06-27 14:07:44禹琳琳
視界觀·上半月 2020年6期

摘? ? 要:隨著語料庫在語言研究中的地位越來越重要,WordSmith、Antconc、Editplus等檢索工具對文本信息和語言特點的檢索分析也更多的使用在信息查詢、實際教學、詞典編寫和翻譯領域中。通過在軟件中語料檢索、詞表和主題詞表的生成,可以提取一定數量的句子或結構,通過一系列的統計分析可以對檢索結果的真正意義加以說明。本文針對語料庫分析中常用的頻數標準化和卡方檢驗來解決日常生活中的實際問題,借此來深入研究語料庫樣本的出現和分布情況以及某種語言項目在文本間表現出來的差異性。

關鍵詞:語料庫分析;統計方法;頻數標準化;卡方檢驗

引言

語料庫不僅能進行快速準確的分析,同時具有規模大,語域寬和范圍廣的特點,“既有定量分析,又有定性解釋功能,對語言的描寫比較全面”(王克非等,2004:4-5)。語料庫的這些特點要求我們要采取不同的統計方法來對不同語料進行分析,比如采集樣本的分布情況、不同項目在一定語境下的共現概率以及不同變量間的差異性分析。頻數標準化及頻數差異檢驗統計法是最常用的語料庫語料分析法,但因其定義和應用過于程式化,造成不少研究者在語言項目的分析中對其采取回避的態度,如何采取淺顯實用的方法來驗證這兩種統計方法的有效性將是本文的重點,從而對運用于語料庫的統計方法進行實際驗證。

一、解析頻數標準化

何為“標準化”?為什么在統計分析中使用標準化?我們以WordSmith軟件中詞表功能提取的標準化類符形符比為例。我們知道,形符數指語篇有多少個詞,類符數指語篇有多少個不同的詞,用它們的比率我們來判斷語料用詞的多樣性,而標準化類符形符比(standardized TTR)是按一定長度,通常是1000詞,分批計算文本的類符形符比,然后求平均值。主要在文本長度不一,詞匯密度不均勻的情況下,標準化的比值能更準確的反應不同文本用詞的多樣性(劉澤權,2010:65)。又如,我們通過語料檢索和詞表生成后會報告頻數,以檢索單詞“and”為例,and在第一個語料庫中出現50次,在第二個語料庫中出現89次,我們能得出結論說and在第二個語料庫中更常用么?顯然不能。只有當我們把and在兩個語料庫中的出現頻率歸于一個共同基數時,即得到一種標準化的頻率時才能準確的反映語言真實的頻率情況。

標準化頻率的公式表示為:

上述公式里觀測頻數即是檢索結果實際出現的次數,總體頻數則是語料庫中總字數。有數據表明:“good”在學生的作業中出現362次,而且歐洲國家母語口語語料中出現568次。兩個語料庫大小分別為48566次和252468次,我們利用Excel或SPSS工具可直接得出標準化頻率即每千次使用“good”為7.45次和2.25次。如圖1:

二、解析頻數差異檢驗

頻數標準化可以通過共同的基數(如1000)來對不同頻數加以比較,但在復雜的語料庫統計中,我們要參與比較的數據之間是否有顯著性也是我們要重點考察的內容,本文我們將重點放在卡方檢驗這個方法來檢驗頻數之間的差異性??ǚ綑z驗的名稱來源于英文Chi-Square Test,在統計學的大數據運行中,多用在證明某個變量和應變量間是否有顯著關系。簡單來講,卡方檢驗就是為了測試兩個挑選的變量間有沒有關系。

我們生活中有很多具有兩面的物體,如撲克牌,硬幣等,我們拿撲克牌來做個試驗。現在我們手上有一張正常的撲克牌,我們隨意丟50次,按照我們的經驗來看,最理想的情況會是25個正面,25個反面。但實際操作中發現很難達到這樣理想的效果,正常23個正面,27個反面或者24個正面,26個反面,28個正面,22個反面也是可能的,但40個正面,10個反面就是非常低的概率了。我們通過以上的分析和推斷,等于是拿已經確定的結果(撲克是沒人動過手腳,它是均衡的)來推斷會出現的不同現象的次數。而我們要論證的卡方檢驗恰恰相反,它是用實際看到的現象(例如正面或反面的次數)來判斷結果(撲克本身是否是均衡的)。

還是撲克牌這個情況,我們扔了50次,22個正面,28個反面,如何用卡方檢驗來證明撲克牌本身是均衡還是不均衡?我們這里還要了解下卡方檢驗的公式:

其中observed指我們實際扔出來的次數,expected則指正常的撲克牌在理論上可以扔出的次數。我們按照這個理論值和實際觀察值來做個表格,如下圖:

代入卡方公式中我們得出第一考察因素卡方值為:

同時第二考察因素自由度我們可以通過公式得出:(行數-1)*(列數-1)=1。

第三考察因素置信度我們則可按照意愿挑選,比如90%或95%,這里我們以95%為例。依據以上三個因素我們來參考卡方實驗表格,如下表:

根據自由度1和置信度95%我們從上表查出3.841的數值,此數值大于我們求出的卡方值0.72,所以我們能夠得出撲克牌是均衡的結論(置信度為95%)。

撲克牌的卡方檢驗手段讓我們得出牌的本身是均衡的,但生活中的一些物品則未必像我們想象中的一樣。我們再拿一個小孩子平時玩的長方體的積木為例,我們把這塊隨機挑選的積木扔36次,積木的六個面分別擲出來的次數是10次,9次,8次,4次,3次和2次,這里還是需要借助前文用過的表格,如下:

代入卡方公式中我們得出第一考察因素卡方值為:

同時第二考察因素自由度我們可以通過公式得出:(行數-1)*(列數-1)=5。

第三考察因素置信度我們則可按照意愿挑選,比如90%或95%,這里我們以95%為例。依據以上三個因素我們來參考卡方實驗表格,如下表:

根據自由度5和置信度95%我們從上表查出11.070的數值,此數值大于我們求出的卡方值9.6,所以我們能夠得出這個積木是均衡的結論(置信度為95%)。但當我們把自由度5和置信度90%放在一起考量的時候,從表中我們得出的數值是9.235,是小于卡方值9.6的,這樣的話這個積木就不是均衡的(置信度為90%)。所以通過投擲36次的現象我們得出無法判斷此積木是否均衡的結論。

三、卡方檢驗與變量分析

在通過語料庫來對搜索結果進行比較和研究時,如果我們選取的某個變量并不顯著,我們就可以刪除掉這個變量,從而去選取其他顯著的變量,但是這個時候一定要搞清楚你判斷此變量是否顯著所采用的卡方值是多少,置信度選取的多少,只有是顯著的變量才能被放入我們做語言研究的模型貨或分析中去。

我們上邊談到,通過語料庫得出的結論我們是需要進一步統計和分析的,最常見的統計分析就是兩個所比較的變量之間到底是否具有顯著關系,這將直接決定我們提取的樣本是否具有代表性,能否準確代表我們所要研究的目標。

例如,現在社會中網購已經成為極為普遍的現象,各個年齡層都在購物時會考慮到網購,同時各種針對蔬菜水果的公眾號或者app都開始推出,那不同性別與在網上買不買蔬菜水果之間有沒有顯著關系呢?我們對隨機采訪的不同性別的人群的采購習慣進行統計,具體如下:

根據上表的統計,我們可以計算出66%的人群是不通過網絡買菜的(599/907),而剩下的34%則是會在網上購菜,這樣的話男性在網絡購菜的理論人數就是733*66%=484人,女性的理論購菜人數就是174*66%=115。由此我們得出的理論值表格統計如下:

同時第二考察因素自由度我們可以通過公式得出:(行數-1)*(列數-1)=1。

第三考察因素置信度我們則可按照意愿挑選,這次我們以90%為例。依據以上三個因素我們來參考卡方實驗表格,得出不同性別和在網絡上購菜是有關系的。

如果用TF-IDF判斷選取樣本重要性

在語料庫的分析統計方法中,我們最常接觸到的考察因素就是詞頻(Term Frequency,縮寫為TF),顧名思義,詞頻就是一個詞在文章中重復出現的次數,如果統計出來的詞多次出現,那么我們就要考慮這個詞在文本中可能起著一定的作用,這種統計方法對我們考量選取的文本樣本或關鍵詞樣本是否顯著作用明顯,但在實際對提取的結果做分析時,我們發現統計出來的詞頻數前幾位的都是如“的”,“是”,“在”這樣的詞,這種詞對我們的分析毫無作用,甚至會干擾我們的判斷,我們需要利用停用詞語料庫來過濾掉這種無意思的詞語。

當過濾掉所有無意義的詞后,文本中剩下的就是有實際意義的詞。在所有這些詞中,我們會發現有一些詞出現的次數一樣多,這種結果是不是就說明這些詞具有同種重要性?我們舉例來說明。比如通過語料庫統計,我們得出某文本中,“人民”和“民主制”出現的次數一樣多,那么如何來看待這兩個詞的重要程度?“人民”本身就是很常見的詞,相對而言,“民主制”則不那么常見,如果兩個詞在某文本中出現的詞頻一樣,我們有理由認為,“民主制”的重要程度要大于“人民”,對于研究的重要性上,“人民”很可能反映了所在文本的特性,對于關鍵詞或顯著樣本的選擇上,類似于“民主制”這樣的詞就會給予較大的權重,這種權重又稱為“逆文檔頻率”(Inverse Document Frequency,縮寫為IDF)。IDF和我們之前討論的TF相乘就得到一個TF-IDF值,這個值越大,就說明所提取的詞或樣本重要性越高,對我們選取的樣本是否顯著有重要的參考。

四、文本分類特征選擇法

上面我們討論TF-IDF在有效評估關鍵詞在文本集或者一個語料庫中一份文件的重要程度,但在文本分類中單純用這個TF-IDF數值來判斷一個特征是否有區分度是不夠的。一方面它沒有考慮特征詞在類間的分布,也就是說選取的特征應該在某類出現的頻率多,在其他類別出現的頻率少,即考察各類別文檔頻率的差異。另一方面沒有考慮特征詞在類內部文檔中的分布情況,如果僅僅出現在幾個文檔中,而在此類其他文檔中不出現,就證明選取的特征詞不能夠代表這個類特征。我們從文本中往往可觀察到的量有兩個:詞頻和文檔頻率,這兩個量是所有統計方法的基礎,上述TF-IDF值用于向量空間模型,進行文檔相似度計算是有用的,但其選擇出來的特征卻不具備類別區分度,而此時卡方檢驗作為最佳特征選擇方法的優勢就凸顯了出來。

我們在列舉的實際例子中看到卡方檢驗最基本的思想是通過觀察實際值與理論值的偏差來確定理論的正確性與否,(前文已對卡方檢驗的實際操作做了具體說明,此處不再贅述。)先假設兩個變量是獨立的,然后觀察理論值和實際值的偏差,如偏差足夠小則說明兩變量間確實是獨立存在的,此時可接受原假設;若偏差大到一定程度,以致于不太可能是偶然產生或測量不精確所致,我們可認為兩變量實際是相關的,即否定原假設。在我們對文本分類的特征做出選擇時,一般用“詞類t和類別c不相干”來做原假設,得出的開方值越大,證明對原假設的偏離越大,則得出原假設的對立面是正確的。

卡方檢驗對我們在做量變間顯著性研究時起了重要作用,但其“低頻詞缺陷”卻只統計文檔中是否出現詞,并不考慮出現了多少次,在不知不覺中夸大了低頻詞的作用,最終選擇的詞并不具有代表性,因為在進行特征選擇的時候篩選掉了那些開方數小的詞(這些詞其實是更具代表性的)。所以我們在進行文檔特征選擇時要將卡方檢驗與詞頻等因素綜合考慮,以確保選取樣本的代表性。

結論

頻率標準化和卡方檢驗現已具體的運用到大數據運營場景中,對語料庫樣本選擇和變量顯著性的特征統計也起到重要作用。在語料庫研究逐步向量化發展的趨勢下,本文力圖通過更為通俗易懂的論證使常用語言統計方法和日常生活更為貼近,將語料庫研究方法和我們平時的思維方式聯系起來,同時對文本特征的選取方法研究來說明提取結果的真正意義,從而準確描述所得語料庫樣本的出現和分布情況,對語料庫應用中統計方法的深入運用提供新的思路。

參考文獻:

[1] 劉澤權.《紅樓夢》四個英譯本的譯者風格初探——基于語料庫的統計與分析[J]. 中國翻譯,2011(9):3-4.

[2] 韓金龍.語料庫間多特征相似性的統計方法研究[J].現代教育技術,2016(8):42-43.

[3] 葛詩利.語料庫間詞匯差異的統計方法研究[J]. 現代外語, 2010(5):37-39.

[4] 魯慶云,劉紅霞. 關于列聯表卡方檢驗在數學教育研究中的使用方法分析[J].統計與決策, 2008(4):18-19.

[5] 王克非. 雙語對應語料庫研制與應用[M].北京:外語教學與研究出版社. 2004:45.

[6] 謝益武,郭俊芳,周生寶. 關聯規則相關性的度量[J]. 計算機應用,2007(1):12-13.

[7] 陸運清. 用pearsons卡方統計量進行統計檢驗時應注意的問題[J].統計與決策, 2009(4):19.

[8] 喻國明,李慧娟. 大數據時代傳播研究中語料庫分析方法的價值[J].傳媒, 2014(10):26.

[9] 隋桂嵐,孫利望. 語料庫、統計學與問題分析[J]. 遼寧工程技術大學學報(社會科學版),2003(4):6-7.

[10] 方稱宇,陳小力. 頻率統計在語料庫中的應用[J]. 現代外語,1992(5):12-13.

[11] 李梅秀,Daniel,S.Worlton. 基于語料庫統計的“音-形”激活概率及加工機制[J]. 心理學探新, 2018(4):20-21。

[12] 郭曙綸. 漢語語料庫大規模統計與小規模統計的對比[R]. 全國教育教材語言專題學術研討會, 2008.

[13] 劉澤權. <紅樓夢>中英文語料庫的創建及應用研究[M]. 北京:光明日報出版社. 2010:145.

[14] 梁茂成. 什么是語料庫語言學[M]. 上海:上海外語教育出版社.2016:128.

[15] 胡開寶. 語料庫翻譯學概論[M]. 上海:上海交通大學出版社.2011:59.

作者簡介:禹琳琳(1988-),女,漢族,籍貫:河南鄭州,單位:河南牧業經濟學院外國語學院,職業:助教,學位:碩士,研究方向:翻譯,英美文學。

主站蜘蛛池模板: 制服无码网站| 国产网站一区二区三区| 国产av无码日韩av无码网站| 丰满人妻久久中文字幕| 亚洲人成网7777777国产| 成年女人a毛片免费视频| 波多野结衣中文字幕一区二区| 麻豆国产在线观看一区二区 | 中文字幕久久精品波多野结| 在线播放国产99re| 自偷自拍三级全三级视频| 久久中文电影| 亚洲日韩第九十九页| 99精品视频九九精品| 一级福利视频| 成人噜噜噜视频在线观看| 视频二区亚洲精品| 国产AV无码专区亚洲A∨毛片| 国产网站在线看| 中文字幕欧美日韩| 在线观看国产精品日本不卡网| 一级毛片网| 2020国产精品视频| 精品国产福利在线| 九月婷婷亚洲综合在线| 91精品小视频| 国产人免费人成免费视频| 午夜三级在线| 国产精品亚洲а∨天堂免下载| 欧美一级在线看| 国产黄视频网站| 国产精品污视频| 国产日本一区二区三区| 一区二区欧美日韩高清免费| 国产免费黄| 国产成年无码AⅤ片在线| 国产黄色视频综合| 97se亚洲综合不卡| 九色综合伊人久久富二代| 香蕉视频国产精品人| 国产成人亚洲日韩欧美电影| 在线国产三级| 亚洲成a人片77777在线播放| 国产新AV天堂| 欧美日韩另类国产| 国产亚洲男人的天堂在线观看| 色天堂无毒不卡| 日本国产精品| 在线精品欧美日韩| 国产精品开放后亚洲| 成人免费网站久久久| 国产精品自拍露脸视频| 天天躁夜夜躁狠狠躁躁88| 欧美亚洲中文精品三区| 久久精品女人天堂aaa| 国产97色在线| 久久精品人人做人人综合试看| 国产一区亚洲一区| 爆操波多野结衣| 青草视频免费在线观看| 91久久偷偷做嫩草影院| 日韩精品久久久久久久电影蜜臀| 久久国产亚洲偷自| 久久99这里精品8国产| 国产成人无码Av在线播放无广告| 成人韩免费网站| 国产高清在线精品一区二区三区 | 在线播放国产99re| 72种姿势欧美久久久久大黄蕉| 97se亚洲综合在线天天| 亚洲国产中文在线二区三区免| 无码免费试看| 亚洲精品国产综合99久久夜夜嗨| 国产全黄a一级毛片| 日韩欧美国产三级| 大陆精大陆国产国语精品1024| 国产精品人莉莉成在线播放| 国产成人高清亚洲一区久久| 高清乱码精品福利在线视频| 亚洲第一国产综合| 国产清纯在线一区二区WWW| 久久美女精品国产精品亚洲|