湛丹 何昕 童瑤
摘要:本研究在查閱已有的文獻資料的基礎上,以中美新聞媒體對新冠疫情的英文報道為語料,通過收集中美兩國媒體關于新冠疫情的報道建立小型語料庫,借助計算機軟件WordSmith Tools,AntConc,Readability Analyzer和參照Brown Corpus對其關鍵詞、詞匯長度、詞頻、詞性等進行分析和比較。研究發現中美英文媒體對新型冠狀病毒報道在詞匯上存在各自的特點和異同點,總體上共性大于個性。
關鍵詞:英語新聞 詞匯特征 語料庫 COVID-19
一、引言
作為英語學習者,對英語的研究學習不能僅局限于課本與課堂,我們還需要通過更多渠道學習。鑒于當下新型冠狀病毒肺炎在全球肆虐,各國媒體都密切關注此事件并積極做出一系列報道。經過一段時間的觀察,我們發現中國一些英文媒體,如人民日報(海外英文版)、 環球時報(海外英文版)和中國日報(China Daily),與美國一些媒體如美國有線電視新聞網(CNN)、紐約時報(The New York Times)和華盛頓郵報(The Washington Times)的報道在選詞、用詞方面各有特征,同時兩者之間也存在著一些差異。這些特征與差異值得我們了解和進行具體研究。
自二十世紀六十年代語料庫開始建設以來,語料庫被廣泛應用于語言教學、翻譯、詞匯學和計算語言學等領的研究之中。本項目將通過建立中國媒體對新型冠狀病毒的報道的語料庫和美國媒體對新型冠狀病毒的報道的語料庫,利用計算機軟件分析其詞匯特征并得出相應的結論。通過在知網查詢,我們發現此前已有很多學者對中美媒體對同一件事的報道措詞的差異做出過相應的研究,但是目前在此大方向上以新型冠狀病毒的報道為切入點的研究甚少,所以本研究以此為切入點,填補關于中美媒體在對新型冠狀報道方面詞匯特點的空白,以期能為英語學習者和英語新聞撰寫提供直觀的指導。
二、文獻綜述
(一)國內研究現狀
國內對于中美兩國媒體針對同一事物的報道研究,通常從經濟與批評話語兩個大角度入手。
1.經濟角度
經濟報道的語篇分析直到21世紀才成為熱點研究對象。如:孔德明[1]通過對漢德經濟報道語篇中大量實例的分析 ,歸納了中德經濟語篇中常見的七種隱喻概念。李明在經濟語篇隱喻的研究中發現商務英語中常用隱喻可以分為三類:常規比喻、基本相似隱喻、創造相似隱喻。張蕾[2]對新聞語篇中的經濟隱喻研究得出經濟報道與評論中的隱喻能夠反映報道者的視角、態度和觀點, 限制并影響著讀者對經濟現實的理解。胡春雨和徐玉婷《基于漢英媒體語料庫的“經濟隱喻”對比研究》[3]中分析了不同意義的經濟隱喻。
2.批評話語研究
“批評語言學”由英國語言學家Fowler等學者在《語言與控制》(1979)中首次提出,是以Halliday的系統功能語言學為理為理論依據的社會指向的語篇分析方法(辛斌,2000)。20世紀90年底,批評話語分析引入中國學術界。在國內,陳中竺是最早一批運用批評話語分析新聞語篇的學者之一,通過分析英國報紙的兩則罷工的新聞的語言學特征,揭示這兩條新聞背后的意識形態。在對中美媒體報道的話語分析中,其分析主題涉及廣泛,對新聞語篇中的主題詞、搭配詞、索引行、詞叢等進行了深入的分析,揭露新聞話語中意識形態和權力關系。在國內,許多批評話語的研究分析了國外媒體如何報道有關中國的議題。
(二)國外研究現狀
1.國外批評話語研究
國外學者通過研究新聞話語,分析其意識形態,如Flower通過比較英國一家報紙同一主題不同的側重點,研究新聞話語的背后的意識形態。還有國外學者通過新聞話語分析,研究種族的批評話語。梵·迪克通過研究英國媒體對種族問題的報道進行話語分析,研究語言、權利和意識形態之間的關系。批評話語分析除了討論政治和經濟話題,國外學者還用批評話語分析性別歧視和移民。
2.經濟隱喻研究
早在1990年,英國語言學家Searle J在《經濟學語言:經濟語篇分析》一書中,著重研究了經濟隱喻,并強調了隱喻的修飾功能。(Searle J,1993年,第22頁)。隨后,另一位英國語言學家Jonathan Chattris Black在他的文章《隱喻與詞匯教學》(Jonathan Chattris Black,2000,p.149-152)中提出了隱喻在經濟語篇中的重要作用,他認為人們更傾向于用更生動的比喻來描述經濟活動和市場活動。Bocrs. F也對經濟研究做出了巨大貢獻隱喻。他在提高專業閱讀隱喻意識的文章中強調了經濟隱喻的情感功能。同時,他認為經濟隱喻可以改變人們對某種經濟的態度現象。隨著概念隱喻研究的發展,許多學者也對兩種不同語言經濟語篇中的概念隱喻進行了比較研究。施密特對芬蘭和德國報紙的證券交易所報道中的概念性taphor進行了一項跨文化研究(Schmidt,C.M,2002,p.124)。
三、研究方法
本研究采用了對比分析法、文獻綜合法以及基于語料庫的研究方法展開項目研究。
(一)對比分析法
本研究通過使用Readability Analyzer、WordSmith和AntConc進行數據的對比和分析。
1. Readability Analyzer
通過Readability Analyzer分析語料庫CCMRC和語料庫CAMRC,得出可讀性、文本難度和適用年級的數據。此外,通過使用該軟件進行計算,得出CCMRC、CAMRC以及參照語料庫——布朗語料庫的平均詞長。
2. WordSmith
通過WordSmith得到出CCMRC和CAMRC的文本詞匯密度并進行分析。
3. AntConc
使用AntConc生成CCMRC和CAMRC中各自前50個關鍵詞的表單,進行關鍵詞分析。
(二)文獻綜合法
本研究在中國知網和谷歌學術搜集了國內外相關研究的現存文獻資料,并通過閱讀、分析、提煉和整理,從中獲取與本研究相關的最新進展、學術見解以及指導建議,最后進行綜合性闡述。
(三)基于語料庫的研究方法
本研究自建了兩個微型語料庫以及選取了一個參照語料庫進行數據研究。
1. 自建微型語料庫
從人民日報海外版、中國日報和環球時報英文版上收集中國新聞媒體對新冠疫情做出的相關報道,建立微型中國媒體英語新聞語料庫CCMRC(the Corpus of Chinese Media Report on Coronavirus),該語料庫詞匯容量為93497。
從美國有線電視新聞網、紐約時報和華盛頓郵報上收集美國新聞媒體對新冠疫情做出的相關報道,建立微型美國媒體英語新聞語料庫CAMRC(the Corpus of American Media Report on Coronavirus),該語料庫詞匯容量為94750。
2. 參照語料庫
選取布朗語料庫作為參照語料庫。
四、分析和討論
(一)CCMRC與CACMRC的綜合比較
通過使用AntConc、Readability Analyzer和WordSmith得出以下數據:
1. 不同詞長的單詞統計分析
根據WordSmith Tools對CCMRC和CAMRC的分析,研究得出了中美媒體對于相同詞長單詞的選擇特點:中國媒體使用的單詞,從由單字母構成單詞到五個字母構成單詞,比美國媒體使用同種類單詞頻率高。在四字母構成的單詞使用上,中國媒體比美國媒體足足多用了2999個。但是在八字母到十四字母構成的單詞使用中,中國媒體的使用量又多于美媒。相較于美媒,中國媒體多使用了388個十一字母構成單詞。根據表格可以得出結論:相較于美國媒體,中國媒體更傾向于使用一些更為復雜的單詞進行報道。
1.1 文本信息
借助Readability Analyzer分析CCMRC和CAMRC得出可讀性、文本難度和適用年級的數據:
(1)可讀性等級
根據軟件呈現的數據可知,CCMRC的可讀性分值為40.2,CAMRC的可讀性分值為50.83,由此可以得出CCMRC內的文本的可讀性等級為困難,CAMRC內的文本可讀性為較難。通過對比兩者的可讀性分值可以得出,CCMRC的可讀性難度比CAMRC的可讀性難度高。由此得出結論:中國媒體在報道時比美國媒體報道時使用了更多的復雜詞匯,所以其可讀性難度較高,其可讀性分值就相對較低。
(2)文本難度
通過上文的可讀性分值可以得出CCMRC和CAMRC的文本難度分值,分別為50.8和47.17。參照難度等級系數可劃分為不同等級,CCMRC的可讀性等級為較易,CAMRC的可讀性等級為容易。英語作為母語,美國媒體在報道時比中國媒體更準確地運用英文,對以英語為母語的受眾而言也更容易接受。但是英語對于中國人而言是一門外語,所以在用英語寫作時,會受到其母語和所學英文的影響,所以其文本難度相對較大。
(3)Flesch-Kincaid年級水平
Flesch-Kincaid可讀性測試由Rudolf Flesch研制開發, 主要用來測量美國當代英語教學材料的閱讀難易程度。在CCMRC和CAMRC中,Readability Analyzer分析計算得出其Flesch年級水平分別為12.79和10.12。CCMRC和CAMRC中的Flesch可讀性分值分別為40.2和50.83。可知:閱讀CCMRC的文本相較于閱讀CAMRC內的文本,要求的年級水平更高。
1.2 詞匯長度
一般而言,其詞匯越簡單越短小,文本的難度和復雜度越低;其詞匯越復雜越長,文本就越正式。詞匯長度則影響文本的可讀性和對其的理解程度。由Readability Analyzer計算分析得出CCMA和CAMRC的平均詞長分別為5.1和4.82。為了得到更客觀的分析結果,本文以布朗語料庫為參照語料庫進行對比分析。
布朗語料庫內有15種不同的語料文本,Brown Corpus為布朗語料庫的一部分,其內容為報刊報道,詞匯量為110928個,用于代表總體新聞報道。有研究者已分析過布朗語料庫, Brown Corpus的平均詞匯長度可以直接得到,其平均詞長為4.82。根據新聞的特點,媒體在寫新聞報道時,更青睞使用短詞和較少的詞匯。
在對比中可以發現,CCMRC的平均詞匯長度大于Brown Corpus的平均詞匯長度。通過閱讀CCMRC內的文本可以發現,中國媒體在對新型冠狀病毒的相關報道中,除了常規報道還有專題報道,如呼吁國際組織攜手抗疫——其中包含了大量專有詞匯。因此,其平均詞匯長度相對較長。
在CAMRC中,其平均詞匯長度與Brown Corpus的平均詞匯長度相當,一方面是因為新冠在美國爆發的時間相對較晚,媒體對其進行綜合性報道,相對中國媒體的報道,缺少細節和專業性詞匯;另一方面,美國媒體更傾向采訪人物,表達受訪者的觀點態度,因此在其新聞報道中會引用大量的口語英語,而口語英語的詞匯總體上比書面英語詞匯短。
1.3 詞匯密度
詞匯密度通過WordSmith得到的數據進行分析。文本詞匯密度的定義為:“文本的實義詞數量在單詞總量中所占的百分比值。”(Ure, J ,1971)在兩個語料庫中,CCMRC中有93497個單詞,其中8618個為實義詞;CAMRC中有94750個單詞,其中9144個為實義詞。受實義詞影響,詞匯密度越大詞匯多樣性越大,閱讀難度則越大;詞匯密度越小詞匯多樣性越小,閱讀難度則越小。詞匯密度同樣受詞匯總量的影響。
平衡的詞匯密度是指大約50%,這意味著每個句子有一半是由實詞和一半的虛詞組成的,低密度文本的比例將低于50%,高密度文本的比例將超過50%。根據軟件得出CCMRC和CAMRC的詞匯密度分別為9.217%和9.650%。可以看出,兩者詞匯密度都很低,符合新聞報刊可讀性強的特點。
(二)CCMRC和CAMRC前五十的高頻詞分析
1.關于按頻率排列的單詞列表的介紹
WordSmith Tools給出了兩個語料庫的單詞清單,但相較于其他只出現了十到二十次的單詞,前五十更頻繁出現的單詞更具有代表性,具有研究價值。(注:所有名詞及其復數、大寫形式均視為同一單詞)
2. 出現頻率最高的50個單詞
通過對比,研究發現,在這兩個語料庫的50個最常用詞中,有38個單詞是相同的,重合率為76%。重合的部分包括了冠詞、動詞、連詞、名詞和介詞等。
再仔細研究重合部分,不難發現一個有趣的現象——前十位最常出現的單詞只是排序不同,單詞是一致的。雖然這十個的單詞都經常出現在中美媒體的報道中,但是相比較而言,中國媒體使用前十高頻詞的總概率為35%左右,高于美國媒體對同類詞匯21%的使用重復率。
2.1 按照詞類分類的出現頻率最高的50個詞
為了展開進一步比較,在此把CCMRC和CAMRC中出現頻率最高的50個單詞分為虛詞和實詞。由WordSmith Tools可得出在CCMRC出現頻率最高的50個單詞中,虛詞23個,實詞27個;在CAMRC中則有28個虛詞和22個實詞。顯然,兩個語料庫排名前50的單詞虛詞占比都在50%左右。而在作為參照的布朗語料庫中,前50個單詞沒有實詞。
英語詞匯中有很多實詞,但虛詞幾乎是固定的。在一個句子中,可能只有一個或兩個實詞是必要的,而其他部分都是虛詞。這就是為什么在兩個語料庫中出現了如此多的虛詞,以及它們被如此頻繁地使用的原因。但在前50個單詞中,CCMRC中仍有27個實詞,CAMRC中仍有22個實詞。與布朗語料庫相比,它們仍具有一些特殊的特征。
2.2 前五十個高頻詞中的虛詞
在CCMRC和CAMRC中,前五十個高頻詞內的冠詞高度重合,都有a、an、the。介詞上有微小的差別,CCMRC中有9個高頻介詞,CAMRC中也有9個介詞,to、of、in都是兩個語料庫中頻率最高的前三個介詞,有八個介詞完全重合,不同的介詞是CCMRC中是for,CAMRC中是from,頻率分別為845和395。代詞上,CCMRC內有9個高頻代詞,CAMRC中有10個高頻代詞,前兩個高頻代詞重合,為that和it,不同的是CAMRC中的顯著不一樣的高頻代詞為I。這是因為美國媒體在報道時會有大量的采訪和發言的引用,在報道新聞中就多有第一人稱I的代詞,也反應了新聞報道的真實性和可信度。
中國媒體和美國媒體在對新冠肺炎的報道上,虛詞的使用有各自的特點,但是沒有顯著的差別。
2.3前五十個高頻詞中的實詞
實詞承載了語言的主要內容,具有詞匯意義,指物質、動作和性質,所以又叫實義詞。通過對50個最常出現在兩個語料庫的單詞的分析,研究得出,CCMRC中一共包含了15個實詞,占總比例的30%。而CAMRC中僅包括9個實詞,占50個高頻詞的18%。
通過橫向對比不難發現,二者之間存在高度重合。CAMRC中僅有一個名詞“vaccine”不在CCMRC語料庫中,其余實詞均包含于后者。通過統一語料庫的縱向對比,研究發現,頻繁出現的實詞中,絕大多數是名詞(占比分別為CCMRC的80%,CAMRC的78%左右),并且均與此次報道主題相關,這說明了中美媒體在報道時,對名詞的使用相對較為統一,一些醫學專業術語的用法都是既定的。而對于動詞、形容詞以及副詞的使用,二者差異則較大,這也顯現出中美媒體在進行新聞報道時修辭的多樣性。
(三) CCMRC和CAMRC中關鍵詞的分析
1. 基于關鍵值生成的前50個關鍵詞
關鍵詞不僅能映射文本的主題,也能反映語料庫的主題。這部分使用了AntConc生成了CCMRC和CAMRC中各自前50個關鍵詞的表單。從表單中可以得知,CCMRC包含8個虛詞、42個實詞,CAMRC包含11個虛詞、39個實詞。
本研究以布朗語料庫作為參照語料庫進行參照研究。像“Covid-19”這樣的新詞在新型冠狀病毒肺炎發生前從未出現過在布朗語料庫中,但它高頻率地出現在CCMRC和CAMRC里,因此這一單詞有很高的關鍵值。同時,“Covid-19”也明顯體現了CCMRC和CAMRC的主題特征。
2. 詞匯關鍵詞的總體比較
CCMRC和CAMRC前50個關鍵詞有部分相互重合的單詞。通過對比分析這些重合的單詞,可以確定這兩個語料庫是否有相同的主題。
通過比較CCMRC和CAMRC的前50個關鍵詞可知,這兩個語料庫有19個相同的實詞,占各自前50個關鍵詞中實詞總數的一半左右。重合的實詞大多數是名詞,并且都與新型冠狀病毒肺炎疫情這一話題有關,如:Covid-19,virus,coronavirus,people,health和cases。
接下來是關于前50關鍵詞中實詞語法范疇的分析。通過手動的方式按照詞性對這些實詞進行歸類,所得結果為:CCMRC中有8個動詞,27個名詞,5個形容詞,1個副詞和1個即作為動詞也作為名詞的單詞;CAMRC中有5個動詞,29個名詞,3個形容詞,1個即作為動詞也作為名詞的單詞,但沒有副詞。計算得出,CCMRC前50關鍵詞中的實詞包含27個名詞,占比57%;CAMRC前50關鍵詞中的實詞包含29個名詞,占比74%。相比于CAMRC,CCMRC的動詞和形容詞都多出2-3個。因為在實詞中名詞占據較主要地位,所以本研究關于以上詞類語法范疇的分析從名詞開始。
3. 關鍵名詞分析
根據CCMRC和CAMRC各自前50關鍵詞中名詞的表單劃分出三大類意義相近的詞進行分析。
首先是指代新型冠狀病毒肺炎的名詞:CCMRC和CAMRC中都有3個指代新型冠狀病毒肺炎的名詞:“Covid-19,coronavirus和virus”。通過查看AntConc中ConcordCAMRCe一欄發現,三個名詞在中美媒體的具體報道中一般都呈現為:the Covid-19,the novel coronavirus和the virus。中國媒體更常用Covid-19,因此它在CCMRC中的關鍵值高達4082.73,而在CAMRC中只有2051.78。美國媒體則偏好使用coronavirus,其關鍵值在CAMRC中為2869.82,而CCMRC中為2855.73。
其次是指代新型冠狀病毒肺炎疫情的名詞。CCMRC包含epidemic,pandemic和outbreak;CAMRC只有pandemic。中國媒體通常使用epidemic,pandemic和outbreak來指代新型冠狀病毒肺炎疫情。但在CAMRC中,epidemic和outbreak沒有出現在前50個關鍵詞中,美國媒體最常用pandemic指代新型冠狀病毒肺炎疫情。
最后是與醫療相關的名詞。在CCMRC和CAMRC各自的前50個關鍵詞中,都有許多名詞與醫療相關。從表格數據以及CCMRC和CAMRC各自的ConcordCAMRCe信息來看,中美媒體都強調“masks,vaccine,health emergency和health care”等信息。這突顯了在新型冠狀病毒肺炎疫情下各國的防控措施以及人們的普遍訴求。
4. 關鍵動詞的分析
兩個語料庫的前五十個關鍵詞只有少量的動詞。CCMRC有9個動詞,分別為:has,said,confirmed,will,infected,control,have,fight,spread;CAMRC有6個,分別為:said,have,are,has,tested,spread。
在兩個語料庫的前五十個關鍵詞中,said是關鍵性很高的詞匯,在CCMRC中的關鍵性為909.42,在CAMRC中的關鍵性為2290.66。這是因為在報道中,為了使報道更加客觀公正,會引用組織機構和他人的發言。和said相似,兩個語料庫重合的關鍵詞has和have都有很高的關鍵性——同樣因為報道中有大量的人物或機構的發言引用。Has在CCMRC中的關鍵性為909.42,在CAMRC中的關鍵性為406.45;have在CCMRC中的關鍵性為478.48,在CAMRC中的關鍵性為620.68。 新冠肺炎是一種高度傳染性疾病,新增的新冠肺炎感染病例的出現,其報道中都會涉及spread的使用,與新冠肺炎有關的感染、檢測和確診的詞匯infect,test和confirm的關鍵性也很高。這不僅與新冠肺炎的特點有關,還與詞匯特點有關:這些關鍵性很高的動詞詞匯長度短音節少,相對而言詞匯就較簡單,受眾就越廣泛。
不同的是,control在CCMRC 中的關鍵性為484.49,更高于have的關鍵性,在CCMRC前五十個關鍵詞中,control不在前五十的關鍵詞內,從側面反映了新冠肺炎疫情在兩個發展的不同態勢。
5. 關鍵形容詞的分析
這一部分將探討中美媒體在報道中使用的最具有價值的形容詞。而鑒于最頻繁出現的50詞表格中所包含的形容詞十分有限,所以這一部分對研究對象進行了擴充,從兩個語料庫中分別增選了三個出現頻率次高的形容詞,最后兩方都選出10個形容詞,一共組成20詞的單詞表進行比對研究。
表格很清晰地呈現了一個事實——中美媒體在報道時采用的高頻形容詞大部分相同,重合程度達到了60%。再細細對比,研究發現二者對于這些形容詞的用法、搭配幾乎也是固定的。比如對“global”和“international”這兩個詞的使用,通常會搭配使用成“global fight” “international cooperation”等固定詞組,這一搭配在中美媒體對疫情期間G20峰會等全球領導人會議采取的相關報道中尤其突出。因為新冠疫情造成了全球性影響,所以國內外媒體都會選用“global”和“international”。
但對于最常出現的有關此次新冠疫情在全球范圍內的流行情況地描述,中美媒體的選詞就顯得十分有趣。根據對兩者語料庫的分析,中國媒體傾向于使用“epidemic”一詞,而美國媒體則更喜歡采用“pandemic”來形容此次疫情的流行情況。根據《新牛津英漢雙解大詞典》的英文注解,“pandemic”意為“(of a disease) prevalent over a whole country or the world.”。而“epidemic”意為 “of, relating to, or of the nature of an epidemic.”。總之,美國媒體選用的“pandemic”相較于中國媒體慣用的“epidemic”在爆發范圍、影響力、死亡人數、造成損失等方面修飾的程度都更深刻、強烈。
五、結論
在通過對比分析法對得出的數據信息進行分析比較后,研究基本解決了預設問題,得出了中美媒體對新型冠狀病毒報道在用詞上的特色與異同點,即:相較于美國媒體,中國媒體更傾向于使用一些更為復雜的單詞進行報道;中國媒體在報道時比美國媒體報道時使用了更多的復雜詞匯,其可讀性難度較高、文本難度更大;CCMRC的平均詞匯長度大于Brown Corpus(布朗語料庫)的平均詞匯長度,而因為引用大量的口語,美媒的報道詞匯長度相對而言更短;兩個語料庫的詞匯密度測算結果均低于10%,符合新聞報刊可讀性強的特點;在報道選詞,尤其是高頻詞和關鍵詞方面,中美媒體存在高度重合,且皆以虛詞為主。另外,由于參考的文獻主要源于國內以及選定的媒體有限、報道選取時間集中等等限定因素,此次研究在上述問題上仍有改進之處。
參考文獻
[1]孔德明.從認知看經濟語篇中的隱喻概念[J].外語與外語教學,2002(02):13-16.
[2]張蕾.新聞語篇中經濟隱喻的建構功能——一項基于小型自建語料庫的研究[J].天津外國語大學學報,2013,20(01):7-12.
[3]胡春雨,徐玉婷.基于漢英媒體語料庫的“經濟隱喻”對比研究[J].外語教學,2017,38(05):38-43.
[4]金恬恬.權力視角下的中美貿易戰報道研究[D].上海外國語大學,2020.
[5]沈詳策.基于語料庫的中美主流媒體災難報道的批評話語分析[J].柳州職業技術學院學報,2020,20(05):114-118.
[6]馮亞麗.語料庫輔助中美貿易戰新聞文本批評話語分析[D].大連海事大學,2020.
[7]封偉,尚艷平,李焱偉.從認知角度看英漢經濟語篇中的概念隱喻[J].邢臺學院學報,2007(03):71-73.
[8]宋玉仙.基于語料庫的中美“一帶一路”經濟報道的概念隱喻對比分析[D].湖南大學,2018.
[9]吳磊.中美貿易戰經濟報道的概念隱喻對比研究[D].西安外國語大學,2019.
作者簡介
湛丹,女,出生于1999年4月,仡佬族,貴州遵義人,揚州大學本科在讀,英語翻譯專業
【基金項目】本文系2020年揚州大學大學生科創基金項目《中美媒體對新型冠狀病毒報道的詞匯特征分析》,項目編號:X20200208