【摘 要】大型語料庫包含的語料信息非常龐雜,它們對于語言用法的研究、教材和詞典的編寫有著重要的意義。然而對于一線高職英語教師而言,大型語料庫的數據冗余使得針對其的觀察研究費時費力,實用性不夠強。自建小型或微型的語料庫有助于豐富外語教學環境,開展以課堂為中心的實證教學研究。但多數教師認為自建語料庫難度太大、技術要求過高、時間和精力投入難以達到。實際上,教師可以通過使用網上可獲取的電子化文檔、利用有效的語料庫軟件,把精力集中于語料庫內容的選取和呈現上。本文介紹微型語料庫建設的可行性、方法、步驟以及應用,借以提倡廣大一線高職英語教師利用科研成果豐富和提高自己,讓高職英語教學更加科學化和客觀化。
【關鍵詞】微型語料庫;高職英語;檢索軟件
中圖分類號: H319.3 文獻標識碼: A 文章編號: 2095-2457(2018)01-0056-002
【Abstract】The corpus information contained in the large corpus is very complicated.It is of great significance for the study of language usage, teaching materials and dictionaries. However, for first-line vocational English teachers, the data redundancy of large-scale corpus makes the observation and research on it time-consuming and laborious, and the practicability is not strong enough. Self-built small or mini corpus helps to enrich the foreign language teaching environment and carry out the classroom-centered empirical teaching research. However, most teachers think that the difficulty of self-built corpus is too high, the technical requirements are too high, and time and effort are hard to reach. In fact, teachers can focus their efforts on the selection and presentation of corpus content by using the corpus of available electronic documents available online. This article introduces the feasibility, method, procedure and application of the construction of miniature corpus, in order to promote the majority of first-line vocational English teachers to use scientific research to enrich and improve themselves, to make higher vocational English teaching more scientific and objective.
【Key words】Micro corpus; Vocational English; Retrieval software
0 引言
語料庫語言學自20 世紀 60 年代初期開始發展,是一門新興的語言學分支學科,現在理論和技術兩方面都已趨于成熟。它致力于研究真實的語言數據,研究者需要借助語料庫檢索工具對語料文本進行檢索、取樣、分析和統計,從而發現原本未留意的語言在真實語境中使用的模式和規律[1]。近年來,越來越多的學者和專家投入到語料庫的研究中,語料庫應用涉及到語言研究的方方面面。
與此同時,大型通用語料庫迅猛發展,數據規模急速變大,目前已經達到了幾億形符[2]。如英國國家語料庫BNC(British National Corpus)收集了各種來源的書面、口頭語言樣本1億字;美國當代英語語料庫COCA(Corpus of Contemporary American English),截至2017年11月共收錄超過5.6億字的語言材料。大型語料庫包羅萬象、語料樣品多,但是繁多的語料和復雜的語境使得產出數據復雜,學習者或者研究者僅靠人工觀察想在結果中找出特定的內容或者發現規律猶如大海撈針。相比較而言,自建語料庫建庫目標明確、更新速度快、針對性強,適合特定教學對象的難度和興趣。而且本機操作,經濟快捷。
但是在國內,語料庫建設方面的研究常見于本科院校,高職院校此方面的探索較少。本文以筆者自建的《絕望主婦》對白語料庫為例介紹微型語料庫建設的步驟和方法,并對如何使用微型語料庫輔助教學進行了簡單探討。
1 自建微型語料庫的可行性
語料庫,顧名思義就是語言材料庫,其中存放的是在語言的實際使用中真實出現過的語言材料。梁茂成等(2010)將其定義為“一個按照一定的采樣標準采集的、由若干個電子文本構成的、具有一定容量的‘電子文本集,并且這些電子文本可作為一個整體代表某語言或者某語言的某種變體或文類”[3]。
人們一般認為構建語料庫是一個花費大量人力物力的工程,大量數據的獲取和材料的規范型電子化聽起來就很難。實際上,隨著計算機技術的發展、網上電子文本的日益豐富、如ABBYY Fine Reader 之類OCR軟件的廣泛使用,個人收集大量真實的語料不再是一件非常困難的事情[4]。其次, WordSmith、AntConc、WordPilot和CQPweb等語料庫軟件提供了有效的技術支持。此外,個人語料庫的規模不會很大、建庫要求不是很嚴格、語料加工程度也不用很深,所以個人建設微型的教學語料庫是完全可行的。
2 高職微型語料庫的創建
事先設計對于語料庫建設非常重要,即使是微型教學語料庫,也是如此。建立語料庫需要有明確的目的,它直接影響了語料庫的類型和規模,并最終決定語料的選擇和整理的方式[4]。此外還要考慮取樣標準、設備、存貯方式和格式等因素。筆者在設計語料庫時,考慮到目前使用的教材語言不夠地道、與現實生活相脫節、缺少對應視頻輔助這些情況,目標是創建一個帶視、聽、讀資源的微型教學語料庫,激發學生的學習興趣、豐富化學生的學習體驗。
2.1 語料的選擇、采集
為了保證語料的真實性,教學語料庫應選用母語人士的語言材料。在選擇時,優先選用網上已有的電子化語料可以簡化語料庫建設的人力和物力。網上英語語言材料十分豐富,不僅有來自各個網站的最新語料,還有一些專門的電子文本庫、電影電視劇本等。此外,如果研究者找不到符合建庫目的現有電子文本材料,還可以利用OCR軟件電子化紙質材料再進行校對。
筆者建庫主要是為了使之服務于教學,希望語料內容盡可能生活化、語言的難度符合高職聽說教學的要求,并有音頻、視頻材料作為有效補充,所以在對比了《老友記》、《生活大爆炸》、《摩登家庭》和《絕望的主婦》四部英語學習者非常喜愛的美劇后,選擇了生活氣息比較濃厚、主要演員發音地道、對白語速適中的家庭倫理劇《絕望的主婦》。該劇包含很多精彩的臺詞對白,尤其是每集故事解說中使用的語句詞匯,非常值得細心品讀[5]。筆者通過互聯網搜集到現已播出的八季英中對照字幕文檔。
2.2 語料的分類和整理
收集的語料應按照一定的原則進行分類,分類原則在參考大型語料庫分類標準的基礎上兼顧實際應用需要。創建語料庫文件時,需要將每一個文本獨立存放,存檔為txt純文本格式且以英文字母形式命名,這是大多數語料庫軟件支持的格式。文件命名格式也應該統一,方便語料庫的后續補充添加。筆者采集的是美劇對白語料,為了便于根據檢索結果定位至相應視頻片段,就直接按照相應的劇集將八季文檔分為8個文件夾、178個txt文本。
從網絡獲取的文件,一方面其文本信息可能會有一些錯誤,要仔細核對;另一方面文本會存在不合規范的符號和格式,影響到檢索結果的正確性和可靠性,需要批量清潔與整理。筆者在實際操作中首先使用了EditPadPro、PowerGREP進行文本格式的轉換和清潔,然后通過Super Batch Renamer統一重命名文本,得到了178個生文本,之后根據相應劇集視頻快速核對這178個文本語言信息的正誤,同時刪除多余的空格和空行,減少冗余數據的產生。
2.3 語料的標注和賦碼?
標注是大型語料庫的重要規范之一,對語料庫的生文本進行標注可以為語料庫帶來增值[6]。按照國際通用的COCOA標準,標注多位于文件的首行,提供的相關信息放入尖括號“<>”中,便于識別。
語料的賦碼是一種特殊的標識,它分為詞類賦碼和句法賦碼兩類。在進行詞性賦碼之前,應確定賦碼方案,常見的賦碼方案有CLAWS賦碼系統、TAGGIT系統和Brills tagger 賦碼系統[7]。賦碼標注過的語料庫可以進行較為復雜的檢索和分析,從而發揮更多的作用;未經賦碼的語料庫被稱為生語料庫,只能進行詞匯層級的檢索。筆者選用了常用的賦碼工具Tree tagger對自建語料庫生文本進行自動詞性標注。
2.4 微型語料庫的使用
經過整理和標注后的電子文本集中存放在某個文件夾中,就是自建的微型語料庫。研究者必須借助語料庫檢索工具,如Word Smith、AntConc,對語料庫進行檢索應用。
比如在進行大學英語第二單元“how to express thanks and respond to it”的授課時,學生遇到了owe這個疑難詞,筆者通過在對白語料庫中檢索“owe”獲取了批量的語例、并截取了相應的視頻片段,應用于課堂講解中,使得教學更生動、直接,學生的學習興趣更加濃厚。再比如鑒于動詞在句子中的靈魂性作用,筆者要求學生優先掌握一些常用動詞的用法,這時就運用了AntConc的詞匯表功能,統計絕望主婦各季中的高頻動詞。比如經過概率統計可知,第一季23劇集中高頻使用了was,have,know,are ,get,go,like,want,think,did這十個動詞,然后再分別以這十個詞為關鍵詞進行檢索,可以其具體的語境的使用情況。
在語料庫實際應用中,一方面教師可以運用語料庫工具觀察和分析語料庫呈現的語例,發現語言規律和特征,使教學更具針對性;另一方面教師也可以引導學生分組討論從語料庫中篩選出的多行詞語索引項,自行進行推斷、歸納和總結規律,參與自身的知識構建中來。這響應了以學生為中心的二語習得教學原則,也是甄鳳超(2005)所強調的“語言的習得不是一個從教師到學生的簡單過程,而是一個由學生自己發現和探索的過程”的體現[8]。
3 結語
綜上所述,自建微型語料庫加深了高職英語教師對語料庫的認識、提高了自身的教學能力和專業素養。教師利用語料庫工具加工、處理語料,應用于高職英語課堂教學,不僅為教學帶來了豐富、有趣、地道的新資源,而且拓展了教學方法和教學技術,從而豐富了學習者的學習體驗,讓高職英語教學更加多樣化、科學化和客觀化。但由于受到語料庫語言學、二語教學理念以及相關技術的限制,高職英語教師關于“在教學中構建和使用微型教學語料庫的研究”還不夠充分,有待進一步、更深入的探索。高職教師應該經常更新教學理念、提升科研能力,然后將語言學和二語習得方面的一些新發現、新成果積極運用于課堂實踐。微型語料庫的建設涉及收集、分類、整理和標注多個環節,需要研究者投入相當多的時間和精力,但回報是非常豐厚的。尤其是標注環節,標注的種類越多,在檢索時運用正則表達式能提取的語言信息就越多,也越能發揮語料庫的教學效力和功用。此外,研究和應用的過程也是一個教師不斷學習和提高自我的過程。
【參考文獻】
[1]何安平.語料庫語言學與英語教學[M].外語教學與研究出版社,2004.
[2]楊惠中.語料庫語言學導論=An Introduction to Corpus Linguistics[M].上海外語教育出版社,2002.
[3]梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2010.
[4]謝家成,談宏慧.學習者英漢平行語料庫的建設與運用[J].長江大學學報(社會科學版),2009,32(2):87-89.
[5]李影.語料庫在高職高專英語詞匯教學中的應用[J].阜陽職業技術學院學報,2017,28(1):44-47.
[6]梁茂成.詞性賦碼語料庫的檢索與正則表達式的編寫[J].中國外語教育,2009(2):65-73.
[7]鄭志恒.美英報刊英語標注語料庫建設研究[J].外語研究,2007(2):32-38.
[8]甄鳳超.語料庫數據驅動的外語學習:思想、方法和技術[J].外語界,2005,04:19-27+40.
[9]Graeme Kennedy.語料庫語言學入門[M].外語教學與研究出版社,2000.
[10]何安平.語料庫與外語教學[J].國外外語教學,2001,03:15-19.
[11]謝家成.論個人教學語料庫的構建[J].外語電化教學,2003,03:27-30.
[12]許葵花,張衛平.論語料庫語言學在外語教學中的應用[J].外語與外語教學,2003,04:21-24.
[13]徐曼菲.小型語料庫在外語教學中應用研究[J].廣東第二師范學院學報,2007,27(4):98-102.
[14]岳豪.利用AntConc在外語教學中自建小型語料庫[J]. 河南工程學院學報(自然科學版),2008,04:44-47.
[15]李影.論話語標記語so的語用功能[J].阜陽職業技術學院學報,2014,02:81-84.