吳艷霞 王瑩

摘 要:電影、電視等未經改寫的原始材料,注重語言的原生性和學習的場景性,是練習純正地道英語的首選。但往往線性播放,作為聽說材料,不利于主題的加深及意義的構建。本文擬利用視頻點播系統和Patcount技術,與教材單元主題同步,垂直整合電影、電視的精彩片段,開發“影視語料庫”。
關鍵詞:“影視語料庫”;視頻點播系統;PatCount
一、國內外研究現狀
1.國外研究現狀
自20世紀60年代第一代大型機讀語料庫問世以來,語料庫已有了近50年的發展歷史。但目前國外關于“影視語料庫”的相關文獻還不多見,“影視語料庫”建設仍屬于一個新的研究領域。所以本文只能就國外語料庫在教學中的應用進行一個簡單的梳理,以期幫助我們了解“影視語料庫”建庫的宏觀國際背景。國外早在20世紀70年代便開始將語料庫作為一種輔助性工具應用于語言教學,主要圍繞三個方面進行:
(1)語言描寫,如Thompson利用語料庫調查了農業專業博士論文的文獻引用和情態動詞使用情況。
(2)語言教學,如Simpson等人建立的學術英語口語語料庫Micase。
(3)學習者語料庫建設,如Granger為首建成了國際學習者英語語料庫ICLE。
從語料庫的研究內容不難看出,語料庫已從語言描寫走向語言應用,語料庫的建設正在從廣泛走向精深。我們擬建的 “影視語料庫”正屬于學習者語料庫。
2.國內研究現狀
我國語料庫語言學研究始于20世紀80年代,我國英語學習者語料庫的建設起步不算晚,先后建成了“中國學習者英語語料庫” [1]和“中國學生英語口筆語語料庫” [2]等。這些語料庫為深入研究學習者的二語語音、詞匯、語法、語篇、語用提供了充分的依據。但這些語料庫均以中國學生的口語、書面語或外國學生的書面語作為語料,并不能直接用于聽說學習。目前,直接用于聽說學習的語料庫很少有人問津,是個亟待開發的領域。
基于以上研究,本文擬構建“影視語料庫”,以達到聽、說、訓練的最佳效果。
二、“影視語料庫”的研究框架
“影視語料庫”的研究內容包括 “影視視頻語料庫”的建立和檢索與“影視文本語料庫”的建立和檢索。研究框架如圖1所示。
三、研究方法
“影視語料庫”主要包括語料庫的建立和檢索兩個方面,檢索工具是重點。語料庫建好后,利用價值的大小取決于檢索工具的使用。所以本文重在介紹兩種檢索工具在語料庫中的應用。
1.視頻點播系統
“影視視頻語料庫”的檢索將基于美萍VOD視頻點播系統8.4標準版。VOD系統由編碼器、服務器、終端播放器三大部分組成。三大部分分工協作,共同完成語料的加載和點播。
(1)編碼器: 由一臺普通計算機、一塊流媒體采集卡和流媒體編碼軟件組成。流媒體采集卡負責將音視頻信息源輸入計算機;編碼軟件負責將流媒體采集卡傳送過來的音視頻信號壓縮成流媒體格式,使其成為可供服務器發布的流式文件。
(2)服務器: 由VOD視頻服務器和一臺硬件服務器組成。這部分負責增
加、刪除、修改、分發編碼器傳上來的流媒體節目。
(3)終端播放器:這部分由一臺普通PC和播放器組成,可以實現在線查找、瀏覽、點播、下載以及評論音視頻語料等功能。我們將安裝的播放器為QQ影音或KMPlayer,這兩款播放器可以有效進行字幕顯示、隱藏以及字幕語言切換,并且具有開始、停止、暫停和隨機播放等功能。
2.PatCount
文本分析工具PatCount的核心程序用Perl語言匯編而成,全面支持正則表達式。圖2為PatCount的主界面。
PatCount的主界面分為上下兩個窗口,上部窗口用于讀入模式文件。模式文件分兩類:一類是本義字符串,如sharply, lead to, at the same time等。另一類為正則表達式,如 “\S+_PPH1\s\S+_VB\w*\s\S+_J\w+\s\S+_CSW\s”,表達的是 “it + BE + adj + whether”結構。PatCount的使用步驟如下:
第一,用正則表達式編寫工具PatternBuilder編寫正則表達式,并保存為模式文件。
第二,在PatCount上部窗口加入需要的模式文件,并添加需要分析的語料,點擊運行,下部窗口出現分析結果。
第三,將分析結果存為Excel文件,導入SPSS統計軟件,進行卡方檢驗。
四、結論
研究還有很多不足之處:本文擬構建的“影視語料庫”規模有限;“影視語料庫”的層次性還不夠明顯;還不能實現人機互動,這些都是筆者今后努力的方向。
參考文獻:
楊惠中,桂詩春.中國學習者英語語料庫.上海:上海外語教育出版社,2003.
文秋芳,王立非,梁茂成.中國學生英語口筆語語料庫.北京:外語教學與研究出版社,2009.endprint