新加坡教育專用語料庫的建設與應用①

2016-08-08 08:40:09吳福煥林進展周紅霞

華文教學與研究 2016年3期

關鍵詞：詞匯學生

吳福煥，林進展，周紅霞

（1.2.3.南洋理工大學新加坡華文教研中心，新加坡 279623）

新加坡教育專用語料庫的建設與應用①

吳福煥1，林進展2，周紅霞3

（1.2.3.南洋理工大學新加坡華文教研中心，新加坡 279623）

教育專用語料庫；書面語；口語；語料庫應用

重點介紹了新加坡華文教研中心開發(fā)的兩個教育專用語料庫，分別是“新加坡學生日常華文書面語語料庫”以及“新加坡小學生日常華語口語語料庫”。這兩個語料庫盡可能從課程開發(fā)與語言教學的需要出發(fā)，進行語料采樣和處理。同時，還介紹了為讓語料庫在新加坡華語文教學得到充分運用而開發(fā)的基于語料庫的華文教學資源平臺，以期協(xié)助華語文教師備課和出題。

1.引言

語料庫語言學與語言教學一直被認為是可以相輔相成的兩個學科。然而，不少語料庫卻往往無法起到輔助語言教學的功能。（林進展等，2015；余國良，2009）其主要原因在于這些語料庫在建設時多從語言本體的研究角度出發(fā)，而忽略了課程開發(fā)和語言教學的需要。（Braun，2007；Cook，1998；Gavioli&Aston，2001；McEnery&Xiao，2010）為了讓語料庫更加緊密地與華語文教學配合，新加坡華文教研中心自2011年就致力于華文教育專用語料庫的開發(fā)和建設。

所謂教育專用語料庫，顧名思義，就是專為語言教學目的而開發(fā)的語料庫，而教育的專用性主要體現(xiàn)在兩個方面：一是在建設的過程中盡可能從課程與教學需要方面去進行采樣和建構；二是在完成建庫后進一步開發(fā)出實用的功能，讓教育界人士能直接使用庫里的信息或借助語料庫的信息為教育工作者提供切實、有用的功能或應用程式。

新加坡華文教研中心在新加坡教育部資助下，建設了兩個教育專用語料庫，分別是“新加坡學生日常華文書面語語料庫”以及“新加坡小學生日常華語口語語料庫”。前者旨在找出學生應該學習的日常詞匯和句型；后者則旨在探索不同年齡層學生所能基本具備的詞匯與句型。這兩個語料庫的建設可以分為3個階段，一是語料采集，二是語料處理，三是語料分析。本文將對這兩個語料庫的建設過程和特點進行介紹，并總結(jié)他們初步提供的語言信息。結(jié)合這兩個語料庫所提供的信息，課程開發(fā)者將能定位課程所應涵蓋的漢字、詞匯和句型范圍，并預期不同年齡層與不同家庭背景學生所能達到的基本語言水平。

除了為課程開發(fā)者提供信息外，相關研究團隊在2013年還于書面語語料庫的基礎上，為前線老師開發(fā)了一個教學資源平臺，這個平臺除了具備讓教師搜索字、詞、句等語言信息的功能外，還專為教師開發(fā)了一個文本分集功能，協(xié)助老師鑒定課外閱讀材料與閱讀測驗題目的適切程度和難易程度。

2.語料庫的建設流程

如上所述，上述兩個語料庫建設基本經(jīng)歷了3個階段。在第一個階段，兩個項目都進行了學生問卷調(diào)查。書面語語料庫的學生調(diào)查主要針對學生接觸語料的范圍和頻率，以此界定采集語料的方向后才開始語料的收集；口語語料庫的調(diào)查則主要針對學生的家庭語言背景以及不同年齡層學生的愛好和興趣，以便設計訪談的話題和課堂活動。在第二個階段，書面語語料庫以“靈玖數(shù)據(jù)挖掘&語義分析智能開發(fā)平臺”（Lingioin Text Mining&Semantic Parser Development Platform），對語料進行了分詞和詞性標注，并采用新加坡華文教研中心自行開發(fā)的句型標注系統(tǒng)對句子的類型進行人工標注；口語語料庫的語料處理過程與書面語語料庫類似，但在這之前多了一個轉(zhuǎn)寫環(huán)節(jié)，所有收集到的錄音都轉(zhuǎn)寫成文字才入庫進行語料處理，并反復進行人工校對。在第三個階段，項目組對兩個語料庫的字、詞、句的分布情況進行了總結(jié)，并產(chǎn)出了字表、詞表和句型表。結(jié)合這兩個語料庫所提供的語言信息，課程開發(fā)者將能定位課程所應涵蓋的詞匯和句型范圍，以及不同年齡層與不同家庭背景學生所應達到的基本語言水平。

在建設上述兩個語料庫時，語料的處理有一些共同的流程。簡單來說，我們需要對收集來的語料進行處理、建庫和加工。由于上述兩個語料庫的語料在來源和格式上有所不同，不同的語料需要采取不同的處理工序，使用不同的應用軟件和語料處理平臺來進行一系列的預處理工作。在語料預處理過程中所使用到的軟件就包括：轉(zhuǎn)寫錄音的專用工具Transcriber、用于處理文本的專用軟件或文本整理器（如：PowerGREP、AntConc和UltraEdit）以及由新加坡華文教研中心語料庫項目組自行開發(fā)的語料校對與標注系統(tǒng)。以下是這兩個語料庫所涉及語料的處理方式：

報章語料的處理：由于報章語料絕大部分直接下載自新加坡報業(yè)控股的《Newslink》檔案庫，在下載過程中出現(xiàn)了亂碼、標點符號不一致以及非自然斷句的現(xiàn)象。對這些有問題的語料，我們進行了人工校對，并將少量無法核對的語料加以刪除。同時，我們也借助上述不同的應用軟件，集中處理標點符號及非自然斷句的問題；

兒童讀物、漫畫和雜志的處理：對于收集到的小說、故事、漫畫、圖書以及雜志，我們進行了掃描、文字識別及格式轉(zhuǎn)換，并對提取出來的文字進行校對；

口語的處理：口語的處理過程基本包括：錄音和轉(zhuǎn)寫，之后統(tǒng)一轉(zhuǎn)換格式，并進行人工校對；

網(wǎng)頁的處理：網(wǎng)頁資料的處理雖然較為直觀，但由于內(nèi)碼和編碼的不同，在下載后仍需要經(jīng)過格式轉(zhuǎn)換及人工校對的工序。

經(jīng)過預處理的語料會通過“靈玖數(shù)據(jù)挖掘&語義分析智能開發(fā)平臺”進行語料加工處理。加工的程序如下：

首先是對語料進行查重分析，將重復的文本文件剔除。

其次，由于兩個語料庫所收集的語料包含了大量本地特色詞匯及慣用搭配，這些詞匯和配搭并未收入“靈玖”平臺，因此需要研究人員在“靈玖”平臺上識別新詞，并標注其詞性，以便系統(tǒng)之后依據(jù)確認的新詞切分語料。

再者，“靈玖”平臺會對語料進行自動化分詞和詞性標注，進而生成詞表初稿，供研究人員以新加坡華文教研中心的語料校對與標注系統(tǒng)逐詞進行校對。之后根據(jù)本課題組研制的句型與句類標注體系對庫內(nèi)的句子再進行標注。

最后，在完成詞匯校對與句型標注后，即可使用新加坡教研中心開發(fā)的語料提取與數(shù)據(jù)分析工具，生成所需要的詞表和句型表，并提取詞頻、詞匯豐富度、詞匯密集度、詞匯覆蓋率、句頻、句長等信息。

總的來說，書面語和小學口語語料庫的建庫流程基本包括：語料采集、語料預處理、語料入庫、語料分詞和校對，以及數(shù)據(jù)產(chǎn)出。以下是這5個步驟的示意圖，見圖1。

圖1：語料處理流程

3.書面語語料庫的內(nèi)容與初步結(jié)果

為確保所采集的語料具備代表性，語料庫課題組首先展開了一個學生閱讀興趣問卷調(diào)查，以了解學生在日常生活中會接觸到的文本或媒介類型，以及這些文本或媒體的具體名稱。這個調(diào)查涉及大約1700名中小學生，覆蓋各個年級與學校基本類型。在分析了學生的閱讀興趣后，我們展開了語料的采集工作，所采集的范圍相當廣：在文體方面包括了學生報、故事書、教輔材料、歌詞、劇本、網(wǎng)絡資源等；在內(nèi)容和主題方面涵蓋了學生專題報道、時事、體育、娛樂、旅游和休閑等。這些語料按學生們接觸的比例收集，力求文本類型與生活主題的平衡，以盡可能涵蓋不同書面媒體和主流文體中各種題材和領域的用詞與句型。表1 （P39）是書面語語料庫中語料的文本分布情況。

如表1所示，書面語語料庫共2，637，990字次，覆蓋報章和非報章兩種語料。為了貼近學生接觸報章和非報章文體的實際情況，報章文本的收集比例略少，占全庫的44.38%，且以兩份學生報為主，即《逗號》和《大拇指》，共占報章類語料的近乎一半（20.14%）。非報章語料部分，根據(jù)學生文本接觸的比例，在收集的比例上略多，共收集了1，467，367字次，占全庫的55.62%。在非報章語料中，占比例較多的是故事書與文學作品及參考書，分別占全庫的15.04%和13.73%。這里值得注意的一種語料是非報章中的其它文本，它所占的比例雖然不高（僅3.23%），但卻和學生的日常生活更為密切。它包括了學生平日在學校看到的壁報、街上拿到的傳單，以及在一些本地名勝景點所能取得的文物介紹或歷史事件說明。

上述200多萬字次的語料經(jīng)“靈玖”分詞軟件切分，以及相關課題組的人工校對后，共得詞次（型符數(shù)，Token）1，695，214，詞條（類符數(shù)，Type）53，230個。為便于教材編寫者參考，該課題組以覆蓋全庫95%的覆蓋率為限，將53，230個詞條的前10，290個高頻詞視為新加坡學生最常接觸的詞匯。表2是這些常接觸詞條的分布情況。

表1：書面語語料庫的語料分布　

表2：書面語語料庫的詞條分布

這一萬余個詞條分布于21個詞類，分別是：普通名詞、時間詞、方位詞、處所詞、地名、機構團體名、動詞、形容詞、副詞、量詞、代詞連詞、介詞、數(shù)詞、助詞、擬聲詞、感嘆詞、語氣詞、成語及習用語塊、前綴及后綴。在這些詞類中，實詞類（即名詞、動詞、形容詞、數(shù)詞、量詞和代詞）所占的比例最大，共有9，299個詞條，約占詞表詞條數(shù)的90.37%。虛詞類的詞條則最少，共991個，僅占詞表詞條數(shù)的9.63%。

為更具體地鎖定新加坡學生應該掌握的基本詞匯，課題組分別設計出該語料庫中兩個子庫的個別詞表，分別是小學子庫詞表和中學子庫詞表，并對它們之間共有的詞匯進行對比，如表3（P40）所示。對比結(jié)果顯示，兩個子庫中共有的詞條為17，039個，其中94.21%是實詞（共16，052個），5.79%是虛詞（共987個）。這兩個子庫共有的詞匯可以被視為學生由小學至中學間必須學會的基本詞匯。

除詞匯外，課題組也對書面語語料庫中的句子進行了句型的標注和計算。在全庫118，956個句子中，在單句方面以動詞謂語句、無主句和形容詞謂語句較為常見，分別占句子總數(shù)的77.33%、13.03%和7.79%。至于復句方面，較常見的3種句型包括承接復句中的“……就……”、并列復句中的“……也……”和轉(zhuǎn)折復句中的“雖然……但是……”，分別占全庫句數(shù)的0.06%、0.04%及0.03%。

表3：書面語語料庫小學與中學子庫的詞條分布與共有詞條

表4：口語語料庫取樣對象的分布

4.口語語料庫的內(nèi)容與初步結(jié)果

新加坡小學生日常華語口語語料庫的建設工作較書面語語料庫復雜。該庫首先設定了3種數(shù)據(jù)收集的方法，以求全面捕捉小學生的口語情況或能力。這3種數(shù)據(jù)收集方法包括一對一訪談、課堂實錄和家庭對話。一對一訪談主要采取研究員誘導學生說話的方法來采集語料。這種方法能較為直接有效地取得大量的口語語料，然而它相對不自然，屬于非自然的口語語料。課堂實錄則是通過老師組織口語活動的方法讓學生在活動中自發(fā)地產(chǎn)出口語語料。這種方法能提供相對自然的語料，因為課堂上的互動原就是學生使用口語的一種情景。家庭對話則是在家長配合下錄制學生于家庭活動中以華語交談的做法。這種數(shù)據(jù)最自然，因為學生是在一種自己熟悉的氛圍下，隨需要產(chǎn)出華語的。表4是這3種數(shù)據(jù)收集方法所收集的大致數(shù)量。

如表4所示，該語料庫預計收集720名學生的一對一訪談語料，然而因為學生缺席和錄音設備故障，最終只收集到699名學生的一對一訪談語料。在課堂實錄方面，該庫收集到所預計之48堂課的語料，而在收集上數(shù)量最少且最珍貴的家庭對話也如預期的，完成了72名學生和家人的生活對話語料收集。這里必須一提的是在進行語料收集前，課題組向?qū)W生發(fā)放了兩份問卷，第一份是一個有關學生家庭語言使用情況的調(diào)查，這個調(diào)查將最終為每名學生計算出他所屬的家庭語言背景類型（分別為：主講華語家庭、雙語家庭和主講英語家庭）。另一份問卷則主要調(diào)查學生們所喜愛的話題，調(diào)查的結(jié)果則用于設計一對一訪談中的誘導題目和課堂實錄中所會進行的口語活動，這是為了讓學生在最熟悉的話題里，最大限度地發(fā)揮自己的口語能力。

表5：兒童家庭語言背景與其詞匯豐富度的關系

在完成語料的收集后，所有的語料都被轉(zhuǎn)寫成文字（即逐字稿）并根據(jù)先前提到的語料庫進行建庫。該語料庫最終得詞次1，285，096，詞條8，371個。這8，000余詞條中，普通詞匯（即漢語中有的詞匯）7，358個，包括成語的語塊164個，人名、地名專名等849個。這些詞外，課題組還發(fā)現(xiàn)了290個新加坡、馬來西亞及港臺地區(qū)才使用的特有詞匯（也可視為未規(guī)范的詞匯），這些詞匯有些仍應保留在華語中，有些則應該有所揚棄或進行規(guī)范。

在句類與句型方面，全庫共有299，394個句子。其中，絕大部分是陳述句，占全庫句子數(shù)的90.46%；其次是疑問句，占全庫句子數(shù)的6.91%；再者為感嘆句和祈使句，分別占全庫句子數(shù)的2.20%和0.41%。在單句方面以動詞謂語句、簡略句和獨詞句較為常見，分別占句子總數(shù)的28.55%、22.80%和9.73%。至于復句方面，較常見的3種句型包括因果復句中的“因為……所以……”、承接復句中的“……然后……”和假設復句中的“如果……就……”，分別占全庫句數(shù)的3.15%、0.97%及 0.77%。

除分析口語語料庫的分詞與句型結(jié)果外，該語料庫還根據(jù)上述學生家庭語言使用情況調(diào)查，給每位參與調(diào)查的學生換算出一個代表其家庭語言背景類型的“華語接觸指數(shù)（Chinese Exposure Index，簡稱CEI）”。該指數(shù)，介于1到-1之間。指數(shù)越接近“1”代表兒童來自主講華語的家庭，趨于“0”則代表兒童來自雙語并行的家庭，而接近“-1”則代表兒童來自主講英語的家庭。該課題組以這一指數(shù)對比了不同家庭語言背景兒童在詞匯豐富度（lexical diversity）、語法復雜程度（syntactic complexity）和語碼轉(zhuǎn)換頻率（code-switching frequency）上的表現(xiàn)。表5到表8為初步比較的結(jié)果。

在詞匯豐富度上，課題組計算了幾個豐富度指標，分別是每名兒童在一對一訪談中的總詞條數(shù)、總詞條數(shù)對總詞次的比例（即Type-Token Ratio，TTR值）、華語詞條數(shù)以及華語詞條數(shù)對華語詞次的比例。這些指標的數(shù)值越高就意味兒童的詞匯越豐富。所以，根據(jù)表5，參與研究之兒童的家庭語言背景和幾個詞匯豐富度指標的相關系數(shù)雖然不高，但仍呈現(xiàn)一些顯著的正相關趨勢。CEI與總詞條數(shù)的相關系數(shù)為0.152，與華語詞條數(shù)的相關系數(shù)為0.231。CEI與總TTR值和華語TTR值則未呈現(xiàn)顯著的相關性。換言之，部分詞匯豐富度的指標（如：總詞條數(shù)、華語詞條數(shù)）顯示，主講華語家庭的兒童，其總詞匯量和華語詞匯量較為豐富，反之，主講英語家庭的兒童則較低。然而，有部分詞匯豐富度指標（如：TTR）則未顯示出顯著的相關性。

在語法復雜程度上，課題組計算了以下幾個指標，分別是每名兒童在一對一訪談中的獨詞話輪數(shù)、短語話輪數(shù)、單句話輪數(shù)、復句話輪數(shù)、單句話輪句長、復句話輪句長以及他們使用的連詞詞條數(shù)。據(jù)表6顯示，與兒童家庭語言背景產(chǎn)生顯著相關性的是獨詞話輪數(shù)和復句話輪數(shù)，相關系數(shù)r值分別為-0.113和0.101。值得注意的是，家庭語言背景與獨詞話輪數(shù)呈現(xiàn)了負相關，這意味主講英語家庭的兒童較常使用語法復雜度較低的獨詞話輪與人溝通。相反的，主講華語家庭的兒童較常使用語法復雜度較高的復句話輪與人溝通。

表6：兒童家庭語言背景與其話輪類型的關系

此外，表7則顯示，家庭語言背景與單句話輪句長和復句話輪句長皆產(chǎn)生顯著的正相關，相關系數(shù)r值分別為0.163和0.168。這意味著主講華語家庭的兒童能夠產(chǎn)出較長的單句與復句話輪。相反地，主講英語家庭的兒童則會產(chǎn)出較短的單句與復句話輪。在連接詞的使用方面，主講華語家庭的兒童能使用的連詞較多，而主講英語家庭的兒童所能使用的連詞則較少，因此家庭背景指數(shù)CEI與連詞詞條數(shù)就呈現(xiàn)了正相關，r值為0.172。換言之，主講華語家庭的兒童能用較多的連詞產(chǎn)出較為復雜的話輪，而主講英語家庭的兒童，由于較少接觸華語，無法自如地使用連接詞，因此只能產(chǎn)出語法較為簡單的話語。

表7：兒童家庭語言背景與其單復句平均句長的關系

除了觀察兒童家庭語言背景和詞匯豐富度與語法復雜程度的關系，課題組還標注和計算了每名兒童轉(zhuǎn)換語碼的情況，所使用的觀察指標包括英語詞條數(shù)、語碼轉(zhuǎn)換話輪數(shù)、話際語碼轉(zhuǎn)換數(shù)以及話內(nèi)語碼轉(zhuǎn)換數(shù)。表8顯示，家庭語言背景與這些指標基本形成顯著的負相關，相關系數(shù)r值分別為-0.179、-0.196、-0.197以及-0.147。這表示主講英語家庭的兒童更傾向于在進行華語溝通時使用語碼轉(zhuǎn)換，而他們所使用的語碼轉(zhuǎn)換類型（即在同一個話輪內(nèi)切換語碼）。這種語碼轉(zhuǎn)換意味著說話人無法連貫地用華語表達，而需要借助英語語塊完成溝通。總的來說，上述相關系數(shù)意味著較少接觸華語的兒童會在需要用華語溝通時，使用其替代資源（即英語）。綜合口語語料庫的統(tǒng)計結(jié)果，預計兒童家庭背景所展現(xiàn)的語言使用特點，教材編寫者和語言教師將能更好地把握語言學習的焦點，以及所要解決的問題。

表8：兒童家庭語言背景與其語碼轉(zhuǎn)換傾向

5.語料庫的應用

上述兩個語料庫的核心產(chǎn)出（按照相關要求）僅是為課程編寫者提供所參考的詞表與句型表。然而，這類產(chǎn)出對教學前線未必有直接的貢獻。實際上，語料庫的用途并不僅限于標準詞表或句型表的擬定，它在教學上有3大主要的用途或應用方式，這里簡要陳述并談談課題組對于這3大應用方式所做出的努力。

首先，建設語料庫的其中一項核心用途就是梳理和描述語言的基本使用規(guī)律，找出語言成分（如：字、詞、句、篇）的基本形態(tài)、搭配、使用范圍和使用方法等。這些規(guī)律既要彰顯語言成分間存在的共性，也要顯示個別成分的特性。上述兩個語料庫中的書面語語料庫基本完成字、詞和句的共性梳理，并已把這些共性特征以頻率字典、頻率詞典和句型索引的形式發(fā)布（請參考《新加坡學生日常華文用語調(diào)查系列》），而對于詞匯與句子的個性特征則尚在整理。

其次，語料庫的另一用途是整理和了解不同學習者在學習同一語言時所產(chǎn)生的語言現(xiàn)狀，尤其是學習者在學習過程中所形成的中介語（Inter-language）或所面臨的問題及慣性錯誤等。對這些現(xiàn)象的整理將有助于教師開發(fā)針對性的教學。在這方面，上述所提到的小學口語語料庫正在進行這方面的整理。該語料庫將從學生的口語轉(zhuǎn)寫語料中找出新加坡不同年齡層、不同家庭語言背景學生的普遍口語特點和偏誤并予以標記，同時提供相應的教學建議。這個語料庫將最終開發(fā)成一個教師培訓資源，讓有需要的教師能在線了解學生的口語問題，并找到相應的解決方法。

圖2：新加坡華文教學資源平臺的六個模塊

圖3：新加坡華文教學資源平臺的詞匯查詢功能模塊

第三，建成的語料庫還可進行后續(xù)開發(fā)，以期作為教學的資源。所能開發(fā)的資源，既可作為教師教學的素材（如進行真實語料的導讀、基于數(shù)據(jù)庫的詞匯或語法教學），也可作為學生自學的材料，如進行數(shù)據(jù)驅(qū)動的學習（Data Driven Learning）。在這方面，上述的書面語語料庫已開發(fā)出新加坡首個基于語料庫的平臺——新加坡華文教學資源平臺。該平臺共分6個功能模塊（見圖2），其中“單字查詢”“詞語查詢”（見圖3）和“句型查詢”是一般的語料檢索功能，方便老師查詢字詞和句型的定義，并找到合適教學的例句。“文本難度分級”（見圖4）和“全文查詢”則是專為教師備課而開發(fā)的核心功能模塊。“文本難度分級”模塊能幫助老師鑒定課外閱讀材料的適用級別并標示超綱字、詞，“全文查詢”模塊則提供經(jīng)過語言加工處理過的全文材料，方便老師說明文中的字、詞或句型特征。該平臺還開放了教師論壇，供教師對教學課題展開討論，教師們甚至可以為個別字、詞的教學提供建議并分享教學心得。

圖4：新加坡華文教學資源平臺的文本難度分級功能模塊

6.結(jié)語

綜上所述，本文簡介了新加坡華文教研中心自2011年開發(fā)的兩個語料庫，分別為“新加坡學生日常華文書面語語料庫”以及“新加坡小學生日常華語口語語料庫”。這兩個語料庫的誕生主要對應于新加坡華文學習者素質(zhì)與要求的改變。這兩個語料庫的結(jié)果除了能對課程編寫有所貢獻外，他們的后續(xù)開發(fā)將有助于前線教師與學習者的教與學。在今后的科研工作中，教研中心將繼續(xù)探索語料庫的其他教學用途，如以書面語語料庫為基礎進行試題難易度鑒定以及以口語語料庫為基礎建設一個培訓口語教學的資源平臺。

華文課程與教學法檢討委員會2004華文課程與教學

法檢討委員會報告書［M］.新加坡：華文課程與教學法檢討委員會.//CLCPRC（Chinese Language Curriculum and Pedagogy Review Committee）2004Report of the Chinese Language Curriculum and Pedagogy Review Committee［M］.Singapore：Chinese Language Curriculum and Pedagogy Review Committee.

林進展，趙春生，洪瑞春，吳福煥，王志豪2015基于語料庫的新加坡華文教學資源平臺開發(fā)［J］.華文學刊，卷13，第1期，1-15.新加坡：南大-新加坡華文教研中心出版社.//Lin，J.，C.Zhao，S.C.Ang，H.H. Goh&C.H.Wong2015Development of a corpusbased resource platform for Chinese language teaching in Singapore［J］.Journal of Chinese Language Education，13（1）：1-15.Singapore：NTU-SCCL Press.

母語檢討委員會2010樂學善用［M］.新加坡：新加坡教育部.//MTLRC（Mother Tongue Language Review Committee）2010Nurturing Active Learners and Proficient Users［M］.Singapore：Ministry of Education.

謝澤文2003教學與測試［M］.新加坡：新加坡華文教師總會.//Cheah，C.M.2003Teaching and Testing［M］.Singapore：Singapore Chinese Teachers'Union.

吳福煥，郭秀芬，趙春生，周紅霞，高月華，楊斯琳2012新加坡小學一年級華語口語詞匯表（階段性報告）［Z］.新加坡：南洋理工大學新加坡華文教研中心.//Goh，H.H.，S.H.Kwek，C.Zhao，H.Zhou，G. H.Ko&S.Yang2012Singapore Primary One Chinese Oral Wordlist（Preliminary Report）［Z］.Singapore：Singapore Centre for Chinese Language，Nanyang Technological University.

吳福煥，黃雪霞，林進展，趙春生，李志賢2012新加坡小學常用詞匯與句型報告（階段性報告）［Z］.新加坡：南洋理工大學新加坡華文教研中心.//Goh，H. H.，S.H.Ng，J.Lin，C.Zhao&C.H.Lee2012 Singapore Primary School Daily Vocabulary and Sentence-Types Report（Preliminary Report）［Z］.Singapore：Singapore Centre for Chinese Language，Nanyang Technological University.

姚劍鵬2005語料庫研究與語言教學［J］.全球教育展望（12）.//Yao Jianpeng2005Corpus research and language teaching［J］.Global Education（12）.

余國良2009語料庫語言學的研究與應用［M］.成都：四川大學出版社.//Yu Guoliang2009Research and Application of Corpus Linguistics［M］.Chengdu：Sichuan University Press.

Braun，S.2007Integrating corpus work into secondary education：from data-driven learning to needs-driven corpora［J］.ReCALL 19（3）：307-328.

Cook，G.1998The uses of reality：a reply to Ronald Carter［J］.ELT Journal 52（1）：57-64.

Gavioli，L.&G.Aston2001Enriching reality：language corpora in language pedagogy［J］.ELT Journal 55（3）：238-246.

Kaplan，R.B.&R.B.Baldauf1997Language Planning：From Practice to Theory［M］.Clevedon：Multilingual Matters.

Liu，Y.&S.Zhao2007Chinese language education research in Singapore：making a case for alternative research orientation［A］.In V.Vaish，S.Gopinathan& Y.Liu（eds.）Language，Capital，Culture：Critical Studies of Language in Education in Singapore［C］. Amsterdam：Sense Publishers：133-153.

McEnery，T.&R.Xiao2010What corpora can offer in language teaching and learning［A］.In E.Hinkel （ed.），Handbook of Research in Second Language Teaching and Learning［Z］.（Vol.2：364-380）.London&New York：Routledge.

Pakir，A.1991The status of English and the question of “standard”in Singapore：a sociolinguistic perspective ［A］.In Tickoo，M.L.（ed.），Languages&Standards：Issues，Attitudes，Case Studies［C］.Singapore：SEAMEO Regional Language Centre：109-130.

Shepherd，J.2005Striking a Balance：the Management of Languages in Singapore［M］.Frankfurt am Main：Peter Lang.

Silver，R.E.2005The discourse of linguistic capital：language and economic policy planning in Singapore ［J］.Language Policy 4（1）：47-66.

Tan，C.2006Change and continuity：Chinese language policy in Singapore［J］.Language Policy 5（1）：41-62.

Zhao，S.&Y.Liu2007The home language shift and its implications for language planning in Singapore［J］. The Asia-Pacific Education Researcher 16（2）：111-126.

Construction and Application of Education-Specific Corpora in Singapore

Goh Hock Huan1，Lin Jinzhan2，Zhou Hongxia3
（1.2.3.Singapore Centre for Chinese Language，Nanyang Technological University，279623 Singapore）

education-specific corpus；written language；oral language；corpus application；

This article will focus on introducing the development of the two education-specific corpora，namely the“Singapore Daily Written-Chinese Corpus”and the“Singapore Primary School Children Spoken-Chinese Corpus”.Being educationoriented corpora，these two corpora take into consideration the requirements of curriculum development and language teaching，especially in the sampling and processing of language materials.To fully applied corpus in language teaching，the research team also developed a corpus-based Chinese language teaching resources platform to help Chinese language teacher in preparation of lessons and assessments.

H195

1674-8174（2016）03-0036-10

【責任編輯劉文輝】

2015-10-15

吳福煥（1975-），男，新加坡人，新加坡南洋理工大學新加坡華文教研中心研究科學家、院長室研究參謀，香港大學教育學院榮譽副教授，博士，主要從事社會語言學、語料庫語言學、雙語教育學、兒童語言發(fā)展、中小學華語文課堂研究。電子郵箱：hockhuan.goh@sccl.sg。林進展（1982-），男，福建廈門人，新加坡南洋理工大學新加坡華文教研中心高級副研究員、研究組長，博士，主要從事語料庫語言學、詞匯語義學、詞典學、語言測試研究。電子郵箱：jinzhan.lin@sccl.sg。周紅霞（1969-），女，新加坡人，新加坡南洋理工大學新加坡華文教研中心高級副研究員，碩士，主要研究方向為二語習得和華語文教學。電子郵箱：hongxia.zhou@sccl.sg。

新加坡教育部課程規(guī)劃與發(fā)展司資助項目：“新加坡日常華文書面語語料庫建構與常用詞匯語法研究”（ERC-RD-2011/01-GHH）//Singapore Ministry of Education Curriculum Planning and Development Division funded project：“An investigation of Daily Lexicon and Syntax in Singapore Written Chinese：Constructing a Specialised-Dynamic-Balanced Corpus”（ERC-RD-2011/01-GHH）；新加坡教育部課程規(guī)劃與發(fā)展司資助項目：“新加坡小學華語口語語料庫的建構及口語詞匯語法研究”（ERC-RD-2011/02-GHH）//Singapore Ministry of Education Curriculum Planning and Development Division funded project：“An Investigation of Daily Lexicon and Syntax in Spoken Chinese of Singapore Primary School Children：Constructing a Specialised-Balanced-Dynamic Corpus”（ERC-RD-2011/02-GHH）；新加坡教育部課程規(guī)劃與發(fā)展司資助項目：“基于語料庫的新加坡華文教學資源平臺開發(fā)”（ERG-2013/03-JZ）// Singapore Ministry of Education Curriculum Planning and Development Division funded project：“Building a Corpora-Based Chinese Language Teaching Resources Platform for Singapore CL Teachers”（ERG-2013/03-JZ）

①本文所采用的資料是新加坡教育部資助之“新加坡學生日常華文書面語語料庫”“新加坡小學生華語口語語料庫” 與“基于語料庫的新加坡華文教學資源平臺開發(fā)”項目的部分研究成果。本研究得到了新加坡教育部、華文教師、學生、家長和相關人士的大力支持，在此一并表示感謝。