999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

整合型學習者語料庫平臺的規劃與實現

2009-06-02 06:32:18毛文偉
現代教育技術 2009年9期

毛文偉

【摘要】建立學習者語料庫能為二語習得等方面的研究提供新的思路和方法。但是,迄今為止的語料庫建設由于缺乏統一的平臺支持,存在著協同困難、重復勞動多以及升級、版權保護難等問題。通過構建整合型學習者語料庫建設應用平臺則能夠極大地提高建設的效率和效果。

【關鍵詞】學習者語料庫;外語教學;中介語;B/S架構;賦碼

一 序言

自世界上第一個機讀英語語料庫——布朗語料庫(Brown)創建以來,語料庫在語法、詞匯、文體等不同領域逐漸得到廣泛應用。以推進二語習得或中介語研究為目的的學習者語料庫建設雖稍顯滯后,但近年來也不斷取得新的成果。朗文學習者語料庫LLC(Longman Learners Corpus)、學習者英語國際語料庫ICLE(International Corpus of Learner English) 以及香港科技大學語料庫HKUST (Hong Kong University of Science and Technology Corpus)都處在不斷完善和發展的階段[1]。通過國內學者的多年努力,中國學習者英語語料庫CLEC(Chinese Learner English Corpus)、中國大學學習者英語口語語料庫COLSEC(College Learners Spoken English Corpus)和英語專業學習者語料庫CEM(Corpus for English Majors)也先后建成,對我國二語習得研究和教學改革起到了巨大的推動作用,成為研究外語教學規律不可或缺的基本素材。

但是,這些語料庫在開發過程中都沒有特定軟件平臺的支撐1。數據由建設者分頭輸入、處理后再匯總在一起。盡管入門門檻較低,發布后也沒有日常運營開支,但存在著協同困難、重復勞動多、升級繁瑣以及版權保護方面的難題。隨著因特網技術的不斷發展,軟件平臺的體系結構從過去的單用戶發展到今天的C/S(客戶機/服務器)和B/S(瀏覽器/服務器)架構。這些平臺體系的出現為語料庫建設提供了嶄新的技術手段。在很大程度上,避免了數據分發、匯總、格式統一以及升級過程中的重復勞動,提高了建庫效率,降低了出錯概率。本文擬以中國日語學習者語料庫CJLC(Chinese Japanese Learners Corpus)的構建為例,探討整和型語料庫建設應用平臺的方案設計及實現。

二 單用戶系統開發模式的局限

如上所述,現有的語料庫多為分散開發模式。建設者只須具備基本的字處理軟件使用能力即可參與開發,入門門檻不高。發布后也無需日常運營開支。但是,這種開發方式也存在著明顯不足。首先,語料庫建設是一項龐大的工程,為了保證語料的質量和開發效率,需要多人協同進行。由于缺乏平臺支撐,在輸入、校對、標注、修正等各個階段,都必須反復進行語料的分發和匯總,重復勞動多,也容易出現差錯。其次,為了提高語料的可用性,還需要對語料進行標注。但是,僅憑字處理軟件或Dreamweaver等HTML編輯工具,很難對語料進行深度標注。在賦碼過程中,所有錯誤碼和數據標簽都須手工輸入,既不直觀,加重了標注者的負擔,又提高了出錯的幾率。楊惠中等[2]指出,在中國大學學習者英語口語語料庫(COLSEC)素材的匯總過程中,觀察到了文本標簽嵌套錯誤、標簽拼寫錯誤、標簽設定不一致、全角半角不一致、錯誤碼設置過多等諸多問題。這些都需要人工校對加以修正。而在發布之后,由于語料庫分散在不同用戶手中,使得開發者難以迅速、高效地對語料進行統一升級和擴充,也不利于版權保護。

運用基于B/S架構的整合型語料庫開發應用平臺2以有效地解決這些問題,提高語料庫開發效率。在B/S結構平臺的支撐下,用戶界面通過IE等WWW瀏覽器來實現,數據統一存儲在服務器端,主要事務邏輯也在服務器端完成。由此簡化了建庫流程,實現了數據的自動分發和匯總,系統升級更為快捷方便。同時,由于支持Unicode,便于實現多語言界面,也給語料庫的建設者和使用者帶來了很多方便。

三 中國日語學習者語料庫(CJLC)的總體規劃

中國日語學習者語料庫(CJLC)為國家社會科學基金項目“中國日語學習者語料庫的建設與研究”的建設內容之一,于2008年6月啟動。該語料庫以反映中國日語學習者的實際學習情況為目標。通過全面、系統地收集我國高校日語專業學生的語料,客觀、翔實、準確地反映我國日語專業學生的語言習得和發展狀況。它的建成將填補國內外在這一領域的空白,為我國高校日語專業教學大綱、課程設置、教學內容、教學標準、教學方法、詞匯表的制定和完善以及教學評估提供客觀依據,并有力地推動兩語研究的發展。

本語料庫平臺分為建庫和應用兩大子系統。各下屬模塊的具體功能如下表1所示。每個模塊都具有不同界面,需要特定權限方能顯示和進入。系統管理員根據實際需要為用戶靈活分配權限,通過網絡完成輸入、標注、校對、檢索和管理等各項工作。由于數據庫存在于服務器端,可以實現多用戶共享,所以數據的輸入和標注等不同階段的工作可以同步進行,互不干擾。當然,對于某一特定語料來說,還是需要按照一定流程完成輸入、標注等一系列工作(詳見圖1)。

在互聯網應用的初期,開發者多使用C或Perl等CGI語言進行Web開發。現在,已有C#/ASP.NET、JSP和PHP5等多種方案可供選擇。本課題組選擇了AMP(Apache/MySQL/PHP)解決方案,即以PHP5編寫語料庫開發平臺,MySQL作為數據庫,Apache為Web服務器發布軟件。這些都是遵循GPL的開放源碼軟件,不必繳納軟件使用費。這在很大程度上降低了開發費用。同時,又擁有豐富的資源可供使用、修改或重組。在成本和可用資源方面,勝過了C#/ASP.NET/IIS解決方案。

主站蜘蛛池模板: 少妇被粗大的猛烈进出免费视频| 成人国产一区二区三区| 亚洲日本一本dvd高清| 在线观看国产精美视频| 97在线国产视频| 丝袜美女被出水视频一区| 国产成人在线无码免费视频| 亚洲国产精品久久久久秋霞影院| 久久久久国色AV免费观看性色| 亚洲午夜综合网| 中国成人在线视频| 老司机精品一区在线视频| 国产视频自拍一区| 欧美一区二区自偷自拍视频| 女人18毛片久久| 天天躁日日躁狠狠躁中文字幕| 熟妇无码人妻| 伊人久久婷婷五月综合97色| 97无码免费人妻超级碰碰碰| 丁香婷婷激情综合激情| 另类欧美日韩| 思思99热精品在线| 不卡无码网| 国产人人乐人人爱| 精品乱码久久久久久久| 综合色88| 黄色福利在线| 被公侵犯人妻少妇一区二区三区| 精品1区2区3区| 日韩av无码DVD| 国产国产人成免费视频77777 | 亚洲精品第1页| 不卡无码h在线观看| 亚洲成网站| 婷婷六月综合网| 一级香蕉人体视频| 在线日本国产成人免费的| AV不卡在线永久免费观看| 51国产偷自视频区视频手机观看 | 久久中文字幕2021精品| 亚洲成人在线免费观看| 国产手机在线小视频免费观看| 免费国产黄线在线观看| 久久国产精品国产自线拍| 26uuu国产精品视频| 日韩毛片视频| 米奇精品一区二区三区| 亚洲日韩Av中文字幕无码| www.av男人.com| 欧美精品v欧洲精品| 欧美中文一区| 国产精品久久久久鬼色| 日本人妻丰满熟妇区| 草草影院国产第一页| 国产91小视频在线观看| 国产不卡一级毛片视频| 欧美国产在线精品17p| 日韩不卡高清视频| 国产精品刺激对白在线| 亚洲欧洲天堂色AV| 日本五区在线不卡精品| 999国内精品视频免费| 黄色三级毛片网站| 午夜a级毛片| 91尤物国产尤物福利在线| 欧美一级在线看| 在线视频97| 天堂网亚洲系列亚洲系列| 日韩视频精品在线| 福利在线一区| 国产亚洲精久久久久久无码AV| 亚洲二区视频| 亚洲人成网站18禁动漫无码| 91综合色区亚洲熟妇p| 99精品热视频这里只有精品7| 欧美日韩国产高清一区二区三区| 91区国产福利在线观看午夜| 亚洲中文字幕97久久精品少妇| 亚洲天堂视频网站| 免费视频在线2021入口| 亚洲人成色77777在线观看| 88av在线看|