武智



摘 要 本文將介紹SEAlang項目(Southeast Asia Language Projects)在東南亞非通用語教學與科研中的應用。主要以介評SEAlang項目中的老撾語詞典、單語語料庫及文獻典藏目錄檢索功能為主。
關鍵詞 老撾語 詞典檢索 語料庫 語言學典藏
中圖分類號:G642 文獻標識碼:A DOI:10.16400/j.cnki.kjdks.2016.12.020
Abstract This article will introduce the application of SEAlang project in the teaching and scientific research of non - common language in Southeast Asia. Mainly in the review of SEAlang projects in the Lao language dictionary and monolingual corpora and literature collection directory retrieval function.
Keywords Lao language; dictionary retrieval; corpus; linguistics collection
0 引言
SEAlang項目①主要收集、開發和分享東南亞語言的相關資料,包括碑文、原始語言的重構、歷史及現代詞典編纂、文本語料庫等,是一個以數字化形式分析和標記文獻材料的在線軟件工具。該項目主要內容包括:在線詞典(單語、雙語)、文本語料庫(單語、雙語平行)、東南亞文獻典藏目錄等。其中在線詞典(單語、雙語)及文本語料庫包含語種有:巴厘語、布吉斯語、緬甸語、宿霧語、查瓦卡諾語、希利蓋農語、伊洛卡諾語、印尼語、爪哇語、克倫語、高棉語、老撾語、泰語、越南語、馬來語、馬來諾語、撣語、他加祿語、德頓語等。
從地理位置上看,該項目主要對東南亞大陸國家(泰國、緬甸、老撾、柬埔寨)及東南亞海島國家(菲律賓、馬來西亞、印度尼西亞)進行語言資源開發,并致力于開發東南亞非通用語種的教學及翻譯工具,為東南亞語言學、計算語言學、歷史、詞典學、詞源學、區域研究及跨語言信息檢索提供幫助,為東南亞裔美國人及相關領域學者提供免費的語言學習資料工具。
1 詞典檢索功能②
SEAlang在線老撾語-英語詞典的詞庫主要來源于兩個版本的已出版詞典。一部由William L. Patterson 及 Mario E. Severino (1995, Dunwoody Press)編纂的老撾語-英語詞典,此版是在參考老撾語-俄語詞典(1982, Russkiy Yazik,Moscow)的基礎上進行編纂的,超過32000條詞匯,也收入了1975年老撾政府實施新語言政策③以來部分老撾語用法。另一部詞典也為老撾語-英語詞典(1972, Allen Kerr),詞典內容也參考了相關詞典及出版物,并在老撾語母語者協助下完成,詞典包括44000條詞匯,8798183 條釋義,一些動植物詞條也包含在內。此外,在查詢結果顯示界面的每一個詞條后標注了來自哪部詞典,供使用者參考。
圖1為詞典查詢界面,A區為字串查詢區,B區為查詢結果排列區。
1.1 字串查詢區(A)
見圖2,查詢方法:可用老撾語、英文及IPA進行搜索,在Lao對話框中輸入要查詢的老撾語詞匯及Text框中輸入英文字串,④點擊Go鍵或回車(Enter)進行查詢。IPA查詢功能還在開發中,不提供聲調的搜索。點擊Habeas Corpus可迅速跳轉至語料,顯示該詞條在語料庫中的搭配情況。
1.2 查詢結果排列區(B)
如圖3,以搜索單詞“”一詞為例,查詢結果排列方式區基本標簽有:英語釋義,詞性,詞源等。如單擊Show all可顯示與“”前后搭配的全部詞條。點擊藍色leading 、黃色trailing可顯示該詞置于某詞組或短語前后的搭配情況。
Kerr的詞典保留了早期老撾語的拼寫方式,而P & S (William L. Patterson 、Mario E. Severino)的詞典里用了現代拼寫標準,并在A區搜索選項里為用戶提供了選擇(,, , .),類似漢語的模糊音搜索設置。如“”一詞的舊時拼法就為“” ,再如“ ”一詞,只有拼寫為“ ”才能查詢到其釋義。Kerr詞典里的羅馬拼音轉寫自原始文本,而P & S的拼寫則是采用了約翰.M.德丁(Dr. John M. Durdin)的老撾語腳本工具,⑤二者在標調上略有不同。該在線詞典在每項詞條后標注了出自哪部詞典并會顯示該詞的詞源,如“”顯示來自巴利語。此外,還附上了詞典使用視頻。⑥
1.3 瑪哈西拉·維拉馮版《老撾語詞典》⑦
瑪哈西拉·維拉馮所編纂的《老撾語詞典》(1960),共收錄11500條詞匯,24000條釋義。此版線詞典的檢索界面及方法基本同SEAlang老撾語在線詞典,其最大特點為在此頁面可瀏覽DjVu格式的掃描版原文書,可輸入特定頁碼進行檢索,及在字串查詢區中檢索目標詞在語料庫中的用法。如圖4所示。
1.4 優點與不足
SEAlang老撾語詞典相較其他在線老撾語-英語詞典收錄的詞條數量多,義項及詞性較豐富,查詢方便快捷,不必查閱厚重的紙版詞典,可提高查詞速度、閱讀效率及閱讀量,激發學生閱讀興趣。此在線電子詞典也可用移動設備瀏覽,便攜實用性強。
但SEAlang老撾語詞典也存在一些不足,如:P&S 詞典的詞條個別詞標注為擬聲詞,實際上是重疊詞,一些詞條標注不恰當甚至有誤。再如很多詞條僅有基本釋義無例句。瑪哈西拉·維拉馮版《老撾語詞典》缺點為詞條少,義項及詞性標注不夠豐富,其電子版部分詞條的顯示不夠清晰。
2 老撾語語料庫檢索功能⑧
2.1 語料庫檢索方式
SEAlang項目中的老撾語單語語料庫中的語料為生語料,主要由在互聯網上發布的老撾語文本構成,作研究及學習之用。上下文搜索將會顯示搜索目標置于上下文語境中的詞語搭配情況。此語料庫包括4206351條詞項同現及17083194 條例句。本文將結合字串查詢區(C)、查詢結果排列方式區(D)等方面介紹SEAlang老撾語語料庫主要的檢索功能(圖5)。
Corpus Search標簽下的搜索框內輸入檢索詞,點擊Go即可顯示結果。如圖6所示,以搜索“”為例,顯示與“”搭配的詞組及短語,有49項左搭配詞、42項右搭配詞及267條例句。以及在上下文中置于其左右各5個詞語與其搭配的情況及所占百分比,也可選為其與10、20個詞語的搭配情況。點擊圖標可顯示在線老撾語鍵盤,并且具備輸入預測功能。Habeas lexis鍵可迅速查詢檢索詞在詞典中的釋義。Collocates為搭配統計功能,能將檢索詞的搭配按照統計數據從高到低排列,從而給研究者或學習者一個直觀的印象。
2.2 優點與不足
老撾語單語語料庫檢索軟件主要用于單語語言研究、單語辭書編纂和自然語言開發等方面,也廣泛應用于語言課堂中。使用者可以從語料庫中檢索并提取含有某個詞( 可以是詞的某一部分,也可以是詞的組合) 的語言范例。此外,單語語料庫分析工具可以列出字頻、詞頻表以及對應和搭配表。通過這些功能,使用者可以了解所檢索的詞在各種語境下使用的具體記錄,有助于掌握該詞在具體語境中的使用情況。幫助教師或學生根據詞頻率得知哪些詞在具體的語境中更加重要、更加專業,有利于在翻譯過程中進行取舍。⑨
SEAlang老撾語單語語料庫存在的主要問題有三點即:語料來源單一、語料不夠豐富、為未經處理的生語料庫。此外,其語料多數來自老撾語網絡新聞及文章,語料庫文本類型不夠豐富。
3 東南亞語言學典藏⑩
東南亞語言學典藏簡稱SALA(Southeast Asian Linguistics Archives)主要收集掃描文獻、編制索引和傳播東南亞語言學術性出版物,采用創新方法匯集該領域分散的文獻,旨在建立一個龐大的東南亞語言學典藏目錄程序,包括以下幾項內容:(1)可在線搜索的文獻庫:包括東南亞語言學的重要期刊、會議論文集、系列叢書、合集及未發表的文獻資料(田野筆記、論文)等,并提供上述文章及出版物電子版。(2)文獻引用、分析引文索引、文獻評價的工具,計算其影響因子、G指數(G-index)等。并為讀者提供了多種參考文獻引用格式,如:Harvard、APA、Chicago、MLA、Citation within the text、Zotero、BibTeX等格式。(3)應用程序界面:允許SALA與其他在線工具之間的互操作(例如:Multi-Tree, LL-MAP, and our own SEAlang Library及孟高棉語言項目等),以及與其他數字檔案館的數據共享和引文跟蹤。此外,SALA還收錄了東南亞語言學領域著名學者們未公開發表的文章,及各大學的學位論文。
3.1 文獻搜索方式
SALA支持兩種搜索方法:特定搜索(如標題、作者)及全文搜索。可按期刊、會議論文集、系列專著、作者、關鍵詞標簽、語言等標簽搜索文獻,縮小搜索范圍,更為精確的找到所需文獻。如圖7,例如在搜索框輸入 “Lao”,點擊Search選項后的“&Tags”標簽,搜索結果會顯示共有274篇題目及關鍵詞包含“Lao”的文獻,文獻引用情況及排序結果、文獻發表的年代及數量,這些文獻發表的時間跨度為1904-2006年。見圖8。
3.2 優點與不足
SALA啟用自動語義查詢擴展,使用戶以簡易快捷的方式搜索及引用目標文獻。SALA可以幫助學者們迅速找到自己需要的早期相關文獻,包括一些難尋的未出版文獻。
由于全部文獻都采用了光學字符識別技術技術(OCR),對于非英語及IPA文本而言,全文搜索功能不太理想。此外,一些相關領域的文獻未被編目、出版,無法像JSTOR一樣將此類文獻聚合。
4 結語
SEAlang項目每個語種的語料及文獻數量不同,其中泰語及高棉語族的語料及文獻數量最多,并且還專門建立了泰語語音語料庫、孟高棉語言項目、高棉銘文語料庫,望其他東南亞語言文學研究學者也能充分利用此項目程序,更好地服務于科研及教學。
本文僅從使用者角度介評SEAlang項目,難免掛一漏萬,誤謬之處敬請專家學者批評指正。
注釋
① http://SEAlang.net/
② http://SEAlang.net/lao/dictionary.htm
③ 50年代至70年代初期,在老撾愛國戰線解放區,為了群眾掃盲和使用方便,又對老撾文字進行了一此改革,刪繁就簡,重新規范,使文字拼寫與語言更趨一致。(董友忱,萬國博覽——亞洲卷,新華出版社,1998年09月第1版,第498頁)
④ 由于此詞典為老撾語-英語詞典,故在Text框中輸入詞典釋義文本中所包含的英文字串,亦可顯示對應的老撾語詞條。
⑤ 參見 http://www.laoscript.net
⑥ http://SEAlang.net/help/
⑦ http://sealang.net/dictionary/sila/
⑧ http://SEAlang.net/lao/corpus.htm
⑨ 劉穩良.電子語料庫與語文辭書的編纂修訂[J].上海翻譯,2013(4).
⑩ http://sealang.net/sala/index.htm
參考文獻
[1] The SEAlang Projects: Southeast Asian Language & Linguistics Resources,Center for Research in Computational Linguistics , Doug Cooper.
[2] 董友忱.萬國博覽-亞洲卷[M].北京:新華出版社,1998.
[3] 汪興富,Mark Davies,劉國輝.美國當代英語語料庫(COCA)——英語教學與研究的良好平臺[J].外語電化教學,2008(5).