

提 要 語言技術影響語言的未來,關系到數字時代的語言多樣性和語言保護。雖然歐洲奉行多語主義,尊重語言文化多元,但是不同語種的語言技術開發參差不齊。良好的語言技術使英語獲得數字語言生活(尤其是網絡語言生活)的優勢地位,滲透進其他語言使用者的網絡空間,而薄弱的語言技術或技術缺位則使一些語言在網上被邊緣化,甚至陷入數字化消亡困境。從長遠看,語言技術不但能解決跨語言交流問題,還有助于語言保護,但語言技術面臨一系列問題,需要克服許多困難。在這方面,多語歐洲技術聯盟十多年來的努力值得借鑒,其代表性成績是出版了數字時代的32種歐洲語言白皮書。不過,從目前取得的成績來看,通過語言技術破除交際障礙、保護所有歐洲語言,依然任重道遠。
關鍵詞 數字時代;語言多樣性;語言技術;語言保護;多語歐洲技術聯盟網
中圖分類號 H002 文獻標識碼 A 文章編號 2096-1014(2022)04-0049-12
DOI 10.19689/j.cnki.cn10-1361/h.20220404
Language technology (LT), which exerts an impact on the fate of languages, contributes to linguistic diversity and language protection in the digital age. Despite its respect for linguistic and cultural plurality, Europe is varied in LT development across languages. Good LT support for English enables it to gain an advantage in digital language practices, particularly on the Internet, penetrating the cyberspace of speakers of other languages, while weak or no LT support results in minoritizing languages on the Internet or even digital extinction. LT contributes to the solution of communication problems as well as the protection of languages in question in the long term. LT, however, is faced with numerous challenges and difficulties that need to be overcome. In this regard, META’s decade-long efforts are valuable lessons to learn. To conclude, protecting languages in the digital age thus poses a big challenge for Europe whose burden to break barriers in communication while protecting all European languages through LT is still heavy.
digital age; linguistic diversity; language technology; language protection; META-NET
一、引 言
21世紀信息技術飛速發展,將人類帶進了數字時代,微信聊天、收發電子郵件等,已成生活常規。人們的生活,尤其是語言生活,發生了顯著變化,交往模式、信息分享方式以及看待世界的眼光都隨之而變。數字技術創造出語言的另一種生存空間,影響著語言的命運。因為不同語言的數字化技術受制于諸多因素而發展不平衡,現有語言很難平等、同步進入數字時代。有的語言隨著數字技術的發展擴大了使用范圍,增強了活力;有的語言則因資源有限、技術落后而無法分享互聯網等數字語言生活,極有可能走向數字消亡。數字時代的語言保護任務非常艱巨且高度倚重語言技術。
語言技術、語言資源、語言數據、數字技術等與語言生活和語言保護密切關聯。所謂語言技術指的是語言學、計算機科學、計算語言學及相關學科專家研制開發的技術,用于自動分析和生成語言的口頭、筆頭和手語形式(Rehm &Uszkoreit 2012)。作為語言技術核心的自然語言處理,一般需要語言資源、訓練算法、語言模型等作為支撐。常見智能語言技術有語言自動識別、信息提取、機器翻譯等等。語言資源指構建、改進、評估自然語言處理工具的原始數據,包含口筆語語料、語法和術語庫。語言數據是訓練現代語言技術的關鍵(Smal et al. 2020)。訓練算法通常指基于人工智能原則構建的人工神經網絡,適應語言特點,分析并對語言資源建模。當前蓬勃發展的人工智能以語言技術為核心,賦予機器讀取、分析并加工人類語言的能力。數字技術使海量信息壓縮在小型存儲設備,利用計算機及應用軟件通過網絡來存儲、傳送。語言技術借語言資源、語言數據和數字技術之力,不僅成為人工智能的關鍵要素,還為真實語言的保護提供了新的途徑。
當前數字語言生活的一大特點是網上沖浪或網頁瀏覽。英語在語言技術領域一家獨大造成了語言失衡,致使大多數其他語言在語言技術領域被邊緣化(Rehm et al. 2021)。全世界7000多種語言僅有四分之一出現在網絡中(Crystal 2004:220)。如果語言不能進入數字化領域,結果必然是數字化消亡。
這種不容樂觀的趨勢引起了語言學界和語言技術領域專家的關注。一些國家和地區啟動語言保護工程,試圖扭轉語言數字化消亡的不利趨勢,保護人類文明財富。例如,中國大規模的語言資源保護工作于2015年啟動,保護對象涵蓋80多種少數民族語言、50多種漢語方言。歐洲在2012年推出維護歐洲語言多樣性的戰略研究計劃,發布了一系列數字時代的歐洲語言白皮書。
鑒于中國語言政策領域幾乎沒有文獻論及歐洲數字時代的語言生活及語言保護,本文將從這一角度探討多語歐洲所做的嘗試,闡述歐洲語言多樣性與數字時代的語言問題、語言技術狀況等,展示推崇語言文化多元的歐洲開發語言技術以保護語言的做法及面臨的問題。
二、當代歐洲多語主義與英語獨大趨勢
以語言劃定疆界、區別身份曾經成就了歐洲的民族國家建設。而一國之內的語言多樣性往往被視為問題。有的國家(如法國)曾試圖消滅語言多樣性、推崇一語。但是,世界進入全球化時代后,尤其是在歐洲走向一體化的進程中,尊重并保護語言文化多樣性成為語言政策與規劃領域的主導思想,是團結歐洲國家實現一體化的基本原則。
(一)當代歐洲多語主義
歐洲,特別是歐盟,以尊重語言文化多元為宗旨,承認語言的資源價值(戴曼純2014,2017),語言多樣性被視為最重要的文化財富(Evas 2014)。多語制被視為促進歐洲發展的文化基石,歐盟鼓勵人們學習多門語言。從語言政策的理論與實踐層面看,歐洲堪稱多語主義的試驗場。歐洲公民一般需要掌握母語、一門其他現代歐洲語言,以及第三門語言(現代歐洲語言、古代歐洲語言或歐洲之外的語言)。
歐洲尊重語言多樣性有利于增強多樣性中的統一。《歐洲區域或少數民族語言憲章》承認的79種區域或小族語言涉及203個少數民族或語言群體。歐洲8億多人口中約有5500萬使用歐盟官方語言之外的語言,例如,英國就有數十萬人使用威爾士語、康沃爾語、蓋爾語和愛爾蘭語。2016年歐盟統計局(Eurostat)的數據顯示,歐盟勞動適齡人口中有24.8%至少掌握一門外語,且掌握最好的外語能夠達到熟練程度;接受過高等教育的勞動適齡人口有80%至少掌握一門外語。
對于多語歐洲而言,克服多語交流障礙的方法通常有語言教育(多語能力發展)、推行通用語、(即時)翻譯服務、成系統的文本翻譯、借助語言技術手段(語言自動轉換)等。其中前兩種為傳統做法,歷史悠久,后三種為數字時代的新方法,正在發展之中。傳統做法對歐洲目前的多語格局產生了重大影響,其中包括英語通過教育發展為通用語言。但是,學習外語畢竟耗時費力,歐洲無法僅通過語言教育從根本上解決交際問題。一個歐洲人不可能學會80多種本土語言(24種歐盟官方語言和60多種其他歐洲語言),有效解決之道是開發關鍵性語言技術,既能為歐洲市場、歐洲國家對外貿易帶來優勢和利益,還能助力日常生活(Rehm &Uszkoreit 2012:14)。因此,多語歐洲語言技術變得魅力十足,多語政策從語言教育延伸至技術領域。
歐盟委員會(常設執行機構)和歐洲議會(歐盟立法、監督和咨詢機構)長期以來對維護歐洲的語言多樣性表示出關切,對語言技術寄予厚望。歐盟資助語言技術研究和創新,以期消除語言障礙、維護語言多樣性,期望語言技術幫助歐洲公民獲取網絡內容。此類技術除機器翻譯外還有文本分析應用、對話系統、搜索引擎、自動文本摘要、文本轉語音等諸多適應人類自然語言使用場景的應用軟件。歐洲議會在2020年的《歐洲語言日:非通用語言的數字生存》簡報中指出,歐洲非通用語言面臨嚴重的生存威脅,數字技術使其雪上加霜。年輕一代依靠網絡交流并獲取信息。如果網頁內容只用主要語言,那么非通用語言就會面臨數字化消亡。如果數字技術用于保護語言,在線教育、在線語言學習和語言技術也能振興瀕危語言。很顯然,歐洲議會的簡報指出了數字技術的兩面性,語言間的技術失衡將威脅非通用語言的生存,而語言技術雨露均沾則可能起到保護多語的作用。
(二)英國脫歐后英語依然獨大
按照樂觀的預測,隨著語言技術的發展,語言自動轉換得以實現,國際交流將更輕松,成本更低,歐洲乃至世界將失去維護英語作為通用語的動力。語言自動轉換(自動口譯、機器翻譯)將使語言之間越來越平等(Ostler 2015)。這種理想主義的技術論為小族語言描繪出美好的前景,似乎歐洲所有語言都有平等機會在數字時代獲得新生,但它忽略了英語從傳統中積累下來的絕對優勢,這種優勢在數字時代仍保持強勁,且正在影響其他語言分享互聯網,妨礙這些語言獲得數字生存空間。英語優勢已經深度滲透進當前的數字化生活,包括鍵盤布局、語言輸入系統、計算機語言及軟件開發等。
英語幾乎已發展成為歐洲的通用語,維護語言多樣性無法回避英語的影響和滲透問題。英國脫歐引發過英語在歐盟地位的討論,例如2017年5月5日時任歐盟委員會主席容克在演講中指出“英語在歐洲將慢慢地但是肯定地失去其重要性”(Melvina 2019:25)。但是研究表明,英國脫歐后英語依然是歐洲人跨語言交際中最偏愛的第二語言,也是歐洲中小學越來越多人學習的第一外語(Melvina 2019)。事實上,英國脫歐對英語在歐洲大陸的影響極其微小,因為英語在國際商務、學術界、國際教育、國際傳媒、外交、新技術、互聯網等領域依然是通用的語言,歐盟有一半以上的人除母語外還能說英語(Ananiadou et al. 2012),英語在語言市場的霸主地位目前還很難撼動。
英語之所以在歐洲和其他國家傳播如此之廣,是因為經濟和政治的力量確立了英語的突出地位,使其傳播具有自推力(Johnson 2009:158)。英國脫歐后的歐洲大陸成了一個統一依靠英語作為第二語言的多語共同體,多語歐洲人母語之外最方便使用的語言便是英語。英語的使用如此廣泛,使人認為英國脫歐強化了英語的地位,英語甚至有可能演變成具有歐洲大陸特色的新英語變體,即歐洲大陸人自己的歐式英語(Euro-English)(Modiano 2017)。
當然,關于英語的影響力(尤其是在歐洲之外的影響力)也有一些誤導性看法。例如,奧斯特勒(Ostler)認為,英語通行世界的地位建立在以往的社會優勢之上(如軍事、經濟、文化、宗教等),而這種有利于英語使用者的社會因素正在失去往日的力量,世界多語格局有可能發生變化。成就英語通用語地位的各方力量已過巔峰,英帝國自1897年后就在走下坡路,英語在許多前殖民地(如馬來西亞、斯里蘭卡、坦桑尼亞)的地位下降了。雖然英語依然流行于印度、南非、菲律賓等地的精英階層,但是沒有成功推廣至普羅大眾。英語通過進入家庭交流而產生語言轉用的模式已不復存在(Ostler 2015)。此外,格拉多爾(Graddol)在英國文化委員會關于英語未來的報告中曾預測未來世界的語言格局,認為中文、西班牙語、英語、阿拉伯語、馬來語、印地語、俄語將瓜分天下,各自占有區域優勢,產生經濟和文化影響力(Graddol 1997,2000)。其預測考慮了經濟這個重要因素,指出英語的未來復雜而多元,即英語的使用會出現增長,英語變體也會增多,英語的全球市場規模還會增大,但是市場占比會減少;英語的霸主地位將被包括西班牙語和中文在內的其他語言代替(Graddol 1997,2000:3)。這種看衰英語的說辭表明,格拉多爾和奧斯特勒一樣,是站在維護英語利益的角度發出警示,極具誤導性,與英語在歐洲的獨大趨勢現實明顯不符。
(三)英語在互聯網空間的絕對優勢
網絡空間的語言使用是數字化生活的主要場域。哪門語言占據了互聯網,哪門語言就有數字生存空間。全球網民從1995年12月的1600萬增加至2021年3月的51億,占世界總人口的66%,歐洲8.29億總人口中就有7.27億網民(占歐洲總人口的87.7%)。歐洲是互聯網滲透率最高的地區,網絡語言生活豐富,能夠比較清晰地顯示出不同語言在網絡空間的生存狀況。互聯網空間的語言使用是語言活力的重要指標,這種指標通常有兩個角度:一是語言使用者數量,二是網站內容使用的語言。無論從哪個角度看,英語都占絕對優勢。
截至2020年,互聯網使用最多的語言(按照使用網民數量劃分)占比最高的是英語(25.9%),緊隨其后的是中文(19.4%)、西班牙語(7.9%)、阿拉伯語(5.2%)、馬來語和印度尼西亞語(4.3%)、葡萄牙語(3.7%)、法語(3.3%)、日語(2.6%)、俄語(2.5%)、德語(2%),其他所有語言(23.1%)。聯合國教科文組織網站顯示,按照網站內容使用的語言劃分,英語占比高達60.5%,如圖1所示。
與其他語言相比,英語在互聯網上處于強勢傳播狀態,網絡空間的使用占比遠超其母語人口(3.79億)的占比,大范圍滲透進其他語言母語者的數字化生活。在排名靠前的幾種歐洲語言中,英語遙遙領先,俄語、西班牙語、法語、德語的網站內容占比遠低于英語。網絡給多語國家和地區帶來便捷交流的同時也進一步擴大了英語的使用范圍,強化了英語的線上線下地位,加速了英語的全球傳播(Danet& Herring 2007:36)。
(四)歐洲其他語言的網絡空間地位
歐洲其他語言的互聯網空間被英語嚴重擠壓。尤其是歐洲小族語言很難平等分享數字空間,因為網絡空間的語言使用除需要技術支持外,還必須具備許多其他條件,包括語言政策支持、充足的經費、完備的書寫系統、豐富的網絡資源及知識庫、有效的網絡管理機制、眾多網民等。語言使用群體的優勢條件對于語言的網絡傳播發揮了巨大作用。例如,瑞典語作為瑞典和芬蘭的官方語言,其母語人數在全世界語言排名中位列第85,在網站使用的語言排名中居第25位,被《數字時代的瑞典語》稱為“小語言、大網絡”(Borin et al. 2012)。然而,一般歐洲非通用語言(特別是區域或小族語言)很難擁有瑞典語的網絡優勢。
歐洲小族語言的網絡空間地位總體上非常尷尬。即使是歐盟某些官方語言,其網絡上的使用情況也不容樂觀。例如,馬耳他語使用者(馬耳他有馬耳他語和英語兩種官方語言)有九成以上使用英語瀏覽網頁,兩成用意大利語上網(與使用英語的人有交叉),僅有6.5%的人只用馬耳他語上網,究其原因不是網民青睞英語,而是馬耳他語網站有限(Rosner &Joachimsen 2012)。這一點與瑞典語形成鮮明對照。
雖然語言技術及互聯網有復活小族語言和瀕危語言的潛力,但是與大語言并存于網絡的小族語言前景堪憂。Danet& Herring(2007)列舉了諸多證據,證明小族語言和瀕危語言在網絡上處于不利地位。例如:(1)據Fernandez(2001)引證他人的報告,在討論愛爾蘭未來的跟帖中,管理員警告蓋爾語發帖人將刪除蓋爾語帖子。(2)在表面看起來像巴斯克論壇的網站上,幾乎沒有人使用巴斯克語,大多數帖子使用的是西班牙語,盡管許多用戶是巴斯克語加西班牙語或法語的雙語使用者。(3)Cunliffe & Harries(2005)在分析威爾士語-英語雙語網絡社區(鼓勵雙語交流的Pen I Ben)的語言使用情況時發現,威爾士語帖子越來越少,而英語帖子則日漸增多;坎利夫(Cunliffe)和哈里斯(Harries)指出,沒有社會支持和技術支撐,小族語言在網上難以為繼(Danet& Herring 2007:36)。
歐洲小族或區域語言的網絡生存反映出一個世界性問題,因為除歐洲之外,其他國家和地區同樣面臨英語擠占網絡空間的問題,例如,第一屆拉丁美洲互聯網土著語言節(Latin America Festival of Indigenous Languages on the Internet)組織者之一庫馬斯(Miguel ángelOxlajKumez)發現,每次上網,90%以上的網站內容都是英語,另有小部分西班牙語和其他語言的網站,因此他只能瀏覽自己母語之外的網站。再加之鍵盤是根據主要語言設計形成,無法輸入或拼寫土著語言,網上的應用軟件和社交平臺缺少多樣化的字母表,這就導致土著語言無法真正進入線上交流。
三、多語歐洲的語言技術與語言保護面臨的問題
有專家指出,解決歐洲未來語言使用問題最令人信服的方案是采用合適的語言技術(Rehm &Uszkoreit 2012)。歐盟2013年提出的《歐洲語言多樣性線路圖》(The European Roadmap for Linguistic Diversity)重申歐盟保護歐盟各語言的承諾,將歐洲境內的國際語言、國家語言、區域語言、小族語言、瀕危語言、移民語言視為共同財富,予以支持和推廣,其中包括利用信息技術促進所有語言的學習和推廣,增強語言活力。歐盟將技術擺在“歐盟2020戰略”的突出位置,視其為增強歐洲競爭力的有效途徑。但是,并非所有歐洲語言都從語言技術中受益,區域語言、小族語言和瀕危語言在語言技術方面處于落后地位,國際語言與其他語言的差距也在拉大。即便是技術領先的蘋果Siri也只支持21種語言,亞馬遜Alexa支持8種,谷歌Home支持13種,谷歌翻譯截至2020年2月支持113種語言。大部分語言尚未進入以上常用技術中。
從長遠看,語言技術不但能解決跨語言交流問題,還有助于語言保護。語言技術在特定環境下發揮語言保護作用,不乏其例,比如,德國美因茲大學薩爾希馬(AnneliSarhimaa)教授指出,雖然歐洲的小族語言過去受到國家建設、城市化的影響,還受到互聯網通用語言的擠壓,但是從芬蘭和俄羅斯西北部的語言狀況看,數字媒體可以助力小族語言復興。通過語言技術實現跨語言交際和語言保護不可能一蹴而就,需要解決的問題多,難度大。
(一)語言技術面臨的問題
多語歐洲語言技術的開發取得了成績,但還有許多問題需要解決,包括行業協同合作、技術短板、資金投入、技術路徑、語言平等、技術質量、技術的社會應用等。
第一,雖然商業化語言技術產品已經成為日常必備,但是歐洲語言技術行業分散,語言技術發展不平衡。商業化語言技術高度碎片化,大量小公司定位低,很難做大做強(Rehm et al. 2020)。語言技術碎片化導致線上市場碎片化,43%的歐洲人從未用母語之外的語言通過網絡購買商品和服務,公共電子服務也受到國界的限制,歐盟豐富的教育文化資源僅限于同一語言共同體。開發新的語言技術可能促成個人、商業、公共機構之間的交流實現跨國、跨語言的無縫對接。
第二,數字時代歐洲語言白皮書系列顯示有21種歐洲語言的數字資源嚴重不足,這些語言缺少許多方面的技術支持,有的甚至沒有建立起語料庫(Rehm et al. 2020)。
第三,語言技術的研發需要耗費大量的人力物力。例如,為了促進數字技術的發展,歐盟通過“數字歐洲計劃”(Digital Europe Programme,2021~2027年,投入經費75.9億歐元),大力支持超級計算、人工智能、網絡安全、高級數字技能發展,保障經濟和社會廣泛使用數字技術。歐盟曾資助“歐洲語言網”項目(European Language Grid,2019~2022年,投入經費746萬歐元)創建語言技術主平臺,供歐洲所有語言的數百項商業語言技術和非商業語言技術使用,平臺旨在改進數字單一市場的設備運行與服務、數據集(data sets)及資源,以便解決語言技術碎片化問題。
第四,伊凡斯(Evas)指出,許多語言技術依靠不準確的統計方法,而沒有利用更深層的語言學方法、規則和知識。句子的自動翻譯將新句子與數千個以前翻譯過的句子進行比較,這種方法用于樣本量小的語言必然會失敗。因此,下一代語言技術必須對語言的深層結構屬性進行分析,這樣才能保護語言,而不是危害語言。
第五,語言技術存在不平等問題。克服語言技術的不平等是歐洲社會面對的現實問題。根據歐洲議會特派調查員吉爾·埃文斯(Jill Evans,時任歐洲議會議員)(2018)的報告,保障歐洲語言平等還存在許多障礙,例如:
(1)歐洲缺少適當的政策,資源豐富型語言和資源貧乏型語言之間的技術鴻溝還在擴大;
(2)數字技術在過去十年對語言演變產生了難以估量的顯著影響,有研究表明數字通信在侵蝕成年人的讀寫技能,產生語法和書寫代溝,總體上在損耗語言;
(3)歐洲非通用語言在工具、資源和經費方面存在明顯劣勢,制約了研究范圍,也影響語言技術充分發揮作用;
(4)通用語言和非通用語言之間不斷加深的數字鴻溝、歐洲社會日益普及的數字化技術在信息獲取方面產生差異,對低技能、低收入的老年人和困難群體尤其如此;
(5)雖然歐洲在語言工程技術方面有扎實的科研基礎,但是市場分化、知識和文化投入不足、科研協調欠佳、經費欠缺、司法存在障礙,致使歐洲的語言技術相當滯后。當前歐洲的數字市場掌握在非歐洲機構和人員手中,沒有考慮多語歐洲的具體需求;
(6)出于對市場規模的考慮,語言技術產品主要是英語版本,全球性生產商、歐洲生產商往往開發歐洲主要語言(如西班牙語、法語、德語)的技術產品,缺少考慮其他語言的技術產品;
(7)非通用語言需要語言技術相關方面的大力支持,包括音符字體設計者、鍵盤廠商、內容管理系統,以便正確保存、加工并顯示這些語言的網頁內容。
第六,由于以英語為核心的語言技術供應商主要為美國公司,歐洲面臨一系列重要問題:
(1)歐洲的信息、通信和知識領域的基礎建設是否能高度依賴美國公司的壟斷性服務;
(2)如果美國公司提供的語言技術服務突然中斷或出現安全問題,歐洲是否有應急方案;
(3)歐洲是否在積極參與全球語言技術研究競爭;
(4)歐洲是否能指望來自其他大陸的第三方解決翻譯和知識管理問題,且滿足歐洲的交際、社會和文化需求;
(5)歐洲文化背景是否能提供更優質、更安全、更精準、更創新和更有活力的高質量語言技術來打造知識社會。
此外,語言技術還需要克服眾多社會挑戰,包括突破語言障礙,助力老齡化人口,輔助殘障人士,方便移民與融合,增強個人信息服務和客戶服務,促進國際合作與交流,保護文化遺產和語言多樣性,豐富社交媒體和電子化參與,提高市場意識和客戶接受度,打造一個數字單一市場、多種語言模式,保障歐洲安全(Rehm &Uszkoreit 2012:14~17)。由于歐洲的獨特性和復雜性,有專家(Rehm et al. 2021)呼吁歐洲不要將多語通信和語言基礎設施外包給其他大陸,歐洲應當支持并使用自己的語言技術。
(二)技術用于保護語言需要克服的困難
采用語言技術手段對語言進行保護,需要克服許多困難,其中比較突出的有語言保護思想不統一、語言數量眾多、語言技術所涉語言學難題、技術質量,以及技術與語言保護的關系等。
第一,語言保護思想尚未統一。歐洲委員會(非歐盟組織)30年前就出臺了《歐洲區域或少數民族語言憲章》(1992),但歐洲只有25個國家批準接受憲章條款。
第二,語言本體研究是歐洲學界尚未克服的難題,阻礙語言技術的發展,進而影響語言保護。雖然建立數字單一市場屬于歐洲的頭等大事之一,但是,在解決許多其他問題后,語言本體問題依然是最后需要克服的障礙之一。沒有解決語言本體問題的語言技術根本無法實現語言保護的目標,也無法真正完成數字單一市場的建設。
第三,需要通過技術保護數字空間的語言數量眾多,大量基礎工作需要語言學家和語言技術專家來完成。例如,許多歐洲語言缺少網頁內容,不利于抓取語言數據和建設數據庫。
第四,當前語言技術的質量和實用性與現實需求相差甚遠,歐洲小語種在數字領域的研究還嚴重缺位,所有語言的技術支持還存在嚴重不足,英語在技術領域的優勢使其他歐洲語言處于不利地位(Rehm &Uszkoreit 2012),降低了語言技術保護語言的效果。
第五,語言技術與語言保護是工具與目標的關系。即使有了語言技術,語言保護也需要其他方面的條件做保障,如傳統的語言生活、消除英語的強勢存在等。語言技術不是小族語言保護的唯一手段,更不能神化語言技術的語保功能,因為語言技術只是手段,不等于語言傳承。小族語言傳統上靠家庭和朋友間的聊天得以傳承,如今的即時短信、電子郵件和社交媒體等在線交流采用書寫形式,應用軟件一般默認使用主要語言(特別是英語),這就使小族語言更加脆弱。即便開發出了小族語言應用軟件,小族群體是否會棄用英語、改用母語,很難預料。因此,開發出所有語言的技術是否能降低英語滲透力,達到保護小族語言的目的,還有待時間檢驗。
四、多語歐洲的語言技術與語言保護工作及自評
歐洲保護好多語并從中受益的唯一途徑是語言技術(即自然語言處理與語音技術)(Rehm et al. 2021)。歐洲在利用語言技術維護語言多樣性、保護小族語言方面所做的努力值得借鑒。
2022年1月26日,歐盟委員會提交歐洲議會、歐洲理事會、歐洲經濟和社會委員會與歐洲地區委員會審議的《數字十年數字權利與原則歐洲宣言》[22]稱,每個人都享有使用可信賴的、多樣的多語網絡環境的權利;歐盟將人民擺在數字轉型的核心位置,技術服務于所有歐洲人。2022年2月7~9日“創新、技術與多語”論壇在線上召開,法國文化部部長羅斯琳·巴舍洛致開幕詞,該論壇匯聚了法國及歐洲的翻譯、語言技術、數字技術和人工智能領域的政策制定者、從業者及利益攸關方,討論技術在支持并促進歐洲多語制方面的作用。歐盟委員會根據《數字十年數字權利與原則歐洲宣言》的精神支持諸多項目,如“歐洲語言平等”項目(關于歐洲語言平等線路圖的戰略研究)和“歐洲語言資源協作”項目(收集所有歐盟語言、挪威語、冰島語等語言數據,以支持eTranslation機器翻譯系統開發)。
這些是歐盟利用語言技術保護語言以維護語言多樣性的最新舉措。早在十幾年前,歐洲就已經有大規模的語言技術研發項目,調動語言學、語言技術領域的力量,啟動并完成了大量數字時代語言保護的研究工作。其中最具代表性的是推出了一系列數字時代歐洲語言白皮書的多語歐洲技術聯盟(META)。正是他們的工作使歐洲的政策制定者、社會和學界對數字時代的語言技術和語言保護有了深刻的認識。
(一)多語歐洲技術聯盟及其使命
多語歐洲技術聯盟凝聚研究人員、商業技術供應商、私人或公司語言技術用戶、語言專家、信息社會其他相關方的力量,推動語言技術發展,旨在實現將歐洲統一為數字單一市場和信息空間的夢想。多語歐洲技術聯盟有一個接納機構(或公司、組織)通過網絡加入META的路徑,目前有1000多名入盟成員,涉及100多個成員國(人數和成員國數是動態的)。打造技術聯盟的工作網為多語歐洲技術聯盟網(META-NET),是一個由34個國家60家研究中心組成的、致力于發展多語歐洲信息社會技術基礎的研究組織。該聯盟開發的語言技術旨在助力跨語言交際與合作、保障任何語言的使用者平等獲取信息與知識、開發網絡信息技術功能。
因此,多語歐洲技術聯盟網有3條工作路徑。第一,建設一個目標一致的、動態的、有影響力的團隊,開發戰略性研究項目。經過數百位專家的研討,多語歐洲技術聯盟網在2012年推出了《2020多語歐洲戰略研究計劃》(Strategic Research Agenda for Multilingual Europe 2020),旨在提高對歐洲語言技術領域的認識,使決策者在未來的政策制定中關注、支持語言技術研究。第二,創建資源共享與交流設施,為語言技術領域提供開放、廣為分布、安全、互用的基礎設施。共享的資源和技術按照優先順序包括:口筆語語料等語言數據,語言相關數據(如口筆語自然語言發揮重要作用的其他媒介和模態),語言加工工具、標注工具、技術等,借助語言加工工具及技術的服務,評價工具、指標與標準、評測服務,整合互用服務的工作流程。多語歐洲技術聯盟試圖把各方力量納入基礎設施,如語言資源和技術供應商及用戶、整合語言技術的企業和產品銷售部門、語言專家、國際數據中心、語言資源存儲單位、國家及國際語言技術政策制定者、語言資源和語言技術研究資助者等。第三,搭建相關技術領域的橋梁,通過機器翻譯創新研究將相鄰的技術領域聯系起來,主要關注4個方面的工作:機器翻譯解決更多的語義問題,優化混合式機器翻譯的分工,開發利用翻譯所需的語境,建立機器翻譯基地。
(二)工作自評及前景
從目前歐盟對語言技術的政策支持情況看,多語歐洲技術聯盟的呼吁產生了顯著效果。十年來,多語歐洲技術聯盟也取得了不菲的成績,出版了數字時代的32種歐洲語言白皮書。這些語言在機器翻譯、語言加工、文本分析、語言資源等方面的語言技術應用水平上存在很大差距,各語言的數字化生存條件存在巨大差異,如表1所示。
如果我們把多語歐洲技術聯盟網站提供的機器翻譯、語言加工、文本分析、語言資源4個方面的技術水平用1(優秀)、2(良好)、3(中等)、4(較差)、5(差)表示,則4項皆優秀者得分為4,4項皆良好者為8,4項皆差者為20。換言之,得分越小,語言技術成熟度越高,反之越低。
從該表的分值可以看出,沒有任何語言的技術達到優秀程度。英語是4個方面的語言技術開發的最好的語言,其次是法語、西班牙語、德語、荷蘭語、意大利語,其他語言與上述語言有一定的差距,甚至差距甚遠,如馬耳他語、冰島語、拉脫維亞語、立陶宛語、威爾士語等均屬于語言技術薄弱的語言,更不用說其他榜上無名的歐洲語言。單就機器翻譯而言,英語的技術被定為良好,法語和西班牙語為中等,德語、荷蘭語、加泰羅尼亞語、匈牙利語、意大利語、波蘭語、羅馬尼亞語為較差,其余為差。
80余種歐洲語言中有相當數量的語言面臨數字化消亡的危險。多語歐洲技術聯盟的頂尖語言技術專家在研究了30種歐洲語言后指出,有21種語言沒有或幾乎沒有任何數字化技術支持。因此,歐洲議會在其“數字時代語言平等決議”中指出,雖然多語是歐洲最大的財富之一,但是有20余種語言面臨數字化消亡(Stasimioti 2022)。甚至有報道稱,互聯網是語言殺手,冰島語、拉脫維亞語、立陶宛語在網絡上沒有足夠的語言使用者來形成網絡牽引力。由于缺少足夠的資源來驅動翻譯工具、語音轉換技術、語音控制技術發展,連德語、意大利語、西班牙語和法語也面臨危機。
表1清楚地顯示,歐洲32種語言(其中挪威語分書面挪威語和新挪威語)的技術沒有做到平衡發展,名單之外的其他語言更缺乏相應的技術,技術缺位的語言在數字化生存方面將面臨更大的困難。
為了克服上述問題,歐盟還在繼續大力支持語言技術的開發。2022年3月1日“歐洲語言網”項目在領英和推特上宣布在其云平臺上添加新的機器翻譯模型,語言覆蓋愛沙尼亞語、烏克蘭語、荷蘭語、英語、法語、德語、希伯來語、意大利語、匈牙利語、波蘭語、葡萄牙語、俄語、西班牙語、土耳其語等等。該項目平臺2022年1月已增容一倍,包含87種語言12 000余個語言技術資源庫(Stasimioti 2022)。同為歐盟資助的“歐洲語言平等”項目(2018年9月獲歐洲議會批準,項目時間為2021年1月至2022年6月)作為對數字時代語言平等問題的回應,考慮了多語歐洲技術聯盟白皮書系列發現的問題,配合“歐洲語言網”項目,采用戰略研究、創新與實施、路線圖等形式,為2030年實現全歐洲數字語言平等目標,研制出“歐洲語言平等方案”(European Language Equality Programme)。該方案的研制聯合了歐洲語言技術界、計算語言學界、以語言為中心的人工智能界,以及有關項目和協會代表、語言界和區域或少數民族語言團體。由于這些新項目尚未到期,目前很難評估其保護語言的實質貢獻。總之,語言保護的前景很大程度上取決于語言技術的成就。
五、結 語
歐洲在通過語言技術維護語言多樣性方面所做的努力反映出兩大類問題。第一,語言技術本身的問題,包括技術有待完善、發展很不均衡等,其中部分因素屬于很難克服的障礙,如書寫系統缺位、小眾語言使用人口少、語言學研究缺位或不足、語言數據或資源不足等。第二,英語的滲透擠壓了其他語言的數字生存空間,英語在語言保護和語言技術發展方面的優勢成為打破語言不平等、建立歐洲數字單一市場的巨大障礙。正如《數字時代的威爾士語》(2014)的作者伊凡斯指出的那樣,現在的絕大多數技術基礎設施使用了英語,進一步強化了英語的通用地位,使小族語言面臨更大的危險。
數字時代歐洲語言白皮書系列表達出一些共同期盼:(1)語言技術是核心增能技術,有助于克服語言多樣性造成的障礙;(2)語言技術有助于減少非英語母語者的個人劣勢和經濟劣勢;(3)歐洲需要為其所有語言開發出強大且價格合理的語言技術;(4)技術進步有待加速;等等(Melero et al. 2012)。雖然歐洲是經濟發達地區,語言技術實力雄厚,但是從目前取得的成績來看,通過語言技術破除交際障礙、保護所有歐洲語言,依然任重道遠。盡管如此,歐洲通過語言技術保護語言的理念和做法、遇到的問題等具有重要的參考價值。
參考文獻
戴曼純 2014 《語言政策與語言規劃的學科性質》,《語言政策與規劃研究》第1期。
戴曼純 2017 《歐盟多語制與機構語言政策》,《語言政策與規劃研究》第1期。
Ananiadou, S., J. Mcnaught& P. Thompson. 2012. T Heidelberg: Springer.
Borin, L., M. Brandt, J. Edlund, et al. 2012. . Heidelberg: Springer.
British Council. 2018. .
Crystal, D. 2004. . Cambridge: Cambridge University Press.
Cunliffe, D. & R. Harries. 2005. Promoting minority-language use in a bilingual online community. 11(2), 157?179.
Danet, B. & S. C. Herring. 2007. . New York: Oxford University Press.
Evas, J. 2014. The Welsh Language in the Digital Age. Heidelberg: Springer.
Fernandez, L. 2001. Patterns of linguistic discrimination in Internet discussion forums. 5(1), 22?41.
Graddol, D. 1997/2000. . London: British Council.
Johnson, A. 2009. The rise of English: The language of globalization in China and the European Union. Macalester International, 22, Article 12.
Melero, M., T. Badia& A. Moreno. 2012. . Heidelberg: Springer.
Melvina, M. 2019. The future of English after Brexit in European Union. , 25?29.
Modiano, M. 2017. English in a post-Brexit European Union. 36(3), 313?327.
Ostler, N. 2014. Introduction: Endangered languages in the New Multilingual Order per genus et differentiam. In M. Jones (Ed.), , 1?14. Cambridge: Cambridge University Press.
Rehm, G. & H. Uszkoreit. 2012. . META Technology Council. http://www.meta-net.eu/sra.
Rehm, G., K. Marheinecke, S. Hegele, et al. 2020. The European language technology landscape in 2020: Language-centric and human-centric AI for cross-cultural communication in multilingual Europe. , 3322?3332.
Rehm, G., S. Piperidis, K. Bontcheva, et al. 2021. European language grid: A joint platform for the European language technology community. , 221?230.
Rosner, M. & J. Joachimsen. 2012. . Heidelberg: Springer.
Smal, L., A. L?sch, J. van Genabith, et al. 2020. Language data sharing in European public services–overcoming obstacles and creating sustainable data sharing infrastructures. , 3443?3448.
Stasimioti, M. 2022. EU-funded language technology platform adds tools, expands language coverage. https://slator.com/eu-funded-language-technology-platform-expands-language-coverage/.
責任編輯:逯琳琳
參見:www.moe.gov.cn/s78/A19/A19_ztzl/ztzl_yxyywhcccb/ziyuanbaohu/。
歐洲國家界定的小族語言不易確定,例如意大利號稱有50種小族語言,而實際上官方把這些稱為意大利語的方言。因此,有的文獻稱有80種小族和區域語言,或用模糊詞表示。
參見:https://ec.europa.eu/eurostat/statistics-explained/index.php?title=Foreign_language_skills_statistics。
參見:https://digital-strategy.ec.europa.eu/policies/language-technologies-multilingualism。
參見:https://www.europarl.europa.eu/RegData/etudes/BRIE/2020/652086/EPRS_BRI(2020)652086_EN.pdf。
參見:https://www.britishcouncil.org/education/schools/support-for-languages/thought-leadership/research-report/future-of-english-eu-2025。
參見:https://firstsiteguide.com/internet-stats/。
參見:https://www.internetworldstats.com/stats4.htm。
參見:https://www.statista.com/statistics/262946/share-of-the-most-common-languages-on-the-internet/。
參見:https://zh.unesco.org/courier/2021-2/wang-luo-kong-jian-yu-yan。
庫馬斯的母語是卡科奇科爾瑪雅語言(Kaqchikel Mayan),在危地馬拉有50多萬使用者。
參見:https://www.bbc.com/future/article/20200414-the-many-lanuages-still-missing-from-the-internet。
參見:https://www.npld.eu ? Roadmap-in-English。
參見:https://cacm.acm.org/news/246618-we-need-to-talk-about-linguistic-diversity-in-ai/fulltext。
參見:https://ec.europa.eu/research-and-innovation/en/horizon-magazine/internet-helping-revive-minority-languages。
參見:http://www.rigasummit2015.eu/multilingual-dsm。
參見:https://ec.europa.eu/info/funding-tenders/find-funding/eu-funding-programmes/digital-europe-programme_en。
參見:https://cordis.europa.eu/project/id/825627。
參見:https://www.theguardian.com/education/2014/feb/17/languages。
25國為亞美尼亞、奧地利、波黑、克羅地亞、塞浦路斯、捷克、丹麥、芬蘭、德國、匈牙利、列支敦士登、盧森堡、黑山、荷蘭、挪威、波蘭、羅馬尼亞、塞爾維亞、斯洛伐克、斯洛文尼亞、西班牙、瑞典、瑞士、烏克蘭、英國。
參見:https://www.theguardian.com/education/2014/feb/17/languages;原文載:https://theconversation.com/minority-languages-fight-for-survival-in-the-digital-age-22571。
參見:https://digital-strategy.ec.europa.eu/en/library/declaration-european-digital-rights-and-principles。
參見:https://www.lr-coordination.eu/node/442。
參見:http://www.meta-net.eu/meta/about。
參見:http://www.cracking-the-language-barrier.eu/organisations/meta-net/。
參見:http://www.meta-net.eu/meta-share/index_html。
本表根據數字時代的歐洲語言白皮書及多語歐洲技術聯盟相關數據整合而成,數字賦值為本文作者所為,方便讀者理解語言間的差異。數據參見META-NET網和Evas 2014,Melero et al. 2012,http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison。
參見:https://www.ecommercetimes.com/story/report-the-internet-is-a-language-killer-76261.html。
參見:https://slator.com/eu-funded-language-technology-platform-expands-language-coverage/。
參見:https://libereurope.eu/project/european-language-equality-ele/。
參見:https://www.theguardian.com/education/2014/feb/17/languages。