趙生輝,胡 瑩(.西藏民族大學管理學院;.云南大學歷史與檔案學院)
互聯網的飛速發展使人們接觸到非母語信息的機會大幅增加,檢索、訪問、閱讀和利用非母語信息資源的需求日益增長。為了滿足用戶對多語種信息資源的利用需求,數字圖書館必須在信息資源的生成、采集、組織、檢索、呈現、服務等環節提供多語言支持。多語言環境下的數字圖書館除了具備單一語言數字圖書館的基本屬性之外,其信息生態鏈也會因語言文字的多樣性體現出特有的結構和規律。研究和探索多語言數字圖書館信息生態鏈的運行機理對于應對全球范圍內信息管理和利用的多語種化趨勢、提高多語言數字圖書館建設和管理的科學化程度具有重要作用,對于多民族國家面向不同語言公民社群開展多語種信息服務具有一定的參考價值。
數字圖書館(Digital Library)通常是指致力于實現數字文獻信息資源跨媒體、跨地域整合與共享的分布式信息服務系統。[1]作為“多語言信息存取”[2]與“數字圖書館”的交叉領域,多語言數字圖書館(Multilingual Digital Library,MDL)是指涉及兩種以上自然語言信息資源的存取或者可以為用戶提供兩種以上自然語言信息服務的數字圖書館。[3]此處的“語言”是指人類社會生成和使用的自然語言,并非面向計算機處理的人工編程語言,計算機軟件視角下的可以集成多種編程語言的“多語言數字圖書館”雖然采用了同樣的術語表達,卻不屬于本文的研究范疇。多語言數字圖書館當中的“多語言”通常包括多語言信息資源和多語言信息服務兩個方面的特征,前者重點關注多語種信息資源的集成共享,后者重點關注信息資源的多語言傳播。
多語言數字圖書館具備數字圖書館系統的基本屬性,同時由于信息資源和信息服務的多語言特征,面臨一些需要特別應對的挑戰和問題。例如,對不同語種信息資源進行語義關聯實現多語種信息資源的跨語言檢索,為用戶提供必要的母語信息提示、輔助用戶完成跨語言瀏覽或閱讀等。多語言數字圖書館旨在協調語言文字多樣性和溝通交流一體化之間的矛盾,它可以在保持信息資源多語言特征的同時,通過技術和管理手段實現多語言信息資源與多語言用戶群體的最佳匹配,將語言文字差異性造成的溝通交流障礙降到最低,使用戶獲得更加良好的信息服務體驗。
目前,較大規模的多語言數字圖書館主要有世界數字圖書館(World Digital Library,WDL)、國際兒童數字圖書館 (International Children’s Digital Library,ICDL)、加勒比海數字圖書館(The Digital Library of Caribbean,dLOC)、雪域數字圖書館(The Tibetan&Himalayan Library,THL)等。國內學者或機構近年來提出的有關多語言數字圖書館建設的倡議主要有亞洲數字圖書館(Asia Digital Library,ADL)、絲路數字圖書館(Belt&RoadDigitalLibrary)、中國民族數字圖書館等。[3-5]總體而言,學界當前對多語言數字圖書館這一特殊研究對象的認識還處于較為粗淺的階段,這種狀況對“一帶一路”背景下圖書館事業的國際合作以及提升我國民族地區多語言環境下的信息服務水平造成了一定程度的制約。
信息生態學是從生態學視角探討人類社會信息活動規律的交叉學科,其基本觀點主要包括:信息在人類社會的流轉與生物在自然界的繁衍生息具有相似的規律性;一定時空中的信息生態系統是由信息、信息人、信息技術和信息環境等要素相互聯系、相互影響和相互作用而形成的有機整體;信息在不同主體之間的流轉形成相互關聯、相互依存的鏈條式結構,即“信息生態鏈”。[6]因此,多語言數字圖書館信息生態鏈是指多語言信息資源在信息傳播者、信息收集者、信息聚合者、語言服務提供者、信息技術提供者和多語言用戶群體之間流轉而形成的相互關聯、相互依存的復雜性鏈條式結構。
美國數學家申農(C.E.Shannon)將信息通訊過程簡化為由信源、編碼、信道、信號、噪聲、譯碼、信宿等要素組成的信息系統。[7]從信息通訊系統視角審視多語言數字圖書館信息生態鏈,可將其看作信息服務人員將多語言數字信息資源通過互聯網傳遞給多語言用戶的過程。如果數字信息使用的語言文字與用戶能理解和識別的語言文字不屬于同一類型,意味著信源端和信宿端出現了編碼方案錯位,信息資源即使可以傳遞給用戶也不能對其產生實質性影響,溝通交流被語言障礙所阻斷。為減少語言文字差異性對信息交流造成的影響,信息服務者通常需要依托人工或機器翻譯手段對信息資源進行轉換,以實現信息資源與用戶需求之間的匹配。因此,多語言數字圖書館信息生態鏈本質上就是信源端和信宿端編碼方案動態匹配的過程,其形態通常不會是簡單的線性結構,而是因多種語言相互轉換而形成的復雜結構。
婁策群等認為,信息生態鏈是指在信息生態系統中,信息流轉于不同信息人之間而形成的鏈式依存關系。[6]信息生態鏈的基本形態可以描述為由信息生產者、信息傳遞者和信息消費者之間的正向信息流和反饋信息交流構成的鏈式結構。根據上述觀點,構建數字圖書館的信息生態鏈(見圖1)。[8]

圖1 數字圖書館的信息生態鏈的結構
數字圖書館的信息生態鏈主要由信息生產者、信息傳播者、信息收集者、信息聚合者、信息技術支持者、信息政策制定者和信息消費者等信息主體構成。“信息生產者”是產生信息的人,主要指撰寫圖書、論文等各類信息資源的作者群體。“信息傳播者”是從事信息出版發行和公開傳播服務的各類專業工作者群體,如出版社、期刊社、報社等新聞出版機構及博客、論壇等網絡信息服務機構的工作人員。“信息收集者”分為兩種類型,“信息收集者I”主要是指從事文獻數據庫建設的信息服務提供商,“信息收集者II”指圖書館中從事特定主題數字信息資源建設的工作人員。“信息聚合者”指通過技術手段和統一界面為信息消費者提供自建、購買或共享的數字信息資源的工作人員。“信息技術提供者”是為數字圖書館的功能實現和正常運行提供技術支持的各類技術人員。“信息政策制定者”指通過制定數字圖書館運行管理相關的法律、規范和標準,維持數字圖書館信息生態系統運行秩序的各類公共機構工作人員。“信息消費者”分為兩種類型,“信息消費者I”是指分散形態信息資源面向的用戶群體,大多數情況下屬于信息傳播的受眾群體,“信息消費者II”是指聚合形態信息資源面向的用戶群體,本質上屬于信息資源的二次集成利用而產生的新的用戶群體。“信息消費者II”與“信息聚合者”之間為雙箭頭,表示兩者之間為互動關系,“信息消費者II”可以通過信息反饋影響信息服務的模式和信息資源收集的范圍。綜上,數字圖書館(D-Library)是在特定的信息政策環境中,由各類相關信息主體在信息技術支持下,通過信息收集、信息聚合、信息技術支持等功能所形成的整合型信息空間,各類因素相互聯系、相互協作、相互依賴,形成具有整體性功能特征的信息生態系統,最終目標是集成各類社會信息資源,最大限度滿足用戶的信息需求。
多語言數字圖書館信息生態鏈是在國家語言文字政策框架內,由信息資源的多語言特征或信息消費者的多語言需求驅動的多語言化信息收集、聚合與服務的過程(見圖2)。

圖2 多語言數字圖書館信息生態鏈的結構
多語言數字圖書館具備數字圖書館信息生態鏈的基本特征,同時由于語言文字的多樣性,其信息生態鏈需要增加部分個性化模塊。相對于單一語言數字圖書館,多語言數字圖書館信息生態鏈有以下4個特點。① 信息資源的語種多樣。造成信息資源語種多樣性的主要原因是信息生產者處于不同的語言文字生態圈,當收集信息的范圍跨越不同區域時,就會對數字圖書館的體系結構和服務模式提出更高要求。② 信息服務的語種多樣。信息服務需求呈現多語言特征的主要原因在于信息消費者群體來自不同的語言文字圈,不能識別和理解以其他語言文字為信息記錄符號的信息資源。③ 數字圖書館需要進行不同語種語言文字信息資源之間的相互轉換。通常情況下,至少需要使用一種語言文字著錄或者翻譯另一種語言的信息,以保證信息消費者可以用自己熟悉的語言文字閱讀或者了解其他語種信息資源的內容。因此,圖2中的“語言服務提供者”可分為“語言服務提供者I”和“語言服務提供者II”,前者指數字圖書館建設機構內部從事語言文字翻譯或轉換服務的工作人員,后者指從事語言文字翻譯服務的社會專業機構或人員。在數字圖書館建設機構缺乏足夠的多語言專業工作人員時,通常可以通過服務外包的方式購買社會專業機構提供的語言服務。④ 數字圖書館的多語言信息資源管理需要遵守國家語言文字管理的法規政策,符合國家語言文字工作的總體戰略,這是單一語言數字圖書館建設很少需要考慮的問題。因此,圖2中的“語言文字政策制定者”主要是指國家語言文字工作機構、標準規范制定機構的工作人員。
可見,多語言數字圖書館信息生態鏈以使用多種語言文字的用戶群體為基礎,在信息政策制定者、語言政策制定者共同構建的制度框架內,通過信息傳播者、信息收集者、信息聚合者、語言服務提供者、信息技術提供者的相互協作實現多語言信息資源的優化配置,最終滿足用戶對多語言信息資源的需求。
多語言數字圖書館信息生態鏈結構模型是對多語言環境下數字信息資源傳播過程的全面反映,是一種考慮到各類應用需求的復雜網狀結構。然而,具體到任何一個實際的應用場景,數字資源語種和數量、機構所擁有或者可以從外部共享的語言資源的數量、服務對象的語言能力的差異性等因素都會使多語言數字圖書館的功能構建側重于其中的某些方面,因而信息生態鏈的運行機理會呈現出多樣化特征。根據申農的信息通訊系統模型,[7]信源端采集和保存的信息資源語言數量和信宿端用戶所能識讀和理解的語言數量呈現出從一種到多種的可能性,兩者之間的組合關系與數字圖書館信息生態鏈之間的關系見圖3。

圖3 多語言數字圖書館信息生態鏈的類型
圖3 將數字圖書館數字資源語言種類劃分為1(單語言)和n(n≧2,多語言)兩種情形,將用戶群體可以理解的語言種類表達為1(單語言)和m(m≧2,多語言)兩種情形。根據信源端和信宿端涉及語言文字數量之間的組合對應關系,可以將多語言數字圖書館的信息生態鏈劃分為四種類型:① 一對一(1/1),并行結構多語言數字圖書館信息生態鏈;②多對一(n/1),集成結構多語言數字圖書館信息生態鏈;③ 一對多(1/m),擴散結構多語言數字圖書館信息生態鏈;④ 多對多(n/m),網絡結構多語言數字圖書館信息生態鏈。上述每種結構的多語言數字圖書館信息生態鏈都有其典型特征,與不同的應用場景相對應,呈現出不同的運行機理。
并行結構多語言數字圖書館信息生態鏈的特征為信源端的數字資源只涉及一種語言,用戶群體只能識讀一種語言文字的信息資源,信源端傳遞的信息資源和信宿端用戶可以識讀和理解的信息資源屬于同一語種,這正是單一語言數字圖書館的典型特征。這就意味著在并行結構多語言數字圖書館中,單一語言數字圖書館的特征依然存在,即多語言數字圖書館當中同時并行著若干條獨立存在的單一語言信息傳遞通道。并行結構多語言數字圖書館是按照多個語種獨立提供信息服務的思路進行建設的,其建設機構并沒有或較少考慮跨語言信息映射問題,而是根據信息資源的現有語種進行元數據描述和檢索界面設計,供熟悉該語種的用戶使用。并行式結構多語言數字圖書館的信息資源按照語種進行嚴格分割,每個語種只要遵循單一語種數字圖書館建設和開發的規律進行即可,不需要增加專門的語言文字映射系統,因而整體結構相對簡單,建設難度相對較小,可以作為多語言數字圖書館建設初期采用的架構。并行結構多語言數字圖書館的不足在于信息資源的管理和利用局限于單一語言內部,信息資源傳播的范圍較小,用戶能夠檢索和閱讀的信息資源相對單一。尤其是當用戶對某種語言的文字符號完全不能識讀時,即使該信息資源對于用戶非常重要也無法被用戶檢索和利用,甚至完全排除在可利用信息資源范圍之外。
并行結構多語言數字圖書館的應用情境通常有以下類型。① 用戶群體中的絕大多數人能夠熟練閱讀和理解兩種以上語言文字信息資源。如果圖書館所在地區屬于典型的雙語或多語地區,絕大多數的服務對象已經掌握了兩種或兩種以上語言文字,則數字圖書館可以按照并行式架構提供服務,由用戶逐一檢索不同的服務界面獲取多個語種的信息資源。例如,我國大多數高校數字圖書館都購買了部分外文版學術數據庫的使用權,用戶進入外文版檢索頁面進行檢索,根據需要下載和閱讀相應語種的外文信息資源。在上述過程中,圖書館并沒有提供任何外文信息資源的翻譯服務,主要是基于對高校數字圖書館用戶群體的定位,設定有外文學術數據庫使用需求的用戶通常情況下是可以熟練閱讀英語甚至其他語種外文文獻的。②采用松散結構的聯邦式數字圖書館。在圖書館國際合作過程中,相關國家或者地區的文化機構將各自的單一語種數字圖書館鏈接到協作組織的主頁中,供用戶群體進行選擇和使用。除參與協作各方所建成的數字圖書館通常都以本國官方語言文字為主,通過協作形成的數字圖書館聯盟就成為一種并行結構的多語言數字圖書館。
集成式結構多語言數字圖書館的特征是信源端的信息資源涉及多個語種,但是作為服務對象的用戶群體只能識讀和理解一種語言文字,即出現了“多對一”結構。由于用戶群體無法閱讀母語之外的信息資源,數字圖書館的建設機構就要通過某種形式的映射機制為用戶提供除母語之外的其他語種信息資源的元數據、摘要甚至全文翻譯文本,信息資源的跨語言映射工作通常由專業翻譯人員或者機器翻譯系統相互配合完成。上述過程實現了多個語種數字信息資源向某一語種信息資源的映射,可以認為是一種具有集成功能的數字圖書館。集成式結構多語言數字圖書館是其建設機構為了擴大用戶的閱讀面,將部分非當地通用語種的文獻資源納入采集范圍而形成的一種信息生態鏈。集成式結構多語言數字圖書館主要應用于公共圖書館,大多數用戶群體只能閱讀和理解其母語信息資源,要檢索和利用非母語數字信息資源就必須借助公共圖書館提供的支持系統。例如,我國公共圖書館主要提供國家通用的漢語信息服務,如果要引入英語、日語、德語、法語等外語信息資源服務,則需要圖書館提供上述信息資源的漢語版本的元數據、摘要、縮寫版或者全部譯文。
與集成式結構多語言數字圖書館的“多對一”結構相反,擴散式結構多語言數字圖書館體現為“一對多”結構,即數字圖書館的信源端只涉及一種語言的數字信息資源,但是信宿端用戶群體的語言文字能力具有多樣化特征,需要數字圖書館建設機構為其提供必要的支持。與集成式結構相同的是,擴散式架構也需要建設機構根據用戶需求對信息資源進行跨語言映射,只是映射的方向不是由多語言轉向單一語言,而是由單一語言轉向多語言。假設擴散式結構多語言數字圖書館有使用A、B、C三種不同語言的用戶群體,對應的信宿A、信宿B和信宿C只能識讀和理解各自信息傳遞通道上傳輸的信息資源,公共文化機構所采集和保存的信息資源的語言為A、B、C當中的一種或者是A、B、C之外的某一種語言;如果要擴大上述信息資源的傳播范圍,則需要在語言交換體系的支持下將信源端的信息資源映射成為A語言、B語言或C語言的元數據、摘要或譯文。此外,考慮到用戶語言的多樣性,需要專門設計每一語種的檢索和利用界面,或者在同一界面中同時包含多種語言文字,以便用戶根據提示信息完成相關操作。
擴散式結構多語言數字圖書館的應用情境通常有以下兩種情形。① 承擔著國家文化對外傳播功能的多語言數字圖書館。在國際合作與交流中,如果某個國家希望自己的文化能夠被其他國家的用戶所了解,則可以從傳播的視角專門設計相應主題的數字圖書館,將本國有代表性的文化資源翻譯成多種語言文字版本,并通過多語言版本的用戶界面向目標用戶群體提供服務。② 承擔著國家內部跨語言社群溝通交流功能的數字圖書館。如果國家內部存在多個不同的語言社群,尤其是部分人口還不能使用通用語言文字進行交流時,就需將與公共利益相關的各類政府文獻以各少數社群的語言文字進行傳播。[9]無論是對美國、加拿大、澳大利亞這類移民國家,還是中國這類典型的世居多民族國家,擴散式結構多語言數字圖書館都適用。如,我國政府在召開重要的政治會議時,會在提供國家通用語言文字版本會議文獻的同時為少數民族代表提供少數民族語言版本的文獻。[10]
網絡式結構多語言數字圖書館是一種“多對多”的結構,信源端的數字信息資源涉及多種語言文字,信宿端是使用不同語言文字的用戶群體,數字圖書館在語言映射系統的輔助下,在不同語言文字信息資源之間建立關聯,使得任何一種語言文字信息資源都可以映射為其他語種的元數據、摘要或者譯文,任何用戶都可以用自己熟悉的語言文字了解或閱讀數字圖書館中的任何信息資源,形成一種類似網絡的結構。網絡式架構是多語言數字圖書館的一種理想化模式,如果多語言數字圖書館信息生態鏈各模塊功能都可以實現,則數字圖書館呈現的整體功能就是網絡式架構。
網絡結構多語言數字圖書館可以實現并行式結構、集成式結構、擴散式結構的所有功能,是多語言數字圖書館信息生態鏈四種類型中功能最為完備的一種,也是涉及因素最多、結構最復雜的方案。 網絡結構多語言數字圖書館可以在語言交換體系的支持下實現某一語言信息資源向其他語種信息資源的自由映射,任何一種語言的信息資源都可以在其他語言信息通道建立相同內容、不同語言的“鏡像”。在多語言數字圖書館涉及的語言數量較多時,要實現任何兩種語言文字信息資源之間的雙向映射成本過高,可以將其中一種語言作為中間語言,系統只考慮中間語言與其他語言之間的映射問題,其他語言之間的雙向映射可以中間語言為中介完成。
在網絡式架構多語言數字圖書館信息生態鏈中,各類語言的地位都是平等的,因而適用于基于平等合作、互惠互利原則建立起來的國際或區域性數字圖書館聯盟。除此以外,網絡式架構多語言數字圖書館可以結合不同的場合進行變通,從而在實踐中發展出具有不同特征的應用場景。例如,網絡式架構數字圖書館中各種語言的信息資源總量和用戶數量并不相等,在機構語言轉換能力有限的情況下,可以在跨語言映射過程中有所側重。如果某語種信息資源數量較少但用戶數量較多,將其映射到其他語種時可以選擇較小粒度、較高精度,甚至人工參與的方式完成全文對等翻譯;反之,如果某語種信息資源數量較多但用戶數量較少,則可以選擇粗粒度、低精度的映射方式,只對文獻的元數據甚至標題進行翻譯。由于語言映射系統能力的限制以及跨語言映射粒度、精度的變化,經過映射處理的信息資源通常會有不同程度的“損耗”。例如,在粗粒度、低精度映射的情況下,源語言信息資源整個篇章的文本投射到另外一個語言傳遞通道后可能僅為一條數據記錄。此外,網絡式架構對數字圖書館跨語言交換能力的依賴度較高,整體功能的實現程度受到機器翻譯等自然語言處理技術發展水平的制約,短期內還無法實現在不同語言信息傳遞通道之間自由切換的狀態。因而,在自然語言處理技術還沒有取得根本性突破的情況下,網絡結構多語言數字圖書館應該視為一種遠期發展目標,而不是短期內可以實現的成熟模式。
多語言數字圖書館建設事關國際文化交流和民族地區文化發展,應當引起國家相關部門的關注和重視。根據多語言數字圖書館信息生態鏈的結構模型,我國的多語言數字圖書館建設涉及信息政策制定者、語言政策制定者、信息傳播者、信息收集者、信息聚合者、語言服務提供者、信息技術提供者等信息主體,因此建議國家公共文化行政機構、語言文字工作機構和外事管理部門多方協調,從國家層面上制定多語言數字圖書館發展的總體政策框架,確立多語言數字圖書館建設的基本原則,為我國多語言數字圖書館建設提供戰略參照體系,為多語言數字圖書館建設創造良好的信息環境。
(1)多語言文化數字圖書館,主要滿足我國參與國際文化交流、傳播優秀傳統文化的戰略需要,如“亞洲數字圖書館”“絲路數字圖書館”等建設倡議就屬于這種類型。[11]多語言文化數字圖書館建設初期可以采用“擴散式信息生態鏈”,將我國優秀文化信息資源翻譯為多國語言文字版本,通過數字圖書館平臺進行對外傳播。隨著建設推進,可以在相關國家文化機構、語言文字工作機構的共同參與下,按照“網絡式信息生態鏈”的目標模式進行建設,最終建成多國語言文字文化資源交匯和交流的中樞平臺。
(2)多語言學術數字圖書館,主要滿足多語言學術著作、期刊等文獻信息資源的共享需求,主要承擔者有高校圖書館、文獻數據庫服務商等。[12]高等學校圖書館可以對其信息資源按照語種進行細分,對于以英語作為記錄語言的數字信息資源適當采用“并行式結構信息生態鏈”,由用戶自行檢索和閱讀;對于英語之外的非通用語種數字信息資源提供跨語言檢索服務,并盡可能提供漢語元數據或者摘要服務,以便用戶判斷資源主題的相關性。
(3)多民族語言數字圖書館,主要滿足我國民族地區多語言環境下的文化交流需求,增進各民族之間的溝通和理解。多民族語言數字圖書館建設的核心問題是處理好國家通用語言文字與少數民族語言文字之間的關系,多民族語言數字圖書館信息生態鏈在總體上可以采用“集成式結構”,對少數民族語言信息資源進行雙語著錄、雙語摘要甚至雙語翻譯,以國家通用語言文字為中介,將各少數民族語言信息資源聯結為統一的整體。[10]
多語言數字圖書館作為學術概念是統一的,是對眾多具有共同特征數字圖書館的統稱。然而,任何一個多語言數字圖書館的建設都面臨非常具體的應用情境,需要結合實際分析其信息生態鏈的結構類型,有針對性地選擇發展路徑。為此,需要對擬建設的多語言數字圖書館進行全面系統的需求分析,根據所涉及語言文字的種類、語言文字服務人員的數量、跨語言信息支持技術的發展水平、多語言用戶的數量及需求結構等信息綜合分析判斷,確定多語言數字圖書館的建設思路。例如,雙語著錄是我國少數民族語言信息管理的基本原則,對少數民族語言信息資源進行雙語著錄時,多語言數字圖書館信息生態鏈整體上呈現出“集成式結構”特征。但是,這種情況并不是絕對的,如果某一民族地區雙語教育發展水平較高,當地絕大多數居民可以同時使用兩種語言文字進行溝通交流,則數字圖書館信息生態鏈可以采用“并行式結構”,由用戶群體在兩種語言文字當中選擇任何一種進行信息檢索和閱讀。