顧巨凡

【內容提要】近年來,隨著人工智能技術的不斷進步,國際傳播人工智能語料庫建設越來越成為涉及國家安全、意識形態和話語權建設的重要陣地,語料庫建設將為國際傳播領域推廣機器翻譯提供堅實的技術支撐,人工智能語料庫應用可有效提高對外傳播內容核心競爭力。中國外文局等專業從事多語種對外傳播工作的單位多年來積累了歷史語料儲備優勢、語種豐富度優勢、新媒體技術轉換優勢和人工及工作機制保障優勢。建設國際傳播人工智能語料庫應基于中國外文局自身資源建設國際傳播平行語料庫,聯合其他同質近似外宣新聞媒體等建設國際傳播比較語料庫并集成數據庫為機器翻譯和智能寫稿奠定基礎。
【關鍵詞】人工智能 語料庫 話語權 自然語言處理
隨著我國國際話語體系建設的不斷深入,國際傳播事業需要不斷優化傳播布局、拓展傳播渠道、完善機制平臺并深化融合發展,從而更好地對外傳播中國發展成就并積極影響對象國涉華輿論生態。為貫徹落實習近平總書記在黨的十九大報告中提出的要高度重視傳播手段建設和創新,提高新聞輿論傳播力、引導力、影響力和公信力,黨的國際傳播事業要抓住時機、把握節奏、講究策略,體現時度效要求等重要政策講話精神,外宣媒體需進一步強化信息化和語料庫功能服務,以更好地講好中國故事,對外展現真實、立體、全面的中國形象,綜合提高國家文化軟實力。國際傳播人工智能翻譯語料庫是指基于互聯網工作平臺,運用以神經機器翻譯技術為基礎的人工智能翻譯技術,對國際傳播等相關領域的語料資料進行數據化處理和加工,建立系統對外傳播黨政文獻、領導人著作、講話及外宣圖書、期刊雜志及網絡新聞宣傳內容為主的語料數據庫,并在此基礎上進一步建立國際傳播綜合人工智能語料庫。該工程是提升新一代人工智能科技能力服務黨的對外傳播事業的重要創新型舉措,是配合“十四五”創新技術舉措實施的有效組成部分,更是落實習近平總書記十九大報告講話精神的重要舉措。本文擬通過討論國際傳播人工智能語料庫建設的必要性與戰略意義、可行性與條件,進一步探討此類專門性國際傳播人工智能語料庫建設的途徑和方法。
一、建設國際傳播人工智能語料庫的必要性與戰略意義
(一)國際傳播人工智能語料庫建設是涉及國家安全、意識形態和話語權建設的重要陣地
近十年來,自然語言處理技術越來越成為國際競爭的新焦點。自然語言處理技術是引領未來的戰略性技術,世界主要發達國家將發展自然語言處理技術作為提升國家競爭力、維護國家安全的重大戰略,加緊出臺規劃和政策,圍繞核心技術、頂尖人才、標準規范等強化部署,力圖在新一輪國際科技競爭中掌握主導權。當前,我國國家安全和國際競爭形勢更為復雜,必須放眼全球,把自然語言處理技術發展放在國家戰略層面系統布局、主動謀劃,牢牢把握自然語言處理技術發展新階段國際競爭的戰略主動權,打造競爭新優勢、開拓發展新空間,堅持總體國家安全觀、堅決維護國家主權、安全、發展利益,有效保障國家安全。
我國日益提高的國際話語權建設需求與翻譯及多語報道人才培養不平衡不充分矛盾突出。因此,亟需建設大量收入優秀中譯外精準語料的數據庫,解放國際傳播翻譯寫作人力,并在實際工作中有效提高效率的綜合性服務平臺,為國際傳播能力建設解決技術和束縛生產力發展的瓶頸性障礙,促進我國政治話語權地位綜合提升,推動中華優秀傳統文化創造性轉化,創新性發展。目前,國際傳播專項語料庫建設雖具備基礎語料,但仍有大量語料資源散落,亟需整理整合。僅中國外文局外文出版社出版的《習近平談治國理政》一書,就涉及中、英、法、俄、阿、西、葡、德、日等21個語種,是十分寶貴的語料庫資源。從新中國成立之初至今保存的資料中陳舊性歷史資料為數不少,有些已經處于瀕狀態,亟待保護性開發整理。
按照黨中央、國務院部署要求,應搶抓人工智能發展重大戰略機遇,構筑我國人工智能發展的先發優勢,加快建設創新型國家和世界科技強國,為此,迅速發展人工智能將成為社會主義現代化的組成部分和重要體現。人工智能技術也有利于發展和改善創新對外宣傳方式,著力打造融通中外的新概念新范疇新表述,對外解讀傳播好新時代中國特色社會主義思想和中國智慧、中國方案,對形成富有中國特色的國際傳播話語體系、增強國際話語權具有重要現實意義、實用價值和長期效益。同時,建設國際傳播人工智能語料庫還將為我國國際傳播能力建設和國際話語權建設提供重要的智力支持和戰略研究保障。
(二)語料庫建設將為國際傳播領域推廣機器翻譯提供堅實技術支撐
我國日益提高的國際話語權建設需求與多語語料庫建設不平衡不充分的矛盾日益突出,國際傳播可應用的語料庫精準度差、專業性不強已經嚴重制約對外傳播工作對機器翻譯等新技術的使用。以中國外文局為例,新中國成立初期至今出版的多文版領導人著作及外宣期刊,含有大量珍貴且極具參考價值的多文版語料,但大多以檔案形式存儲,且由于出版年代久遠,紙質版資料保存難度逐年增加。因此,亟需對承載以習近平新時代中國特色社會主義思想為代表的領導人著作及此前幾代領導人著作、講話等珍貴黨政文獻做系統梳理,形成供國際傳播參考使用的大型多語種語料信息數據庫。此外,目前國內外市場的語料庫建設雖小有規模,如微軟、百度等,但涉及國際傳播領域的語料信息大多新聞專業性不強,意識形態、立場及語匯色彩不能有效地為我所用,因此,在應用人工智能及自然語言處理技術的前提下,設計建設外譯我黨執政理念、經驗成就等的精準智能輔助翻譯綜合基礎性語料庫,為國際傳播能力建設提供基礎性、支撐性技術應用已迫在眉睫。
(三)人工智能語料庫應用可有效提高對外傳播內容核心競爭力
語料庫建設將對大量語料資源進行快速、高效的有機整合,進行語料庫的深加工,實現語料庫的個性化服務,改變傳統對外傳播工作模式。建設過程中將會充分考慮到語料多樣性及語言的變化性,添加一些與對外傳播相關的詞匯并實時更新語料庫,以激發使用者的工作自主性和積極性,或可利用自主檢索手段解決翻譯過程中所遇到的問題,增強其對相關語言知識的理解,幫助使用者進行語料的歸納總結,增強翻譯能力。另外,語料庫的建設過程中將大量參照翻譯學理論及語言學理論,并在語料庫中加入大量詞條及翻譯實例,加強翻譯對于中外語言異同的理解,使其在更大范圍內方便譯員查閱相關資料及進行譯文校對,切實提高使用者的翻譯效率及翻譯質量。
(一)基于外文局自身資源建設國際傳播平行語料庫
國際傳播語料庫項目將全面梳理、收錄新中國成立以來各文版多語種《今日中國》(原《中國建設》)、《人民中國》等歷史性語料,形成中外文對照的平行語料庫,將20種語言文字出版的2000多種圖書、21種印刷版期刊和25種網絡版期刊做系統整理,按照政治經濟、外交軍事、民生文化等形成信息分類檢索功能,用于進一步翻譯或者機器翻譯研究。
(二)聯合其他同質近似外宣新聞媒體等建設國際傳播比較語料庫
可以通過語料信息關鍵內容檢索,建立相關語種、相近主題新聞資源庫。此階段工作擬與其他中央國家外事、外宣單位合作,如新華社、《中國日報》、中央廣播電視總臺、《人民日報》(海外版)、《環球時報》英文版等,廣泛收集相關語料內容,精細加工并做內容標引等,為人工智能搜集素材、寫稿奠定強大的語料信息基礎。
(三)集成數據庫為機器翻譯和智能寫稿奠定基礎
語料庫建設面臨的一大難題是歷史語料的處理,歷史語料庫中的內容需要對陳舊語言信息做過濾,需邀請幾十個語種專家,對語料庫內容做重新審校處理,邀請計算機和語言學雙料專家對語料進行分類及賦碼處理,合成具有先進人工智能搜索等功能的先進語料庫。在用戶屬性分析、信息個性化推送方面也將引入邏輯回歸算法及協同過濾算法等,對黨政機關外事部門、中央外宣媒體、科研教學機構等不同種類型用戶屬性做更細化的定位分析處理。未來語料庫將進一步豐富智能數據庫的信息資源,包括歷史外語語料的數字化、各類社會公共服務數據資源的接入等,并在此基礎上引入虛擬智能機器人技術,借助機器學習算法實現新聞標題、摘要、配圖的制定,進而實現新聞的自動生成。語料庫還將時刻關注中央機關及國家外事外宣部門主要國際傳播活動最新動向,不斷收集有關詞、固定搭配以及句子等。為了提高翻譯質量,該語料庫在收錄大量詞、句的同時還將深入挖掘其文化內涵并將這些詞匯、句子進行有機整合。
國際傳播人工智能語料庫工程是主動應對國際國內新形勢新需求,把握人工智能發展的重大歷史機遇,為維護和提升新時代我黨國際形象和對外影響力而實施的一項系統化工程。語料庫的建設將以掌握和提升當代最新政治理念全球發布的數量、速度和質量為總體目標,未來將主要服務于各國政黨、政要、智庫和其他研究機構以及我國黨政外宣外事主管部門、駐外使領館、大型“走出去”企業等。
作者:北京中外翻譯咨詢有限公司總經理
責編:李倩