“語言數據與數字經濟”多人談

2022-07-15 01:29:25黃少安汪張龍宋暉高寧姜國權饒高琦陳振鐸

語言戰略研究 2022年4期

關鍵詞：語言

黃少安汪張龍宋暉高寧姜國權饒高琦陳振鐸

“數字化”技術將大幅度提升“語言數據”的經濟價值

黃少安（山東大學經濟研究院）數字化經濟已經成為熱議話題，但是一些基本概念卻還沒有完全厘清。現在說“數據”是一種新的生產要素，這個“數據”不是抽象的“數字”，而是針對特定對象的、經過數字化處理的各種信息，其中既有數字信息，也有非數字信息。抽象的“數字”本身不可能成為生產要素。2019年11月發布的《中共中央關于堅持和完善中國特色社會主義制度推進國家治理體系和治理能力現代化若干重大問題的決定》中，“數據”第一次被官方文件納入生產要素并參與分配。2020年4月9日新華社正式刊發的中共中央、國務院《關于構建更加完善的要素市場化配置體制機制的意見》，提出“加快培育數據要素市場”，也是使用“數據要素”。官方文件的表述是精準的。但是仍然有很多文獻使用得不準確。“數字經濟”的準確說法應該是“數字化經濟”，屬于“信息經濟”時代的新階段，因為所謂“數字化技術”無非是信息技術的進一步發展，主要標志是互聯網的計算機技術、航天技術（通信衛星）和智能化技術。由于有了這些技術，人類對各種形態和性質的信息都能及時地海量地采集、處理、儲存、傳輸、分析和運用，從而才有了所謂的“大數據”。一方面，采集、處理、儲存和分析各種數據的數字化技術本身會催生許多公司和非公司性機構，形成數字技術產業化;另一方面，數字化技術和各種數據又會被其他產業廣泛運用，從而改造其他產業，即所謂的“產業數字化”。

數字化技術使得“語言大數據”成為可能，而且應用價值大幅提高。語言與蓬勃興起的數字化技術密切相關，確切地說，數字化技術在語言信息領域大有用途。過去對語言信息的采集、處理、儲存等，是十分困難而且難以準確的，用途也局限于一定領域。數字化技術普及后，許多工作變得可能和簡單，例如，可以建立多媒體、全語種、多維度的語言數據庫，語言的相關信息也可以形成大數據。關鍵是用途大大擴展，例如，利用語言大數據，分析語言對經濟增長的影響變得可能，語言扶貧（提高相應群體的語言人力資本）變得可操作，民族語言的經濟價值及其開發也變得可評估和可操作，語言資源的保護和利用也變得相對精準并能進行效用評估，語言產業蓬勃發展也將成為可能。

能否充分利用數字化技術形成語言大數據并進而同樣充分加以利用，關鍵問題之一是能否合理配置語言數據的產權。語言數據資源和數據產品的產權界定和保護，必須遵循效率與公平統一、以效率為主的總原則。具體原則是：第一，在數據分類基礎上分類界定產權，界定為私有、公有還是混合所有，不同類型的數據可能不同;第二，區分數據資源和數據產品，二者的產權界定應該不同或有不同的界定原則;第三，必須在產權保護（包括隱私保護）與數據高效利用之間尋求平衡。

智能技術助力語言培訓測試行業數字化轉型

汪張龍（科大訊飛股份有限公司）受制于技術限制，傳統語言教學與評測對人工特別是專家依賴度較高，難以實現精準化語言教學、個性化語言學習以及大規模語言水平評測。隨著人工智能技術的不斷發展和完善，語言數據對行業變革的影響也在逐漸加深，特別是在語言教育行業方面。

智能語音技術發展離不開語言數據。得益于語言大數據的獲取和累積、高性能計算能力的提升、深度學習算法的突破，以智能語音、自然語言理解等技術為代表的第三次人工智能浪潮興起。海量采集的語音數據，經過人工專家標注，基于深度神經網絡的機器學習算法，幫助智能語音技術真正走入到實用階段。如語音合成技術可以將任意的文字信息轉化為自然流程的語音，機器合成效果接近真人發音水平;語音識別技術可以將語音中的內容、說話人、語種等信息識別出來，目前識別準確率達到95%以上;口語評測技術可以對說話人的語音標準程度進行自動評測并給出科學反饋指導，中英文口語評測接近高水平專家的評分效果;機器翻譯可以實現多語種互譯，實現跨語言的自主學習。

智能語音技術促進了語言培訓測試行業的發展。在相關測試中，如國家普通話水平測試、中高考英語口語考試等，智能語音技術已得到廣泛應用，有效地保障了評分效果、提升了測試效率、降低了測試的組織難度，每年參加智能測試的考生超過1600萬。在語言培訓方面，基于全過程的語言數據采集，可實現動態學習評價，教師可精準把握學生學情，精準教學，實現“因材施教”。智能學習技術能夠為學生定制個性化語言學習方案，基于智能技術打造的語言教師，可以實時反饋學生的語言評測結果，幫助學生提升學習興趣和效率。如新疆和田皮山縣面向幼兒園、中小學、教師、農牧民等群體開展人工智能國家通用語言教學，半年時間內中小學生國家通用語言聽說能力人均分數提升10%，教師普通話測試平均分提高了24%。在全球中文推廣方面，教育部指導建設了“全球中文學習平臺”，平臺面向海內外中文學習者，提供個性化的學習資源和工具，學習者可以通過語音或文本輸入其母語內容，實時翻譯出中文并自動分句。平臺目前已覆蓋了182個國家，用戶超過618萬。

語言數據作為數字經濟的生產要素，將會不斷促進包括人工智能在內的新一代信息技術的發展，這些新技術在語言培訓測試領域的成熟應用，將不斷變革原有行業形態，幫助行業完成數字化轉型，促進相關產業成為數字經濟的一方支柱。

語言數據的優化與自媒體傳播效率的提升

宋暉、高寧（1.北京第二外國語學院文化與傳播學院/國家語言規劃與治理研究中心;2.浙江大學國際教育學院）閱讀量是自媒體的生命線。在大數據語境下，利用數據指導自媒體運營，可以有效提高閱讀量。當下自媒體平臺形式多樣，如微信公眾號、微博、B站、小紅書、抖音和快手等，我們以微信公眾號為代表做了考察。

運營者需要參照的數據分為運營數據和語言數據。運營數據是平臺自帶的數據即平臺內部的監測數據，和第三方提供的數據即平臺外部的評價數據。語言數據則是運營者根據內容生產需要抓取的數據。運營數據為我們在技術上運營公眾號提供了數據支撐。但如何獲取更多的閱讀總量則主要依靠語言數據來指導實踐。語言數據的抓取和分析是為內容服務的，在內容選擇受限的情況下，語言數據的應用主要表現在標題的設置上。一直以來，“標題黨”備受詬病，我們也認為運營者必須具有底線意識，不能為了博人眼球一味夸大甚至虛構標題，堅決抵制“假大空”標題。但同時我們應積極地從學理角度發現和總結自媒體標題的語言規律。筆者曾經就公眾號標題做過數據分析，發現標題的語言類型顯著影響公眾號的打開率。

第一，數字類標題打開率更高。我們曾對新榜某類公眾號閱讀量10萬+的文章進行過統計，其中標題含有數字的文章超過70%。

第二，懸疑性標題打開率更高。我們對某公眾號2020年11月推送的數據高點連線后發現，60%的題目包含疑問句，如“這些熱詞，你知道幾個？”“為什么中國人要講方言？這是我聽過最好的答案！”“北方人天天掛嘴邊卻不會寫的26個字，你認識幾個？”等。

第三，評價性標題和高識別度標題打開率更高。運營者常把個人情感、判斷嵌入標題中，構成評價性標題，如“意外”“淚奔”“瘋掉”“抓狂”“驚呆”等。識別度高的標題指包含受眾熟知的、影響力大的關鍵詞的標題。我們做過一個簡單的測試，將同樣內容的文章通過體量相當的兩個公號推送，使用評價性標題和高識別度標題，其打開率遠遠高于那些不用的。

當然，語言數據的功用，還可以通過分析標題音節的數量、句式句型特點發現標題制作的一些規律;在不考慮時效性的情況下，可以通過競品分析，獲取同一選題不同維度的內容等。

語言數據與運營數據是一種互為參照的關系，語言數據主要是負責內容制作提供服務，只有堅守內容底線，運營數據才能曲線“優美”;同時，運營數據的“美丑”又會倒逼運營者深挖語言數據。兩者不存在此消彼長，只有互嵌式的融合才能有力助推自媒體實踐。

2020年度國家社會科學基金重大項目“網絡空間社會治理語言問題研究”

語言數據助力數字絲綢之路建設

姜國權（首都師范大學國際文化學院）習近平總書記指出：“要堅持創新驅動發展，加強在數字經濟、人工智能、納米技術、量子計算機等前沿領域合作，推動大數據、云計算、智慧城市建設，連接成21世紀的數字絲綢之路。”語言數據是在人類運用語言文字交流思想的社會活動中形成的，用以進行統計、計算、研究、設計、分析、推理、決策等活動的語言文字數據，具有全球性、多樣性、基礎性、系統性、動態性等特征，連接著絲綢之路的歷史、現在和未來。高效順暢的語言數據交流和轉換應用可以為21世紀數字絲綢之路建設掃除語言障礙，是21世紀數字絲綢之路建設的關鍵要素和核心基石。

語言數據與共建“一帶一路”時空相伴、同向同行，不僅承載和體現著共建各方的現實需求，蘊含和表達著共建各方的發展愿望，描述和記錄著“一帶一路”建設進程，融入并呈現著共建“一帶一路”成果，而且業已成為鞏固互聯互通合作基礎、拓展國際合作新空間、促進共建國家民心相通的重要支撐。

“一帶一路”倡議提出以來，語言數據的研究應用在服務“一帶一路”倡議方面的成效不斷顯現。百度翻譯、騰訊翻譯君、科大訊飛文檔翻譯等一批基于人工智能、移動互聯網等前沿科技的數字化翻譯平臺，通過語言數據識別、轉換等信息處理，支持中文和俄語、阿拉伯語等多個“一帶一路”沿線國家語種之間的實時互譯，為服務“一帶一路”經濟文化交流提供了重要支持。

面向未來，以語言數據助力21世紀數字絲綢之路建設可以從以下幾個方面著眼：（1）統籌推進數字經濟發展和數字社會語言生態體系構建，加快“一帶一路”語言數據服務體系建設;（2）強化“一帶一路”語言數據資源共建共享，探索語言數據跨境安全有序流動的策略機制;（3）支持“一帶一路”語言數據資源開發和應用，創新語言數據應用模式和應用場景，推進語言數據標準化、規范化、便利化;（4）完善語言數據風險防控機制，強化語言數據安全保障和風險預警;（5）加強“一帶一路”語言數據相關學科建設和專業人才培養。

隨著語言數據理論研究和實踐應用的不斷發展，以及21世紀數字絲綢之路的數字基礎設施建設、產業數字化轉型、社會信息化發展、民眾數字素養提升，語言數據將匯聚鋪就21世紀語言數據絲綢之路，并在深化各方互信、促進理念認同、推進合作行動、形成務實成果等方面發揮更大作用，為創新推動數字絲綢之路建設做出新的貢獻。

挖掘古籍語言資源，助力文化強國建設

饒高琦（北京語言大學漢語國際教育研究院）中國是世界上古籍典藏最豐富的國家，據統計現存古籍20余萬種，其時間跨度、涉及領域和保存質量在全球皆無出其右。在現代傳媒出現以前，歷史、知識和傳統文化大部分以文字形式保存在古籍當中。作為文化大國的重要標志，古籍承載民族公共記憶，并潛移默化地塑造了我們的歷史認同和文化認同。就此而言，古籍是十分重要的語言數據資源，對古籍語言數據的開發對文化強國建設有巨大助力。我們要重視古籍的語言資源價值，并為此加強古籍智能化技術、數據、平臺的建設工作。

古籍的作用本質上是古籍中語言數據的作用。基于已數字化的古籍材料，眾多智慧應用如雨后春筍般快速涌現。如在歷史研究領域廣被使用的中國歷代人物傳記資料庫，支持了登科時空分布、文學家旅行圖景、儒學思想交流網絡繪制等成果。上海圖書館基于家譜這一特殊類型古籍，開發了中國家譜知識服務平臺，并構建了宗族源流、可視化遷徙、族訓、家訓變遷、傳承查詢等服務。這些成果和產品兼具科研和科普價值，社會效益和經濟效益俱佳。這些可以說都是古籍蘊含的語言數據開發利用所獲得的紅利。

然而若要持續受益，我們必須持續加強古籍整理及其數字化工作。新中國成立70余年來，共整理古籍38?000余種，但較之傳世古籍20余萬種，仍有巨大差距。差距同樣也是機遇。文字識別、自動句讀、智能分析等智能技術被紛紛應用于古籍整理。2022年“北京大學-字節跳動數字人文開放實驗室”研發古籍數字化平臺，利用智能技術加速古籍資源建設，預計3年就可以完成10?000種精選古籍的修復整理。以中華書局、上海古籍出版社和商務印書館等為代表的專業出版機構也紛紛投巨資組建專門團隊，打造古籍數字化出版、加工平臺。

然而，我們也應該清醒地看到，熱潮之下學界和業界對古籍語言資源的開發利用尚在起步階段。正如其他成熟領域中語言資源的開發進程，古籍語言資源開發也需要建設大規模數據基礎設施、廣泛開展技術評測活動、建立健全規范標準保障。在數據上，應探索建立公益目的、開放獲取、版權可控、受益共享的古籍數據平臺和系列開源工具集合。相關學術組織應積極規劃、聯合舉行具有公信力的智能處理技術評測。語言文字管理部門應當會同文化、宣傳部門組織研制面向歷史語言文字資源的語言規范、交換標準和技術標注，形成規范標準體系，引領學術、技術和產業發展。

總之，古籍是重要的語言文字數據載體。將古籍送入數字時代，并使其更好地發揮公共記憶、歷史鏡鑒和文明圖騰的價值，是數字轉型、智能轉型中學術界和產業界應承擔時代使命。

教育部人文社科基金“清末以來漢語報刊詞匯使用計量研究”（20YJC740050）

信息社會與人文社會科學知識生產

陳振鐸（杭州師范大學錢江學院）從2002年《布達佩斯開放獲取倡議》開始，在麻省理工學院誕生的開放式獲取技術逐漸成為國際普遍采用的科學基礎設施基本技術標準，加上互聯網技術本身的革新換代，形成一種信息社會的趨勢：在AI翻譯、語音-文字轉換技術以及互聯網神經大數據等技術加持下，各種傳統語言在知識傳播上的差異逐漸消除，各種語種和學科知識，包括各種歷史檔案文獻、學術活動信息，都得以流通使用，在巨型數字平臺中表現和“實”現。諸如生產、傳播和教育等本來分離的部分，能通過屏幕上的同一個平臺內實現，傳統的物理介質和空間載體不再占主導，甚至連生產的“后臺”過程也聚合到平臺中成為知識本身的一部分，所有流程變為一體的數字信息。

這種局面是現代大學和傳統出版誕生以來從未有過的局面，倒逼各種傳統力量加速轉型，出現幾條匯流：第一，傳統的全球商業型學術出版商布局數字出版，加速將原來的館配發行轉向開放式獲取，并生成了不同的收費和盈利模式;第二，歐盟中法、德等國介入保護公共資金的科研成果，并提出建設自己的公立開放科學基礎設施;第三，社會化和中小型商業化知識生產，抓住新技術賴以產生的創業群體、保持獨立或爭取新市場的學者以及傳統平臺轉型，形成了分眾的社會化平臺。無論大型出版商還是國家的科研基礎設施，或是各群體自建的平臺，都走向開放獲取或開放科學，出現雅克·埃呂爾所描述的“技術綜合體”形態，在3個層面逐漸統合為一體：“聽、說、讀、寫”統合;傳統的語種、學術語言和技術語言統合;口語、書寫和視覺語言統合。從社會學的角度，可以把它定義為一種基于話語表達權力的“語言技術綜合體”。

這也形成兩個基本趨勢：傳統私立大型出版商逐漸成長為一種巨型綜合體，控制公立學術生產的各方面，公共資金資助的科研成果變成巨型綜合體的抽象產權;英語和信息技術發達的美國成為世界各種語言和科研的中心樞紐。這種全方位的巨型綜合體在機制上是為私利還是為公益;是閉合還是開放;是讓技術服務資本或技術本身，從而異化人，還是作為工具服務人，促進知識的傳播與進步：這是信息社會時代人文社會科學知識生產的主要挑戰。

國家層面建設整體的開放科學基礎設施，保護公共科研的公共屬性和本國語言的知識生產，是個體和集體抵抗這種巨型技術綜合體的一條出路。歐盟已經開展實踐，以法國國家開放文獻中心為例，國家投入資金、制定標準和規則，涉及知識生產的各主體平等參與、自主建設，形成四位一體的統合局面：公共資金建設的高校、科研機構的學術信息展示;公立大學和學術出版社以及小型獨立學術出版社的學術圖書出版;各種學術期刊的發布;所有參與主體實時更新的學術活動。這是中國人文社會科學在開放科學基礎設施建設方面的一種可資借鑒的方向。

責任編輯：王飆