劉鴻宇 LIU Hong-yu;付繼林FU Ji-lin;王珍珍 WANG Zhen-zhen
(燕山大學外國語學院,秦皇島 066004)
近年全球頂尖科技公司紛紛布局元宇宙。“數字人”作為聯結元宇宙和物理世界的關鍵要素,已成為家喻戶曉的技術熱詞。2021年英偉達CEO 黃仁勛在GTC 大會演講中使用了14 秒自己的數字替身,竟然無人察覺。國外頭部科技公司的數字人技術已經到了“數”“實”難辨的高度。其實,多樣化的數字人產品在我國電視臺、電商平臺、企業門戶等也已紛紛出爐。例如,央視主持人撒貝寧的數字替身小小撒、抖音平臺的數字人美妝博主柳夜熙、B 站的虛擬歌手洛天依,百信銀行的數字人員工AIYA。2022年北京和張家口冬奧會前后,更是涌現出多位手語AI 主播,手語數字人盛況空前。據量子位白皮書預測,我國數字人整體市場規模到2030年將高達2703 億人民幣。[1]本文關注我國頭部科技公司的手語數字人產品,研究其領先的手語數字人技術及智能應用,探究手語數字人技術的未來。
數字人是一個概括性說法,它有動畫替身、數字虛擬分身、阿凡達、虛擬人、虛擬數字人、動畫虛擬人,與碳基生命(地球生物)相對應的硅基生命(人工智能產品)等不同稱呼。數字人,從技術層面定義,是指借助不同科技的聚合,例如,采用計算機圖形學、語音合成技術、深度學習、計算科學、機器翻譯、類腦科學等一系列數字化和智能化技術,打造而成的具備人類外觀、行為,甚至思維的虛擬形象。[2]手語數字人是指除了具備以上數字人特征外,這一虛擬形象還能夠駕馭手語生成和(或)手語識別功能,具備手語數字腦,像手語使用者聾人一樣,通過手勢動作、面部表情、身體姿態進行信息傳遞與交互。圖1 是我國當前最有代表性的手語數字人產品和他們的制造團隊情況。

圖1 頭部企業的手語數字人產品、科技團隊、智能平臺
從圖1 可見,手語數字人產品是資金、AI 技術、手語知識和手語廣播資源投入的結晶。在我國高科技企業(如百度、華為、騰訊、搜狗)、高校研究院所(如清華大學、中國科學院)、媒體公司(如中央電視臺、北京衛視)、聾人團體、手語專家多方協作下,我國手語數字人制作呈良好的協作發展態勢,手語數字人技術成果斐然。
①手語數字人的制作流程。打造手語數字人要有形象設計、面部人體建模、動作捕捉、形象驅動、成品渲染等環環相扣的五步。我國手語數字人設計和建模技術已頗為成熟。從效果看,百度4D 掃描技術下的AI 手語主播(圖1)形象近乎完美,五官逼真,表情、手背細節令人震撼。從效率上看,華為的全屬性特征識別AI 算法技術,掃描一張照片之后僅一秒就能生成靈動的卡通數字人。我國手語數字人主要采用慣性動作捕捉、光學動作捕捉、計算機視覺動作捕捉,以及綜合運用以上方法,來實現對面部、手部、肢體等動作的捕捉。慣性動作捕捉是借助慣性傳感器來采集人體特定骨骼點的數據。光學動作捕捉是在手語模特身上粘貼能反射紅外光的馬克點,通過攝像機追蹤馬克點的反光來捕捉肢體動作信息。運用計算機視覺技術進行動作捕捉時,手語模特無需穿戴設備,計算機借助高速相機的多角度拍攝來捕捉、跟蹤、定位手語模特的多場景骨骼動作變化情況。下一步是將動作捕捉后的空間信息數據與構建好的模型綁定,進入驅動流程。我國手語數字人的驅動以AI 算法驅動為主。驅動是模型、算法、參數、訓練、微調的聚集地,它需要大量核心技術的支撐,包括云計算模型訓練,語音語義匹配算法模型、行為算法模型、表情算法模型、神經網絡學習、神經機器翻譯等。模型之間的映射關系建成后將實現AI 驅動。最后成品渲染步驟是把計算機制作的手語數字人模型投射到現實屏幕,對數字人外觀做精度調整。它對計算機硬件、渲染引擎、計算機圖形學技術、算力供給、云技術等均有很高要求。[3]我國手語數字人正努力實現實時、低延遲的渲染。
②手語數字人的技術實現。以智譜AI、凌云光、清華大學、北京衛視手語數字人“華同學”(圖2)為例,它借助多種模型和算法,是AI 技術集大成者。據智譜AI 技術說明[4],華同學是以1.75 萬億參數的悟道2.0 為底座,悟道2.0 是一個超大規模智能語言模型,它的核心技術創新是調用多個預訓練模型,將多個專家網絡引入神經網絡。手語數字人團隊首先借助通用語言模型(General language model,GLM)預訓練模型,對輸入的中文語音文本進行語義蒸餾,再利用神經機器翻譯mBART(multilingual Bidirectional and auto-regressive transformer, 多語言雙向自回歸預訓練生成模型)模型、序列到序列(seq2seq)模型對獲得的語義進行AI 手語分詞快編,將中文信息翻譯為手勢詞序列。在mBART 模型中,華同學團隊還創造性地引入對比學習,通過預訓練和微調,使手語這種低資源語言機器翻譯的性能得到提升。將所獲的手勢詞序列與中國手語手勢動作庫的元素相映射,得到手勢詞ID 序列,ID序列激活對應的表情-動作-手勢,借助跨模態擬人生成技術,使華同學的手勢詞序列做到表情、動作、手勢同步,最后采用能夠使語音流、字幕流、影像流同時輸出的音字人實時同步對齊技術,實現華同學在電視、網絡等應用終端的實時手語主播功能。

圖2 手語數字人“華同學”的技術實現
③手語數字人的核心技術和技術創新。手語數字人發揮性能主要依靠AI 手語翻譯引擎。圖3 是華同學在AI 分詞快編及機器翻譯中應用序列到序列(sequenceto-sequence,seq2seq)的技術原理。編碼器從輸入的中文句子中提取特征向量,每輸入一個中文字符,編碼器都會更新狀態,編碼器(長短時記憶,LSTM;或其他循環神經網絡,RNN)將最后一個狀態hm作為輸入信息輸入到解碼器,解碼器將hm作為它的初始狀態,并更新狀態到S1,解碼器對下一個字符進行預測,得到概率P1,通過概率抽樣生成字符Z1,將Z1作為初始狀態輸入到解碼器,得到更新狀態S2,解碼器給出概率P2,預測生成下一個字符Z2,模型不斷重復此過程,不斷更新狀態,當解碼器最終抽選到終止符<EOS>時,它知道<EOS>是該句結尾,解碼器將返回與輸入序列相對應的整個字符串,得出該輸入序列的機器翻譯結果,完成該句的翻譯。在預訓練階段,模型通過標簽向量y 和概率P 來計算交叉熵損失函數,損失函數將梯度反向傳播給解碼器、編碼器,進而更新模型參數,盡量使損失函數和梯度不斷變小,以此不斷提高模型性能。[5]圖4 是華同學團隊向mBART 模型引入對比學習的技術原理。以華同學翻譯智譜AI 張鵬CEO 的新聞采訪話語“能力可能接近中學水平”這句漢語為例,為提高模型的泛化能力,向輸入序列添加大擾動使模型生成近似正樣本【能力中學差不多】,添加小擾動使模型生成負樣本【力量一般中學接近不是】,使數據增強后的近似正樣本與真實樣本盡可能相似,使負樣本與真實樣本的相似度最小,最終模型輸出目標語言【能力水平中學接近】。引入對比學習的mBART 模型BLEU(翻譯結果和標準文本的匹配度[6])分值可達0.35 以上,翻譯質量得到明顯提升。華同學的跨模態擬人生成技術主要用到基于博弈論的生成對抗網絡(Generative Adversarial Network,GAN)。

圖3 AI 分詞快編中運用Seq2Seq 模型

圖4 在mBart 模型中引入對比學習
當下我國手語數字人的智能應用主要落地于新聞媒體、教育、大型賽事及大型會議等三個主要場景。冬奧會后,曾擔任冬奧主播的智譜AI 手語數字人華同學,作為冬奧遺產繼續服務社會。當前華同學已開設專門的視頻號和公眾號,前者對國內外新聞時事進行播報,后者分享手語數字人進展要聞,教公眾手語,在新聞宣傳和教育領域繼續發揮作用。卡塔爾世界杯賽期間,華同學升級迭代,用手語為足球愛好者播報足球賽事。華同學還在小程序“手語AI 詞典”中充當手語模特,幫助學習者學習手語詞匯和句子。其他手語數字人也發揮重要作用。華為的手語數字人小語在華為開發者大會上,對會議內容進行全程實時手語傳譯。騰訊的3D 手語數智人聆語與知名主持人楊瀾搭檔,共同主持2022 中國互聯網公益峰會。千博信息開發的手語教考一體機已走進很多特殊教育學校,該系統可完成手語識別,對學習者的手語進行測評,可用于教學目的,輔助學生學習與練習手語。
與以上較為成熟的應用場景相比,我國手語數字人還在以下兩個方面展露身手。在藝術傳媒領域,搜狗的手語數字人小聰與中國聾人協會合作推出手語AI 歌曲《萬疆》,一展手語數字人的藝術才能。在市政服務方面,中國科學技術大學信息學院教授周文罡團隊正與安徽合肥市政服務熱線12345 合作,籌建手語數字人智能問答系統,將用于合肥政務咨詢視頻手語熱線。
其他民生領域也是手語數字人的新藍海。全球中度及以上聽力障礙人口有4.3 億,[7]人數預示市場規模。在教育、醫療、就業、社會保障、住房、食品安全、環境保護和交通等民生領域,我國手語數字人服務的落地可以填補真人手語譯員匱乏和手語服務的空缺。交通領域,在百度搜索引擎輸入“聾人駕駛員”,截滿76 頁后仍不乏訊息。可見隨著我國經濟發展,網約車隊伍已涌入大批聾人司機,各地駕駛員培訓學校涌現大量聾人學員,私家車聾人駕駛者逐年增多。交通工具智能端將有巨大的手語數字人應用潛力。醫療、養老方面,手語數字人對適聾適老需求的呼應也將為其贏得應用空間。以CT 和X 光等大型醫療檢測設備為例,在做CT 或X 光檢測時,聽人體檢者能得到“何時呼氣,何時吸氣”的聲音指令,而聾人聽不到聲音。如果這些醫療設備配有可視化的手語數字人技術,或者在檢測前有手語數字人全息影像提示“紅燈亮呼氣,綠燈亮吸氣”,那么醫療檢測中的溝通難題將迎刃而解。手語數字人技術綁定不同工業產品和消費產品,將極大拓展其智能應用場景,提升生產生活的數智化水平。
從技術方面,隨著AI 技術不斷發展,算法、算力不斷提升,投入手語數字人技術的資金、資源不斷增多,我們對手語數字人技術的發展充滿信心。可以通過在編碼器中引入雙向長短時記憶(Bi-LSTM),借助多任務學習,更好地運用注意力機制,引入專家系統,運用生成對抗網絡的改進模型(如W-GAN)[8]等來嘗試提升手語數字人的性能。手語數字人技術的挑戰是現實的。所幸當前已有非常優秀的手語翻譯研究團隊[9]、手語計算研究團隊[10]、手語自然語言理解研究團隊[11]對手語翻譯、手語機器翻譯技術落地、手語計算研究中的重難點做了縝密的研究和匯報,指出手語多信道語法、分類詞空間特征、手勢詞和非手控語法標記對齊等技術突破口。手語研究者團隊也對手語本體研究作出豐厚的知識貢獻,[12,13]幫助開發者和學習者更好地了解聾人手語。相信在多方協作下,我國手語數字人技術將有更大的飛躍。
從智能應用方面,手語數字人將伴隨我們走入“數”“實”融合的新世界。新聞媒體領域,教育教學領域,國際國內盛會等訊息溝通領域,交通、醫療等基本民生領域將看到更多手語數字人的身影。未來,手語數字人技術可以綁定更多智能產品,如手機、平板、電腦等電子通訊產品,可綁定私家車、公共汽車、高鐵等交通工具的智能終端,幫助聾人實現無障礙溝通,智慧出行。可綁定大型醫療設備,推動產品產業的數字化變革和無障礙進階。可部署到市政部門和小區服務臺、社區和物業功能房,實現全方位的語言、信息、環境無障礙,打造聾人和聽人共享科技進步成果的數智新時代。