對于數百萬失聰者來說,唇讀可以提供一個與外界交流的窗口。但這種做法很難,結果也往往不準確。現在,研究人員編寫了一種新的人工智能(AI)程序,其性能優于專業的唇讀者,且錯誤率僅為之前最佳算法的一半。
“這是一項了不起的工作。”未參與該研究的英國倫敦瑪麗皇后大學計算機科學家Helen Bear說。
編寫可以閱讀唇語的計算機代碼令人抓狂。因此,在新研究中,科學家向機器學習“求助”,讓計算機從數據中學習。他們為該系統提供了數千小時的視頻和抄寫本,并讓計算機自己解決這個問題。
該項目始于14萬小時的YouTube視頻,視頻展示了人們在各種情況下進行的交談。然后,研究人員設計了一個程序,通過每個音素或單詞聲音的嘴部動作創建幾秒鐘的剪輯,并帶有標注。該程序過濾掉了非英語語音、非講話者面孔、低質量視頻和未直接拍攝的視頻。然后,他們裁剪了講話者嘴巴周圍的視頻。這樣產生了近4000個小時的錄像,包括超過12.7萬個英文單詞。
此外,該過程部分依賴于神經網絡。AI算法包含許多連接在一起的簡單計算元素,這些元素以類似人腦的方式學習和處理信息。當研究人員為該系統提供未標記的視頻時,這些網絡會裁剪嘴巴動作片段。系統中的下一個程序也使用了神經網絡,為每個視頻幀提供了可能的音素列表及其概率。最后一組算法將可能的音素序列進行整理,并生成了英語單詞序列。
經過訓練,研究人員用它之前沒有看過的37分鐘的視頻測試了該系統。他們在發布于arXiv網站的論文中報告說,單詞錯誤率僅為41%。
這個成績可能聽起來并不怎么樣,但之前最好的算法——專注于單個字母而不是音素——的錯誤率為77%。在同一項研究中,專業唇讀者的錯誤率為93%(盡管在現實生活中他們能參考語境和肢體語言,這有助于讀唇)。這項工作由總部位于倫敦的人工智能公司DeepMind完成,但該公司拒絕就這一記錄發表評論。