●張靜

在馬斯克的Neuralink(腦機接口技術公司)爆紅之前,腦機接口已經被研究了四五十年,在用腦神經設備讀取大腦信息方面,霍金曾嘗試走在技術發展的尖端。
為了幫助霍金這樣喪失語言和行動能力的人表達自己,科學家們曾嘗試利用各種殘存的運動能力,從幾根手指到臉頰肌肉,從舌頭活動能力到口型表達。發展至今,研究人員想直接從大腦中提取信號,并將之轉述為文字或者操縱其他設備儀器。
Joseph G. Makin、David A. Moses 和華裔科學家Edward Chang 近日在《自然·神經科學》雜志上發表了一項腦機接口最新研究,他們發現了一種能夠以較高準確率解碼神經活動,并將其翻譯為句子的機器翻譯算法。
Edward Chang 有自己的實驗室Chang Lab,該實驗室位于美國加州大學舊金山分校,是一個專注于研究語言及語言障礙者的活動機制的實驗室。去年4 月,Edward Chang 等人還在《自然》雜志發表了開發出一種可以將腦活動轉化為語音的解碼器。這套人類語音合成系統,通過解碼與人類下頜、喉頭、嘴唇和舌頭動作相關的腦信號,并合成出受試者想要表達的語音。
“10 年前,科學家首次從人類大腦信號中解碼出語音,但是解碼的精度和速度遠低于自然語速。”論文作者稱。而其AI 解碼系統的最低平均錯誤率只有3%,優于人工抄寫5% 的錯誤率。約瑟夫·馬金對媒體說:“我們還沒有達到這個程度,但是我們認為這可能是語音假肢的基礎。”
語言是一種極為復雜的過程,在適當的時候選擇適當的詞匯,組成適當的句子并進行調整修改,最終發出適當的聲音。目前,直接從腦電波解碼語言的系統只能解碼單音節,或在志愿者連續念出近100 個單詞的情況下解碼40% 的單詞。

從大腦中提取信號是實現腦波控制的基礎
為了訓練他們的AI 以提高精確度和效率,3 位研究人員“聆聽”了4 名志愿者的神經活動。所謂“聆聽”,即在4 名癲癇患者腦中植入腦電極。研究人員向四名患者提供了50 個句子,讓他們大聲朗讀至少3 遍,研究人員錄了音頻并收集了神經數據。志愿者朗讀的句子諸如此類:“那些音樂家的和聲棒極了。”“她穿著暖和的羊毛工作服。”“那些小偷偷了30 件珠寶。”“廚房里一片混亂。”
為了提高腦機接口直接解碼語言的精度,研究人員利用了機器翻譯任務與從神經活動解碼語音的相似性。也就是說,和機器翻譯類似,解碼語言也是從一種語言到另一種語言的算法翻譯,兩種任務實際上映射到同一種輸出,即與一個句子對應的單詞序列。只不過,機器翻譯的輸入內容是文本,而解碼語言的輸入內容是神經信號。
在剔除語音數據中的噪音之后,這些收集到的數據被添加到循環神經網絡中,算法的任務就是分析收集到的神經數據,將規律性的神經特征表現出來,并最終具備對數據生成時所說的內容進行預測的能力。經過深度學習,研究人員的算法很快學會了預測與神經數據相關的單詞。部分句子的預測的誤差很小,但也有一些預測極不準確。
研究人員表示,用已在一名志愿者身上訓練過的算法去做訓練,會更具有優勢,也就是說,隨著訓練時間的增長和反復重復,AI 的訓練會變得更容易和精準。但是,還需要開展進一步的研究來更加完整地調查這個系統的功能,將解碼范圍擴展到研究所限語言之外。
清華大學醫學院神經工程實驗室洪波教授表示,這項研究的難點在于兩個方面:首先是采用了高密度微電極陣列,間距4 毫米,多達256 個電極,覆蓋大腦皮層表面的關鍵腦區,獲取了足夠的神經信息用于解碼。這種電極在國內尚沒有可用于臨床的產品;另外,研究中深度循環神經網絡的訓練,除了采用時間軸上的卷積操作提高特征提取能力,還把語音頻譜特征也作為訓練目標,大大降低了對神經數據量的需求。
通過直接記錄神經控制信號來合成語音或文字,是實現自然語言高通信速率的最直觀手段。這一技術可能將用于癱瘓患者、高位截癱患者和漸凍人等,也有助于為診斷和治療其他嚴重疾病提供解決方案。雖然還存在長效電極和解碼效率的問題有待解決,但正如洪波所言,以深度學習為代表的人工智能技術發展,為腦機接口打開一條應對該挑戰的新路徑。
Edward Chang 博士是加州大學舊金山分校的神經外科醫生,專門治療頑固性癲癇、三叉神經痛和腦瘤。他的科學研究專注于人類語音、運動和認知的大腦機制。他共同領導了加州大學伯克利分校和UCSF 的神經工程與假肢中心,該中心匯集了工程、神經科學、神經病學和神經外科領域的專家,共同開發最先進的生物醫學設備,以恢復神經障礙患者的功能。(摘自美《深科技》)