敖顯奎

霍金在坐上輪椅后,一開始還能通過手指敲打鍵盤來輸出文字,后來手指無法運(yùn)動(dòng)了,曾想過利用眼球耕作和腦電波識(shí)別技術(shù)來幫助輸出信息。但最后由于病情和技術(shù)的問題,沒能完成,轉(zhuǎn)而使用紅外探測眼鏡,這已是當(dāng)下最先進(jìn)的語言合成技術(shù)了。霍金直到最后都沒能直接將自己的腦電波直接轉(zhuǎn)換為語言,不過這一技術(shù)在不久的將來即將到來。我們從另一個(gè)角度,繼續(xù)探索“腦機(jī)接口”。
要讓腦電波開口說話,需要讓腦電波與字母之間建立聯(lián)系。因此“打字”是一個(gè)繞不開的話題。2018年世界機(jī)器人大會(huì)上,清華大學(xué)研發(fā)的“動(dòng)態(tài)窗穩(wěn)態(tài)視覺誘發(fā)電位腦機(jī)接口系統(tǒng)”向參賽者們提供了這樣一個(gè)競賽平臺(tái):將注意力集中到電腦屏幕上的虛擬鍵盤中的字母上,腦電波就會(huì)被捕捉,對(duì)應(yīng)的字母就會(huì)顯示在屏幕上。
這種視覺打字系統(tǒng)是一種視覺誘發(fā)電位的打字系統(tǒng),虛擬鍵盤中每一個(gè)目標(biāo)字符在運(yùn)行過程中都會(huì)有特定的頻率去閃爍,目標(biāo)頻率都不相同,當(dāng)我們注視目標(biāo)的時(shí)候,大腦的枕區(qū)視覺皮層附近,會(huì)產(chǎn)生對(duì)應(yīng)閃爍頻率的腦電波信號(hào)。刺激不同,響應(yīng)不同。所以可以通過采集人的腦電信號(hào),找到相對(duì)應(yīng)的目標(biāo),從而實(shí)現(xiàn)打字。該項(xiàng)目的主導(dǎo)人表示,這一系統(tǒng)平均正確率能達(dá)到91%。這種輸入效率,大概等于正常人每分鐘手寫28個(gè)英文字母的水平,最快的人每分鐘能打出60個(gè)字符。
事實(shí)上,這一系統(tǒng)的原理跟霍金的紅外眼鏡有相似之處,紅外眼鏡是根據(jù)霍金的一小塊肌肉來捕捉信號(hào)的,二者都是通過人堆字母的強(qiáng)烈反應(yīng)而實(shí)現(xiàn)語言的輸出。當(dāng)然,霍金的紅外眼鏡設(shè)備成熟得更多,打字效率也就更快。

“動(dòng)態(tài)窗穩(wěn)態(tài)視覺誘發(fā)電位腦機(jī)接口系統(tǒng)”想要步入下一階段,需要解決的還是“敏感度”的問題——腦電波是非常敏感而且活躍的。一方面人如果注意力無法高度集中,系統(tǒng)就將很難對(duì)字母進(jìn)行定位;另一方面人的大腦在看到字母的時(shí)候往往會(huì)不由自主地產(chǎn)生聯(lián)想,比如看到“c”會(huì)想到“copy”或者“car”等詞,這也會(huì)對(duì)系統(tǒng)識(shí)別產(chǎn)生干擾。另外,相比于英語,漢語還要經(jīng)歷更多的轉(zhuǎn)換,需要耗費(fèi)更多的時(shí)間。
目前業(yè)內(nèi)的腦電波語言轉(zhuǎn)化主要分為四大步驟:樣本收集、信號(hào)轉(zhuǎn)化、虛擬聲道、輸出。
第一個(gè)步驟樣本收集易于理解,它需要幾率不同語言文字在大腦區(qū)域內(nèi)的活動(dòng)信號(hào),建立一個(gè)數(shù)據(jù)庫,以供后續(xù)的映射使用。這一數(shù)據(jù)庫的建立的“健全度”直接影響了腦電波轉(zhuǎn)換語言的準(zhǔn)確度。這其中還得考慮同一單詞的不同讀音、語調(diào)等。想要建立一個(gè)“通用”的數(shù)據(jù)庫,難度十分巨大。
第二步驟通過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的不斷學(xué)習(xí),研究者將大腦神經(jīng)信號(hào)轉(zhuǎn)換成了發(fā)音器官動(dòng)作的信號(hào),這些信號(hào)與發(fā)音器官的動(dòng)作直接相關(guān),比如嘴唇、下巴、舌頭、喉嚨等。
不過,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題一直都是讓業(yè)界頭痛的問題,它所涉及的內(nèi)容十分復(fù)雜。目前普遍的現(xiàn)場是雖然語音輸出的速度很快,但也只有一半的句子會(huì)被識(shí)別出來。
第三步,虛擬聲道。虛擬不同聲音所產(chǎn)生的聲道運(yùn)動(dòng),就像漢語中雙唇音、唇齒音、舌尖中音等所需要調(diào)動(dòng)的不同發(fā)音部位一樣,正常來說,如果模擬的發(fā)音運(yùn)動(dòng)模式和人正常說話時(shí)一樣,那么所發(fā)的音也一定是一樣的。這一步弄好了,接下來就可以輸出了。(編輯/侯幫虎)