孟慶林, 牟宏宇, 平利川, 陳洪斌, 鄭能恒, 李霞, 馮海泓
?
人工耳蝸非實時研究平臺開發與驗證
孟慶林1,2, 牟宏宇2, 平利川3, 陳洪斌3, 鄭能恒1, 李霞1, 馮海泓2
(1. 深圳大學信息工程學院,廣東深圳518060;2. 中國科學院聲學研究所東海研究站,上海200032;3. 浙江諾爾康神經電子科技有限公司,浙江杭州310011)
人工耳蝸幫助超過40萬人恢復了部分聽力,但其性能仍有較大提升空間,且電聽覺機理仍有待進一步揭示。針對諾爾康人工耳蝸系統開發了非實時研究平臺。為了驗證平臺的有效性,對成年植入者開展了電聽覺基礎心理物理實驗(位置音高和包絡音高)和噪聲中的言語接受閾測量實驗。心理物理結果顯示,被試者可以按照電極位置從蝸尖到蝸底或按照幅度調制頻率從50~200 Hz,產生音高上升的感覺。言語測試顯示,基于該平臺實現的策略,能提供與臨床處理器相當水平的噪聲中言語接受閾。該平臺可以幫助研究者快速開展電聽覺心理物理和信號處理策略方面的研究。
人工耳蝸;電聽覺;音高;言語接受閾
人工耳蝸(Cochlear Implant, CI)通過植入耳蝸內的電極直接刺激聽神經來幫助重度以上聽力損失者恢復部分聽覺能力。CI作為目前最成功的神經假體,全球已經有超過40萬植入者。在上世紀90年代初以后,由于信號處理策略等方面的改進,大多數植入者,尤其是在幼年植入的先天性耳聾者,能夠獲得一定的開放式言語交流能力,進而融入正常的社會活動中。
雖然CI已經取得了巨大的成功,但是CI植入者的聲音感知效果與正常聽力者仍有較大差距。即便在安靜環境下的一對一交談中,較快的語速、吐字發音不準確、小聲說話或耳語等都會對植入者的言語理解產生障礙。CI植入者對于音高的分辨(影響到音樂旋律識別、聲調識別)、音色和環境聲的識別、聲源方向的辨別都明顯弱于正常聽力者。還有一個經常困擾他們的問題是,噪聲環境下的言語識別能力較差。這些都說明在電聽覺技術方面還有許多工作需要做。
CI除了是一種有效的聽覺輔助設備,它也是最成功的腦機接口[1],為研究聽覺機理提供了全新的平臺[2-12]。在常規的聲刺激聽覺研究中,聲信號在耳蝸中是從蝸底向蝸尖傳播的,CI電刺激模式則完全不同。時間信息和位置信息在CI電刺激中可以實現獨立編碼[3]。通過CI可以明確地對基底膜上不同位置附近的聽神經細胞群產生刺激,且可以人為精確控制每個電極位置上的電信號時域形式。圖1展示了現代CI電脈沖序列的基本刺激形式,其中每根豎線代表一個電脈沖。對于單個脈沖,幅度越大,產生的有效電流擴展可能越廣,進而可能刺激到更多的聽神經細胞。對于電脈沖串,以音高感知為例進行分析,包括位置音高、速率音高和包絡音高。位置音高是指,刺激不同的位置產生不同的音高感知,通常音高從蝸底向蝸尖逐漸降低。速率音高是指,單個電極位置上,更高的刺激速率可能產生更高的音高感知。包絡音高是指,單個電極位置上脈沖幅度的時域包絡的波動越快可能產生更高的音高感知。其中,速率音高和包絡音高被認為是時域音高。現代CI中,位置音高和時域音高都起著作用。位置音高的音高跨度更大,時域音高的跨度較小。
圖1中每個抽象電脈沖的最常見的實際波形形式是正負雙相電流脈沖,如圖2所示。以上提到的這些電刺激參數的變化與感知,都已經得到了很多的研究,例如文獻[2]和[7]。但是仍有很多未知的領域有待探索。
綜上,CI聲音感知性能亟待提升,電聽覺機理仍有大量可探索領域,另外還考慮到中國語言與西方語言的差異,有必要在中國開展更多基礎電刺激聽覺研究。本研究開發了一套基于國產諾爾康CI系統的非實時研究平臺。利用這個平臺,可以對新的信號處理算法進行快速的實驗驗證,也可以高效地開展電聽覺心理物理實驗研究。
根據研究需要,我們選擇了國產諾爾康人工耳蝸系統作為平臺連接對象。主要原因是國產人工耳蝸公司對我們的技術開放程度更高,且諾爾康系統已經有了較多植入者(截止2015年7月已有超過2000名)。諾爾康CS10-A型植入體有一個板狀鉑參考電極、一個環狀鉑參考電極和24個(蝸內)電極觸點。植入體中的刺激芯片包含4個獨立電流源,能夠讓兩個電極同時刺激以構建虛擬通道,也可以實現更為復雜的電脈沖波形形式。單通道刺激速率上限為20 kpps(pulse-per-second, 每秒脈沖數)。刺激電流的范圍是0~1904 μA,按照公式(1)進行256級編碼(用表示,稱為電流單位CU)。根據最早60例臨床成年植入者的測試數據(包括客觀阻抗測量、主觀閾值和舒適閾測量、主觀言語評估),該系統顯示出了與市場上其他產品相當的性能[4]。這說明該系統工作正常,可以參考基于其他產品系統的已有成果進一步開展研究工作。

非實時研究平臺的框圖如圖3所示。通過計算機將某個有限長度的聲音進行處理,并編碼為電極放電參數數據,然后將這些數據通過調試盒發送到實驗用言語處理器,最后由實驗用言語處理器將數據通過射頻通信發送到植入體中,由植入體生成指定的電流脈沖刺激。在臨床使用的言語處理器中,DSP算法是用匯編語言編寫的,并且可利用的計算和存儲資源極其有限。相比而言,利用非實時研究平臺的優點是,研究者可以快速驗證采用高級編程語言(MATLAB、C等)實現的信號處理算法的效果,不受編程語言、硬件資源的限制[5]。在過去五年多的時間,我們開發了兩個版本的非實時研究平臺。
版本1:用于基礎心理物理測試,可以實現對1個通道的電脈沖信號進行精確控制,也可以對2個通道進行同步脈沖刺激以實現虛擬通道。可以調節的電刺激參數包括:電極通道號、刺激模式(根據回收電流的參考電極的不同劃分,包括雙極模式BP,單極模式MP1、MP2和MP1+2。BP和MP的示意圖見文獻[6]的圖1。MP后面的數字,1代表使用板狀參考電極,2代表使用環狀參考電極)、刺激速率(10 pps ~10 kpps)、雙相脈沖的正負脈沖先后順序、每個脈沖的電流幅度(0~255個CU)、脈沖寬度(0~512 μs)、正負脈沖間隔(0~32 μs)。
版本2:主要用于信號處理策略研究,也可以用于進行幅度調制(即時域包絡)方面的基礎心理物理測試。每個電極通道的相鄰脈沖間刺激間隔固定為960 μs(對應刺激率為約1042 pps),脈沖寬度為25 μs,正負脈沖間隔為5 μs,刺激模式固定為單極模式MP1+2。每隔960 μs從植入者的全部可用的個通道(至多為24個)中按照一定規則選擇個通道(不多于8個)產生刺激,不同通道間以間隔刺激的模式避免通道間干擾。每960 μs中的個通道的數據被稱為“一幀”數據。在不同幀中可以選擇不同的通道產生幅度在0~255 CU的雙相脈沖。利用這些特性可以實現經典的-of-策略。例如,澳大利亞科利爾公司的高級混合編碼(Advanced Combination Encoder,ACE)策略和浙江諾爾康公司的高級峰值選取(Advanced Peak Selection,APS)策略都屬于-of-策略。
通過對植入體測試板上電極的實際電流輸出進行測量,驗證了輸出的電流脈沖參數符合預期。其中植入體測試板的作用是將某個合格植入體的電極信號人為引出,可以用示波器或數據采集卡觀察每個電極的放電情況。
進一步通過主觀實驗驗證平臺的有效性。3.1和3.2節的基礎心理物理實驗,在之前已有文獻對其過程進行了詳細記載[7~9],這里僅作與本文有關的簡要介紹。3.3節中為本研究中剛剛開展的策略評估工作,做了詳細介紹。以下實驗中的CI植入者在雙側耳均無可用殘余聽力。
3.1 基于版本1的基礎電聽覺心理物理實驗
平利川等人[7]對4位言語表達能力良好的成人語后聾植入者開展了位置音高排序實驗,即讓被試者比較相鄰電極間的音高高低,通過測量音高靈敏度()的心理物理方法來進行度量。結果發現從蝸尖到蝸底,隨著刺激位置的變化,4位被試者均可獲得從低到高的音高感知變化,但靈敏度的個體間差異較大(見文獻[7]的圖1)。隨后,平利川[8]還對6位植入者開展了速率音高和虛擬通道音高的測量,初步發現,諾爾康系統能夠提供一定的速率音高分辨和虛擬通道音高分辨,相比于位置音高,這兩方面的靈敏度較弱。平利川[8]提到測量時需要嚴格控制響度等因素的影響。
3.2 基于版本2的基礎電聽覺心理物理實驗
采用版本2平臺開展的第一組實驗是,對7位植入者(s1~s7)進行包絡音高排序測量。其中s1、s5、s7是“明星”植入者,即他們的言語交流能力明顯高于平均水平。測量方法是,對每位被試者在蝸底、蝸中、蝸尖區域分別選擇一個電極,在每個電極上讓其比較兩個正弦幅度調制信號的音高高低,其中兩個正弦幅度調制信號的調制頻率為50、80、100、200 Hz中的相鄰配對。最后通過累積音高敏感度來表達結果,如圖4所示。圖中1、2、3分別代表蝸尖、蝸中、蝸底三個電極位置上各自得到的回歸曲線的斜率。單位是10–2/Hz。注意:每條回歸線的截距是實驗時我們將50 Hz點與10 Hz點比較后得到的一個敏感度值,在此處不表達任何含義,讀者只需關心斜率的差別。圖4結果顯示,“明星”植入者可以在三個電極位置上都獲得一致的包絡音高排序能力,即調制頻率越高對應的音高越高。另外,對于大部分植入者(除了s4)都可以在蝸尖位置獲得一致的音高排序能力。更多細節可以參閱文獻[9]的第三章。3.1和3.2的兩個實驗說明本研究平臺可以用于開展人工耳蝸電聽覺心理物理研究。
Fig 4 Envelope-pitch raking results for the seven cochlear implant subjects (s1~s7): cumulative pitch sensitivity measureand the corresponding linear regression line.
3.3 基于版本2的信號處理策略驗證實驗
信號處理:諾爾康的默認臨床策略APS策略,按照前述的-of-策略的方式工作,其中≤24,且通常= 8、7或6。APS中提取個通道的時域包絡的方法是,對聲音信號(16 kHz采樣)進行分幀加窗(窗長256點,幀間重疊50%)后計算FFT,然后將幅度譜的低頻段進行線性劃分,對高頻段進行非線性類似對數劃分,總計劃分個通道,將每個通道內的頻域能量作為當前幀該通道的時域包絡采樣點。本研究中通過時域的方式實現了時域包絡提取,具體做法是按照與APS相同的方式進行頻帶劃分得到+1個截止頻率,設計個6階巴特沃斯帶通濾波器對聲音信號進行帶通處理,然后再用全波整流加低通濾波器(250 Hz截止頻率)的方式提取每個通道的時域包絡。在這里我們將這種時域實現的APS標記為APSt,以示區分(APS的時域包絡提取是在FFT后的頻域完成的)。APSt和APS后續采用了相同的非線性壓縮參數。APSt和APS采用的脈寬不同,前者是25 μs,后者是50 μs。被試者采用自己的言語處理器中的APS,在隔音室內聽揚聲器(Yamaha HS50M + TASCAM US-144MKII)播放的聲音。APSt用版本2平臺實現,通過計算機直接發送數據。
目的:初步評估基于版本2是否能實現一個性能與APS相當的策略。我們假設APSt和APS能夠提供水平相當的言語可懂度。
被試者:兩位CI被試者均為語后聾女性成人植入者,安靜環境下面對面都可以進行有效的言語交流,其他信息見表1。另外,還招募了兩位正常聽力的年輕人(25歲)作為正常聽力組(編號為NH1和NH2)。正常聽力組的結果僅用于初步觀察CI和正常聽力者的差距。

表1 CI植入者信息
3.3.1 材料和方法
言語材料為中文言語評估測試短句(Mandarin Speech Perception test,MSP[10])和噪聲下的普通話聆聽庫(Mandarin Hearing In Noise Test,MHINT[11])。MSP包含10個句表,每個句表中有10句話,每句有7個字。MHINT包含12個實驗用句表和2個練習用句表,每個句表中有20句話,每句有10個字。本研究測量了兩位被試者在采用APS和APSt時,對噪聲中的MSP句子和MHINT句子的50%言語接受閾(Speech Reception Thresholds, SRTs)。對于正常聽力組,測量了相同的項目,但測試材料無需經過策略處理。
其中對MSP采用了“5-talker babble”噪聲,對MHINT采用了“5-talker babble”和語譜噪聲(Speech-Shaped Noise, SSN)。對每位被試者的MSP或MHINT測試,5-talker babble噪聲的生成方法是,從相應的庫中隨機選取一個句表,從該句表中隨機選出5句話的信號直接相加(注意:此句表后續不再被使用)。因此對于每個策略(APS和APSt)都會有先后有三組測試:MSP-babble、MHINT-babble和MHINT-SSN。每組測試采用的材料是隨機從MSP中挑選3個句表(30句話)或從MHINT中挑選2個句表(40句話)。其中,對于一位被試者來說每個句表不會被重復使用。
SRT的測量方法是,在每個策略的每組測試中采用一上一下自適應調整信噪比(Signal-to-Noise Ratio,SNR)的方法。初始SNR為10 dB,在第二個反轉點前,調整步長為8 dB,在第四個反轉點前步長為4 dB,反轉點之后為2 dB,直至當前組全部句子測試完畢。其中,在每個試次中(即播放每個句子時),聽者可以要求至多再重聽兩次,主試者在軟件界面上勾選被試者復述對的字,被試者復述出多于半數的字時,軟件判定為答題正確,否則為答題錯誤。每組中最后10句話的SNR的算數平均值記為當前條件下的SRT。正式實驗開始前會對被試者進行訓練和指導。對于每種材料,先進行APS測試,再進行APSt測試。實驗中,信號響度被控制在舒適范圍。
其他準備工作:植入者到來前,根據其臨床程序的參數提前設定好參數文件,并通過示波器或采集卡檢查信號輸出,保證與預期相符合。言語測試前,先對植入者在單個電極上的T值和C值進行測量。測量軟件為基于版本2平臺開發的專用軟件。在APSt實際言語測聽訓練開始時,先將電流單位控制在C/2以下,然后根據被試者的反應,逐漸上升,直至舒適。
3.3.2 結果和分析
SRT如圖5所示。如兩位植入者的SRT在4.6~ 17.8 dB之間,遠高于正常聽力對照組的-8.6~-2.2 dB。說明兩位植入者在抗噪聲干擾方面的能力遠弱于正常聽力者。比較APS和APSt發現,在多數情況下,兩位植入者在使用APSt時獲得了更好(更低)的SRT值。
注意,這并不能直接證明APSt的時域包絡提取方式能比APS的頻域包絡提取方式提供更好的言語識別能力。因為在實驗中,在每組材料條件下都是先做APS再做APSt,這可能導致后做APSt時被試者已經得到了更充分的訓練,更熟悉聲音材料的特點。另外,APS是在聲場中進行測量,而APSt是從計算機通過版本2研究平臺直接發送數據到植入體,前者聽到的聲音經過了電聲轉換、房間反射、聲電轉換等環節可能帶來干擾,后者不存在這些問題。
但是,這個結果已經說明APSt提供了與植入者日常言語識別效果相當的言語可懂度,進而說明利用版本2研究平臺可以進行CI信號處理策略研究。
人工耳蝸的性能仍有很大提升空間,然而開展這方面研究對公司的依賴較大。由于一些原因,壟斷此行業的三家國外公司不向中國大陸的研究者提供研究平臺。受此限制,目前國內的人工耳蝸研究主要局限于聽力學臨床評估與康復、基于聲碼器仿真模型的信號處理策略研究。由國內研究機構獨立完成的,基礎電聽覺心理物理研究和直接招募人工耳蝸植入者作為被試者進行全新信號處理策略開發的研究非常少。為了進一步促進和推動我們在人工耳蝸電聽覺方面的研究,在過去五年多里,我們針對國產諾爾康人工耳蝸開發了一套非實時研究平臺。本文對此平臺的兩個版本進行了介紹,并通過主觀實驗證明了該平臺可以用于電聽覺心理物理實驗研究和信號處理策略研究。
未來需要做的工作是:(1) 利用該平臺研究信號處理算法(包括編碼策略和預處理方面)的改進,找到提升人工耳蝸電聽覺性能的方法;(2) 利用該平臺開展更多、更深入的心理物理研究,探究電聽覺感音機理;(3) 進一步完善和擴展平臺功能,讓中國的研究者能更方便快速地開展相關研究工作。
致謝:特別感謝所有參與實驗的被試者。感謝孫晉和張曉薇協助完成實驗。感謝原猛和王生在平臺開發中提供的幫助。本研究得到了諾爾康公司的技術支持,但未受到該公司的直接經費資助。
[1] Wouters J, McDermott H J, Francart T. Sound coding in cochlear implants: from electric pulses to hearing[J]. Signal Processing Magazine, IEEE, 2015, 32(2): 67-80.
[2] 曾凡鋼, 魏朝剛, 曹克利. 人工聽覺的過去現在和未來[J]. 中華耳鼻咽喉科雜志, 2004, 39(10): 631-634.
ZENG Fanggang, WEI Chaogang, CAO Keli. The yesterday, today, and tomorrow of auditory prosthesis[J]. Chinese Journal of Otorhinolaryngology, 2004, 39(10): 631-634.
[3] ZENG F G. Temporal pitch in electric hearing[J]. Hear. Res., 2002, 174(1): 101-106.
[4] ZENG F G, Rebscher S J, FU Q J, et al. Development and evaluation of the Nurotron 26-electrode cochlear implant system[J]. Hear. Res, 2015, 322(2): 188-199.
[5] Shannon R V, Adams D D, Ferrel R L, et al. A computer interface for psychophysical and speech research with the Nucleus cochlear implant[J]. J. Acoust. Soc. Am., 1990, 87(2): 905-7.
[6] Zhu Z, Tang Q, Zeng F G, et al. Cochlear-implant spatial selectivity with monopolar, bipolar and tripolar stimulation[J]. Hear. Res., 2012, 283(1): 45-58.
[7] 平利川, 原猛, 唐國芳, 等. 語后聾人工耳蝸使用者電刺激聽覺部位音調感知研究[J]. 聲學學報, 2012, 37(2): 204-208.
PING Lichuan, YUAN Meng, TANG Guofang, et al. Place-pitch perception in electrical hearing with post-lingual deafened cochlear implant users[J]. Acta Acustica, 2012, 37(2): 204-208.
[8] 平利川. 電子耳蝸植入者音樂感知研究[D]. 北京:中國科學院聲學研究所, 2011: 50-91.
PING Lichuan. Music perception with cochlear implant[D]. Beijing:Institute of Acoustics, Chinese Academy of Sciences, 2011: 50-91.
[9] 孟慶林. 聽覺信號中的幅度調制信息研究[D]. 北京:中國科學院聲學研究所, 2013: 23-38.
MENG Qinglin. Amplitude modulation information of auditory signals[D]. Beijing:Institute of Acoustics, Chinese Academy of Sciences, 2013. 23-38.
[10] Fu Q J, Zhu M, Wang X. Development and validation of the Mandarin speech perception test[J]. J. Acoust. Soc. Am., 2011, 129(6): EL267-273.
[11] Wong L L., Soli S D, Liu S, et al. Development of the Mandarin Hearing in Noise Test (MHINT) [J]. Ear Hear., 2007, 28(2): 70S-74S.
[12] Goupell M J. Pushing the envelope of auditory research with cochlear implants[J]. Acoustic Today, 2015, 11(2): 26-33.
Development and validation of an offline research interface for cochlear implants
MENG Qing-lin1,2, MOU Hong-yu2, PING Li-chuan3, CHEN Hong-bin3,ZHENG Neng-heng1, LI Xia1, FENG Hai-hong2
(1. College of Information Engineering, Shenzhen University, Shenzhen518060, Guangdong, China;2. Shanghai Acoustics Laboratory, Chinese Academy of Sciences, Shanghai 200032, China;3. Zhejiang Nurotron Biotechnology Co., Ltd., Hangzhou 310011, Zhejiang, China)
Cochlear Implants (CIs) have been used to restore hearing for more than 400,000 people. However, the performance of CIs is still limited comparing with the normal hearing and the underlying mechanisms of electric hearing are not fully revealed. An offline research interface of Nurotron CI system is introduced in this paper. Two versions of the interface were developed in the past five years. To validate the interface, basic psychophysical experiments (place-pitch and envelope-pitch ranking) and speech recognition thresholds test were performed on totally 13 adult Nurotron CI users (4 for place-pitch, 7 for envelope-pitch, and 2 for speech test). The basic psychophysical results show that pitch could be ranked from low to high according to tonotopic place (from apex to base) and amplitude modulation rate (from 50 to 200 Hz), and the data conform to the data in other literatures. The speech test results show that the experimental strategy, which is implemented through the interface, derives comparable speech reception thresholds in noise to the subjects’ clinical processors. The research interface is crucial for CI researchers to perform electric hearing psychophysical study and CI signal processing study in China.
cochlear implant; electric hearing; pitch; speech reception threshold
B845.2 Q62
A
1000-3630(2016)-03-0248-06
10.16300/j.cnki.1000-3630.2016.03.013
2015-08-19;
2015-12-10
中國博士后科學基金資助項目(2015M572360)、國家“十一五”科技支撐項目(2008BAI50B08)
孟慶林(1986-), 男, 河北保定人, 博士后, 研究方向為人工耳蝸信號處理和心理聲學。
孟慶林, E-mail: mengqinglin08@gmail.com。