劉 敏 杜曉新 劉巧云
(華東師范大學教育康復學系,上海 200062)
Massaro(1986)提出言語知覺的過程需要視聽雙通道的資源。視聽雙通道言語知覺(audiovisual speech perception)是指在與他人面對面交流時,個體會整合聽覺與視覺信息進行言語理解,這是一種多感官整合過程,即視聽整合(audiovisual integration)。其中聽覺信息(auditory speech)指說話者的聲音,而視覺信息(visual speech)主要包含說話者的面部表情、頸部和構音器官(下頜、唇、舌)的運動部位和方式。雖然聽覺信息是我們日常言語知覺的主要信息來源,但是視覺信息對日常社交溝通的影響也是不可忽視的。視覺言語信息可以幫助減少聽覺單通道信息可能引起的歧義,同時在日常存在噪音的溝通環境中可以降低遇到的困難,使言語知覺更加清晰可靠。然而自閉癥兒童在社交溝通方面存在持續性缺陷,同時研究也發現他們在感知覺加工上存在多通道信息整合困難的問題,那么在涉及視聽整合的視聽雙通道言語知覺能力上自閉癥兒童的表現如何,是否會影響他們的溝通能力呢?
McGurk效應是目前視聽言語知覺的主要研究范式,McGurk效應是一種典型的視聽整合現象,指當同時向被試呈現特定的視覺刺激和聽覺刺激時,被試會感知到完全不同于任何一個感知通道的言語信息(如視覺刺激為口型ga,聽覺刺激為聲音ba,被試會感知到da)。它反映了視覺言語信息對言語知覺的影響,目前認為可以將McGurk效應的強度作為雙通道整合的強度指標。
無論是在安靜環境(Williams,2004;Mongillo,2008;Iarocci,2010;Bebko,2014)還是在噪聲環境下,大部分的研究結果都支持自閉癥兒童的視聽言語知覺要弱于普通兒童。Stevenson(2013)發現6~12歲的自閉癥兒童和普通兒童的視聽言語加工沒有差異,但是在13歲以后兩組之間差異顯著,普通兒童表現出隨年齡增長的趨勢;Ross(2015)發現不同信噪比下,自閉癥兒童在純聽、純視和視聽一致下的言語知覺表現要低于普通兒童,視聽一致時的視覺增益也要低于普通兒童;Irwin(2009,2011)發現即使兩組兒童注視面孔的時間沒有差異,自閉癥組的視覺增益仍然要顯著地落后于普通兒童。Foss-Feig(2009)和Woynaroski(2013)則發現自閉癥兒童的McGurk效應強度與普通兒童沒有顯著差異,而Taylor,Isaac和Milne(2010)以及Foxe(2015)分別在安靜和噪聲環境下發現他們的發展速度比較快,在高年齡段時已經追趕上普通兒童。王玉玨(2017)發現漢語為母語的自閉癥譜系障礙兒童在純聽和視聽一致刺激模式下的言語辨識成績顯著低于普通兒童,但是兩類兒童的視聽整合能力差異不顯著。
研究發現McGurk效應存在刺激材料的差異性,Strophal(2016)發現12個視聽不一致音節引起的McGurk效應強度不同,這與Jiang & Bernstein(2011)、Mallick(2015)的研究結果一致;Green(1988)發現元音材料引起的McGurk效應大小存在差異,從強到弱分別是i、a、u。這使得我們在進行相關研究時需對實驗材料進行篩選。雖然王玉玨(2017)的研究中根據漢語的語音結構特征和最小音位對比編制了材料,但是沒有考慮到刺激材料的差異性。其次我們日常所處的溝通環境存在許多的噪聲,無論是在社區情景還是集體授課情景,而國內尚未有探索噪聲環境下自閉癥兒童視聽雙通道言語知覺特征的相關研究。所以,本研究擬在篩選漢語體系中有效的McGurk效應實驗材料基礎上,探索噪聲下自閉癥兒童視聽雙通道言語知覺的特征。
實驗組為30名自閉癥兒童,6~12歲的兒童18名,13~16歲的兒童12名,男25名,女5名,平均年齡為11.35±2.86歲,所有兒童均持有上海市相關醫院診斷。研究人員采用DSM-V的診斷標準和兒童自閉癥評定量表(Childhood Autism Rating Scale,CARS)對其進行匯聚式評估,均符合DSM-V的相關診斷標準,CARS平均得分為34.80±8.30。對照組為30名與實驗組生理年齡和性別相匹配的普通兒童,平均年齡為11.38±2.80歲。兩組被試的視力或矯正視力正常,聽力正常。同時采用漢語構音語音能力評估表對所有被試的構音語音能力進行主觀評估已排除言語構音障礙。
2.2.1 實驗材料的編制
McGurk效應的實驗材料通常為一對輔音不同、元音相同的音節,且輔音的發音方式相同,只是發音部位不同。本研究輔音選擇相同方式(塞音)不同發音部位的六個聲母,其中b、p為唇音,d、t為舌尖音,g、k為舌根音;元音選擇相同結構不同開口的單韻母,其中a為開口呼,i為齊齒呼,u為合口呼。視聽不一致下一共包含72個實驗材料,按照輔音的不同發音部位可以分為六個類別:聽(唇音)+視(舌尖音),聽(舌尖音)+視(唇音),聽(唇音)+視(舌根音),聽(舌根音)+視(唇音),聽(舌尖音)+視(舌根音),聽(舌根音)+視(舌尖音)。
使用SONY HDR-XR160數碼攝錄一體機和ZOOM H4NEXT錄音設備進行錄像和錄音。一名基頻正常(約260Hz)、普通話水平為二級甲等的22歲女性在標準隔音室錄制音節。分別用Adobe Audition和Adobe Premiere對錄音和錄像材料進行剪輯和處理。每個言語刺激都是從靜止的表情開始,然后發音,到恢復靜止表情結束,時長約3秒,視覺言語和聽覺言語的時間起始點相同,以保證口形與聲音相對應。
2.2.2 實驗材料的篩選
本研究選擇6-12歲、12~18歲和20~30歲的普通兒童和成人各30名進行實驗材料的篩選。視聽不一致下72個實驗材料每個重復2次,共計144個試次,使用Eprime 2.0呈現實驗材料,要求被試報告聽到的內容,考察不同材料引起McGurk效應強度差異。方差分析結果顯示,六個類別的刺激材料主效應顯著,F(5,74)=100.56,p<0.001,η2=0.872,BF10=6.155e+107(其為當前數據模式下,備擇假設H1相比虛無假設H0成立的可能性,下同;吳凡,顧全,施壯華,高在峰,&沈模衛,2018),其中聽(唇音)+視(舌尖音)、聽(唇音)+視(舌根音)兩組刺激材料所引起的McGurk效應比率要顯著高于其他組。Stropahl(2016)的研究發現大部分刺激材料融合反應頻率在40%~60%之間,Mallick(2015)發現引發McGurk效應的平均比率在50%。所以從以上兩個類別的材料中,以引發McGurk效應比率大于或等于60%為原則進行篩選材料,篩選出六對符合要求的實驗材料:ba-ga、ba-ka、ba-ta、pa-da、pa-ga、pa-ka(具體結果見圖1)。

圖1 不同刺激組合McGurk效應強度
結合以上篩選結果,本研究中純聽和視聽一致刺激模式下包含ba、da、ga、pa、ta、ka六個實驗材料,視聽不一致刺激模式下包含ba-ga、ba-ka、ba-ta、pa-da、pa-ga、pa-ka六個實驗材料。所有刺激材料輸出強度為60dB SPL,除無噪聲條件外,使用Adobe Audition添加5種不同水平的粉紅噪聲(57,60,63,66,69dB SPL),噪聲與視頻的起始時間相同。
實驗在隔聲室中進行。被試坐在電腦正前方,雙眼與屏幕齊平,距離約70cm。主試用Eprime 2.0呈現上述言語刺激材料,要求被試分別在三種言語刺激模式下說出自己聽到的聲音。正式實驗之前,通過屏幕呈現和言語的方式告知被試指導語,然后依次呈現三個言語刺激材料,在被試理解實驗要求后進入正式實驗。正式實驗時,先在屏幕正中心呈現注視點“+”,800ms后自動轉到刺激界面。在純聽刺激模式下,刺激界面為白屏,只呈現一個音節的聲音;在視聽刺激模式下,刺激界面呈現說話者完整的面孔,同時播放聲音(與發音口形一致或者不一致)。被試報告后隨即進入下一個試次,若被試在5秒內無反應,主試播放下一個試次。
實驗程序按照純聽、視聽一致和視聽不一致的固定順序進行,每種刺激模式下刺激材料隨機呈現。經過添加不同水平的噪聲,三種刺激模式下各包含36個實驗材料,每個材料重復2次,實驗共有216個試次。
兩組被試在純聽、視聽一致兩種言語刺激模式下言語辨識率的描述性統計結果見表1。

表1 兩組兒童聽覺辨識率描述性分析
純聽刺激模式下進行2(組別:自閉癥兒童vs普通兒童)×2(年齡:6~12歲vs13~16歲)×6(信噪比:NN,-3,0,+3,+6,+9)重復測量方差分析結果顯示:組別主效應顯著,F(1,56)=17.371,p<0.001,η2=0.698,BF10=192.801,普通兒童的言語辨識率顯著高于自閉癥兒童;信噪比主效應顯著,F(5,52)=54.057,p<0.001,η2=0.844,BF10=2.349e+38,隨著聽覺噪聲水平的增大,言語辨識率會越低,即信噪比越小,言語辨識率越低;年齡主效應顯著,F(1,56)=4.819,p=0.032,η2=0.745,BF10=1.375,13~16歲兒童言語辨識率顯著高于6~12歲兒童。組別和年齡交互效應不顯著,F(1,56)=0.001,p=0.975,η2=0.001,BF10=0.263;組別和信噪比交互效應不顯著,F(5,54)=0.169,p=0.973,η2=0.003,BF10=0.015;信噪比和年齡交互效應不顯著,F(5,52)=0.496,p=0.778,η2=0.015,BF10=0.067;組別、年齡和信噪比交互效應不顯著,F(5,52)=1.538,p=0.194,η2=0.024,BF10=0.301。
視聽一致刺激模式下進行2(組別:自閉癥兒童vs普通兒童)×2(年齡:6~12歲vs13~16歲)×6(信噪比:NN,-3,0,+3,+6,+9)重復測量方差分析結果顯示:組別主效應顯著,F(1,56)=45.900,p<0.001,η2=0.713,BF10=3.816e+6,普通兒童言語辨識率顯著高于自閉癥兒童;信噪比主效應顯著,F(5,52)=36.457,p<0.001,η2=0.787,BF10=1.357e+29,隨著聽覺噪聲水平的增大,言語辨識率會越低;年齡主效應邊緣顯著,F(1,56)=45.900,p=0.052,η2=0.367,BF10=1.151,13~16歲兒童的言語辨識率要高于6~12兒童。組別和年齡交互效應不顯著,F(1,56)=3.721,p=0.059,η2=0.062,BF10=1.405;組別和信噪比交互效應不顯著,F(5,52)=0.507,p=0.770,η2=0.046,BF10=0.024;年齡和信噪比交互效應不顯著,F(5,52)=0.745,p=0.594,η2=0.067,BF10=0.044;組別、年齡和信噪比交互效應不顯著,F(5,52)=0.892,p=0.493,η2=0.079,BF10=0.112。
為了進一步考察視聽一致刺激模式下視覺言語的影響,我們運用[視聽一致準確率-純聽準確率]的公式計算其視覺增益。2(組別:自閉癥兒童vs普通兒童)×6(信噪比:NN,-3,0,+3,+6,+9)重復測量方差分析結果顯示:組別主效應顯著,F(1,58)=14.900,p<0.001,η2=0.655,BF10=26.588,普通兒童組的視覺增益顯著高于自閉癥兒童;信噪比主效應不顯著,F(5,54)=1.831,p=1.222,η2=0.145,BF10=0.187;組別和信噪比交互效應不顯著,F(5,54)=0.151,p=0.979,η2=0.014,BF10=0.016。
為了比較兩組兒童在不同刺激模式下言語辨識的差異,我們以兒童類型和言語刺激模式為自變量,對純聽和視聽一致下的言語辨識率進行2×2方差分析。兒童類型主效應顯著,F(1,58)=40.438,p<0.001,η2=0.611,BF10=320237.756,自閉癥兒童組言語辨識率顯著低于普通兒童組;言語刺激模式主效應顯著,F(1,58)=102.801,p<0.001,η2=0.639,BF10=1.559e+10,視聽一致下的言語辨識率顯著高于純聽刺激模式。
對自閉癥兒童和普通兒童在視聽不一致刺激模式下的McGurk效應強度進行描述性分析和方差分析,從而判斷各組兒童受視覺影響的大小。描述性統計結果見表2。

表2 兩組兒童McGurk效應強度描述性分析
對兩組兒童在視聽不一致模式下的McGurk效應強度進行2×2×6的方差分析。方差分析結果顯示:組別主效應顯著,F(1,56)=5.366,p=0.024,η2=0.537,BF10=3.773,普通兒童的McGurk效應強度顯著強于自閉癥兒童;信噪比主效應顯著,F(5,52)=6.721,p<0.001,η2=0.685,BF10=127.976,不同信噪比下McGurk效應強度大小順序分別是:-6、-9、-3、NN、+3、0;年齡主效應不顯著,F(1,56)=1.712,p=0.196,η2=0.030,BF10=0.767。組別和信噪比交互效應不顯著,F(5,52)=0.328,p=0.894,η2=0.002,BF10=0.024;年齡和信噪比交互效應不顯著,F(5,52)=1.378,p=0.248,η2=0.004,BF10=0.042;組別和年齡交互效應不顯著,F(1,56)=0.187,p=0.667,η2=0.003,BF10=0.410;組別、年齡和信噪比交互效應不顯著,F(5,52)=0.142,p=0.982,η2=0.003,BF10=0.027。
本研究運用McGurk效應研究范式,在篩選McGurk效應實驗材料的基礎上,比較不同噪聲水平下自閉癥兒童與普通兒童在純聽、視聽一致下的言語辨識能力,通過視聽一致下的視覺增益與視聽不一致下的McGurk效應強度來探究自閉癥兒童視聽雙通道言語知覺特征。
噪聲環境中,自閉癥兒童在純聽和視聽一致刺激模式下的言語辨識正確率都顯著低于普通兒童,表明自閉癥兒童單通道和雙通道言語知覺能力存在一定缺陷。同時,自閉癥兒童在視聽一致下視覺增益以及視聽不一致下McGurk效應強度都要顯著低于普通兒童,這說明自閉癥兒童在言語感知過程中視覺信息對聽覺信息的影響比普通兒童小,即其視聽整合能力要低于普通兒童。這與國外的大部分研究結果比較一致。Mongillo(2008)的實驗中包含不同視聽整合程度的任務,結果發現自閉癥兒童只在包含人類刺激的視聽整合任務(McGurk實驗任務、性別聲音一致性判斷任務)上與普通兒童存在顯著性差異,研究證實自閉癥兒童在言語知覺過程中較少受視覺信息的影響,這可能是由于他們普遍很少對面孔產生注意。其他一些研究中發現即使對自閉癥兒童注視面孔進行控制,但其受到的視覺影響仍然與普通兒童存在差異。這可能表明自閉癥兒童對面孔采用的視覺加工方式與普通兒童有差異。Eskelund(2015)研究證實視聽雙通道言語知覺需要的不僅是面孔的局部信息,更需要整體的構型信息。然而大部分研究卻發現自閉癥兒童在面孔加工時表現出局部加工優勢和整體局部加工轉換障礙的特點。需要進一步的研究探索自閉癥兒童的視聽雙通道言語知覺是否受到其視覺加工方式的影響。
兩組兒童在純聽和視聽一致條件下言語辨識率表現出明顯的隨年齡增長而發展的趨勢,13~16歲組兒童的言語辨識率都顯著高于6~12歲組兒童,但是年齡和組別的交互效應不顯著,表明無論是6~12歲還是13~16歲,自閉癥兒童言語識別率都要顯著低于普通兒童。但是在視聽不一致條件下,雖然兩組被試中13~16歲兒童的McGurk效應強度都高于6~12歲,但是兩個年齡段之間的差異不顯著,同樣無論是高年齡段還是低年齡段,自閉癥兒童的McGurk效應強度都低于普通兒童。這與Foxe(2015)的研究結果并不一致,他們發現13歲以后兩組兒童的差異已經不顯著。但是由于本研究中兩個年齡段被試數量較少,且兩組被試人數不一致,后續需要進一步擴大被試數量探討自閉癥兒童視聽雙通道言語知覺的發展趨勢。
本研究在無噪音以及五種不同水平的粉紅噪音條件下進行,結果發現在純聽和視聽一致刺激模式下,聽覺噪聲水平越大,言語辨識準確率越低,這與之前的研究結果一致。所以之前的理念認為聽覺噪聲越大,言語知覺對視覺的依賴就越大,Hirst(2018)對普通兒童和成人的研究中發現聽覺噪聲越大,視覺對言語知覺的影響就會增大,會使得McGurk效應的強度增加。但是本研究中不同信噪水平對視聽不一致下McGurk效應強度影響卻表現出不同趨勢,當信噪比為-6時McGurk效應強度最大,此時視覺言語信息對聽覺言語信息的影響最佳。這與Ross(2015)和Barutchu(2010)的研究結果一致,他們的研究也發現中等強度的聽覺噪聲會更好地促進多感官整合,會獲得最佳的視覺增益,噪聲水平對視聽雙通道言語知覺的影響呈現倒U型趨勢。
雖然自閉癥兒童的單通道和雙通道言語知覺都顯著低于普通兒童,但是可以發現他們在視聽一致下的言語辨識正確率還是要顯著高于純聽下的正確率,只是其利用視覺言語信息的能力較低。Irwin(2015)通過iPad軟件對自閉癥兒童在噪聲背景下的視聽言語知覺能力進行干預,發現自閉癥兒童對名詞、動詞和形容詞的識別都得到了有效提升。結合本研究結果,在對自閉癥兒童社交溝通能力的康復訓練中,特別是言語知覺的干預中可以利用視聽一致的刺激模式,提高他們視聽雙通道言語知覺能力,發揮視聽雙通道感知、理解言語信息的優勢,同時可以設置適當的背景噪聲以幫助他們將習得能力順利遷移至日常噪聲環境中。