羅霄驍 康冠蘭 周曉林,2,3,4
?
McGurk效應的影響因素與神經基礎*
羅霄驍1康冠蘭1周曉林1,2,3,4
(1北京大學心理與認知科學學院, 北京 100871) (2北京大學機器感知與智能教育部重點實驗室, 北京 100871) (3北京大學IDG麥戈文腦科學研究所, 北京 100871) (4浙江師范大學心理與腦科學研究院, 金華 321004)
McGurk效應(麥格克效應)是典型的視聽整合現象, 該效應受到刺激的物理特征、注意分配、個體視聽信息依賴程度、視聽整合能力、語言文化差異的影響。引發McGurk效應的關鍵視覺信息主要來自說話者的嘴部區域。產生McGurk效應的認知過程包含早期的視聽整合(與顳上皮層有關)以及晚期的視聽不一致沖突(與額下皮層有關)。未來研究應關注面孔社會信息對McGurk效應的影響, McGurk效應中單通道信息加工與視聽整合的關系, 結合計算模型探討其認知神經機制等。
McGurk效應; 視聽言語感知; 視聽整合; 多感覺整合
多感覺整合(multisensory integration)是將不同感覺通道輸入的信息有效合并為統一、連貫、穩定的知覺的過程(Stein & Stanford, 2008; 文小輝, 李國強, 劉強, 2011; 文小輝等, 2009)。視聽言語感知(audiovisual speech perception)是一種典型的多感覺整合過程——在與他人面對面交流時, 個體會整合視覺信息和聽覺信息進行言語理解, 也即視聽整合(audiovisual integration)。其中, “視覺信息”指的是說話人的口唇發音動作、面部肌肉活動及表情等。個體可以利用這些信息形成連續的視知覺, 并與頭腦中儲存的詞語表象相比較和聯系, 進而理解說話者表達的內容。該過程也稱為“唇讀” (lipreading) (Summerfield, 1992; 樸永馨, 2006; 徐誠, 2013)。例如:聽力障礙者主要依賴視覺信息進行言語感知(雷江華, 方俊明, 2005)。“聽覺信息”指的是說話人的語音信息。對聽力正常者 而言, 聽覺信息在言語感知中起主導作用, 視覺信息是輔助信息。即使如此, 視覺信息對言語感知的影響仍然存在, 例如同時呈現聽覺信息和相應的視覺信息時, 言語感知準確率比單獨呈現聽覺信息時高(Ross, Saint-Amour, Leavitt, Javitt, & Foxe, 2007)——這體現了視聽整合的益處。
McGurk效應(McGurk effect / McGurk illusion) (McGurk & MacDonald, 1976)是一種典型的視聽整合現象, 指的是當特定發音的視覺刺激與特定發音的聽覺刺激同時呈現時, 個體可能產生新感知的現象(例如:說話者說“ga”的視頻和說“ba”的音頻同時呈現, 聽話者可能會感知到另一個音節“da”), 這反映了視覺信息對聽覺感知的影響。一般認為, 發生了McGurk效應即發生了視聽整合, 所以McGurk效應發生率可以作為視聽整合強弱的指標(Fernández, Macaluso, & Soto-Faraco, 2017; Marques, Lapenta, Costa, & Boggio, 2016; Tiippana, 2014)。
McGurk效應一直是視聽言語感知研究中的熱點問題。自McGurk和MacDonald (1976)發表該效應, 到2016年40年間, 原文已經被引用近5000次(Alsius, Paré, & Munhall, 2018; MacDonald, 2018)。即使如此, 目前仍然缺乏全面、系統的McGurk效應綜述。Marques等人(2016)的綜述主要關注McGurk效應的研究對理解視聽整合過程的啟示, 尤其是如何用視聽整合的理論模型來解釋McGurk效應, 以及McGurk效應在特殊人群言語感知研究中的應用。但該綜述集中于視聽整合問題, 對McGurk效應本身關注不足。例如:沒有關注McGurk效應的測量和界定; 對McGurk效應的影響因素討論較少(文中只涉及了外界物理刺激的影響); 沒有關注McGurk效應中可能存在的視聽不一致沖突問題等。Alsius等人(2018)的綜述主要關注McGurk效應作為視聽言語感知過程的研究工具有哪些局限性以及需要注意的問題, 尤其是影響McGurk效應發生率的因素以及McGurk刺激與視聽一致刺激的差異。但該綜述的主要目的在于反思當前研究使用McGurk范式的合理性, 沒有涉及神經基礎問題; 且其對McGurk效應的影響因素的闡述系統性不足。MacDonald (2018)的綜述回顧了40年前McGurk效應的發現過程以及作者的心路歷程, 是對歷史事件的回顧, 沒有關注McGurk效應的最新研究進展。
本文嘗試對McGurk效應進行全面、系統的綜述。首先探討McGurk效應的測量與界定問題。再從個體內變異和個體間變異的角度出發, 闡述影響McGurk效應的相關因素。進一步從眼動模式、動態神經加工過程、相關腦區三個方面, 闡述McGurk效應的認知神經基礎。最后提出未來研究展望以及需要注意的問題。
已有研究一般采用“McGurk效應發生率”作為評價McGurk效應強弱(多少)的指標——使用McGurk刺激實施多次測量后, 計算其中發生McGurk效應的次數比例(在測量的過程中需要加入視聽一致刺激或視聽不一致但不會誘發McGurk效應的刺激作為填充試次)。研究中最常用的McGurk刺激是視覺“ga”加聽覺“ba”的視聽組合, 發生McGurk效應時可能感知到“da” (Beauchamp, Nath, & Pasalar, 2010; Fernández et al., 2017; Nath & Beauchamp, 2012)。除此之外, 視覺“ka”加聽覺“pa”可能感知到“ta” (Gurler, Doyle, Walker, Magnotti, & Beauchamp, 2015)。另一方面, 也有研究在元音上采用“i”等其他搭配, 例如視覺“gi”加聽覺“bi”可能感知到“di” (Colin, Radeau, Soquet, Demolin, Colin, & Deltenre, 2002)。也有研究在輔音之前添加元音, 例如視覺“aga”加聽覺“aba”可能感知到“ada” (Bertelson, Vroomen, & de Gelder, 2003; Buchan & Munhall, 2012)。還有研究會重復兩次音節, 例如視覺“gaga”加聽覺“baba”可能感知到“dada” (Mallick, Magnotti, & Beauchamp, 2015; McGurk & MacDonald, 1976)。雖然McGurk刺激有很多種, 但是其核心都是特定視覺輔音和聽覺輔音的組合, 使個體感知到的聽覺刺激發生改變。
為什么只有特定的視聽信息組合才會產生McGurk效應, 而其他組合則不會?分層預測編碼模型(hierarchical predictive coding model, Olasagasti, Bouton, & Giraud, 2015)給出了解釋。該模型考慮到視覺和聽覺信息的動態交互過程, 建立了視覺信息(唇形, lip aperture)和聽覺信息(第二共振峰, second formant)在物理維度上的動態變化二維空間, 以探究不同感覺通道對輸入的感知信息進行預測和判斷的動態變化過程。在典型的McGurk效應中, 視覺“ga”和聽覺“ba”的視聽不一致輸入與視覺“da”和聽覺“da”的視聽一致輸入在上述二維空間中的坐標非常接近, 所以這種情況下的視聽不一致并不會造成很強的跨通道沖突, 而可能會更接近“da”的表征。但如果反過來, 對于視覺“ba”和聽覺“ga”的不一致輸入, 其坐標與其他視聽一致音節的坐標都不接近, 因此, 這種視聽不一致信息輸入會造成較強跨通道沖突, 無法融合。所以, 融合的發生可能是因為視聽不一致刺激的視聽通道表征在二維動態編碼空間中非常接近某個視聽一致刺激的表征, 大腦就更容易預期當前刺激是視聽一致的, 進而表征出在二維空間中坐標接近的視聽一致感知。
關于McGurk效應的界定, 即“被試的什么反應可以算作發生了McGurk效應”, 不同的研究之間存在一定差異。部分研究的界定比較嚴格——只有個體感知到了特定的融合音節(例如在呈現視覺“ga”和聽覺“ba”時感知到“da”), 才能算是發生了McGurk效應(Colin et al., 2002; Rosenblum, Schmuckler, & Johnson, 1997)。但是這種界定方式忽略了很多其他情況(例如:依據該界定, 如果被試報告感知到“tha”“ga”等其他音節, 就不能算作發生了McGurk效應)。所以, 另一部分研究采用的是自由度更高的界定——只要被試報告不同于實際聽覺刺激的感知, 都算是發生了McGurk效應(Gurler et al., 2015; Mallick et al., 2015; Wilson, Alsius, Paré, & Munhall, 2016)。這種定義更符合“McGurk效應反映了視覺信息對聽覺感知的影響”這一觀點。目前, 多數研究者傾向于采取后者這種高自由度的界定, 以納入所有視聽信息交互的情況(Alsius et al., 2018; Tiippana, 2014)。本文中涉及的研究多數是后一種界定。
McGurk效應的個體內變異是指對同一個體而言, 其McGurk效應發生率由于受到某些因素的影響而發生改變的現象(即在被試內設計中, 不同實驗條件之間的McGurk效應發生率改變)。造成McGurk效應個體內變異的因素主要有物理刺激(例如:視覺、聽覺刺激及其同步性等自下而上的外部因素)和認知因素(例如:注意分配、心理預期等自上而下的內部因素)。
3.1.1 物理刺激因素
視覺刺激變化可能影響個體對視覺信息的加工效果(即影響唇讀過程), 進而造成McGurk效應的個體內變異。視覺信息呈現的質量越好(越清晰、越完整), 越容易發生McGurk效應; 而破壞視覺信息的呈現會降低其對聽覺感知的影響, 即減少McGurk效應。研究者通過降低視頻分辨率(Wilson et al., 2016)、對視頻進行馬賽克轉換(MacDonald, Andersen, & Bachmann, 2000)、對視頻進行空間像素化處理(Thomas & Jordan, 2002)等技術手段來降低視頻的清晰程度。結果均表明, McGurk效應隨視頻清晰度的降低而減少。也有研究將視頻切分后只呈現其中一部分(Jordan & Thomas, 2011; Ujiie, Asai, & Wakabayashi, 2015)、或是用光點來呈現說話者的面部運動信息(損失了很多原有面部運動信息) (Jordan, McCotter, & Thomas, 2000), McGurk效應(相比于呈現完整的面部視頻)也會減少。還有研究在10米或20米之外呈現視頻(距離越遠視頻越看不清), McGurk效應會隨距離增加而減少(Jordan & Sergeant, 2000)。此外, 將視頻里的面孔倒置(人們對倒置的面孔加工更困難) (Thomas & Jordan, 2002), 或是將正立面孔的嘴部倒置(這種奇怪的面孔也會增加人們對面孔的加工難度), McGurk效應也會減少(Rosenblum, Yakel, & Green, 2000; Ujiie, Asai, & Wakabayashi, 2018)。近來還有研究發現, 降低視頻的播放速度(這可能破壞原本流暢的視覺信息)也會減少McGurk效應(Magnotti, Mallick, & Beauchamp, 2018)。
雖然視覺信息的呈現質量對McGurk效應影響較大, 但通過破壞視覺信息很難完全消除McGurk效應。只要仍有少量有效的視覺信息線索, 效應都還會發生。即McGurk效應較為穩定、不易消除。研究表明, 即使呈現馬賽克程度最高的視覺信息(MacDonald et al., 2000), 或是將面部距離增加到20米之遠(Jordan & Sergeant, 2000), 甚至將視頻的嘴部區域刪除(Jordan & Thomas, 2011), McGurk效應仍會發生。
不過, 如果視覺信息沒有被意識覺察(閾下呈現), 就不會發生McGurk效應。即對于McGurk效應而言, 閾下視覺加工不足以引發視聽整合(Munhall, ten Hove, Brammer, & Paré, 2009), 視覺信息需要被意識覺察才可能引起McGurk效應。有研究使用連續閃爍抑制范式(continuous flashing suppression, CFS, Fang & He, 2005; Tsuchiya & Koch, 2005)將McGurk刺激的視覺信息呈現在閾下。結果表明, 在CFS條件下, McGurk效應消失了(Palmer & Ramsey, 2012)。還有研究設計了一種動態雙歧圖的McGurk刺激呈現方法(一個花瓶的邊緣構成兩個面對面的側臉。花瓶在旋轉, 其邊緣構成的側臉在旋轉過程中呈現出嘴型的變化。被試對該動態雙歧圖的感知會在“側臉”和“花瓶”之間變化)。如果McGurk效應的發生無需意識覺察視覺信息, 那么無論個體對雙歧圖的感知如何, 都應該會發生McGurk效應。但如果McGurk效應的發生需要意識覺察視覺信息, 則只有在個體對雙歧圖的感知是“側臉”時, 才會發生McGurk效應(當感知為“花瓶”時, 不會發生McGurk效應)。實驗結果也支持了后一個推論(Munhall et al., 2009)。
當然, 有的視覺信息對McGurk效應影響不大。McGurk效應只對視覺言語信息(相關面部肌肉的運動)敏感, 只要不影響視覺言語信息的呈現效果, 就不會影響McGurk效應。例如:有研究表明, 無論將視覺刺激用彩色呈現還是用黑白呈現, 其McGurk效應發生率都沒有差異(Jordan et al., 2000)。
相比于視覺信息, 改變聽覺信息影響McGurk效應的研究很少。這可能是因為McGurk效應本身就是“對聽覺信息的感知受到視覺信息的影響而發生變化”, 如果改變聽覺刺激, 就難以區分聽覺感知發生的變化究竟是來自視覺信息的影響, 還是來自聽覺信息本身改變的影響。不過, 仍有研究者從聽覺刺激的角度揭示了McGurk效應的穩定性——音調、音高等因素對McGurk效應的影響不大。他們比較了正常說出音節和唱出音節(用升調、降調兩種唱法)對McGurk效應的影響, 結果表明在“唱出”和“說出”兩種條件下的McGurk效應發生率沒有顯著差異(Quinto, Thompson, Russo, & Trehub, 2010)。
還有研究者針對聽覺信息的呈現來拓展McGurk效應的研究范式。他們在視覺刺激不變的情況下, 改變聽覺刺激的呈現條件。即視覺刺激總是“ba”, 而聽覺刺激可能是“ba”(與視覺信息一致), 也可能是一種聽起來像“a”的音頻(將“ba”的輔音信息減弱)。如此一來, 后者的刺激組合也會誘發被試報告聽到了“ba” (但實際的聽覺刺激是“a”), 即視覺言語信息對聽覺感知形成了“補充”。這與經典McGurk效應類似(Irwin, Avery, Brancazio, Turcios, Ryherd, & Landi, 2018)。該范式可以歸為McGurk范式的一種變式——經典McGurk效應關注的是聽覺信息不變, 改變視覺信息可能改變個體的聽覺感知; 而該變式關注的是視覺信息不變, 改變聽覺信息后, 視覺信息會對聽覺感知進行補充, 也體現了視覺信息影響聽覺感知。未來研究可以嘗試將該范式與傳統的McGurk范式進行比較, 驗證二者是否有類似的機制(例如兩種范式的效應發生率是否相似?是否激活了相似的視聽整合相關腦區?), 可考慮將該變式作為另一個視聽整合的指標。
最后, 視覺和聽覺刺激呈現的同步性也可能造成McGurk效應的個體內變異。在視聽整合研究中, 視覺和聽覺刺激不一定要精確地同步呈現才會引起視聽整合, 在一定時間窗內的視聽刺激異步對視聽整合影響不大(Munhall, Gribble, Sacco, & Ward, 1996; Stevenson, Zemtsov, & Wallace, 2012)。McGurk效應也不例外。研究發現, 只要聽覺刺激(相比于視覺刺激)呈現的延遲在–360~ 360 ms的時間窗內, 都會產生McGurk效應。當然, 同步性的降低同時也會導致McGurk效應減少(Munhall et al., 1996)。此外, 即使被試能夠感知到視聽信息呈現的不同步, 也仍然可能產生McGurk效應(Soto-Faraco & Alsius, 2009), 這也體現了McGurk效應的穩定性。
總體而言, McGurk效應一方面容易受到物理刺激因素影響而發生個體內變異, 但另一方面又具有較強的穩定性(不容易完全消失)。現有研究大都關注自下而上的物理刺激因素如何影響McGurk效應(尤其關注視覺信息的影響), 也得出了較為一致的結論; 然而卻忽視了聽覺信息的作用。一個值得探究的問題是:當聽覺信息的可靠性下降時(信噪比降低), McGurk效應如何變化?這是實際生活中很常見的視聽言語感知情景(例如在嘈雜的環境中與別人聊天)。針對這一問題, 我們預期:由于聽覺信息可靠性降低, 個體對視覺信息的權重增加, 即視覺信息對聽覺感知的影響增加, 這可能引發更多McGurk效應。
3.1.2 認知因素
如上文所述, 物理刺激的改變對McGurk效應的影響較大。但即使面對相同的物理刺激, 個體的認知狀態不同, 也可能造成McGurk效應發生率改變。而且, 相比于物理刺激這類自下而上的調節因素, 自上而下的認知因素變化在實際生活中更常見(例如我們面對的常常是物理刺激相同的面孔, 但自身的認知狀態容易發生改變)。然而這類研究并不多。已有研究主要圍繞注意分配進行探討——當個體分配給McGurk任務的注意減少時, McGurk效應就會減少。研究采用雙任務范式, 要求被試在進行視聽判斷任務(McGurk任務)的同時進行一項無關的視覺或聽覺任務(這降低了被試分配在McGurk任務上的注意)。結果表明, McGurk效應發生率在雙任務條件下比單任務條件低(Alsius, Navarra, Campbell, & Soto-Faraco, 2005)。進一步研究還發現, 如果被試同時進行一項觸覺任務(不同于視覺、聽覺通道的第三個感覺通道), 則McGurk效應發生率也會降低(Alsius, Navarra, & Soto-Faraco, 2007)。這提示注意分配對McGurk效應的影響并不僅僅局限于視覺或聽覺通道, 而是受到一般性的注意分配的影響。另一項采用雙任務范式的研究讓被試同時進行一項工作記憶任務, 也發現了一致的結果(Buchan & Munhall, 2012)。還有研究在呈現面部視覺信息時, 同時呈現一個分心刺激(一片葉子劃過面部)。當要求被試忽略面部去注意分心刺激時(相比于要求被試忽略分心刺激去注意面部的情況), McGurk效應的發生率更低(Tiippana, Andersen, & Sams, 2004)。
除了注意分配, 還有研究探討了預期對McGurk效應的影響——如果明確告訴被試接下來呈現視聽一致刺激(但實際上仍會包含視聽不一致的McGurk刺激), 相比于告知被試視聽刺激可能不一致的情況, McGurk效應的發生率更高(Gau & Noppeney, 2016)。即個體預期視聽一致會促進McGurk效應的發生。
綜上所述, 在McGurk效應的個體內變異研究中, 研究者更多關注自下而上的物理刺激因素對McGurk效應的影響, 但對自上而下的認知相關因素關注較少。雖然已有研究探討注意分配和預期如何影響McGurk效應, 但這一方向仍有較大的發展空間。未來可以考慮探究其它自上而下的認知因素, 例如個體的情緒狀態對McGurk效應的影響——在不同的情緒狀態下, 個體的視聽整合或許會發生變化, 這也更貼近日常視聽言語感知情景。
另一個生活中常見但卻研究較少的問題是:面孔本身的社會屬性如何影響視聽言語感知。我們常常與不同的人交流, 而不同人的面孔具有不同的社會屬性(面孔情緒、吸引力、重要性、熟悉度等), 這與視覺言語信息加工可能發生交互, 進而影響言語感知。有研究探討了面孔熟悉度、以及聲音面孔是否匹配對McGurk效應的影響, 結果表明, 當聲音與面孔不匹配時, 對面孔熟悉的被試感知到更少的McGurk效應 (Walker, Bruce, & O'Malley, 1995)。另一項研究發現, 如果將不同情緒的聲音和面部一起呈現, 要求被試判斷聲音的情緒, 那么被試的判斷會受到面部情緒的影響而產生偏差。而且當對聽覺信息的性別進行判斷時, 被試也會受到視覺信息性別的影響(de Gelder & Vroomen, 2000)。所以, 我們有理由推測, 在McGurk效應中, 即使不改變視覺信息的物理特性, 面孔本身就具有的社會屬性也可能影響聽覺感知, 這值得進一步研究。最近, 我們嘗試探究了與獎賞聯結的面孔如何影響McGurk效應。結果表明, 相比于沒有與獎賞聯結的面孔, 與獎賞聯結的面孔McGurk效應發生率更高。
McGurk效應的個體間變異(即個體差異)指的是在同樣的測量條件下, 不同個體的McGurk效應發生率仍會有差異的現象(即在被試間設計中, 不同組別之間的McGurk效應差異)。研究表明, 雖然McGurk效應在不同測量條件下可能發生個體內變異, 但如果測試條件相同, McGurk效應發生率在個體內是較穩定的。對同一批被試間隔1年的兩次同等條件測量的皮爾遜相關為0.91 (Mallick et al., 2015); 另一項間隔2個月的測量相關為0.77(Strand, Cooperman, Rowe, & Simenstad, 2014)。但是, McGurk效應在不同個體間就沒那么穩定了。Mallick等人(2015)測試了165名被試, 結果表明不同個體的McGurk效應發生率有很大差異(從0%到100%)。所以在進行組間比較時, 研究者應謹慎分析組間差異的來源。下文將闡述三個可能與McGurk效應個體間變異相關的因素:對視聽信息的依賴程度差異、視聽整合能力及其發展差異、語言文化差異。
3.2.1 對視聽信息的依賴程度差異
McGurk效應的個體差異可能來自個體對視覺或聽覺信息的依賴程度差異——對視覺信息依賴程度高的個體更容易受到視覺信息的影響, 進而發生更多McGurk效應; 而對聽覺信息依賴程度高的個體則更不易受到視覺信息影響, McGurk效應也更少。研究發現, 高水平音樂家(8~13年專業音樂訓練)相比于沒有音樂訓練的普通人McGurk效應發生率更低, 這可能是因為音樂家通過長期訓練培養了出色的聽覺能力使其更傾向于使用聽覺信息(Proverbio, Massetti, Rizzi, & Zani, 2016)。另一項研究表明, 相比于雙眼進行McGurk任務的被試, 閉上一只眼睛進行任務的被試McGurk效應發生率更低(Moro & Steeves, 2018), 這可能是因為視覺通道部分受阻之后, 個體對聽覺通道的依賴程度增加。還有研究發現, 在視聽言語感知任務中, 老年人更容易受到視覺信息的影響(即老年人的McGurk效應發生率比年輕人高), 這可能是因為隨著年齡的增長, 老年人的聽覺機能退化得比視覺快, 進而對視覺信息的依賴增強(Sekiyama, Soshi, & Sakamoto, 2014)。
對特殊人群(高自閉特質者、聽力受損者、視力受損者)的McGurk效應研究也支持上述觀點(即對視聽信息的依賴程度差異可能造成McGurk效應的個體間變異)。研究發現, 自閉癥譜系障礙(autism spectrum disorder, ASD)的兒童在面孔記憶任務上表現更差, 在視聽言語感知任務中也更少受到視覺信息的影響, 即McGurk效應發生率比正常兒童低(de Gelder, Vroomen, & van der Heide, 1991)。這可能是因為ASD兒童加工面部整體信息的能力較低, 無法有效利用視覺信息(即對視覺信息依賴程度低)。也有研究測量了被試的自閉癥譜系商數(autism spectrum quotient, AQ), 結果表明, 高AQ者的McGurk效應比低AQ者少(Ujiie et al., 2018), 并且AQ得分與McGurk效應發生率負相關(Ujiie et al., 2015), 即自閉特質越高, McGurk效應發生率越低, 這也與上述de Gelder等人(1991)的結論一致。另一方面, 聽力受損者(有人工耳蝸植入或配備有助聽器)和聽力正常者一樣會發生McGurk效應, 但是聽力受損者對視覺信息的依賴程度更高, McGurk效應發生率也更高(Rouger, Fraysse, Deguine, & Barone, 2008)。這一結果在聽力受損兒童中得到了重復(石涯, 王永華, 李文靖, 2016)。此外, 聽力受損者的McGurk效應會受到手語的影響:如果手語和唇形一致(但與聲音不一致), 則他們更容易報告聽到視覺信息的音節(手語或唇形), 這提示他們在視聽感知中非常依賴視覺信息(Bayard, Colin, & Leybaert, 2014)。最后, 視力受損者(從小失去了一只眼睛)的McGurk效應發生率低于單眼(或雙眼)進行任務的視力正常者(Moro & Steeves, 2018), 這可能是因為視力受損者更傾向于依賴聽覺信息。
總體而言, 不同人群之間的比較均體現了視聽信息依賴程度對McGurk效應的影響。然而, 組間比較存在的問題是:除了視聽信息依賴程度的差異, McGurk效應還可能受到其它人群間差異的影響。所以, 未來研究可考慮直接操縱影響視聽信息依賴程度的因素, 提供更完善的因果關系證據。例如:可以考慮將Moro和Steeves (2018)的研究修改為組內設計, 即比較同一組個體在單眼進行任務和雙眼進行任務時的McGurk效應發生率。也可以考慮進行縱向追蹤研究(例如:比較樂器學習者學習樂器前后的McGurk效應差異)。
3.2.2 視聽整合能力及其發展差異
個體在分別接收視聽信息后對二者的整合(即視聽整合)能力的差異也可能與McGurk效應的個體差異有關。整合能力較強者可能更容易發生McGurk效應。相對的, 整合能力較弱者McGurk效應更少。研究表明, 視聽整合時間窗的范圍大小存在個體間差異, 并在一定程度上反映了視聽整合能力(Stevenson et al., 2012)——個體整合時間窗邊界越靠右(即在仍能發生整合的情況下, 視覺刺激呈現后, 聽覺刺激呈現得越晚; 也即整合時間窗的范圍越大), 該個體發生McGurk效應的可能性也越大(Stevenson et al., 2012), 即視聽整合能力越強的個體, 越容易發生McGurk效應。
關于McGurk效應的發展研究也支持上述觀點(即視聽整合能力差異是造成McGurk效應個體間變異的因素之一)。研究表明, 12歲前兒童的McGurk效應發生率比成人低(Hockley & Polka, 1994; McGurk & MacDonald, 1976), 這可能是因為兒童的視聽整合能力尚在發展中(較低), 而成人的視聽整合能力已經發展成熟(較高)。不過, 即使是4~5個月大的還未學會說話的嬰兒就已經會發生McGurk效應(Burnham & Dodd, 2004; Rosenblum et al., 1997)。即嬰兒在學會說話前, 視聽整合能力就已經開始發展, 而且大約12歲左右就能發展到成人水平。所以兒童與成人的McGurk效應差異可能就是來自視聽整合能力的差異。
綜上所述, 個體整合能力越強、發展越完善, McGurk效應就越強。然而, 大部分研究都以McGurk效應本身作為視聽整合能力的指標, 很少有研究利用別的指標測量視聽整合能力, 并與McGurk效應的測量結果相比較。所以, 視聽整合能力與McGurk效應的關系還需要進一步探究。這樣一方面有助于確認視聽整合能力差異是否確實是McGurk效應個體間變異的來源, 另一方面有助于確認利用McGurk范式探究視聽整合的有效性。值得注意的是, 最近有研究發現:個體在噪聲中利用視覺信息輔助聽覺理解句子的能力(也常被視為視聽整合能力的指標)與個體的McGurk效應發生率沒有顯著相關(Van Engen, Xie, & Chandrasekaran, 2017)。這進一步警示我們, McGurk效應發生率與視聽整合能力的關系需要更細致的探討。未來研究應該采用更多指標(例如上文提到的視聽整合時間窗大小、對視聽刺激的反應時、以及其它視聽整合相關任務等)評價視聽整合能力, 并探究這些指標與McGurk效應的關系。
值得一提的是, 上述視聽整合能力的發展情況在漢語母語兒童中有不一致的結果。研究發現漢語母語的二年級、五年級小學生以及一年級大學生都表現出McGurk效應, 但這三類人之間的McGurk效應發生率沒有差異, 即沒有表現出上述英語母語者的發展趨勢(李燕芳, 梅磊磊, 董奇, 2008)。后續研究發現, 漢語母語兒童在視聽不一致、視聽一致、單獨聽覺條件下, 判斷聲音刺激的正確率沒有差異; 但是漢語母語大學生在視聽不一致條件下正確率低于單獨聽覺和視聽一致條件, 即成人更容易受視覺信息影響(李燕芳, 梅磊磊, 董奇, 2009)。這又與英語母語者的研究結果一致。這些研究體現出了語言文化差異與視聽整合能力發展的交互。下文將對語言文化差異的影響進行詳細闡述。
3.2.3 語言文化差異
McGurk效應是一種言語感知現象, 具有不同文化背景(使用不同母語)的人在McGurk效應上可能存在差異, 即語言文化差異也是造成McGurk效應個體間變異的因素之一。研究發現日語母語者的McGurk效應發生率比英語母語者低(Hisanaga, Sekiyama, Igasaki, & Murayama, 2016; Sekiyama & Tohkura, 1993)。這可能是由于日語母語者相比于英語母語者更少受到面部視覺信息的影響。在日本文化中, 注視別人面部是不禮貌的, 所以日本人在面對面交流中更傾向于使用聽覺信息, 而不是視覺信息。后續研究還發現漢語母語者的McGurk效應發生率也比英語母語者低(Sekiyama, 1997)。
不過, 也有研究者沒有發現漢語、英語母語者之間的McGurk效應差異(Magnotti, Mallick, Feng, Zhou, Zhou, & Beauchamp, 2015)。他們認為McGurk效應本身就有較大的個體差異, 組間比較的樣本不宜太少, 于是采用較大樣本(307人)、較多McGurk刺激(9個)進行測量。結果表明McGurk效應發生率在漢語、英語母語者人群內部有較大的個體差異, 但在兩類人群之間整體而言沒有顯著差異。
除了McGurk效應發生率的差異, 不同語言文化背景還可能影響個體在發生McGurk效應時感知到的音節類型。研究發現, 對于經典的McGurk刺激(視覺“ga”聽覺“ba”), 英語母語者更多報告感知到“tha”, 而日語母語者更多報告感知到“da”。這可能與母語差異有關——日語中并沒有“th”的發音, 而英語日常生活中“tha”的發音多于“da”的發音(Burnham & Dodd, 2018)。
總體而言, 語言文化差異影響McGurk效應發生率的研究結果不一致。其中獲得陽性結果的研究樣本量較小, 而大樣本研究沒有發現顯著差異。考慮到McGurk效應發生率本身具有較大的個體差異, 所以語言文化因素究竟是不是McGurk效應個體差異的來源, 仍舊存疑。一種解釋是:語言文化差異確實會對視聽言語感知產生影響(例如上文提到的音節感知類型差異), 只是對McGurk效應發生率的影響不夠明顯。這可能是因為不同語言文化背景者對McGurk刺激的加工趨于某個相似的“閾限”——有研究表明, 即使McGurk效應沒有發生, 視覺信息也已經對聽覺感知產生了影響(Brancazio & Miller, 2005)。所以McGurk效應的發生可能是連續的過程, 視覺信息的影響需要達到一定程度才會產生效應(即存在某個“閾限”)。在世界文化交融的當今社會, 各國大學生被試在視聽言語感知中對視覺信息的加工越來越相似, 即達到McGurk“閾限”的程度越來越相似, 故難以體現出文化差異。所以未來研究除了考慮擴大樣本量之外, 還應該選取更為典型的語言文化群體(而不是容易接觸到不同文化的大學生群體), 或許會有進一步發現。
動態人臉是一種包含很多信息的復雜刺激, 那么導致McGurk效應發生的視覺信息究竟是人臉的什么信息?研究者們嘗試采用眼動實驗來探究此問題。目前的研究結果提示:引發McGurk效應的視覺信息主要來自人臉的嘴部區域。但對嘴部的直接注視不是引起McGurk效應的必要條件。除嘴部之外, 面部的其它區域同樣能提供少量但有效的視覺言語信息, 進而引發McGurk效應。
在言語感知中, 視覺言語信息主要來自嘴部區域的運動。所以引發McGurk效應的視覺信息也主要來自嘴部區域。有研究探討了眼動模式的個體差異與McGurk效應個體差異的關系。結果表明, 容易產生McGurk效應的個體看嘴部區域的時間更長, 且看嘴部區域的時間與McGurk效應發生率正相關(Gurler et al., 2015)。類似的, 英語母語者的McGurk效應發生率比日語母語者高, 而英語母語者看嘴部區域的時間也更長(Hisanaga et al., 2016)。另一方面, 采用雙任務范式的研究發現, 相比于單任務條件, 在雙任務條件下McGurk效應發生率更低, 并且被試對視覺刺激的面部區域注視更少, 對嘴部區域的注視也更少(Buchan & Munhall, 2012)。
但是, 也有不一致的結果——研究發現, 被試是否看嘴部區域與McGurk效應的變化并沒有關系(Hisanaga et al., 2016; Paré, Richler, ten Hove, & Munhall, 2003; Wilson et al., 2016)。這提示對嘴部區域的中央視野加工對McGurk效應的發生并不是必須的, 外周視野就能獲取足夠誘發McGurk效應的嘴部視覺言語信息。例如:Paré等人(2003)進行的一系列實驗發現, McGurk效應的感知與個體注視點是否在嘴部區域沒有相關。他們還直接控制了個體的注視點位置, 結果表明, 只要個體的注視點還在面部區域內, 無論是注視嘴部、眼睛、還是額頭, 都不影響McGurk效應發生率。只有當個體注視點離開嘴部區域10°~20°時, McGurk效應才會顯著減少(但仍然存在), 只有離開嘴部區域60°以上, McGurk效應才會完全消失。
考慮到上述不一致的研究結果, 嘴部區域注視時間與McGurk效應發生率的關系還需要進一步探究。已有研究結果不一致可能有兩個原因:(1)不同研究之間使用的研究范式或分析方法不同。例如:Buchan和Munhall (2012)比較的是雙任務和單任務條件下的人群內差異; Gurler等人(2015)比較的是自由注視狀態下的人群間差異; Paré等人(2003)的研究不是自由注視(他們嘗試控制被試的注視位置), 并且記錄眼動的方法與其他研究不同(使用粘附人眼角膜的感應線圈, 而非其他研究常用的紅外捕捉技術)。以上實驗設計或操作上的差異都可能導致研究之間結果不同。(2)不同研究之間的興趣區劃分方法存在差異。例如Gurler等人(2015)以及Buchan和Munhall (2012)采用的是方形興趣區, 而Wilson等人(2016)則采用圓形興趣區, 這也可能影響注視時間的結果。
除了嘴部區域, 面部其它區域同樣能提供足以誘發McGurk效應的視覺言語信息。研究發現, 即使不呈現嘴部區域(將視頻沿對角線切分, 只呈現沒有嘴部的那一部分; 或將視頻沿水平中軸切分, 只呈現上半部分), McGurk效應也不會完全消失(Jordan & Thomas, 2011)。在使用其它范式的視聽整合研究中也發現了類似的效應——即使消除嘴部運動信息(只留下面部其它區域的運動信息), 視聽整合仍然會發生(Thomas & Jordan, 2004)。遺憾的是, 這些研究均沒有采用眼動技術。而在其它采用眼動技術的McGurk效應研究中, 研究者都只關注了嘴部以及眼睛區域, 忽略了面部其它區域。所以未來研究除了關注嘴部區域, 還應該比較面部其它區域的眼動差異(例如鼻子、臉頰等嘴部周邊區域。即在保證興趣區大小基本一致的前提下, 盡量讓所有興趣區覆蓋整個面部區域)。這可能為我們進一步理解McGurk效應提供證據。例如:我們最近的一項研究表明, 與獎賞聯結的面孔(相比于未與獎賞聯結的面孔)發生更多McGurk效應, 且被試對其嘴部周邊區域(鼻子、臉頰)的注視時間更長、注視點個數更多; 但對嘴部區域的注視時間卻反而更短、注視點個數更少。該結果也支持了上文提到的推論(面部其它區域也能提供有效的視覺言語信息; 而對嘴部區域的注視不是發生McGurk效應的必要條件)。
大腦接收了視聽信息的輸入之后, 開始對其進行整合加工。此時涉及的問題是:大腦在接收刺激后的不同階段里如何加工視聽刺激, 進而產生McGurk效應?研究者們嘗試用具有較高時間分辨率的腦電技術(electroencephalogram, EEG)或是腦磁圖技術(magnetoencephalography, MEG)回答該問題。目前的研究結果提示:對視聽信息的整合發生在加工早期階段; 而在加工晚期階段, 大腦會嘗試解決McGurk刺激的視聽不一致沖突。
發生McGurk效應時, 視聽整合過程在加工早期就已經發生。研究發現, 對于McGurk刺激而言, 當發生McGurk效應時, N1波幅相比于視聽一致刺激更小; 而且相比于沒有發生McGurk效應的McGurk刺激也更小(Romero, Senkowski, & Keil, 2015)。N1主要由聽覺刺激造成。相比于單獨聽覺刺激, 視聽刺激引發的N1波幅更小, 這可能反映了視聽整合過程中視覺信息利用率的增加(Besle, Fort, Delpuech, & Giard, 2004)。所以, 發生McGurk效應時的N1波幅降低可能提示了此時視覺信息對聽覺信息的影響更明顯。而且N1是事件相關電位(event related potential, ERP)的第一個負波, 這也提示這種影響發生在加工早期階段。神經振蕩結果也表明, 當McGurk效應發生時, Beta頻段的抑制相比于視聽一致的刺激在加工早期(0~500 ms)更強 (Romero et al., 2015)。這與上述N1結果類似, 提示了McGurk效應的發生(相比于視聽一致的情況)需要更強的視聽整合, 而且這種整合在加工早期就已經發生。
采用oddball范式進行的研究也支持McGurk效應中的視聽整合過程發生在加工早期的觀點。這類研究將視聽一致刺激作為標準刺激, McGurk刺激作為偏差刺激, 比較McGurk刺激和視聽一致刺激的ERP。結果表明, 在早期加工階段(聽覺刺激呈現后200~300 ms), McGurk刺激會誘發失匹配負波(mismatch negativity, MMN) (Saint- Amour, De Sanctis, Molholma, Ritter, & Foxe, 2007)。MMN反映了對出現頻率較低的新異聽覺刺激的探知; 反映了大腦將當前聽覺刺激與之前的一系列聽覺刺激進行比較的加工過程。當聽覺感知改變時, 就會產生MMN。因此, MMN可以作為聽覺辨別能力的電生理指標。MMN常由聽覺刺激的物理屬性改變而誘發。不過, 對McGurk刺激而言, 聽覺刺激的物理屬性沒有發生變化, 但主觀感知變化也引起了MMN, 這被稱為McGurk-MMN。McGurk-MMN在很多研究中得到了重復(Colin et al., 2002; Colin, Radeau, Soquet, & Deltenre, 2004; Eskelund, MacDonald, & Andersen, 2015)。這提示在加工McGurk刺激的早期階段, 個體就已經感知到了新異的聽覺刺激(雖然聽覺刺激的物理屬性實際上并沒有改變), 即視聽整合已經發生了(辛昕, 任桂琴, 李金彩, 唐曉雨, 2017)。采用類似oddball范式的MEG研究也表明, 發生McGurk效應時, 在早期加工階段(聽覺刺激呈現后160 ms以及270 ms), 不同腦區的Gamma振蕩活動會增強(Kaiser, Hertrich, Ackermann, Mathiak, & Lutzenberger, 2005)。而Gamma神經振蕩與信息整合加工有關(錢浩悅, 黃逸慧, 高湘萍, 2018)。這與上述McGurk-MMN的結果類似, 即此時視聽整合已經開始發生, 大腦探測到了聽覺信號的“改變” (實際上是主觀感受改變, 物理刺激并沒有變化)。
在上述McGurk-MMN的相關研究中(采用oddball范式), 研究者主要比較了McGurk刺激(偏差刺激)與視聽一致刺激(標準刺激)的差異, 但是這類研究忽略了以下問題:此時產生的MMN究竟是由于聽覺感知發生改變, 還是由于視覺信息與聽覺信息不一致?所以, 在未來的相關研究中應該考慮加入一組對照條件——將視聽一致刺激作為標準刺激、視聽不一致且不會誘發McGurk效應的刺激作為偏差刺激。依據聽覺感知發生改變才會發生MMN的假設, 這種情況下的視聽不一致刺激相比于視聽一致刺激應該不會產生MMN。這一推論值得進一步探究。
在加工的相對晚期階段(上述視聽整合過程已經開始之后), 大腦會嘗試解決視聽不一致沖突(McGurk刺激的視聽信息實際上是不一致的, 所以可能發生沖突)。研究表明, 在刺激呈現后500~ 800 ms, McGurk刺激相比于視聽一致刺激有更強的Beta頻段抑制。依據已有研究, 視聽不一致刺激的Beta頻段抑制比視聽一致刺激強(Lange, Christian, & Schnitzler, 2013), 這可能反映了視聽不一致的沖突效應以及自上而下的沖突解決過程。即大腦可能在加工的相對晚期階段才探測到視聽不一致沖突, 并且嘗試解決。另一方面, 采用oddball范式的MEG研究也表明, 發生McGurk效應時, 加工晚期的Gamma頻段活動會增強, 這也提示了與聽覺信息不一致的視覺信息對聽覺感知的影響(Kaiser et al., 2005)。有趣的是, 即使被試報告感知到視聽不一致, McGurk效應仍會發生(Soto-Faraco & Alsius, 2009)。這提示, 即使視聽不一致沖突沒有解決, 視聽整合也會發生, 二者是相對獨立的過程。
除了時間進程問題, 在大腦加工McGurk刺激的過程中, 另一個重要問題是:哪些腦區參與了加工以及這些腦區起何作用?研究者們嘗試用具有較高空間分辨率的功能性磁共振成像技術(functional magnetic resonance imaging, fMRI)、經顱磁刺激技術(transcranial magnetic stimulation, TMS)和MEG回答此問題。目前的研究結果提示:顳上皮層(superior temporal cortex)與視聽整合過程相關; 額下皮層(inferior frontal cortex)與視聽不一致沖突相關。
在發生McGurk效應的過程中, 顳上皮層與視聽整合密切相關(Beauchamp et al., 2010; Miller & D'Esposito, 2005; Nath & Beauchamp, 2012)。早期fMRI研究表明, 相比于沒有發生McGurk效應, 當發生McGurk效應時, 顳上皮層的激活更強(Jones & Callan, 2003)。對McGurk效應個體差異的神經基礎研究發現, McGurk效應發生率在50%以上的被試(強McGurk感知者)相比于發生率在50%以下的被試(弱McGurk感知者), 左側顳上溝(left superior temporal sulcus, lSTS)的激活更強, 且其激活程度與McGurk效應發生率有顯著正相關(Nath & Beauchamp, 2012)。該結果在6~12歲兒童的研究中得到了重復(Nath, Fava, & Beauchamp, 2011)。更重要的是, Beauchamp等人(2010)使用fMRI技術定位每個被試的STS, 之后使用TMS抑制STS的激活。結果表明, 使用TMS刺激STS之后, 被試的McGurk效應發生率降低了, 但是對一般視聽材料的判斷不受影響。類似的, Marques, Lapenta, Merabet, Bolognini和Boggio (2014)使用經顱電刺激技術(transcranial direct current stimulation)刺激STS, 也得到了與Beauchamp等人(2010)一致的結果。在EEG研究中, Saint-Amour等人(2007)對上文提到的McGurk-MMN進行了溯源分析, 發現了左側顳葉皮層的主導效應。MEG研究也發現, 在發生McGurk效應之前會伴隨著多個腦區的神經振蕩, 尤其是左側顳上回(left superior temporal gyrus)的Beta神經振蕩, 研究者認為這提示了視聽整合的過程(Keil, Müller, Ihssen, & Weisz, 2012)。
McGurk效應與顳上皮層的關系研究結果較為一致, 但仍有進一步探索的空間。最近, 一項視聽整合的研究發現, STS對視聽整合的反應可以再細分:STS的某些體素(voxels)對面孔的嘴部運動更敏感, 而另一些體素對面孔的眼部運動更敏感。當視聽信息呈現時, STS激活, 且只有對嘴部運動敏感的體素會對聽覺刺激有較強的反應。這提示STS腦區在整合視聽信息的過程中, 視覺和聽覺信息都會一起加工, 但是對整合影響較大的視覺信息(例如嘴部運動)相比于對整合影響較小的視覺信息(例如眼部運動)在其中的加工方式可能不同(Zhu & Beauchamp, 2017)。該研究提示, 對McGurk效應而言, STS的激活也可能有類似的效應(例如:對嘴部運動敏感的體素或許可以預測McGurk效應發生與否, 而對眼部運動敏感的體素則不能)。未來值得從細分腦區激活模式的角度進一步探討STS在McGurk效應中的作用。
除了顳上皮層, 另一個備受關注的McGurk效應相關腦區是額下皮層。該腦區與視聽不一致沖突有關(Fernández et al., 2017; Gau & Noppeney, 2016; Nath & Beauchamp, 2012)。在早期的McGurk效應fMRI研究中就發現了額下皮層的激活(Jones & Callan, 2003)。在MEG研究中也發現了左側額下皮層的神經振蕩活動增強(Kaiser et al., 2005)。對McGurk效應個體差異的神經基礎研究也發現, 相比于視聽一致刺激, 額下回(inferior frontal gyrus, IFG)對視聽不一致刺激(包括McGurk刺激)的激活更強。但是IFG的激活在強McGurk感知者和弱McGurk感知者之間沒有差異。研究者由此推斷:IFG可能與視聽不一致沖突有關, 但與視聽整合過程關系不大(Nath & Beauchamp, 2012)。還有研究發現, 相比于沒有發生McGurk效應的情況, 當發生McGurk效應時, IFG的激活更強。而且與沖突探測相關的腦區——前扣帶回(anterior cingulatecortex, ACC)的激活也更強(Fernández et al., 2017)。這也提示了McGurk效應中存在視聽不一致沖突的過程。
Gau和Noppeney (2016)的研究也涉及額下皮層激活模式與McGurk效應的關系, 但與上述Fernández等人(2017)的研究結果不一致。具體而言, Gau和Noppeney (2016) 使用fMRI探究預期對McGurk效應的影響。在該研究中, 研究者明確告訴被試這一組刺激的視聽信息是一致還是不一致(即“告知一致”和“告知不一致”條件)。結果表明, 相比于告知不一致條件, 在告知一致條件下, 被試的McGurk效應發生率更高(即被試預期刺激是視聽一致時更容易發生McGurk效應)。在神經層面, 左額下溝(left inferior frontal sulcus, lIFS)在視聽不一致時(相比于視聽一致)激活更強, 這與上述Fernández等人(2017)的結果相似。但當被試發生了McGurk效應(相比于沒有發生McGurk效應)時, lIFS激活減弱。而且, 這種效應在被試預期視聽一致(發生更多McGurk效應)時比預期視聽不一致(發生更少McGurk效應)時更明顯。這似乎與Fernández等人(2017)的結果相反——Fernández等人(2017)發現:發生McGurk效應時, IFG激活更強。
即使有不一致的研究結果, 仍可以肯定的是:額下皮層在McGurk效應中與視聽不一致沖突有關。只是目前還需要進一步探究其激活模式。上述研究結果不一致可能有三個原因:(1)兩項研究的范式不同。Fernández等人(2017)關注的是自然狀態下的McGurk刺激感知; 而Gau和Noppeney (2016)關注的是有心理預期條件下對McGurk刺激的感知。即后者可能還包括了預期的效應。(2) fMRI無法細致區分加工的時間進程。額下皮層確實與視聽不一致沖突有關, 但是其在沖突解決的過程中可能有不同的激活模式。具體而言:大腦探測到沖突并剛開始嘗試解決時, 額下皮層激活增強; 而激活越強, 就越有利于沖突解決, 進而有利于McGurk效應的發生。此時比較McGurk效應發生和沒發生時的額下皮層激活程度, 就可能得到Fernández等人(2017)的結果。但當過了大腦嘗試解決沖突的時間段, 如果發生了McGurk效應, 則可能沖突已經基本解決。所以由于沖突變弱, 額下皮層的激活也就隨之減小。相對的, 如果沒有發生McGurk效應, 則沖突還沒有解決, 其激活可能仍然較強。此時比較McGurk效應發生和沒發生時的額下皮層激活程度, 就可能得到Gau和Noppeney (2016)的結果。(3)額下皮層的不同區域可能在不同的時間進程上起到不同的作用。Fernández等人(2017)定位的是IFG, 而Gau和Noppeney (2016)定位的是IFS, 位置稍有區別。二者可能在上述加工時間進程中起到承接的作用——隨著沖突解決程度的改變, 額下回的激活模式也隨之改變。這個問題值得進一步采用時間、空間分辨率都較高的MEG技術深入探究。
綜上所述, 對McGurk效應的相關腦區分析仍有較大探索空間。除了上述額下皮層激活模式之外, 未來研究還可以考慮進行功能連接分析。例如對刺激的加工是如何在顳上皮層與額下皮層二者之間傳遞的?這有助于我們理解McGurk效應中的視聽整合過程和視聽不一致沖突過程。還可以考慮進行多體素模式分析(multivoxel pattern analysis, MVPA), 以探究McGurk刺激相比于視聽一致刺激或是不能誘發McGurk效應的視聽不一致刺激的大腦激活模式有何差異。這有助于我們進一步理解大腦對McGurk刺激的加工相比于其他視聽刺激有何本質差別。
McGurk效應反映了視覺信息對聽覺感知的影響。該效應提出至今40多年, 仍舊是視聽言語感知研究中的熱點問題。本文嘗試對McGurk效應的研究要點進行系統性梳理, 概括如下:(1) McGurk效應的測量與界定:誘發McGurk效應需要特定輔音的視頻和特定輔音的音頻組合。目前較常用視覺輔音“g”和聽覺輔音“b”的組合。相關研究中最普遍的因變量指標為McGurk效應發生率, 即對McGurk刺激實施多次測量后計算其中發生McGurk效應的次數比例。多數研究將McGurk效應界定為:只要感知到不同于實際聽覺刺激的音節, 就算是發生了McGurk效應。(2) McGurk效應的影響因素:包括物理刺激(例如:視覺、聽覺刺激、視聽刺激異步性)、認知因素(例如:注意分配、心理預期)等造成個體內變異的因素。還包括視聽信息依賴程度、視聽整合能力、語言文化差異等造成個體間變異的因素。(3) McGurk效應的認知神經機制:McGurk效應發生時, 視覺言語信息主要來自說話者的嘴部區域(不過, 說話者面部其它區域也能提供有效的視覺言語信息)。視聽整合過程發生在加工早期階段、與顳上皮層有關。視聽不一致沖突發生在加工晚期階段、與額下皮層有關。
雖然前人研究對McGurk效應進行了細致深入的探討, 但仍然存在一些問題與不足, 這在上文已經有所討論(例如:現有研究很少關注面孔社會屬性對McGurk效應的影響, 也很少關注面部其它區域提供的視覺言語信息, 而且眼動和fMRI研究中存在不一致的結果等)。下文將從McGurk效應中單通道信息加工與視聽整合的關系、McGurk效應的刺激間變異、與計算模型的關系、對后續認知過程的影響、以及范式的標準化與推廣性出發, 結合已有研究的不足, 提出未來研究的可能方向。
視聽整合過程應該涉及兩個方面:一是加工外界輸入的單通道的視覺和聽覺信息; 二是對輸入的視聽信息進行整合。遺憾的是, 很少有研究細致區分McGurk效應發生率的改變究竟是來自哪個方面, 大部分研究只是粗略地解釋為“某因素影響了視聽整合過程”, 而沒有進一步討論該因素究竟是直接影響了視聽整合能力本身, 還是影響了個體對單通道信息的加工過程(視聽整合能力可能不變), 進而影響了視聽整合的程度。這是未來研究在解釋McGurk效應發生率的變化時需要注意的問題。換言之, 雖然研究者們公認發生McGurk效應就是發生了視聽整合, 但是直接把McGurk效應發生率等同于視聽整合能力顯得過于武斷。因為McGurk效應發生率(即視聽整合的程度)除了與個體視聽整合能力有關之外, 還與個體對單通道信息(視覺、聽覺信息)的加工有關(也見本文3.2)。相應的, 在神經機制方面, 已有研究大都關注McGurk效應中的視聽整合過程(最近也有研究開始關注McGurk效應與視聽不一致沖突, 見本文4.3), 但很少有研究關注對單通道信息的加工在McGurk效應神經機制中所起的作用, 這在未來同樣值得進一步探討。
以對視覺信息的加工過程(即唇讀過程)為例——我們推測, McGurk效應的發生與否可能與個體對視覺信息的加工策略(傾向于自上而下地控制還是自下而上地反應)有關, 這一假設主要基于唇讀的神經機制研究。研究表明, McGurk效應的發生率與唇讀能力顯著正相關(Strand et al., 2014)。而聽力正常者唇讀過程的神經機制與視聽整合過程很相似——唇讀與顳上皮層的激活相關(Macsweeney, et al., 2000)。然而, 聽力障礙者的唇讀卻是與海馬和后部扣帶皮層的活動相關, 而非顳上皮層(Macsweeney, et al., 2002)。其中, 海馬的激活提示了記憶在唇讀中的重要作用, 而后部扣帶皮層則可能是負責將記憶中的語言知識與外部輸入的視覺信息進行比較, 進而完成言語感知。這提示聽力障礙者在對視覺信息的加工過程(即唇讀過程)中更傾向于采取自上而下的加工策略。而聽力正常者可能只在更困難的言語加工情境下(例如有噪音時)才調動這種自上而下的加工(張明, 陳騏, 2003)。所以, 我們推測, 不同加工策略并不是非此即彼, 而是連續變化、有所權重, 而個體加工視覺信息時采取的兩種加工策略的權重可能與McGurk效應有關。
McGurk效應存在較大的刺激間變異。即不同的McGurk刺激(例如不同的說話人、不同的視聽音節組合)對同一個被試而言, 其McGurk效應發生率可能有較大差異(Mallick et al., 2015)。目前大部分研究都只采用1個或2個McGurk刺激, 所以在進行研究之間的比較時, 刺激間的變異也可能導致研究結果差異。但很少有研究者考慮這個問題。未來研究可以考慮使用多個McGurk刺激, 以期降低McGurk效應的刺激間變異的影響。不過, 這樣也會帶來另一個問題:如何控制本研究中的刺激間變異。
研究者可以考慮使用McGurk效應的差異噪聲編碼模型(noisy encoding of disparity model, NED, Magnotti & Beauchamp, 2015)來分離McGurk效應的刺激間變異。該模型認為不同個體受視覺信息影響的程度、以及表征視聽信息的清晰度不同, 不同刺激引起McGurk效應的“能力”也不同(有的刺激更容易誘發McGurk效應, 有的更不容易), 這些因素共同影響McGurk效應是否發生。相應地, NED模型包括三個參數:感知噪聲(sensory noise,s)、區別閾限(disparity threshold, T)、刺激差異(stimulus disparity, D)。其中, 感知噪聲(σ)描述了個體在表征視聽信息時的清晰、準確程度。感知噪聲越低, 表征越清晰。區別閾限(T)描述了個體依據視覺信息進行判斷的傾向高低。區別閾限越高, 個體越傾向于依賴視覺信息進行判斷(即更可能產生McGurk效應)。感知噪聲和區別閾限都是描述個體間變異的參數。而刺激差異(D)描述了單個McGurk刺激引起McGurk效應的可能性大小, 是描述刺激間變異的參數。該模型區分了刺激引起的變異和個體的內部差異, 這讓研究者可以利用該模型分離出由刺激的差異帶來的McGurk效應變異。所以, 未來研究可以考慮采用多個McGurk刺激、并使用NED模型來控制刺激間差異的影響。可以考慮在經過預實驗之后, 篩選出刺激差異相似的McGurk刺激。也可考慮不直接比較McGurk效應發生率, 而是比較模型擬合后的個體相關參數, 即感知噪聲和區別閾限的變化。這樣一方面可以增加結論的可推廣性, 另一方面可以控制由于增加McGurk刺激數量而帶來的刺激差異混淆。尤其是涉及使用不同刺激進行組間比較的實驗、或是不同刺激在被試間交叉平衡的實驗。
除了上文探討的腦機制相關研究, 計算模型研究也嘗試從新的角度對McGurk效應的機制進行解釋(Marques et al., 2016; Samuel, 2011)。例如上文已經提到的分層預測編碼模型(Olasagasti et al., 2015)以及NED模型(Magnotti & Beauchamp, 2015)。未來研究應考慮將腦科學技術與計算模型相結合。不同于通過實驗操縱或是利用神經生理技術來探究機制的方法, 計算模型研究嘗試先假定其中的加工過程, 并利用不同的參數來描述不同的加工過程, 參數在其中代表的意義與特定加工過程相對應。這可能為我們理解某個認知過程提供新的思路。但是, 計算模型比較依賴事先對模型的假設, 其參數擬合大多是依據行為結果(例如McGurk效應發生率)或是視聽刺激的物理參數, 這與其它探討McGurk效應腦機制的研究(例如EEG、fMRI結果)關聯較小。遺憾的是, 很少有McGurk效應的研究將神經生理技術與計算模型相結合。所以, 未來的計算模型研究可以考慮利用EEG、fMRI結果等神經科學指標進行參數擬合, 抑或是神經科學研究可以考慮利用計算模型尋找相應參數的對應腦區, 為模型的參數找到神經基礎。例如:將神經生理結果與NED模型相結合, 嘗試尋找刺激差異(D)、感知噪聲(σ)、區別閾限(T)的相關腦區。這有助于我們定位哪些腦區負責編碼刺激差異、哪些腦區負責表征視聽信息的清晰度、以及哪些腦區負責對視覺信息的利用等。再如:最近提出的多感覺語言感知的因果推斷模型(model of causal inference in multisensory speech perception, Magnotti & Beauchamp, 2017)認為, 人們在面對多通道信息時并不是直接進行整合, 而是先判斷這些不同通道的信息是否同源的可能性(因果推斷), 并據此給“整合”或“不整合”分配權重——即在面對視聽不一致的McGurk刺激時, 大腦會先判斷視聽信息是來自同一個人的可能性(以及不是來自同一個人的可能性), 并據此給“整合”或“不整合”命令分配權重、并平均表征。在完成因果推斷之后, 如果執行“整合”命令, 則會產生McGurk效應; 反之, 則不會發生McGurk效應。這提示我們, 除了視聽整合過程和視聽不一致沖突之外, 在那之前的因果推斷過程可能也是發生McGurk效應時的一個步驟。為之尋找相關神經基礎有助于我們補充、完善對McGurk效應機制的理解。
多數研究都在關注影響McGurk效應的因素, 或是直接探討McGurk效應的機制, 很少有研究關注McGurk效應發生之后的“后續影響”。即McGurk效應是否以及如何影響其他認知過程。圍繞這個要點, 可以提出很多有趣的研究問題。例如:有研究發現, 當被試感受過McGurk刺激之后, 在接下來的單獨聲音判斷任務中, 被試會更傾向于認為聽到的聲音是之前看到的嘴型的聲音。即McGurk效應會重新校準個體對聽覺語音的識別(Bertelson et al., 2003)。類似的, 另一項研究也發現, 當McGurk效應發生(聽覺“aba”和視覺“aga”被感知為“ada”)之后, 對純聽覺“aba”的判斷更容易被錯誤地知覺為“ada” (McGurk知覺)。而且當這種情況發生時, 大腦的聽覺皮層的激活模式與實際聽到“ada”時更相似(相比于沒有把純聽覺“aba”錯誤地知覺為“ada”的情況)。這提示當感知到McGurk效應時, 大腦的神經表征模式會從表征“aba”向“ada”轉換, 這會影響到后續的純聽覺任務(Lüttke, Ekman, van Gerven, & de Lange, 2016)。這些研究都提示, McGurk效應的發生確實會對后續認知過程產生影響, 探究該問題有助于我們更加全面地認識McGurk效應。與此相關的另一個有趣問題是:在McGurk效應研究中, 刺激材料多采用的是無意義音節(例如聽覺“ba”和視覺“ga”感知到“da”)。但有少部分研究采用的是詞匯刺激(例如:聽覺“bait”和視覺“gate”感知到“date”, Alsius et al., 2005, 2007)。那么當采用詞匯刺激時, McGurk效應發生(或沒發生)后的語義激活情況如何變化?是激活了聽覺詞的語義、還是視覺詞的語義、還是整合后感知的語義?抑或是所有語義都有激活, 只是激活程度不同?這有助于我們理解McGurk效應發生后, 原本的聽覺與視覺刺激在加工過程中如何變化。
雖然對McGurk效應的研究很多, 但不同研究之間在細節上存在較大差異, 研究范式的標準化是未來需要重視的問題, 主要包括:采用標準化刺激、使用一致的McGurk效應界定標準、在實驗中加入填充試次、報告完整的描述統計結果。Alsius等人(2018)嘗試對McGurk效應的強度進行元分析。但在初步篩出的276項研究中, 最終符合元分析標準的只有21項。而在這21項研究之中, 只有2項研究用表格報告了均值標準差; 不同研究之間范式的使用也千差萬別。而且, 考慮到McGurk效應的刺激間變異和個體間變異, 在確定造成這些變異的主要原因之前(即可能的調節變量), 對McGurk效應的強度進行元分析似乎是不可能的。這強烈提示我們:在未來的研究中, 應注意以下問題:(1)采用標準化刺激。研究者們應該建立標準McGurk刺激的開放數據庫, 一方面免去自行錄制視頻的投入, 另一方面可以更好地控制McGurk效應的刺激間變異, 有助于進行研究間的比較。(2)使用一致的McGurk效應界定標準。建議采用寬松的McGurk效應界定標準。即只要聽覺感知不同于實際的聽覺刺激, 就算是發生了McGurk效應(Alsius et al., 2018; Tiippana, 2014)。(3)在實驗中加入填充試次。建議除了視聽一致刺激之外, 增加單獨聽覺的條件作為填充試次, 以確認在McGurk效應中確實是視覺信息對聽覺感知造成了影響, 而不是被試聽覺感知本身的問題(Alsius et al., 2018)。(4)應該報告完整的描述性統計結果, 這是將來進行元分析的必要數據。
最后, 研究者還需要注意McGurk效應的推廣性問題——將McGurk效應的研究結論推廣到視聽一致的言語感知情景中時, 需要謹慎(Alsius et al., 2018)。因為McGurk效應的加工過程無論在現象上還是神經上都與視聽一致時的加工過程不完全一樣。主要體現在以下研究中:(1)個體對視聽一致刺激的加工不涉及視聽沖突, 但對McGurk刺激的加工可能涉及視聽不一致沖突的探測和解決(Fernández et al., 2017)。而且McGurk效應的發生率與探測視聽不一致的能力(分辨真實的視聽一致刺激和McGurk刺激)有顯著負相關(Strand et al., 2014)。(2)相比于McGurk刺激, 顳上皮層對視聽一致刺激更偏好, 即對視聽一致刺激的激活更強(Lüttke, Ekman, van Gerven, & de Lange, 2015)。(3)個體的McGurk效應發生率與個體在噪聲中利用視覺信息輔助聽覺理解句子的能力沒有顯著相關。而后者的刺激主要是視聽一致刺激。這提示我們McGurk效應不一定能直接替代對視聽一致刺激的研究(Van Engen et al., 2017)。
雷江華, 方俊明. (2005). 聾人唇讀的大腦機制研究.(1), 10–12.
李燕芳, 梅磊磊, 董奇. (2008). 漢語母語者視聽雙通道言語知覺的特點及發展研究.,(3), 43–47.
李燕芳, 梅磊磊, 董奇. (2009). 視覺言語在漢語母語兒童和成人英語語音知覺中的作用.,(5), 1038–1041.
樸永馨. (2006).. 北京: 華夏出版社.
錢浩悅, 黃逸慧, 高湘萍. (2018). Gamma神經振蕩和信息整合加工.(3), 433–441.
石涯, 王永華, 李文靖. (2016). 唇讀對聽障兒童語音識別的幫助作用.,(5), 482–485.
文小輝, 李國強, 劉強. (2011). 視聽整合加工及其神經機制.,(7), 976–982.
文小輝, 劉強, 孫弘進, 張慶林, 尹秦清, 郝明潔, 牟海蓉. (2009). 多感官線索整合的理論模型.,(4), 659–666.
辛昕, 任桂琴, 李金彩, 唐曉雨. (2017). 早期視聽整合加工——來自MMN的證據.,(5), 757–768.
徐誠. (2013). 唇讀研究回顧:從聾人到正常人.(1), 56–61.
張明, 陳騏. (2003). 聽覺障礙人群的言語機制.(5), 486–493.
Alsius, A., Navarra, J., Campbell, R., & Soto-Faraco, S. (2005). Audiovisual integration of speech falters under high attention demands.,(9), 839–843.
Alsius, A., Navarra, J., & Soto-Faraco, S. (2007). Attention to touch weakens audiovisual speech integration.,(3), 399–404.
Alsius, A., Paré, M., & Munhall, K. G. (2018). Forty years after hearing lips and seeing voices: The McGurk effect revisited.,(1-2), 111–144.
Bayard, C., Colin, C., & Leybaert, J. (2014). How is the McGurk effect modulated by cued speech in deaf and hearing adults?,, 416.
Beauchamp, M. S., Nath, A. R., & Pasalar, S. (2010). fMRI-guided transcranial magnetic stimulation reveals that the superior temporal sulcus is a cortical locus of the McGurk effect.,(7), 2414–2417.
Bertelson, P., Vroomen, J., & de Gelder, B. (2003). Visual recalibration of auditory speech identification: A McGurk after effect.,(6), 592–597.
Besle, J., Fort, A., Delpuech, C., & Giard, M. (2004). Bimodal speech: Early suppressive visual effects in human auditory cortex.,(8), 2225–2234.
Brancazio, L., & Miller, J. L. (2005). Use of visual information in speech perception: Evidence for a visual rate effect both with and without a McGurk effect.,(5), 759–769.
Buchan, J. N., & Munhall, K. G. (2012). The effect of a concurrent working memory task and temporal offsets on the integration of auditory and visual speech information.,(1), 87–106.
Burnham, D., & Dodd, B. (2004). Auditory-visual speech integration by prelinguistic infants: Perception of an emergent consonant in the McGurk effect.,(4), 204–220.
Burnham, D., & Dodd, B. (2018). Language-general auditory- visual speech perception: Thai-English and Japanese- English McGurk effects.,(1-2), 79–110.
Colin, C., Radeau, M., Soquet, A., & Deltenre, P. (2004). Generalization of the generation of an MMN by illusory McGurk percepts: Voiceless consonants.,(9), 1989–2000.
Colin, C., Radeau, M., Soquet, A., Demolin, D., Colin, F., & Deltenre, P. (2002). Mismatch negativity evoked by the McGurk-MacDonald effect: A phonetic representation within short-term memory.,(4), 495–506.
de Gelder, B., & Vroomen, J. (2000). The perception of emotions by ear and by eye.,(3), 289–311.
de Gelder, B., Vroomen, J., & van der Heide, L. (1991). Face recognition and lip-reading in autism.,(1), 69–86.
Eskelund, K., MacDonald, E. N., & Andersen, T. S. (2015). Face configuration affects speech perception: Evidence from a McGurk mismatch negativity study.,, 48–54.
Fang, F., & He, S. (2005). Cortical responses to invisible objects in the human dorsal and ventral pathways.,(10), 1380–1385.
Fernández, L. M., Macaluso, E., & Soto-Faraco, S. (2017). Audiovisual integration as conflict resolution: The conflict of the McGurk illusion.,(11), 5691–5705.
Gau, R., & Noppeney, U. (2016). How prior expectations shape multisensory perception.,, 876–886.
Gurler, D., Doyle, N., Walker, E., Magnotti, J., & Beauchamp, M. (2015). A link between individual differences in multisensory speech perception and eye movements.,(4), 1333–1341.
Hisanaga, S., Sekiyama, K., Igasaki, T., & Murayama, N. (2016). Language/culture modulates brain and gaze processes in audiovisual speech perception.,, 35265.
Hockley, N. S., & Polka, L. (1994). A developmental study of audiovisual speech perception using the McGurk paradigm.,(5), 3309–3318.
Irwin, J., Avery, T., Brancazio, L., Turcios, J., Ryherd, K., & Landi, N. (2018). Electrophysiological indices of audiovisual speech perception: Beyond the McGurk effect and speech in noise.,(1-2), 39–56.
Jones, J. A., & Callan, D. E. (2003). Brain activity during audiovisual speech perception: An fMRI study of the McGurk effect.,(8), 1129–1133.
Jordan, T. R., McCotter, M. V., & Thomas, S. M. (2000). Visual and audiovisual speech perception with color and gray-scale facial images.,(7), 1394–1404.
Jordan, T. R., & Sergeant, P. (2000). Effects of distance on visual and audiovisual speech recognition.,(1), 107–124.
Jordan, T. R., & Thomas, S. M. (2011). When half a face is as good as a whole: Effects of simple substantial occlusion on visual and audiovisual speech perception.,(7), 2270–2285.
Kaiser, J., Hertrich, I., Ackermann, H., Mathiak, K., & Lutzenberger, W. (2005). Hearing lips: Gamma-band activity during audiovisual speech perception.,(5), 646–653.
Keil, J., Müller, N., Ihssen, N., & Weisz, N. (2012). On the variability of the McGurk effect: Audiovisual integration depends on prestimulus brain states.,(1), 221–231.
Lange, J., Christian, N., & Schnitzler, A. (2013). Audio- visual congruency alters power and coherence of oscillatory activity within and between cortical areas.,, 111–120.
Lüttke, C. S., Ekman, M., van Gerven, M. A., & de Lange, F. P. (2015). Preference for audiovisual speech congruency in superior temporal cortex.,(1), 1–7.
Lüttke, C. S., Ekman, M., van Gerven, M. A. J., & de Lange, F. P. (2016). McGurk illusion recalibrates subsequent auditory perception.,, 32891.
MacDonald, J. (2018). Hearing lips and seeing voices: The origins and development of the 'McGurk effect' and reflections on audio–visual speech perception over the last 40 years.,(1-2), 7–18.
MacDonald, J., Andersen, S., & Bachmann, T. (2000). Hearing by eye: How much spatial degradation can be tolerated?,(10), 1155–1168.
Macsweeney, M., Amaro, E., Calvert, G. A., Campbell, R., David, A. S., McGuire, P., ... Brammer, M. J. (2000). Silent speechreading in the absence of scanner noise: An event-related fMRI study.(8), 1729–1733.
Macsweeney, M., Calvert, G. A., Campbell, R., McGuire, P. K., David, A. S., Williams, S. C. R., ... Brammer, M. J. (2002). Speechreading circuits in people born deaf.(7), 801–807.
Magnotti, J. F., & Beauchamp, M. S. (2015). The noisy encoding of disparity model of the McGurk effect.,(3), 701–709.
Magnotti, J. F., & Beauchamp, M. S. (2017). A causal inference model explains perception of the McGurk effect and other incongruent audiovisual speech.,(2), e1005229.
Magnotti, J. F., Mallick, D. B., & Beauchamp, M. S. (2018). Reducing playback rate of audiovisual speech leads to a surprising decrease in the McGurk effect.,(1-2), 19–38.
Magnotti, J. F., Mallick, D. B., Feng, G., Zhou, B., Zhou, W., & Beauchamp, M. S. (2015). Similar frequency of the McGurk effect in large samples of native Mandarin Chinese and American English speakers.,(9), 2581–2586.
Mallick, D. B., Magnotti, J. F., & Beauchamp, M. S. (2015). Variability and stability in the McGurk effect: Contributionsof participants, stimuli, time, and response type.,(5), 1299–1307.
Marques, L. M., Lapenta, O. M., Costa, T. L., & Boggio, P. S. (2016). Multisensory integration processes underlying speech perception as revealed by the McGurk illusion.,(9), 1115–1129.
Marques, L. M., Lapenta, O. M., Merabet, L. B., Bolognini, N., & Boggio, P. S. (2014). Tuning and disrupting the brain-modulating the McGurk illusion with electrical stimulation., 533.
McGurk, H., & MacDonald, J. (1976). Hearing lips and seeing voices.,(5588), 746–748.
Miller, L. M., & D'Esposito, M. (2005). Perceptual fusion and stimulus coincidence in the cross-modal integration of speech.,(25), 5884–5893.
Moro, S. S., & Steeves, J. K. E. (2018). Audiovisual plasticity following early abnormal visual experience: Reduced McGurk effect in people with one eye., 103–107.
Munhall, K. G., Gribble, P., Sacco, L., & Ward, M. (1996). Temporal constraints on the McGurk effect.,(3), 351–362.
Munhall, K. G., ten Hove, M. W., Brammer, M., & Paré, M. (2009). Audiovisual integration of speech in a bistable illusion.,(9), 735–739.
Nath, A. R., & Beauchamp, M. S. (2012). A neural basis for interindividual differences in the McGurk Eeffect, a multisensory speech illusion.,(1), 781–787.
Nath, A. R., Fava, E. E., & Beauchamp, M. S. (2011). Neural correlates of interindividual differences in children's audiovisual speech perception.,(39), 13963–13971.
Olasagasti, I., Bouton, S., & Giraud, A. L. (2015). Prediction across sensory modalities: A neurocomputational model of the McGurk effect.,, 61–75.
Palmer, T. D., & Ramsey, A. K. (2012). The function of consciousness in multisensory integration.,(3), 353–364.
Paré, M., Richler, R. C., ten Hove, M., & Munhall, K. G. (2003). Gaze behavior in audiovisual speech perception: The influence of ocular fixations on the McGurk effect.,(4), 553–567.
Proverbio, A. M., Massetti, G., Rizzi, E., & Zani, A. (2016). Skilled musicians are not subject to the McGurk effect.,, 30423.
Quinto, L., Thompson, W. F., Russo, F. A., & Trehub, S. E. (2010). A comparison of the McGurk effect for spoken and sung syllables.,(6), 1450–1454.
Romero, Y. R., Senkowski, D., & Keil, J. (2015). Early and late beta-band power reflect audiovisual perception in the McGurk illusion.,(7), 2342–2350.
Rosenblum, L. D., Schmuckler, M. A., & Johnson, J. A. (1997). The McGurk effect in infants.,(3), 347–357.
Rosenblum, L. D., Yakel, D. A., & Green, K. P. (2000). Face and mouth inversion effects on visual and audiovisual speech perception.,(2), 806–819.
Ross, L. A., Saint-Amour, D., Leavitt, V. M., Javitt, D. C., & Foxe, J. J. (2007). Do you see what I am saying? Exploring visual enhancement of speech comprehension in noisy environments.,(5), 1147–1153.
Rouger, J., Fraysse, B., Deguine, O., & Barone, P. (2008). McGurk effects in cochlear-implanted deaf subjects.,(1), 87–99.
Saint-Amour, D., De Sanctis, P., Molholma, S., Ritter, W., & Foxe, J. J. (2007). Seeing voices: High-density electrical mapping and source-analysis of the multisensory mismatch negativity evoked during the McGurk illusion.,(3), 587–597.
Samuel, A. G. (2011). Speech perception.,(1), 49–72.
Sekiyama, K. (1997). Cultural and linguistic factors in audiovisual speech processing: The McGurk effect in Chinese subjects.,(1), 73–80.
Sekiyama, K., Soshi, T., & Sakamoto, S. (2014). Enhanced audiovisual integration with aging in speech perception: A heightened McGurk effect in older adults.,, 323.
Sekiyama, K., & Tohkura, Y. (1993). Inter-language differences in the influence of visual cues in speech perception.,(4), 427–444.
Soto-Faraco, S., & Alsius, A. (2009). Deconstructing the McGurk–MacDonald illusion.,(2), 580–587.
Stein, B. E., & Stanford, T. R. (2008). Multisensory integration: Current issues from the perspective of the single neuron.,, 255–266.
Stevenson, R. A., Zemtsov, R. K., & Wallace, M. T. (2012). Individual differences in the multisensory temporal binding window predict susceptibility to audiovisual illusions.,(6), 1517–1529.
Strand, J., Cooperman, A., Rowe, J., & Simenstad, A. (2014). Individual differences in susceptibility to the McGurk effect: Links with lipreading and detecting audiovisual incongruity.,(6), 2322–2331.
Summerfield, Q. (1992). Lipreading and audio-visual speech perception.(1273), 71–78.
Thomas, S. M., & Jordan, T. R. (2002). Determining the influence of Gaussian blurring on inversion effects with talking faces.,(6), 932–944.
Thomas, S. M., & Jordan, T. R. (2004). Contributions of oral and extraoral facial movement to visual and audiovisual speech perception.,(5), 873–888.
Tiippana, K. (2014). What is the McGurk effect?,, 725.
Tiippana, K., Andersen, T. S., & Sams, M. (2004). Visual attention modulates audiovisual speech perception.,(3), 457–472.
Tsuchiya, N., & Koch, C. (2005). Continuous flash suppression reduces negative afterimages.,(8), 1096–1101.
Ujiie, Y., Asai, T., & Wakabayashi, A. (2015). The relationship between level of autistic traits and local bias in the context of the McGurk effect.,, 891.
Ujiie, Y., Asai, T., & Wakabayashi, A. (2018). Individual differences and the effect of face configuration information in the McGurk effect.(4), 973–986.
Van Engen, K. J., Xie, Z., & Chandrasekaran, B. (2017). Audiovisual sentence recognition not predicted by susceptibility to the McGurk effect.,(2), 396–403.
Walker, S., Bruce, V., & O'Malley, C. (1995). Facial identity and facial speech processing: Familiar faces and voices in the McGurk effect.,(8), 1124–1133.
Wilson, A. H., Alsius, A., Paré, M., & Munhall, K. G. (2016). Spatial frequency requirements and gaze strategy in visual-only and audiovisual speech perception.,(4), 601–615.
Zhu, L. L., & Beauchamp, M. S. (2017). Mouth and voice: A relationship between visual and auditory preference in the human superior temporal sulcus.,(10), 2697–2708.
The influential factors and neural mechanisms of McGurk effect
LUO Xiaoxiao1; KANG Guanlan1; ZHOU Xiaolin1,2,3,4
(1School of Psychological and Cognitive Sciences, Peking University, Beijing, 100871, China) (2Key Laboratory of Machine Perception (Ministry of Education), Peking University, Beijing 100871, China) (3PKU-IDG/McGovern Institute for Brain Research, Peking University, Beijing 100871, China) (4Institute of Psychological and Brain Sciences, Zhejiang Normal University, Jinhua 321004, China)
The McGurk effect is a typical audiovisual integration phenomenon, influenced by characteristics of physical stimuli, attentional allocation, the extent that individuals rely on visual or auditory information in processing, the ability of audiovisual integration, and language/culture differences. Key visual information that leads to the McGurk effect is mainly extracted from the mouth area of the talker. The McGurk effect implicates both audiovisual integration (which occurs in the early processing stage and is related to the activation of superior temporal cortex) and the conflict of the incongruent audiovisual stimuli (which occurs in the late processing stage and is related to the activation of inferior frontal cortex). Future studies should further investigate the influence of social factors on the McGurk effect, pay attention to the relationship between unimodal information processing and audiovisual integration in the McGurk effect, and explore the neural mechanisms of McGurk effect with computational modeling.
McGurk effect; audiovisual speech perception; audiovisual integration; multisensory integration
10.3724/SP.J.1042.2018.01935
2018-03-13
*國家自然科學基金面上項目(31470976), 科技部973項目(2015CB856400), 機器感知與智能教育部重點實驗室開放課題基金項目(K-2017-05)。
周曉林, E-mail: xz104@pku.edu.cn
B842