

摘" 要" 人腦如何表征語義信息一直以來是認知神經科學的核心問題。傳統研究主要通過人為操縱刺激屬性或任務要求等實驗方法來定位語義表征腦區, 這類方法雖然取得了諸多成果, 但是依然存在難以詳細量化語義信息和語境效應等問題。基于語義的分布式假設, 自然語言處理(NLP)技術將離散的、難以客觀量化的語義信息轉變為統一的、可計算的向量形式, 極大提高了語義信息的刻畫精度, 提供了有效量化語境和句法等信息的工具。運用NLP技術提取刺激語義信息, 并通過表征相似性分析或線性回歸建立語義向量與腦活動模式的映射關系, 研究者發現表征語義信息的神經結構廣泛分布在顳葉、額葉和枕葉等多個腦區。未來研究可引入知識圖譜和多模態融合模型等更復雜的語義表示方法, 將語言模型用于評估特殊人群語言能力, 或利用認知神經科學實驗來提高深度語言模型的可解釋性。
關鍵詞" 語義表征, 大腦, 自然語言處理, 語言模型
分類號" B842
1" 前言
語言作為一種抽象符號, 是人類進行意義表達和信息交流的最重要的工具。基于有限數量語言單位的組合, 人們可以理解和表達無窮多的信息, 包括但不限于知識、信念、意圖、情感等。揭示人腦如何存儲、通達與提取語義一直是認知神經科學的核心問題之一。為了探究語義表征和加工的神經基礎, 研究者通常采用的思路是操縱刺激屬性或任務要求, 對比不同條件下腦活動模式的異同。例如, 在詞匯判斷任務中對比真詞與假詞激活腦區的差異(Pulvermüller, 2013); 或對于相同語言刺激, 對比語義與語音判斷任務的腦活動差異(Poldrack et al., 1999)。基于嚴格實驗控制和條件間對比的研究范式取得了一系列重要成果, 然而在探究語義的腦表征與加工問題上存在以下局限。
第一, 對語義特征的刻畫依賴人工評定, 且顆粒度較粗。日常生活中交流情境復雜多變, 但人們只需掌握少量的詞語即可滿足言語交流需求, 例如在漢語中590個字就已經覆蓋了80%的日常用字(中華人民共和國教育部, 2013)。有限的文字能夠組合成無限的意思, 其原因在于人們對每一詞匯都構建了豐富的心理表征, 不同詞匯在多個維度上存在微妙差異。基于心理學實驗或語言學分類方法, 當前研究對語義關系的度量大多停留在粗顆粒度層面, 例如區分名詞與動詞, 生命類與非生命類詞等。為了細化對語義的表示, 最近有研究者從心理維度對詞語概念進行度量, 例如采用時間、空間、數量、喚醒度等12個維度來刻畫抽象概念詞(X. Wang et al., 2018); 或是采用包括感覺、運動、時間、空間、社會認知等成分在內的65個體驗維度來表示概念(Binder et al., 2016)。基于心理維度的語義表示方法能刻畫概念本身以及概念間的關系, 可解釋性較高, 但仍具有一定的局限性。例如, 維度的選取由研究者主觀確定, 維度選取的合理性和完整性有待檢驗。此外, 對詞義的量化主要通過被試主觀判定獲得, 結果受被試個體知識與經驗的影響較大。最后, 被試評定法耗時費力, 難以推廣至所有的詞匯, 難以全面覆蓋不同語境下詞語的多個含義, 并且不同研究者之間選取的詞表與維度有所不同, 增加了研究結果間的比較與整合難度。
第二, 語境效應難以量化。世界各地的語言系統里, 大部分字或詞都可指代多種含義, 例如在英語中80%以上的單詞都存在一詞多義現象(Rodd et al., 2002)。在真實情境下, 個體所激活的語言符號含義很大程度上取決于語境, 換言之, 對語言符號意義的表征和提取是動態的、依賴語境的(Yee amp; Thompson-Schill, 2016), 例如在夏天和冬天提到“空調”時會傾向于聯想到相反的功能。然而, 由于語境本身的復雜性, 很難通過實驗設計手段對語境效應進行客觀度量。因此, 當前大多數研究使用孤立呈現的語言刺激、打散句法或語義的句子等高度控制的材料, 但它們與日常生活中的語言使用相比仍有一段距離。要回答關于人腦如何表征與加工語境, 以及語義表征如何受語境信息的動態影響等問題仍面臨著較大的挑戰。
第三, 篇章(discourse)主題信息難以量化。篇章(例如新聞報道、故事)由詞和句子以復雜的關系連接而成, 不同部分間存在語義關聯, 能表達完整連貫的含義(主題)。為了探究對篇章語義信息的加工和表征, 心理學研究者通常將完整篇章與同一篇章在不同水平(詞、句子或段落)打亂后的材料進行對比(Hasson et al., 2008; Lerner et al., 2011; Simony et al., 2016)。然而, 打亂后的材料在節點處的復雜度與難度更大(可能引起更強的腦激活), 人們會傾向于嘗試重新組織與整合打亂的材料以使其語義連貫, 因此條件間相減的方式可能無法準確檢測到特異于篇章的語義加工。此外, 該實驗方法難以度量篇章內不同部分的語義結構關系以及不同篇章之間的語義距離。
鑒于心理學傳統實驗方法的局限性, 近年來越來越多的心理學研究者引入人工智能領域的自然語言處理(natural language processing, NLP)技術, 特別是基于人工神經網絡和深度學習的語言模型, 以度量實驗刺激的語義及語義關系。將NLP模型與腦成像實驗數據相結合, 正在成為神經語言學領域的重要趨勢。近期有部分國內外研究者對計算語言學方法在認知語言學和腦科學中的應用進行了總結和展望。例如, 王少楠等(2022b)總結了新興計算語言學方法在語言信息的單元和維度、不同類型語言信息的腦網絡定位、語言信息加工的時間進程和控制以及語言信息的神經編碼形式與計算機制等問題上的應用, 文章所探討的語言信息包括了語音、語義、句法結構等多方面內容。在另一篇文章中(王少楠 等, 2022a), 作者從宏觀角度系統地討論了認知語言學與計算語言學各自的研究問題、研究方法和局限性, 并就這兩大領域如何融合提出了深刻見解。還有研究者將現代分布式語義計算模型與認知心理學中的兩類傳統語義模型(基于特征的語義模型和基于聯結網絡的語義模型)在知識表征、學習機制和語義解歧等方面進行了深入對比, 并探討了現代語義計算模型與兩類傳統模型的結合途徑(Kumar, 2021)。
上述研究在宏觀角度概括了計算語言學方法在語言認知中的廣泛應用, 但未就具體問題進行系統總結和詳細論述。本綜述擬聚焦語言認知和腦科學領域的核心問題之一——人腦對語義信息的表征, 對NLP模型在該問題上的應用進行總結與展望。本綜述將首先介紹NLP模型表征語義的原理與技術, 并介紹語言模型與腦成像數據進行結合的兩類方法; 在此基礎上, 系統闡述NLP技術在人腦語義表征研究中的應用, 包括單詞語義、句子(及語境)語義和篇章語義, 并與傳統心理學方法度量語義的局限之處進行對比; 最后, 探討應用NLP語言模型探究人腦語義表征的潛在陷阱、挑戰和未來發展方向。
2" NLP語義表示的算法原理及進展
如何讓計算機從文本中自動捕獲語義是計算語言學領域的核心問題之一。早期研究者提出了基于邏輯規則的方法對自然語言進行建模(Chomsky, 1957; Hobbs, 1977), 希望計算機像人一樣根據句法、詞語順序和搭配等規則理解詞語的含義。盡管該方法的精度較高, 但它高度依賴人工編制的語言學文法, 不適合處理大規模真實文本(尤其是在詞語新用法、新含義越來越多的互聯網時代), 且不同語言之間的規則不盡相同。后來, 由于規則表示存在許多問題, 統計學派基于“上下文相似的詞語, 其語義也相似”的分布式語義假設(Harris, 1954), 提出了語義的向量空間模型(Salton et al., 1975), 它成為了NLP領域近十余年來的主流指導思想, 即分布式表示(distributed representation)。這一思想是把詞語這一離散符號(局部表示, local representation)映射到一個稠密的向量空間中, 從而使用一個相對低維的向量(例如300維)代替稀疏且高達幾十萬維的獨熱向量(Bengio et al., 2003)。例如關于顏色的局部表示為“紅、橙、黃、灰、中國紅……” ([1, 0, 0, 0, 0], [0, 1, 0, 0, 0], [0, 0, 1, 0, 0], [0, 0, 0, 1, 0], [0, 0, 0, 0, 1]), 而用分布式表示則可將所有顏色統一到RGB三維向量上(例如灰色可表示為[125, 125, 125]), 大大減少了向量維度。在分布式表示中, 語義信息隱含在詞向量的各個維度上, 詞語間的語義關系主要由它們在空間中的位置關系反映:兩個詞向量越接近, 語義相似性越高。
在語義空間的構建與詞向量的獲得方面, 當前主要有兩類思路。一類是基于統計的語義表示方法, 該方法主要基于語料庫對“詞?詞”或“詞?文檔”等的共現關系進行統計, 算法包括潛語義分析(latent semantic analysis, LSA, Deerwester et al., 1990; Dumais, 2004)、非負矩陣分解(non-negative matrix factorization, Lee amp; Seung, 1999)、基于馬爾可夫假設的N-gram (Brown et al., 1992)等。以LSA為例, 該方法通過統計文本語料建立“詞?文檔”共現矩陣Aw×d (其中w是詞數, d是文檔數), 然后對共現矩陣進行奇異值分解構建潛語義空間并實現降維(公式中即為潛語義空間維數)。矩陣U中每一行為詞語的潛語義表示(即詞向量), 矩陣VT中的每一列為文檔的潛語義表示, 矩陣∑中的奇異值反映了每一潛語義的重要程度。如此一來, 詞和文檔的信息得到濃縮, 映射到了統一的潛語義空間中, 既可以用于詞語的語義表示, 也可以用于表示篇章和文檔的語義。基于統計的語義表示方法能有效聚類語義相近的詞或文檔, 在語義相似性分析、詞(或文檔)聚類、信息提取等任務上取得了良好的成績(Jelodar et al., 2019; Xu et al., 2008)。但該方法也具有明顯的局限性, 例如詞(或文檔)向量的分布不一定符合概率模型假設所要求的正態分布; 矩陣分解的計算復雜度高, 并且當加入新的文檔時, 需重新訓練來更新模型; 未能充分考慮句子中詞語的先后順序信息; 不能解決一詞多義現象等。
與基于統計的方法不同, 另一類基于預測的語義建模方法使用神經網絡學習語義表示, 通過計算預測值與真實值的差異來調整模型參數(關于語義建模方法的其他分類標準, 請參閱Kumar, 2021)。人工神經網絡(artificial neural network, ANN, 下文簡稱神經網絡)是通過模擬人腦神經系統對復雜信息處理機制而構建的一種數學模型(Mcculloch amp; Pitts, 1943)。神經網絡由神經元(節點)互相連接(邊)而構成, 按先后順序主要分為輸入層、隱藏層和輸出層。輸入層主要進行信號接收與激活(例如提取詞語對應的詞向量, 類比于外界刺激引起初級感覺區的電生理活動); 隱藏層是神經網絡的核心, 主要進行信號的加工、整合和抽象化等復雜過程(類比于大腦中間神經元、聯合皮層和高級決策皮層等); 輸出層在接收隱藏層加工后的信號后, 根據任務需求進行最后一步的反應輸出(例如對詞語進行情緒分類等, 類比于大腦發音皮層、運動皮層)。與大腦神經元動作電位的特性相似, 人工神經網絡隱藏層中的神經元接收上游多個神經元信號后(類比大腦神經元樹突), 按照不同的權重進行加權求和(類比胞體), 隨后根據匯總后的信號是否高于激活閾限來決定是否向下游傳出信號以及信號的強度(一般經過sigmoid、ReLU等非線性激活函數完成), 后續隱藏層的工作過程以此類推。值得注意的是, 隱藏層中每個神經元與上游各個神經元之間的信息權重是不同的, 這些參數由神經網絡輸出值與真實值的誤差通過反向傳播算法不斷調整。通過多次訓練不斷縮小預測值與真實值的差距, 神經網絡建立起原始輸入信號與目標輸出間的映射關系, 最終的學習結果體現在各個神經元的參數上。
在詞語的向量表示問題上, 神經網絡通常使用大規模語料來訓練網絡權重, 輸入句子材料以學習詞語和上下文語境的關系。以經典的Word2Vec中的連續詞袋(continuous bag-of-word, CBOW)模型為例(Mikolov et al., 2013a), 該模型基于分布式假設而設計(上下文相似的詞語意思也相似), 給定前后共k個上下文語境詞, 預測中間的目標詞。輸入層為詞的獨熱編碼向量, 通過輸入層與隱藏層的權重矩陣提取詞語的詞向量, 隨后將該向量與隱藏層輸出層之間的權重矩陣進行點乘并使用softmax函數進行歸一化, 得到詞表中各個詞出現的概率, 選取概率最高的詞語作為預測結果(見圖1)。通過計算預測詞與真實詞的詞向量差異并由反向傳播進行參數調整, 輸入層和隱藏層之間的權重(即詞向量)得以不斷更新。此外, Word2Vec也可以使用跳字模型(skip-gram)進行訓練, 即給出一個目標詞, 預測其上下文(向前、向后共k個詞)。Word2Vec模型獲得的詞向量與分布式假設吻合較好, 對詞向量進行聚類的結果合理, 且能較好地反映語義相似度(Mikolov et al., 2013a; Mikolov et al., 2013b)。例如, 計算向量V(t) = V(國王) ? V(男人) + V(女人), 得到的V(t)會與V(女王)等相關詞語的詞向量余弦相似度最高。
Word2Vec模型提出以后, NLP領域掀起了詞向量計算與優化表示的熱潮, 后續研究者設計了一系列架構更復雜的神經網絡語言模型, 它們在計算詞向量時考慮了上下文語境的信息, 更符合人腦整合語境的認知模式。新開發的神經網絡模型還可以對句子和篇章語義進行建模, 代表性模型包括:可捕獲句子的結構信息的遞歸神經網絡(recursive neural network, RecNN, Socher et al., 2013); 循環神經網絡(recurrent neural network, RNN, Elman, 1990; Mikolov et al., 2010)及其優化版本長短時記憶網絡(long short-term memory, LSTM, Hochreiter amp; Schmidhuber, 1997; Sundermeyer et al., 2012), 把句子看作一個有順序的時間序列, 將上(下)文信息整合到當前詞語的向量表示中(Graves et al., 2013); 卷積神經網絡(convolutional neural network), 提取多層次的語義信息并具備更高效的并行運算能力(Yin et al., 2017; Zhang amp; Wallace, 2017)。除了詞語, 基于神經網絡的算法也可以對段落或篇章的語義進行表示, 例如Doc2Vec在Word2Vec模型的基礎上加入一個段內共享、段間獨立的段落向量進行訓練, 從而獲得段落的向量化語義表示(Quoc amp; Mikolov, 2014)。其他思路還有層次化特征提取等, 例如首先計算段落內每句話的語義表示得到句向量, 再以句向量為單位輸入模型得到段落向量。
后來谷歌公司提出了Transformer架構(Vaswani et al., 2017), 解決了RNN及其變體的長距離依賴和串行訓練低效等局限, 成為了近年來NLP新模型的主流網絡骨干。Transformer架構由編碼器和解碼器組成, 每個編碼器和解碼器中包含了自注意力層(multi-head self-attention)和全連接層, 其中自注意力層通過對目標詞與上下文詞語的相似性進行計算與加權求和來整合語境信息, 隨后經過全連接層提取信息的特征。Transformer架構中的自注意力機制代替了RNN結構中的串行記憶單元, 使得計算可以高速并行化, 并且Transformer架構通過多個編碼器和解碼器的堆疊提升了對文本特征的提取與抽象效果。基于Transformer架構的代表性語言模型包括BERT (Bidirectional Encoder Representation from Transformers, Devlin et al., 2018)與GPT (Generative Pre-trained Transformer, Brown et al., 2020; Radford et al., 2019)等, 它們在許多自然語言處理任務上的表現都取得了較大的提升。基于深度神經網絡的語義建模方法的參數龐大(例如BERT-large模型中有3億參數需要訓練, GPT-3的參數量則高達1750億), 對語料數據量、計算機性能等要求較高。因此預訓練成為了目前大規模語言模型的主流使用方式, 將模型在某個語言任務上進行大量訓練(例如完形填空)以得到模型參數, 各組研究者以這一套模型參數為基礎開展下游任務。預訓練模型降低了研究團隊訓練模型的技術與時間成本, 并提升了語言認知研究的可比性與可重復性。
相較于傳統基于統計的語義表示方法, 神經網絡模型能捕獲更豐富的文本特征, 通用性更強, 在完形填空、情感分析、構建文摘、翻譯等多種復雜語言任務中具有更優秀的表現(Sutskever et al., 2014; Wu amp; Dredze, 2019)。此外, 大規模預訓練模型(例如BERT)將學習到的多種語言信息都蘊藏在其參數中, 研究者可根據自身需要對預訓練模型進行微調, 從而以較低的資源消耗獲得針對專門任務的更優模型表現。隨著計算機算力的不斷提升, 以上優勢與表現使得神經網絡模型逐步取代傳統基于統計的文本表示方法, 成為NLP領域的核心技術之一。關于NLP中的文本表示方法更詳細的介紹請參閱趙京勝等(2022)。
3" NLP語言模型在人腦語義表征研究中的應用
3.1" NLP語言模型與腦成像數據的結合方法
NLP語言模型提供了客觀度量與計算文本語義的有效工具。利用該工具, 神經語言學研究者可以進一步分析語義信息在多大程度上解釋了腦活動模式的變化, 從而推論出哪些腦區參與了語義信息的表征與加工。值得注意的是, NLP語言模型得出的詞向量與腦活動數據來自不同的模型與模態, 各自數據的維度和數值代表的含義截然不同。例如, BERT輸出層的向量為768維(BERT- base)或1024維(BERT-large), 每一維的數值含義不明確。腦活動的數據維度則根據選取的腦區大小而有所不同, 從一維(voxel水平), 幾百(ROI水平), 幾千(網絡水平), 到幾萬(全腦水平)不等。如何對這兩類維度不同的多變量數據進行有效建模是一個具有挑戰性的問題, 當前有兩種常用的方法:表征相似性分析(representation similarity analysis, RSA)與線性回歸。
RSA通過分析語義相似性矩陣和腦活動相似性矩陣的共享結構, 建立起兩類數據的關聯(Kriegeskorte et al., 2008)。進行RSA分析時, 首先需要分別提取人腦和NLP語言模型對于各個刺激(例如單詞)的表征, 其中腦表征可由給定單詞引發的一組體素的活動強度數據表示, NLP模型表征可由Word2Vec (或其他模型)對該單詞的詞向量表示。隨后分別計算人腦和語言模型內部對于不同刺激的表征相似性程度(可用相關系數、歐式距離或馬氏距離等不同指標度量), 從而構建表征差異矩陣(representation dissimilarity matrix, RDM)。RDM反映了同一個模型對于不同刺激的表征的差異, 通過計算兩個RDM之間的Spearman相似性, 得到的相關系數反映人腦和語言模型對于同一組刺激的內部表征相似程度(見圖2)。
線性回歸是另一種關聯不同類型高維數據的方法, 它的基本思想是尋找一組參數去擬合兩組數據之間的關系, 從而基于刺激特征或模型輸出向量“預測”大腦反應(編碼), 或基于腦活動模式“預測”被試當前正在加工的內容(解碼)。在多種線性回歸方法中, 嶺回歸是最常用的一種, 它可以解決過擬合與多重共線性等問題。最近有不少研究發現, 對于同一語言信息, NLP模型向量可以通過嶺回歸與腦活動建立映射關系(王少楠 等, 2022b; Anderson et al., 2021; Caucheteux amp; King, 2022; Dupre la Tour et al., 2022; Goldstein et al., 2022; Jain amp; Huth, 2018; Prince et al., 2022; Schrimpf et al., 2021), 若模型和人腦存在相同或相似的表征信息, 嶺回歸預測值與真實值之間將會具有顯著相關性。
RSA和嶺回歸都可以比較不同模型與腦表征的關系, 但它們在原理和功能上有所差異(Bruffaerts et al., 2019)。RSA度量的是NLP模型反應模式與大腦中一組體素(或腦區)反應模式間的相似性程度, 而嶺回歸旨在建立特征(或模型向量)與單個體素(或腦區)活動之間的回歸關系。RSA方法不需要對參數進行擬合, 因此計算量小、對數據量要求相對較低。但該方法將所有特征作為一個整體, 無法估計單一特征對腦活動的貢獻程度。嶺回歸方法能獲取單一特征對腦活動的權重值, 進而可根據新刺激的特征預測其激活模式, 在使用連續自然刺激的任務中較為常見。但該方法需要估計的自由參數較多, 并且往往需要對懲罰系數進行網格搜索, 因此計算量較大并且對數據量的要求較高。針對RSA和嶺回歸方法各自的優缺點, Anderson et al. (2016)提出了表征相似性編碼方法。該方法基于“相似的刺激會引發相似的腦活動”這一思想, 首先計算待預測目標與所有已知目標的特征相似性, 隨后將相似性指標作為權重對已知目標誘發的腦活動值進行加權平均, 從而得到預測目標的腦活動值。該方法利用刺激間的相似性信息進行預測, 避免了對模型的參數估計, 計算快捷且回歸模型中的參數(相似性)具有較強的可解釋性, 具有較大的應用價值(Anderson et al., 2021; Wang et al., 2020)。值得注意的是, 對于RSA或嶺回歸中預測值與真實值的相關系數的解讀需要謹慎, 顯著的相關系數只能說明模型與大腦的表征信息存在相似之處, 并不能直接推斷二者背后的工作機制是相同的, 尤其是相關系數較低的情況下(Kriegeskorte amp; Douglas, 2018, 2019)。
3.2" 典型應用
3.2.1" 詞水平語義的表征
語言作為思想的載體, 其中蘊含的有意義信息由哪些腦區加工、如何加工一直是認知神經科學關注的問題。早期語義表征的研究主要通過比較被試接受不同刺激或進行不同任務時的大腦激活差異, 探究詞語或概念在哪些腦區進行加工, 例如真假詞(Pulvermüller et al., 2001)、詞語類別(Gonzalez et al., 2006; Pulvermüller et al., 2009)、詞性(Pulvermüller et al., 1999; Warburton et al., 1996)、語義任務和語音任務(Poldrack et al., 1999)的對比等。條件對比范式與激活分析取得了不少重要發現, 但對語義信息的刻畫主要停留在粗顆粒度層面且難以量化。NLP技術使得研究者能從定量角度對材料的語義信息進行度量, 探究語義信息與大腦表征之間的關聯。
在早期的工作中, Mitchell等人(2008)選取名詞刺激作為材料, 使用它們與25個代表性動詞的共現頻率作為語義向量表示, 通過線性回歸對大腦加工名詞時的活動進行預測。結果發現雙側枕葉、頂葉、額中回等區域都能夠區分詞語, 說明大腦對實體名詞的表征一定程度上基于感覺運動特征, 其中枕葉的效應可能是因為被試對名詞的相關動作場景產生了聯想。該研究開創了NLP與腦成像技術相結合的先河, 為語義腦表征研究提供了條件對比范式以外的新思路。近期研究者開始將NLP方法應用到對自然連續語言材料(例如故事或電影音頻)的語義分析中(Huth et al., 2016; Wehbe et al., 2014), 相比于傳統的實驗室方法(人為編制或挑選少量特定的語言刺激), 這些自然連續材料包含的詞匯量更大、類型更豐富, 因此得出的結果可能更能反映真實的人腦語義表征。例如在Huth等人(2016)的研究中, 被試收聽了長達2個小時的故事并同步進行fMRI掃描。研究者首先標記每個TR (repetition time)內出現的刺激, 提取這些刺激對應的詞語共現向量作為該TR的語義表示, 隨后構建嶺回歸預測模型, 使用語義表示向量預測大腦每個體素的活動。若某個體素的預測相關性經過多重比較校正后依然顯著, 說明它的活動蘊含了語義信息, 即參與了語義表征。結果表明, 語義信息在大腦中的表征分布覆蓋了內側前額葉、顳中回、顳頂聯合區等多個腦區, 與元分析發現的語義網絡(Binder et al., 2009)高度重疊。這些研究成果表明NLP對語義的表示能夠有效地運用在復雜的自然刺激中, 并進一步支持了語義的分布式表征觀點(Kiefer amp; Pulvermüller, 2012; Nastase et al., 2017), 即多個腦區共同加工、表征語義, 而非集中在某一局部區域內。
此外, NLP技術對詞匯語義的量化功能使研究者能夠從更精細的角度考察語義表征, 拓寬了研究空間。例如Kivisaari等人(2019)考察了人們對概念的表征與概念特征之間的聯系, 在研究中向被試逐一呈現目標概念的3個特征詞(例如“一種水果”、“被剝開”、“猴子吃它”), 被試需要根據這些特征猜想對應的概念(例如“香蕉”)。研究者使用大腦體素活動模式對特征詞或目標詞的詞向量進行解碼, 并比較蘊含不同信息的詞向量的解碼正確率。結果表明, 盡管被試只看到了3個特征詞, 但將目標概念的所有特征(包括沒有呈現的特征)對應的詞向量相加后得到了最高的解碼正確率, 顯著高于呈現的特征詞語和目標概念, 說明人腦利用有限的信息片段構建了目標對象完整的語義表征, 并且激活了其他相關聯的概念特征信息。
3.2.2" 語境信息的影響以及句水平語義表征
在探究語義在大腦中的表征時, 許多研究將詞語或目標刺激單獨呈現, 希望獲得沒有其他信息干擾下的語義表征。然而語義表征是動態的(Yee amp; Thompson-Schill, 2016), 同一詞語在不同的語境中表達的意思和產生的心理感受會有所不同。例如人們看到“女排”一詞的心理表征與“中國女排”會有所不同, 后者的“女排”在“中國”語境下可能會激活自豪感、具體的人物形象等額外信息。已有研究表明, 顳葉前部、額頂網絡等腦區會整合并更新當前的語義信息(Bonnici et al., 2016; Branzi et al., 2020; Humphreys et al., 2021; Lambon Ralph et al., 2017), 進一步說明了語義表征的動態性。語境獨立的實驗設計或靜態詞向量并不能充分地刻畫豐富語境下的語義表征, 尤其是面臨一詞多義現象時。
NLP技術提供了能夠整合語境的多種深度語言模型, 例如ELMo (Peters et al., 2018)、InferSent (Conneau et al., 2017)、BERT等, 對于同一個詞, 模型輸出的語義向量能隨著語境的不同而變化。利用該特點, 有研究者比較了孤立詞和整合語境信息后的詞在人腦中的表征(Gao et al., 2023)。在實驗中, 每個試次包含兩個先后呈現的英語單詞, 被試需要判斷它們是否存在語義關聯。研究者首先采用Word2Vec模型提取語義向量, 該模型對詞的語義表示是相對固定的, 不受情境詞的影響, 因此被認為反映了詞的孤立語義。同時, 對于同一單詞, 研究者還采用了ELMo模型提取其語義向量, 該模型采用雙向循環神經網絡結構, 輸出的詞向量充分整合了語境信息(即前一個詞)。通過使用RSA比較人腦和語言模型對于同一組刺激的內部表征相似程度, 研究者發現孤立語義的表征主要與緣上回有關, 而語境依賴的語義表征則主要與左側前額葉、角回和腹側顳葉有關。
通過運用自注意力機制整合上下文語境信息, NLP技術還提供了表征句水平語義的指標(例如InferSent模型的輸出向量或BERT模型輸出的CLS向量)。句水平的向量表示不僅考慮了單個詞的語義信息, 還考慮了詞與詞之間的組合關系。在近期一項研究中, 被試觀看一系列由4~9個單詞構成的句子, 同時進行fMRI掃描。研究者首先使用InferSent模型提取句子的語義表征, 然后通過嶺回歸建立句子語義特征與腦活動模式間的預測關系。結果發現, 表征句義的相關腦區分布在包括額下回、額中回、顳上回、顳中回、枕中回在內的廣泛區域(Anderson et al., 2021)。在另一項研究中, 被試觀看電影的同時進行fMRI掃描。研究者將電影切割成多個片段, 并對每一片段進行文字注釋(每條注釋大約包含15個詞), 然后采用NLP模型將注釋轉換成語義向量作為電影片段的語義特征, 最后基于腦活動數據預測各個片段的文本注釋語義特征。研究表明, 默認網絡、語言網絡、枕葉的腦活動模式能較為準確地預測片段語義特征并區分不同的片段(Vodrahalli et al., 2018)。與上述研究結果一致, Acunzo等人(2022)首先訓練一個對話題進行分類的卷積神經網絡以使模型向量更好地捕獲話題信息, 隨后提取該模型的輸出層向量作為句子的話題向量表示。將話題向量與大腦活動進行表征相似性分析發現, 顳葉前部、默認網絡等參與了話題水平信息的表征, 支持了默認網絡具有抽象、整合長時程信息等意義建構功能的觀點(Smallwood et al., 2021; Yeshurun et al., 2021)。
3.2.3" 分離句法和語義
語言信息能夠順利傳達, 不僅依賴詞語本身的語義信息和語境提供的背景信息, 還需要詞語之間有恰當的組織結構, 即句法。經典的句法研究范式主要采用對比的思路試圖分離句法加工成分, 例如將名詞、形容詞等內容詞替換成假詞的jabberwocky句式(Fedorenko et al., 2012; Matchin et al., 2019)、句法違背(Batterink amp; Neville, 2013; Petersson et al., 2012)、句法適應(Segaert et al., 2012)以及短語組合(Law amp; Pylkkanen, 2021)等。然而傳統的句法加工研究方法存在著一些局限, 例如不同任務得到的句法加工腦區分布有不少差異, 并且由于語義和句法總是相伴出現, 改變句法而不使語義發生變化有一定的難度(Pylkkanen, 2019), 因此句法錯亂的句子很大程度上破壞了語義信息, 使得傳統實驗難以分離精細的句法加工過程(Kuperberg, 2007)。
自然語言文本中詞語的順序結構蘊含了豐富語言信息, 即使沒有顯式表示句法關系, 具有語境整合能力的NLP模型在訓練過程中也會習得句法關系, 例如“我”、“愛”、“你”會以“我愛你”的順序出現, 而不是“我你愛”。深度語言模型(例如BERT)在主謂一致性、反身代詞回指等多種句法任務上已經接近甚至超越人類表現(Goldberg, 2019; Zhang et al., 2022), 表明其能夠較為準確地從文本中獲取句法信息。采用實驗設計中“減法”的思路, 可以使用NLP模型分別提取句子中的句法和語義信息, 將句法信息從向量中剝離, 從而探究加工句法信息的腦區分布(Caucheteux et al., 2021a, 2021b; Wang et al., 2020)。研究結果發現, 雙側顳葉和額下回都對句法信息進行了加工, 腦區分布情況與先前的實驗研究相似(Hagoort amp; Indefrey, 2014)。最近有研究者使用特征消除(feature elimination)的方式對句法信息進行更精細的分離(例如詞性、命名實體、詞語依賴、語義角色等), 進而探究被試在傾聽故事時所進行的多種句法加工(Zhang et al., 2022)。結果發現, 盡管不同句法對應的腦區分布有細微的差異, 但分布的區域大致相同, 集中在顳上回、顳中回和角回等語義網絡區域(Binder et al., 2009)。
NLP模型可以有效地分離語義和句法信息, 并能夠在限制較少的自然任務中探究大腦的加工機制, 這兩大優點預示著NLP模型在腦表征研究方向上的潛力(Cichy amp; Kaiser, 2019; Hamilton amp; Huth, 2020)。然而, 目前使用NLP模型探究大腦句法加工的研究數量有限, 其中發現的句法加工腦區比傳統研究方法覆蓋了更廣的區域, 這一現象究竟是對分布式句法信息加工機制的如實反映, 還是源于NLP模型與腦成像數據構建映射時存在的誤差, 仍需將來研究開展進一步分析。
3.2.4" 篇章主題信息與篇章語義結構的表征
篇章(段落)理解建立在詞和句子的語義分析基礎之上, 通過識別篇章內部不同部分的語義結構關系、整合上下文信息, 最終形成篇章核心主題信息(或情境模型)的表征(Patel et al., 2022)。傳統實驗方法一般將完整篇章與打亂的材料進行對比(Hasson et al., 2008; Lerner et al., 2011; Simony et al., 2016), 而散亂的材料使得被試的記憶與整合難度更大, 因此探測到的差異可能并非完全由特異于篇章語義信息的加工所驅動。此外, 該方法未對篇章信息進行量化, 難以度量篇章間的語義距離與關系, 不適用于不同篇章材料的研究。
近年來已有研究者開始利用NLP技術對篇章的語義進行建模表示, 考察人腦對連續自然語言刺激(如故事或電影)的加工和表征。近期一項研究結合fMRI技術和LSA方法, 探究以不同模態呈現的復雜敘事信息在人腦中如何表征(Nguyen et al., 2019)。實驗中被試在接受fMRI掃描的同時, 其中一組觀看無聲影片, 另一組收聽影片內容對應的語音敘述。在掃描結束后被試用自己的話描述故事內容, 研究者通過LSA進行語義分析, 發現不論觀看無聲影片還是收聽語音敘述, 被試描述內容的語義相似度越高, 他們在默認網絡與執行控制網絡上的神經活動相似度也越高, 這一研究結果揭示了默認網絡(default mode network, DMN)跨模態表征主題語義信息的功能。另一項研究考察了言語產生和言語理解過程中大腦對主題信息的表征一致性(Patel et al., 2022), 在fMRI掃描的同時, 被試圍繞一系列主題進行口頭描述, 并收聽另一被試講述的其他主題內容。研究者運用LSA計算描述內容兩兩之間的語義距離, 并計算言語理解任務和言語產生任務的腦表征差異矩陣, 最后計算語義差異矩陣和腦表征差異矩陣的相似度(RSA分析)。結果表明, 包括額下回、內側前額葉、顳極、顳中回、角回和楔前葉在內的雙側廣泛腦區, 其活動模式與言語理解和產出的語義內容存在關聯。該研究首次對言語產生過程的篇章水平語義進行分析, 揭示了言語產生和言語理解兩個過程共享的負責高層級篇章語義信息表征的網絡。以上研究通過對篇章水平語義信息進行分析, 研究結果進一步支持了默認網絡在意義構建中的作用(Margulies et al., 2016; Smallwood et al., 2021)。
對篇章材料還可以從網絡拓撲屬性方面探究語義結構對大腦加工、學習、記憶等的影響。在文本、視頻等自然刺激當中, 句子和事件在某一主題內是相互聯系的, 例如一個故事通常圍繞著若干個核心的主旨句或情節進行展開。使用語義相似性作為連邊的權重, 對篇章構建拓撲網絡, 可以反映篇章的語義組織結構等信息。有研究者對電影敘事節奏與觀眾評價之間的聯系進行探究(Laurino Dos Santos amp; Berger, 2022), 使用相鄰片段的語義相似性作為衡量情節發展速率的指標, 情節發展緩慢時相鄰片段的語義相似度較高。研究結果顯示, 開頭節奏緩慢、結尾情節推進稍快的電影得到了更高的評分, 表明故事篇章的語義結構會對人們的感受與投入度產生影響。最近另一項腦成像研究考察了篇章語義結構對記憶效果的影響(Lee amp; Chen, 2022), 研究者對視頻片段進行分割, 借助NLP技術提取各個片段對應文字描述的語義向量, 并以片段作為節點、以片段間的語義相似性作為連邊權重, 構建視頻的語義結構拓撲網絡。研究結果顯示, 中心度(centrality, 反映了與其他節點的關聯強度)較高的片段產生了更好的記憶效果, 并且在情景回憶相關腦區(默認網絡)誘發了更強的激活與更高的被試間一致性, 表明人腦對于事件的加工與記憶效果與其在語義組織結構中的位置有關。
以上研究結果表明篇章的語義組織結構對人們的主觀感受、記憶效果與大腦活動等都產生了影響, 但目前使用NLP對大腦語義表征的研究大多從刺激編碼角度出發, 對連續刺激中的語義組織結構和語義關系等關注較少。未來研究可以從自然刺激中的語義結構入手, 進一步探究其與大腦加工、學習和記憶效果的關聯, 例如對于陰謀論和謠言的識別(Miani et al., 2022)、敘事偏好(Cooper amp; Nisbet, 2016)等的神經基礎。
3.2.5" 小結
NLP技術的使用讓語言從符號表示轉為向量表示, 一定程度上克服了詞語離散、難量化計算、難統一表示等難點, 使得語義的計算和比較成為可能。與此同時, 表征相似性分析、線性回歸等多變量分析方法為不同模態的數據搭建了橋梁。隨著深度語言模型的發展, NLP模型已能夠將上下文語境信息整合進向量表示中, 提升了對語言的表示精度, 并使得實時刻畫語義在不同語境背景下的動態變化成為可能。基于此, 研究者使用NLP提取的詞向量作為語義表示, 減少了對于刺激材料或實驗任務等的人為控制需求, 對語義腦表征的探究不再依賴不同類型刺激或加工任務的對比。此外, NLP作為計算語言模型具有較高的靈活性, 輸入不同類型的文本可以得到對應的信息。研究者可以通過比較模型對不同類型文本的向量表示(例如含語境信息的詞向量和不含語境信息的詞向量)與大腦表征的匹配程度, 分析某一腦區表征的信息類型或加工特點(Cichy amp; Kaiser, 2019), 例如人腦對未來詞語的預測機制(Caucheteux et al., 2021b; Goldstein et al., 2022), 先驗信念對文本理解的影響(Tikochinski et al., 2021)等。通過將實驗設計的對象從大腦活動轉移到計算模型上, NLP技術可用于分離不同成分的信息, 并有效降低了被試與實驗數量的要求。最后, 自然刺激和低限制任務的使用正逐漸成為腦成像研究的趨勢(Finn amp; Bandettini, 2021; Hamilton amp; Huth, 2020), 然而傳統心理學實驗方法難以追蹤不斷輸入的詞語語義、難以將先前語境信息整合到當前詞語中。NLP技術提供了表征字、詞、句、篇章等多層級語義信息的建模方法, 在自然語言加工的腦神經基礎探究中發揮著日益重要的作用。
運用NLP技術提取刺激的語義特征并與腦活動建立映射關系, 近期研究者較為一致地觀察到語義表征有關的神經結構廣泛分布在額葉、顳葉、枕葉等多個腦區, 該結果與基于傳統心理學實驗方法以及腦損傷病人所揭示的局部腦區表征語義結論并不完全一致。其部分原因可能在于, 基于大樣本文本庫訓練得到的語言模型較為充分地捕獲了語言符號的多重語義信息, 而傳統心理學實驗中使用的特定任務(例如:語義關聯判斷)選擇性地激活了語言符號某一方面的語義, 因而以往僅探測到部分腦區的參與。值得注意的是, 有不少理論模型也提出語義記憶的神經表征分布在包括感覺運動區和聯合皮層在內的廣泛腦區(Bi, 2021; Fernandino et al., 2016a; Fernandino et al., 2016b; Lambon Ralph et al., 2017)。例如, 概念表征的“中心?輻射(hub-and-spoke)”理論(Patterson et al., 2007; Lambon Ralph et al., 2017)提出, 跨通道的語言及非語言經驗構成了概念的核心成分(即hub), 主要由顳葉前部負責表征與整合, 而概念習得過程中出現的初始源頭信息(即spoke, 包括視覺、聽覺、情緒效價等)則分布在各個通道特異皮層。此外, 雙重編碼理論則將知識表征分為兩大類別:基于感知運動(sensorimotor-derived)的系統與基于語言符號(language-derived)的系統, 其中支持感知運動編碼的知識表征系統主要分布在通道特異的感覺運動皮層以及聯合皮層等廣泛腦區; 支持語言編碼的知識表征系統則主要分布在背側前顳葉(dorsal anterior temporal lobe, dATL)及其延展區域(包括額下回和顳中回等經典語言腦區)。基于NLP技術揭示的廣泛語義敏感腦區說明表征語義的向量空間有可能同時捕獲了自然語言的抽象、跨通道成分和通道特異成分, 然而要建立起這些研究發現與認知理論模型之間的確切關聯還面臨著眾多挑戰(關于該問題更深入的討論請參閱:王少楠 等, 2022a; Kumar, 2021)。
4" 總結與展望
相比傳統心理學實驗方法, 運用自然語言處理(NLP)技術來刻畫語義具有幾大優勢:(1)能夠對詞、句子和篇章等多個層級的語義信息進行客觀量化和計算, 提供了語義的度量指標; (2)能夠整合上下文信息, 根據語境調整詞向量的輸出, 從而對語境下的語義有更準確的表示; (3)NLP模型輸出的詞向量蘊含豐富的信息, 通過消融實驗或輸入不同類型刺激等方式, 研究者可以提取或去除某種信息(例如句法信息), 從而在不同的信息角度對大腦語義表征進行考察; (4)詞向量的獲取快速便捷、受主觀因素干擾較少, 能大大降低材料評定所需成本。通過表征相似性和線性回歸等方法, 研究者嘗試利用基于語言模型提取的語義信息來解釋腦活動的變化, 在揭示語義的分布式表征、語境信息對語義表征的影響、句法與語義加工區域的分離以及篇章語義表征等問題上取得了諸多新發現。
然而, 在回答語言認知及其腦機制等相關問題時, 自然語言處理技術也存在一定的局限性。首先是NLP模型的可解釋性問題。近年來基于神經網絡和深度學習技術的語言模型內部結構越來越復雜和龐大, 例如最近的GTP-3模型參數量達到了1750億(Brown et al., 2020), 盡管在語言任務上的表現較好, 但龐大的參數量和復雜的結構使得模型的可解釋性較差:模型輸出的詞向量反映了語言哪些方面的特征?模型通過哪些關鍵步驟獲得了這些特征?這些問題目前尚無確切答案。目前可以采用模型對比等方式(例如消除或保留語境信息、采用隨機向量代替詞向量等)探究大腦對某種信息的加工, 但低可解釋性仍然在一定程度上限制了NLP在語言認知研究上的解釋效力與應用潛力。其次, 模型的數量和類型正迅速增長, 不同模型在訓練材料、網絡架構、參數量以及訓練任務等多個方面存在差異, 導致輸出的詞向量不盡相同。在使用詞向量與大腦活動建立映射關系時, 模型之間編碼或解碼的表現差異來源變得模糊, 即使采用相同的預訓練模型來獲得相同的模型參數, 也面臨著模型抽樣誤差等問題。此外, NLP模型的構建與人類習得語義的途徑不同, 其內在計算與加工機制也可能與人腦存在本質差異。人類的語言習得是不斷與世界環境進行多模態交互的過程, 而目前主流NLP模型絕大多數只有文字一個模態, 并且難以做到像人類一樣基于短短幾次反饋就習得新知識或改變原有觀念。另一方面, NLP模型的訓練語料越來越多、結構越來越復雜, 在邏輯推理、知識遷移等高級語言任務上卻仍然表現較差, NLP是否真正習得語言目前是一個備受關注的問題。因此, 借助NLP模型能夠多大程度解釋人腦中的語義表征機制仍需未來更深入的研究。鑒于以上局限性, 在應用語言模型提取刺激特征時, 研究者需根據研究問題選擇恰當的模型, 結合實驗設計對模型的有效性進行測試, 并謹慎解釋實驗結果。
值得注意的是, NLP模型并不總是語義表示的唯一解或最優解。當前心理學的其他語義表示方法在一些情況下也取得了不錯的表現, 并且具有較強的可解釋性, 例如特征列舉法能夠直觀地反映概念不同特征在記憶中的凸顯度(Cree amp; McRae, 2003); 特征評定法能獲得概念在多個維度(例如感知覺、情緒等)上的屬性強弱, 也能以分布式表示對概念進行相似性等計算(Binder et al., 2016); 網絡模型能夠清晰地反映概念之間的層級與關系結構(Solomon et al., 2019; Zhu et al., 2022)。基于純文本進行訓練的NLP模型并不一定能完整捕獲人類的語義知識以及加工特點(如推理、聯想、多模態等), 例如最近對概念語義腦表征的研究發現, 相比于NLP模型, 基于體驗屬性的特征評分與大腦的表征相似性更高, 并且使用偏相關控制共享信息的影響之后, 體驗屬性仍表現出與大腦顯著的表征相似性, 而NLP模型則相關不顯著, 說明人腦對概念的表征中存在NLP模型尚未學習到的多模態信息(Fernandino et al., 2022; Tong et al., 2022)。因此, NLP模型與傳統的心理學語義表示方法并無絕對的優劣之分, 它們提供了互補的信息與作用(Kumar, 2021):在小規模語料中, 傳統方法雖然顆粒度較粗, 但其高解釋性有助于對研究理論與假設進行驗證; 在大規模語料和自然刺激中, 雖然NLP模型較低的可解釋性使得向量維度含義不明確, 但其能夠便捷地獲取語境化的語義表示, 并通過模型對比的方式對不同信息內容進行考察。
下一步, 研究者還可從以下幾個方面深入拓展NLP技術在神經語言學中的應用:
(1)引入基于圖模型的語義表示方法。除了基于分布式假設的文本表示方法, 圖模型也是NLP領域中較為成熟的表示文本關系的技術(例如知識圖譜)。在圖模型中, 網絡的節點代表語言要素(詞、概念、實體、句子、篇章等), 網絡的邊代表語言要素間的關系。以知識圖譜為例, 圖模型的建構充分利用了語言要素的屬性關系、語言學先驗知識和世界知識等信息, 與神經網絡模型相比具有更高的可解釋性, 語義關系明確, 易于進行常識推理任務。但圖模型用于表示語義的數據結構較為復雜, 難以直接使用圖模型的語義表示對腦活動數據進行直接建模, 研究者可采用間接的方式, 從圖模型中提取語義關系或距離信息, 隨后使用RSA等方法考察大腦對語義關系的加工。以WordNet為例, 該數據庫根據單詞間的語義關系(例如從屬關系), 將單詞按照樹狀結構進行組織。WordNet中兩個詞之間的語義距離可通過連通這兩個詞所需的最短路徑來度量(Carota et al., 2021; Fernandino et al., 2022; Wurm amp; Caramazza, 2019), 例如, 從“貓(cat)”的節點到達“鼠(mouse)”的節點需要經過以下路徑:貓—貓科動物—食肉動物—胎盤哺乳動物—嚙齒類—鼠, 因此這兩個詞的關系距離為5。
(2)應用多模態融合的深度語言模型。在自然交流情境下, 人們對信息的加工與理解常常融合了聲音、圖像、文本等多個模態, 并且加工單個概念時往往也會提取多個模態的信息(Bi, 2021), 然而傳統的實驗方法和基于純文本的NLP模型難以融合與量化多模態信息, 尚不能全面描述人腦對于概念的表征內容(Dubova, 2022; McClelland et al., 2020)。人工智能領域已經開發了多模態融合的深度語義表示方法(Lahat et al., 2015; Wang, Zhang, Lin et al., 2018; Wang, Zhang, Zong, 2018; Zhu et al., 2022)。運用多模態語言模型, 可進一步深入探究大腦對不同模態信息的加工機制, 例如基于語言和基于體驗的兩類信息(Bi, 2021; Paivio, 1991)在大腦中的表征分布與方式、角色地位以及整合方式與程度等。
(3)運用語言模型評估特殊人群的語言能力。例如, 對正常人和失語癥(或自閉癥、精神分裂癥等)患者的語言產出進行文本分析, 獲得其語義類別、語義模糊性、詞頻分布和語義結構等多方面特征(Day et al., 2021; Nevler et al., 2020)。基于這些特征建立分類或預測模型, 有助于提高語言能力與疾病評估的準確性或受測者的接受程度(de Boer et al., 2018; Fraser et al., 2016), 并降低評估所需的時間與人力成本。
(4)利用腦活動數據增強對深度語言模型的理解或改進模型。現今的深度語言模型能完成各種各樣的語言任務, 但人們對模型內部的實現機制依然缺乏清晰的認識。人腦是世界上唯一能真正理解自然語言的加工系統, 理解深度模型的一個思路便是將其與人腦進行對比, 當前已有部分研究開始基于深度模型的“類腦”情況來推測模型內部的運行機理或解釋不同模型存在差異的原因。例如在一項研究中, 研究者擬探究不同語言模型以及同一模型內部不同隱藏層對語境信息的整合能力(Toneva amp; Wehbe, 2019)。研究者使用fMRI采集了被試閱讀故事(每個詞單獨呈現在屏幕上)時的腦活動, 同時提取了不同NLP模型的每一隱藏層對故事中每個詞的向量表示, 通過嶺回歸和分類任務計算模型輸出詞向量對多個重要語言腦區活動的預測程度。結果表明, 當用于計算詞向量時納入的語境較短時(少于10個詞), BERT和Transformer T-XL模型的中間層對腦活動的預測效果優于較淺的輸入層, 反映了隱藏層的語境整合能力。當納入的語境信息超過10個詞時, BERT對腦活動的預測效果隨著語境詞數量的增加而下降, 而Transformer T-XL的預測效果則仍然保持緩慢升趨勢。研究者推測, 對腦活動預測效果最佳時對應的語境長度可能反映了模型(或隱藏層)整合情境信息的能力, 結果顯示Transformer T-XL比BERT更擅長整合長距離語境信息, 而這正是Transformer T-XL當初的設計初衷之一。類似的工作還發現NLP的語言任務能力和對大腦活動的預測能力存在顯著正相關(Caucheteux amp; King, 2022; Schrimpf et al., 2021)。更進一步, 還有研究者對模型進行微調, 發現提高模型對腦活動預測能力的同時(使模型更“類腦”)顯著改善了模型在多個語言任務上的表現(Schwartz et al., 2019; Toneva amp; Wehbe, 2019)。
以上研究表明, 通過與人腦的認知和神經加工過程作對比來理解甚至改進深度語言模型這一方向具有很大潛力。但由于人類思維的隱蔽性和當前腦成像技術在時間和空間分辨率上的局限性以及低信噪比等問題, 進行“類腦”分析或對NLP模型內部的認知機制進行探究時, 仍需利用嚴格的實驗控制和先驗知識對結果進行約束, 或配合其他模型解釋方法共同做出推理(Sun et al., 2021)。
參考文獻
王少楠, 丁鼐, 林楠, 張家俊, 宗成慶. (2022a). 語言認知與語言計算——人與機器的語言理解. 中國科學:信息科學, 52(10), 1748?1774. https://doi.org/10.1360/SSI- 2021-0100
王少楠, 張家俊, 宗成慶. (2022b). 基于語言計算方法的語言認知實驗綜述. 中文信息學報, 36(4), 1?11.
趙京勝, 宋夢雪, 高祥, 朱巧明. (2022). 自然語言處理中的文本表示研究. 軟件學報, 33(1), 102?128. https://doi.org/ 10.13328/j.cnki.jos.006304
Acunzo, D. J., Low, D. M., amp; Fairhall, S. L. (2022). Deep neural networks reveal topic-level representations of sentences in medial prefrontal cortex, lateral anterior temporal lobe, precuneus, and angular gyrus. NeuroImage, 251, 119005. https://doi.org/10.1016/j.neuroimage.2022.119005
Anderson, A. J., Kiela, D., Binder, J. R., Fernandino, L., Humphries, C. J., Conant, L. L., ... Lalor, E. C. (2021). Deep artificial neural networks reveal a distributed cortical network encoding propositional sentence-level meaning. Journal of Neuroscience, 41(18), 4100?4119. https://doi.org/10.1523/JNEUROSCI.1152-20.2021
Anderson, A. J., Zinszer, B. D., amp; Raizada, R. D. S. (2016). Representational similarity encoding for fMRI: Pattern- based synthesis to predict brain activity using stimulus- model-similarities. NeuroImage, 128, 44?53. https://doi.org/ 10.1016/j.neuroimage.2015.12.035
Batterink, L., amp; Neville, H. J. (2013). The human brain processes syntax in the absence of conscious awareness. Journal of Neuroscience, 33(19), 8528?8533. https://doi.org/ 10.1523/jneurosci.0618-13.2013
Bengio, Y., Ducharme, R., Vincent, P., amp; Janvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3(6), 1137?1155. https://doi.org/10.1162/ 153244303322533223
Bi, Y. (2021). Dual coding of knowledge in the human brain. Trends in Cognitive Sciences, 25(10), 883?895. https://doi.org/ 10.1016/j.tics.2021.07.006
Binder, J. R., Conant, L. L., Humphries, C. J., Fernandino, L., Simons, S. B., Aguilar, M., amp; Desai, R. H. (2016). Toward a brain-based componential semantic representation. Cognitive Neuropsychology, 33(3-4), 130?174. https://doi.org/ 10.1080/02643294.2016.1147426
Binder, J. R., Desai, R. H., Graves, W. W., amp; Conant, L. L. (2009). Where is the semantic system? A critical review and meta-analysis of 120 functional neuroimaging studies. Cerebral Cortex, 19(12), 2767?2796. https://doi.org/10.1093/ cercor/bhp055
Bonnici, H. M., Richter, F. R., Yazar, Y., amp; Simons, J. S. (2016). Multimodal feature integration in the angular gyrus during episodic and semantic retrieval. Journal of Neuroscience, 36(20), 5462?5471. https://doi.org/10.1523/ jneurosci.4310-15.2016
Branzi, F. M., Humphreys, G. F., Hoffman, P., amp; Lambon Ralph, M. A. (2020). Revealing the neural networks that extract conceptual gestalts from continuously evolving or changing semantic contexts. NeuroImage, 220, 116802, Article 116802. https://doi.org/10.1016/j.neuroimage.2020.116802
Brown, P. F., Della Pietra, V. J., deSouza, P. V., Lai, J. C., amp; Mercer, R. L. (1992). Class-based n-gram models of natural language. Computational Linguistics, 18(4), 467?480. https://aclanthology.org/J92-4003
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... Askell, A. (2020, December). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877?1901. https://dl.acm.org/doi/ 10.5555/3495724.3495883
Bruffaerts, R., de Deyne, S., Meersmans, K., Liuzzi, A. G., Storms, G., amp; Vandenberghe, R. (2019). Redefining the resolution of semantic knowledge in the brain: Advances made by the introduction of models of semantics in neuroimaging. Neuroscience amp; Biobehavioral Reviews, 103, 3?13. https://doi.org/10.1016/j.neubiorev.2019.05.015
Carota, F., Nili, H., Pulvermuller, F., amp; Kriegeskorte, N. (2021). Distinct fronto-temporal substrates of distributional and taxonomic similarity among words: Evidence from RSA of BOLD signals. NeuroImage, 224, 117408, Article 117408. https://doi.org/10.1016/j.neuroimage.2020.117408
Caucheteux, C., Gramfort, A., amp; King, J.-R. (2021a, July). Disentangling syntax and semantics in the brain with deep networks. Proceedings of the 38th International Conference on Machine Learning, 139, 1336?1348. https://proceedings. mlr.press/v139/caucheteux21a.html
Caucheteux, C., Gramfort, A., amp; King, J.-R. (2021b). Long- range and hierarchical language predictions in brains and algorithms. arXiv. https://doi.org/10.48550/arXiv.2111.14232
Caucheteux, C., amp; King, J.-R. (2022). Brains and algorithms partially converge in natural language processing. Communications Biology, 5(1), 134. https://doi.org/10.1038/ s42003-022-03036-1
Chomsky, N. (1957). Syntactic structures. The Hague: Mouton. https://doi.org/10.1515/9783112316009
Cichy, R. M., amp; Kaiser, D. (2019). Deep neural networks as scientific models. Trends in Cognitive Sciences, 23(4), 305?317. https://doi.org/10.1016/j.tics.2019.01.009
Conneau, A., Kiela, D., Schwenk, H., Barrault, L., amp; Bordes, A. (2017, September). Supervised learning of universal sentence representations from natural language inference data. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 670?680, Copenhagen, Denmark. https://doi.org/10.18653/v1/D17-1070
Cooper, K. E., amp; Nisbet, E. C. (2016). Green narratives: How affective responses to media messages influence risk perceptions and policy preferences about environmental hazards. Science Communication, 38(5), 626?654. https:// doi.org/10.1177/1075547016666843
Cree, G. S., amp; McRae, K. (2003). Analyzing the factors underlying the structure and computation of the meaning of chipmunk, cherry, chisel, cheese, and cello (and many other such concrete nouns). Journal of Experimental Psychology: General, 132(2), 163?201. https://doi.org/10.1037/ 0096-3445.132.2.163
Day, M., Dey, R. K., Baucum, M., Paek, E. J., Park, H., amp; Khojandi, A. (2021, November). Predicting severity in people with aphasia: A natural language processing and machine learning approach. Annual International Conference of the IEEE Engineering in Medicine amp; Biology Society (EMBC), 2021, 2299?2302, Mexico. https://doi.org/10.1109/ embc46164.2021.9630694
de Boer, J. N., Voppel, A. E., Begemann, M. J. H., Schnack, H. G., Wijnen, F., amp; Sommer, I. E. C. (2018). Clinical use of semantic space models in psychiatry and neurology: A systematic review and meta-analysis. Neuroscience amp; Biobehavioral Reviews, 93, 85?92. https://doi.org/10.1016/ j.neubiorev.2018.06.008
Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., amp; Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6), 391?407. https://doi.org/10.1002/(sici)1097- 4571(199009)41:6lt;391::aid-asi1gt;3.0.co;2-9
Devlin, J., Chang, M.-W., Lee, K., amp; Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv. https://doi.org/10.48550/ arXiv.1810.04805
Dubova, M. (2022). Building human-like communicative intelligence: A grounded perspective. Cognitive Systems Research, 72, 63?79. https://doi.org/10.1016/j.cogsys. 2021.12.002
Dumais, S. T. (2004). Latent semantic analysis. Annual Review of Information Science and Technology, 38(1), 189?230. https://doi.org/10.1002/aris.1440380105
Dupre la Tour, T., Eickenberg, M., Nunez-Elizalde, A. O., amp; Gallant, J. L. (2022). Feature-space selection with banded ridge regression. NeuroImage, 264, 119728. https://doi.org/ 10.1016/j.neuroimage.2022.119728
Elman, J. L. (1990). Finding structure in time. Cognitive Science, 14(2), 179?211. https://doi.org/10.1207/s15516709cog1402_1
Fedorenko, E., Nieto-Castanon, A., amp; Kanwisher, N. (2012). Lexical and syntactic representations in the brain: An fMRI investigation with multi-voxel pattern analyses. Neuropsychologia, 50(4), 499?513. https://doi.org/10.1016/ j.neuropsychologia.2011.09.014
Fernandino, L., Binder, J. R., Desai, R. H., Pendl, S. L., Humphries, C. J., Gross, W. L., ... Seidenberg, M. S. (2016a). Concept representation reflects multimodal abstraction: A framework for embodied semantics. Cerebral Cortex, 26(5), 2018?2034. https://doi.org/10.1093/cercor/bhv020
Fernandino, L., Humphries, C. J., Conant, L. L., Seidenberg, M. S., amp; Binder, J. R. (2016b). Heteromodal cortical areas encode sensory-motor features of word meaning. Journal of Neuroscience, 36(38), 9763?9769. https://doi.org/10.1523/ jneurosci.4095-15.2016
Fernandino, L., Tong, J.-Q., Conant, L. L., Humphries, C. J., amp; Binder, J. R. (2022). Decoding the information structure underlying the neural representation of concepts. Proceedings of the National Academy of Sciences of the United States of America, 119(6). https://doi.org/10.1073/pnas.2108091119
Finn, E. S., amp; Bandettini, P. A. (2021). Movie-watching outperforms rest for functional connectivity-based prediction of behavior. NeuroImage, 235, 117963. https://doi.org/10.1016/ j.neuroimage.2021.117963
Fraser, K. C., Meltzer, J. A., amp; Rudzicz, F. (2016). Linguistic features identify Alzheimer's disease in narrative speech. Journal of Alzheimers Disease, 49(2), 407?422. https://doi.org/ 10.3233/jad-150520
Gao, Z., Zheng, L., Gouws, A., Krieger-Redwood, K., Wang, X., Varga, D., ... amp; Jefferies, E. (2023). Context free and context-dependent conceptual representation in the brain. Cerebral Cortex, 33(1), 152?166. https://doi.org/10.1093/ cercor/bhac058
Goldberg, Y. (2019). Assessing BERT's syntactic abilities. arXiv. https://doi.org/10.48550/arXiv.1901.05287
Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., ... Hasson, U. (2022). Shared computational principles for language processing in humans and deep language models. Nature Neuroscience, 25(3), 369?380. https://doi.org/10.1038/s41593-022-01026-4
Gonzalez, J., Barros-Loscertales, A., Pulvermüller, F., Meseguer, V., Sanjuan, A., Belloch, V., amp; Avila, C. (2006). Reading cinnamon activates olfactory brain regions. NeuroImage, 32(2), 906?912. https://doi.org/10.1016/ j.neuroimage.2006.03.037
Graves, A., Mohamed, A.-r., amp; Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 6645?6649, Vancouver, BC, Canada. https://doi.org/10.1109/ICASSP.2013.6638947
Hagoort, P., amp; Indefrey, P. (2014). The neurobiology of language beyond single words. Annual Review of Neuroscience, 37(1), 347?362. https://doi.org/10.1146/ annurev-neuro-071013-013847
Hamilton, L. S., amp; Huth, A. G. (2020). The revolution will not be controlled: Natural stimuli in speech neuroscience. Language, Cognition and Neuroscience, 35(5), 573582. https://doi.org/10.1080/23273798.2018.1499946
Harris, Z. S. (1954). Distributional structure. Word-Journal of the International Linguistic Association, 10(2-3), 146? 162. https://doi.org/10.1080/00437956.1954.11659520
Hasson, U., Yang, E., Vallines, I., Heeger, D. J., amp; Rubin, N. (2008). A hierarchy of temporal receptive windows in human cortex. Journal of Neuroscience, 28(10), 2539?2550. https://doi.org/10.1523/JNEUROSCI.5487-07.2008
Hobbs, J. R. (1977). Pronoun resolution. ACM SIGART Bulletin (61), 28?28. https://doi.org/10.1145/1045283.1045292
Hochreiter, S., amp; Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735?1780. https://doi.org/ 10.1162/neco.1997.9.8.1735
Humphreys, G. F., Lambon Ralph, M. A., amp; Simons, J. S. (2021). A unifying account of angular gyrus contributions to episodic and semantic cognition. Trends in Neurosciences, 44(6), 452?463. https://doi.org/10.1016/ j.tins.2021.01.006
Huth, A. G., de Heer, W. A., Griffiths, T. L., Theunissen, F. E., amp; Gallant, J. L. (2016). Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 532(7600), 453?458. https://doi.org/10.1038/nature17637
Jain, S., amp; Huth, A. G. (2018, December). Incorporating context into language encoding models for fMRI. Advances in Neural Information Processing Systems, 31, 6629?6638, Montreal, Canada.
Jelodar, H., Wang, Y., Yuan, C., Feng, X., Jiang, X., Li, Y., amp; Zhao, L. (2019). Latent dirichlet allocation (LDA) and topic modeling: Models, applications, a survey. Multimedia Tools and Applications, 78(11), 15169?15211. https://doi.org/ 10.1007/s11042-018-6894-4
Kiefer, M., amp; Pulvermüller, F. (2012). Conceptual representations in mind and brain: Theoretical developments, current evidence and future directions. Cortex, 48(7), 805?825. https://doi.org/10.1016/j.cortex.2011.04.006
Kivisaari, S. L., van Vliet, M., Hulten, A., Lindh-Knuutila, T., Faisal, A., amp; Salmelin, R. (2019). Reconstructing meaning from bits of information. Nature Communications, 10(1), 927. https://doi.org/10.1038/s41467-019-08848-0
Kriegeskorte, N., amp; Douglas, P. K. (2018). Cognitive computational neuroscience. Nature Neuroscience, 21(9), 1148?1160. https://doi.org/10.1038/s41593-018-0210-5
Kriegeskorte, N., amp; Douglas, P. K. (2019). Interpreting encoding and decoding models. Current Opinion in Neurobiology, 55, 167?179. https://doi.org/10.1016/j.conb.2019.04.002
Kriegeskorte, N., Mur, M., amp; Bandettini, P. (2008). Representational similarity analysis - connecting the branches of systems neuroscience. Frontiers in Systems Neuroscience, 2, 4. https://doi.org/10.3389/neuro.06.004.2008
Kumar, A. A. (2021). Semantic memory: A review of methods, models, and current challenges. Psychonomic Bulletin amp; Review, 28(1), 40?80. https://doi.org/10.3758/ s13423-020-01792-x
Kuperberg, G. R. (2007). Neural mechanisms of language comprehension: Challenges to syntax. Brain Research, 1146, 23?49. https://doi.org/10.1016/j.brainres.2006.12.063
Lahat, D., Adali, T., amp; Jutten, C. (2015). Multimodal data fusion: An overview of methods, challenges, and prospects. Proceedings of the IEEE, 103(9), 1449?1477, . https:// doi.org/10.1109/jproc.2015.2460697
Lambon Ralph, M. A., Jefferies, E., Patterson, K., amp; Rogers, T. T. (2017). The neural and computational bases of semantic cognition. Nature Reviews: Neuroscience, 18(1), 42?55. https://doi.org/10.1038/nrn.2016.150
Laurino Dos Santos, H., amp; Berger, J. (2022). The speed of stories: Semantic progression and narrative success. Journal of Experimental Psychology: General, 151(8), 1833?1842. https://doi.org/10.1037/xge0001171
Law, R., amp; Pylkkanen, L. (2021). Lists with and without syntax: A new approach to measuring the neural processing of syntax. Journal of Neuroscience, 41(10), 2186?2196. https://doi.org/10.1523/JNEUROSCI.1179-20.2021
Lee, D. D., amp; Seung, H. S. (1999). Learning the parts of objects by non-negative matrix factorization. Nature, 401(6755), 788?791. https://doi.org/10.1038/44565
Lee, H., amp; Chen, J. (2022). Predicting memory from the network structure of naturalistic events. Nature Communications, 13(1), 4235. https://doi.org/10.1038/s41467-022-31965-2
Lerner, Y., Honey, C. J., Silbert, L. J., amp; Hasson, U. (2011). Topographic mapping of a hierarchy of temporal receptive windows using a narrated story. Journal of Neuroscience, 31(8), 2906?2915. https://doi.org/10.1523/jneurosci.3684-10.2011
Margulies, D. S., Ghosh, S. S., Goulas, A., Falkiewicz, M., Huntenburg, J. M., Langs, G., ... Smallwood, J. (2016). Situating the default-mode network along a principal gradient of macroscale cortical organization. Proceedings of the National Academy of Sciences of the United States of America, 113(44), 12574?12579. https://doi.org/10.1073/ pnas.1608282113
Matchin, W., Brodbeck, C., Hammerly, C., amp; Lau, E. (2019). The temporal dynamics of structure and content in sentence comprehension: Evidence from fMRI-constrained MEG. Human Brain Mapping, 40(2), 663?678. https://doi.org/ 10.1002/hbm.24403
McClelland, J. L., Hill, F., Rudolph, M., Baldridge, J., amp; Schutze, H. (2020). Placing language in an integrated understanding system: Next steps toward human-level performance in neural language models. Proceedings of the National Academy of Sciences of the United States of America, 117(42), 25966?25974. https://doi.org/10.1073/ pnas.1910416117
Mcculloch, W. S., amp; Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. The Bulletin of Mathematical Biophysics, 5(4), 115?133. https://doi.org/ 10.1007/bf02478259
Miani, A., Hills, T., amp; Bangerter, A. (2022). Interconnectedness and (in)coherence as a signature of conspiracy worldviews. Science Advances, 8(43), eabq3668. https://doi.org/10.1126/ sciadv.abq3668
Mikolov, T., Chen, K., Corrado, G., amp; Dean, J. (2013a). Efficient estimation of word representations in vector space. arXiv. https://doi.org/10.48550/arXiv.1301.3781
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J. H., amp; Khudanpur, S. (2010, September). Recurrent neural network based language model. 11th Annual Conference of the International Speech Communication Association 2010, 1045?1048, Makuhari, Chiba, Japan.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., amp; Dean, J. (2013b). Distributed representations of words and phrases and their compositionality. arXiv. https://doi.org/10.48550/ arXiv.1310.4546
Mitchell, T. M., Shinkareva, S. V., Carlson, A., Chang, K.-M., Malave, V. L., Mason, R. A., amp; Just, M. A. (2008). Predicting human brain activity associated with the meanings of nouns. Science, 320(5880), 1191?1195. https://doi.org/10.1126/science.1152876
Nastase, S. A., Connolly, A. C., Oosterhof, N. N., Halchenko, Y. O., Guntupalli, J. S., Visconti Di Oleggio Castello, M., ... Haxby, J. V. (2017). Attention selectively reshapes the geometry of distributed semantic representation. Cerebral Cortex, 27(8), 4277?4291. https://doi.org/10.1093/ cercor/bhx138
Nevler, N., Ash, S., McMillan, C., Elman, L., McCluskey, L., Irwin, D. J., ... Grossman, M. (2020). Automated analysis of natural speech in amyotrophic lateral sclerosis spectrum disorders. Neurology, 95(12), E1629?E1639. https://doi.org/ 10.1212/wnl.0000000000010366
Nguyen, M., Vanderwal, T., amp; Hasson, U. (2019). Shared understanding of narratives is correlated with shared neural responses. NeuroImage, 184, 161?170. https://doi.org/ 10.1016/j.neuroimage.2018.09.010
Paivio, A. (1991). Dual coding theory: Retrospect and current status. Canadian Journal of Psychology / Revue canadienne de psychologie, 45(3), 255?287. https://doi.org/ 10.1037/h0084295
Patel, T., Morales, M., Pickering, M. J., amp; Hoffman, P. (2022). A common neural code for meaning in discourse production and comprehension. bioRxiv. https://doi.org/ 10.1101/2022.10.15.512349
Patterson, K., Nestor, P. J., amp; Rogers, T. T. (2007). Where do you know what you know? The representation of semantic knowledge in the human brain. Nature Reviews Neuroscience, 8(12), 976?987. https://doi.org/10.1038/nrn2277
Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., amp; Zettlemoyer, L. (2018, June). Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 2227?2237, New Orleans, Louisiana, USA. https://doi.org/10.18653/v1/N18-1202
Petersson, K.-M., Folia, V., amp; Hagoort, P. (2012). What artificial grammar learning reveals about the neurobiology of syntax. Brain and Language, 120(2), 83?95. https:// doi.org/10.1016/j.bandl.2010.08.003
Poldrack, R. A., Wagner, A. D., Prull, M. W., Desmond, J. E., Glover, G. H., amp; Gabrieli, J. D. (1999). Functional specialization for semantic and phonological processing in the left inferior prefrontal cortex. NeuroImage, 10(1), 15?35. https://doi.org/10.1006/nimg.1999.0441
Prince, J. S., Charest, I., Kurzawski, J. W., Pyles, J. A., Tarr, M. J., amp; Kay, K. N. (2022). Improving the accuracy of single-trial fMRI response estimates using GLMsingle. eLife, 11, e77599. https://doi.org/10.7554/elife.77599
Pulvermüller, F. (2013). How neurons make meaning: Brain mechanisms for embodied and abstract-symbolic semantics. Trends in Cognitive Sciences, 17(9), 458?470. https://doi.org/ 10.1016/j.tics.2013.06.004
Pulvermüller, F., Harle, M., amp; Hummel, F. (2001). Walking or talking? Behavioral and neurophysiological correlates of action verb processing. Brain and Language, 78(2), 143?168. https://doi.org/10.1006/brln.2000.2390
Pulvermüller, F., Kherif, F., Hauk, O., Mohr, B., amp; Nimmo-Smith, I. (2009). Distributed cell assemblies for general lexical and category-specific semantic processing as revealed by fMRI cluster analysis. Human Brain Mapping, 30(12), 3837?3850. https://doi.org/10.1002/hbm.20811
Pulvermüller, F., Lutzenberger, W., amp; Preissl, H. (1999). Nouns and verbs in the intact brain: Evidence from event-related potentials and high-frequency cortical responses. Cerebral Cortex, 9(5), 497?506. https://doi.org/10.1093/cercor/9.5.497
Pylkkanen, L. (2019). The neural basis of combinatory syntax and semantics. Science, 366(6461), 62?66. https:// doi.org/10.1126/science.aax0050
Quoc, L., amp; Mikolov, T. (2014, June). Distributed representations of sentences and documents. Proceedings of the 31st International Conference on Machine Learning, 32, 1188? 1196, Beijing, China.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., amp; Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.
Rodd, J., Gaskell, G., amp; Marslen-Wilson, W. (2002). Making sense of semantic ambiguity: Semantic competition in lexical access. Journal of Memory and Language, 46(2), 245?266. https://doi.org/10.1006/jmla.2001.2810
Salton, G., Wong, A., amp; Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613?620. https://doi.org/10.1145/361219.361220
Schrimpf, M., Blank, I. A., Tuckute, G., Kauf, C., Hosseini, E. A., Kanwisher, N., ... Fedorenko, E. (2021). The neural architecture of language: Integrative modeling converges on predictive processing. Proceedings of the National Academy of Sciences of the United States of America, 118(45). https://doi.org/10.1073/pnas.2105646118
Schwartz, D., Toneva, M., amp; Wehbe, L. (2019, December). Inducing brain-relevant bias in natural language processing models. Advances in Neural Information Processing Systems, 32, 14123?14133, Vancouver, Canada. https://dl.acm.org/doi/ 10.5555/3454287.3455553
Segaert, K., Menenti, L., Weber, K., Petersson, K. M., amp; Hagoort, P. (2012). Shared syntax in language production and language comprehension—an fMRI study. Cerebral Cortex, 22(7), 1662?1670. https://doi.org/10.1093/cercor/bhr249
Simony, E., Honey, C. J., Chen, J., Lositsky, O., Yeshurun, Y., Wiesel, A., amp; Hasson, U. (2016). Dynamic reconfiguration of the default mode network during narrative comprehension. Nature Communications, 7(1), 12141. https://doi.org/10.1038/ncomms12141
Smallwood, J., Bernhardt, B. C., Leech, R., Bzdok, D., Jefferies, E., amp; Margulies, D. S. (2021). The default mode network in cognition: A topographical perspective. Nature Reviews Neuroscience, 22(8), 503?513. https://doi.org/10.1038/ s41583-021-00474-4
Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A., amp; Potts, C. (2013, October). Recursive deep models for semantic compositionality over a sentiment treebank. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1631?1642, Seattle, Washington, USA. https://aclanthology.org/D13-1170
Solomon, S. H., Medaglia, J. D., amp; Thompson-Schill, S. L. (2019). Implementing a concept network model. Behavior Research Methods, 51(4), 1717?1736. https://doi.org/10.3758/ s13428-019-01217-1
Sun, X., Yang, D., Li, X., Zhang, T., Meng, Y., Qiu, H., ... Li, J. (2021). Interpreting deep learning models in natural language processing: A review. arXiv. https://doi.org/10.48550/ arXiv.2110.10470
Sundermeyer, M., Schluter, R., amp; Ney, H. (2012, September). LSTM neural networks for language modeling. 13th Annual Conference of the International Speech Communication Association, 194?197, Portland, Oregon, USA. https://doi.org/ 10.21437/Interspeech.2012-65
Sutskever, I., Vinyals, O., amp; Le, Q. V. (2014, December). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 27, Montreal, Canada. https://dl.acm.org/doi/10.5555/2969033.2969173
Tikochinski, R., Goldstein, A., Yeshurun, Y., Hasson, U., amp; Reichart, R. (2021). Fine-tuning of deep language models as a computational framework of modeling listeners’ perspective during language comprehension. bioRxiv. https://doi.org/10.1101/2021.11.22.469596
Toneva, M., amp; Wehbe, L. (2019, December). Interpreting and improving natural-language processing (in machines) with natural language-processing (in the brain). Advances in Neural Information Processing Systems, 32, 14954? 14964, Vancouver, Canada. https://dl.acm.org/doi/10.5555/ 3454287.3455626
Tong, J., Binder, J. R., Humphries, C., Mazurchuk, S., Conant, L. L., amp; Fernandino, L. (2022). A distributed network for multimodal experiential representation of concepts. Journal of Neuroscience, 42(37), 7121?7130. https://doi.org/10.1523/JNEUROSCI.1243-21.2022
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... Polosukhin, I. (2017, December). Attention is all you need. Advances in Neural Information Processing Systems, 30, Long Beach, California, USA. https://dl.acm.org/doi/10.5555/3295222.3295349
Vodrahalli, K., Chen, P.-H., Liang, Y., Baldassano, C., Chen, J., Yong, E., ... Arora, S. (2018). Mapping between fMRI responses to movies and their natural language annotations. NeuroImage, 180, 223?231. https://doi.org/10.1016/ j.neuroimage.2017.06.042
Wang, S., Zhang, J., Lin, N., amp; Zong, C. (2018, February). Investigating inner properties of multimodal representation and semantic compositionality with brain-based componential semantics. Proceedings of the AAAI Conference on Artificial Intelligence, 30(1), 5964?5972, New Orleans, Louisiana, USA. https://doi.org/10.1609/aaai.v32i1.12032
Wang, S., Zhang, J., Lin, N., amp; Zong, C. (2020, February). Probing brain activation patterns by dissociating semantics and syntax in sentences. Proceedings of the AAAI Conference on Artificial Intelligence, 34(05), 9201?9208, New York, USA. https://doi.org/10.1609/aaai.v34i05.6457
Wang, S., Zhang, J., amp; Zong, C. (2018, October-November). Associative multichannel autoencoder for multimodal word representation. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 115? 124, Brussels, Belgium. https://doi.org/10.18653/v1/D18-1011
Wang, X., Wu, W., Ling, Z., Xu, Y., Fang, Y., Wang, X., ... Bi, Y. (2018). Organizational principles of abstract words in the human brain. Cerebral Cortex, 28(12), 4305-4318. https://doi.org/10.1093/cercor/bhx283
Warburton, E., Wise, R. J., Price, C. J., Weiller, C., Hadar, U., Ramsay, S., amp; Frackowiak, R. S. (1996). Noun and verb retrieval by normal subjects studies with PET. Brain, 119, 159?179. https://doi.org/10.1093/brain/119.1.159
Wehbe, L., Murphy, B., Talukdar, P., Fyshe, A., Ramdas, A., amp; Mitchell, T. (2014). Simultaneously uncovering the patterns of brain regions involved in different story reading subprocesses. PLoS One, 9(11), e112575. https://doi.org/ 10.1371/journal.pone.0112575
Wu, S., amp; Dredze, M. (2019, November). Beto, bentz, becas: The surprising cross-lingual effectiveness of BERT. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP- IJCNLP), 833?844, Hong Kong, China. https://doi.org/ 10.18653/v1/D19-1077
Wurm, M. F., amp; Caramazza, A. (2019). Distinct roles of temporal and frontoparietal cortex in representing actions across vision and language. Nature Communications, 10(1), 289. https://doi.org/10.1038/s41467-018-08084-y
Xu, C., Zhang, Y., Zhu, G., Rui, Y., Lu, H., amp; Huang, Q. (2008). Using webcast text for semantic event detection in broadcast sports video. IEEE Transactions on Multimedia, 10(7), 1342?1355. https://doi.org/10.1109/Tmm.2008.2004912
Yee, E., amp; Thompson-Schill, S. L. (2016). Putting concepts into context. Psychonomic Bulletin amp; Review, 23(4), 1015?1027. https://doi.org/10.3758/s13423-015-0948-7
Yeshurun, Y., Nguyen, M., amp; Hasson, U. (2021). The default mode network: Where the idiosyncratic self meets the shared social world. Nature Reviews: Neuroscience, 22(3), 181?192. https://doi.org/10.1038/s41583-020-00420-w
Yin, W., Kann, K., Yu, M., amp; Schütze, H. (2017). Comparative study of cnn and rnn for natural language processing. arXiv. https://doi.org/10.48550/arXiv.1702.01923
Zhang, X., Wang, S., Lin, N., Zhang, J., amp; Zong, C. (2022, February). Probing word syntactic representations in the brain by a feature elimination method. Proceedings of the AAAI Conference on Artificial Intelligence, 36(10), 11721?11729. https://doi.org/10.1609/aaai.v36i10.21427
Zhang, Y., amp; Wallace, B. (2017). A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification. arXiv, 253?263. https://doi.org/ 10.48550/arXiv.1510.03820
Zhu, X., Li, Z., Wang, X., Jiang, X., Sun, P., Wang, X., ... Yuan, N. J. (2022). Multi-modal knowledge graph construction and application: A survey. IEEE Transactions on Knowledge and Data Engineering, 1?20. https://doi.org/10.1109/ tkde.2022.3224228
Abstract: How semantics are represented in human brain is a central issue in cognitive neuroscience. Previous studies typically address this issue by artificially manipulating the properties of stimuli or task demands. Having brought valuable insights into the neurobiology of language, this psychological experimental approach may still fail to characterize semantic information with high resolution, and have difficulty quantifying context information and high-level concepts. The recently-developed natural language processing (NLP) techniques provide tools to represent the discrete semantics in the form of vectors, enabling automatic extraction of word semantics and even the information of context and syntax. Recent studies have applied NLP techniques to model the semantic of stimuli, and mapped the semantic vectors onto brain activities through representational similarity analyses or linear regression. A consistent finding is that the semantic information is represented by a vastly distributed network across the frontal, temporal and occipital cortices. Future studies may adopt multi-modal neural networks and knowledge graphs to extract richer information of semantics, apply NLP models to automatically assess the language ability of special groups, and improve the interpretability of deep neural network models with neurocognitive findings.
Keywords: semantic representation, brain, natural language processing, language model