





摘" 要" 詞嵌入是自然語言處理的一項基礎技術。其核心理念是根據大規模語料中詞語和上下文的聯系, 使用神經網絡等機器學習算法自動提取有限維度的語義特征, 將每個詞表示為一個低維稠密的數值向量(詞向量), 以用于后續分析。心理學研究中, 詞向量及其衍生的各種語義聯系指標可用于探究人類的語義加工、認知判斷、發散思維、社會偏見與刻板印象、社會與文化心理變遷等各類問題。未來, 基于詞嵌入技術的心理學研究需要區分心理的內隱和外顯成分, 深化拓展動態詞向量和大型預訓練語言模型(如GPT、BERT)的應用, 并在時間和空間維度建立細粒度詞向量數據庫, 更多開展基于詞嵌入的社會變遷和跨文化研究。我們為心理學專門開發的R語言工具包PsychWordVec可以幫助研究者利用詞嵌入技術開展心理學研究。
關鍵詞" 自然語言處理, 詞嵌入, 詞向量, 語義表征, 語義關聯, 詞嵌入聯系測驗
分類號" B841; B849:C91
語言是人類文明的信息化載體。幾千年來, 人類在文明演進過程中積累了海量語言文本, 其中蘊含著大量人類心理和行為信息。然而, 直到計算機技術高度發達的21世紀, 人們才開始以量化的方式利用語言文本探究人類社會、心理和行為規律(Chen et al., 2021; Jackson et al., 2022; Lazer et al., 2009, 2020)。早期的相關研究主要利用語言文本數據中的詞頻(word frequency)等信息考察一些相對淺層的心理規律(比如個人主義?集體主義水平的變化)。近年來, 隨著自然語言處理(natural language processing, NLP)技術的發展和成熟(Hirschberg amp; Manning, 2015), 越來越多的研究開始探討蘊藏在人類語言中的大量深層次的社會、心理和行為規律(比如個人主義?集體主義文化心理含義的變化)。在自然語言處理的諸多技術中, 詞嵌入(word embedding)是目前發展較成熟、應用較廣泛的一項基礎技術, 也是各種大型預訓練語言模型(pre-trained language model, PLM)的基石。自社會科學領域首個應用詞嵌入技術的開拓性研究在Science發表以來(Caliskan et al., 2017), 其在心理學領域的應用如雨后春筍, 目前仍處于爆發式增長中。本文擬全面整理使用詞嵌入技術的心理學研究, 在厘清現狀的同時, 展示詞嵌入作為一種前沿的心理學研究方法的應用潛力、未來發展方向和需要解決的問題。在梳理現有研究之前, 我們首先介紹這些研究的共同基礎: 詞嵌入技術。
1" 詞嵌入技術: 語義向量化表征和語義關聯測量[1 大部分情況下, “詞嵌入”和“詞向量”可以互換使用。不過, “詞嵌入”側重于技術思想, 即濃縮語義信息并將其映射到低維向量空間, 通常也指詞嵌入矩陣; 而“詞向量”側重于具體數據, 也泛指采用詞嵌入以外的方法得到的向量, 比如本文1.1介紹的獨熱表示、分布表示。廣義的“詞嵌入” (token embedding)中, 詞/標記(token)是基本的語義單元, 不僅指單詞, 還包括字、子詞(subword)及其他標記信息。]1
作為自然語言處理的一項基礎技術, 詞嵌入可以量化表示自然語言中詞匯的語義, 即通過特定算法對語義進行向量化表征, 獲得詞向量(word vector), 從而為后續的智能化語言處理和分析提供基礎。基于詞嵌入對語義的向量化表征, 研究者可以進一步對語義共性和差異進行向量化表征, 以及計算不同詞語或概念之間的語義關聯程度。下面, 我們將圍繞這三個方面介紹詞嵌入技術。
1.1" 從“詞語”到“向量”: 對語義的向量化表征
當我們遇到一個生詞, 想知道它的含義, 一種方法是通過查詞典直接了解詞義, 另一種方法是通過該詞在特定語境中的使用情況(特別是它和上下文的關系)推測詞義。目前, 基于大規模語言文本, 計算機對語言的理解主要基于后一種方法, 即通過某個詞的語用(詞與上下文的關系)表征這個詞的含義, 這就是所謂的“語用即語義”。不過, 計算機能夠處理的是向量化的語義表征, 即詞向量。
詞向量的發展經歷了從簡單到復雜、從靜態到動態、從機械到智能的過程。研究者先后提出了三種基于數值向量的詞匯表征方式(word representation): 獨熱表示、分布表示、詞嵌入表示。
獨熱表示(獨熱編碼, one-hot encoding)將詞表中的N個詞依次表示為一個N維數值向量, 每個詞向量只有一個維度的值為1, 剩余為0。獨熱表示只能簡單區分詞語, 無法表征語義, 而且其高維、稀疏的特點容易導致“維度災難”。為了克服這些局限, 研究者提出了詞的分布表示(distributional representation):一個詞的語義很大程度由上下文決定, 因此語義相近的詞往往具有相似的上下文, 這就是分布式語義假設的思想(Harris, 1954; Lenci, 2018)。基于這種思想, 分布表示將一個詞與上下文其他詞的共同出現情況(簡稱共現, co-occurrence)視為這個詞的分布結構(distributional structure), 然后使用統計方法對共現矩陣進行降維, 最后得到相對低維、稠密的詞向量(表1)。分布表示有兩種具體的降維方法。一種方法是潛在語義分析(Latent Semantic Analysis, LSA), 利用奇異值分解實現共現矩陣降維, 每個維度反映詞的一種獨立的潛在語義特征(Landauer amp; Dumais, 1997)。另一種方法是基于潛在狄利克雷分配(Latent Dirichlet Allocation, LDA)的主題模型(Topic Model), 利用概率分布和貝葉斯統計提取出文本主題, 每個維度反映詞在相應主題上的出現概率(Blei et al., 2003; Griffiths et al., 2007)。
然而, 獨熱表示和分布表示在大規模語料中的訓練速度和效果都欠佳, 并且獨熱表示無法利用上下文信息, 分布表示在利用上下文方面效果也不夠理想(車萬翔 等, 2021)。為了解決這些問題, 受到神經概率語言模型(Neural Probabilistic Language Model; Bengio et al., 2003)的啟發, 研究者提出了詞嵌入表示, 這是本文討論的核心。
所謂“嵌入” (embedding), 是指在盡可能保留原有語義距離的前提下, 將復雜語義信息直接映射到低維向量空間。詞嵌入的理論基礎仍為分布式語義假設(Harris, 1954; Lenci, 2018), 與分布表示(LSA、LDA)的差異在于向量賦值方式:詞嵌入的降維是通過機器學習算法(一般采用神經網絡算法)訓練模型來預測詞與上下文的共現關系, 進而直接獲得低維、稠密的詞向量(常見的有300維, 也可根據需要確定維數)。詞嵌入表征的語義并不是具象的語義解釋, 而是算法從人們的自然語言中自動學習的抽象的語用規律, 其維度數值本質上是神經網絡模型的權重(weights)或通過模型估計得到的參數(類似于回歸系數), 一定程度上模擬了人類加工語言時大腦的激活模式。詞嵌入對語義向量化表征的示意圖見圖1。
詞嵌入向量可分為兩類:一類是靜態詞嵌入(static word embeddings), 將一個詞在整個語料庫中的所有上下文信息都聚合、壓縮到一個向量表示中, 得到的是固定的、不隨詞匯所在特定語境中的上下文變化的詞向量, 算法模型包括Word2Vec、GloVe、FastText等; 另一類是動態詞嵌入(dynamic word embeddings), 也稱上下文相關、語境化的詞嵌入(contextualized word embeddings), 根據提供的上下文語境得到每個詞在特定語境中的詞向量, 可通過ELMo、GPT、BERT等預訓練語言模型生神經網絡包括輸入層、隱含層、輸出層。隱含層一般有多個節點(“神經元”), 每個節點為一個激活函數。靜態詞嵌入模型一般取神經網絡前半部分, 即隱含層的輸入權重矩陣(input weight matrix), 作為詞向量矩陣; 動態詞嵌入模型更復雜, 每個詞的動態詞向量是對該詞上下文語義組合的結果, 可來自最后一層隱含層的輸出權重或多層隱含層向量的加權平均, 其中, 接近輸入層和輸出層的隱含層分別編碼了更多語法和語義信息(車萬翔 等, 2021)。
成(車萬翔 等, 2021; 陳萌 等, 2021; Lake amp; Murphy, 2021)。表1總結了這些模型的特點(更多介紹詳見網絡版附錄的補充材料1)。研究者一般使用在大規模語料上得到了預訓練、可表征通用語義知識的詞向量(見網絡版附表S1)。
1.2" 表征語義共性和差異: 詞向量的線性運算
由詞嵌入技術訓練得到的詞向量濃縮了詞在上下文中的語用規律, 一定程度上可以表征人類自然語言中的語義知識。然而, 詞向量數值的含義通常是不明確的, 我們無法直接從向量數值中獲得可解釋的語義知識。為了獲得更明確的含義, 一種常見做法是計算語義共性或語義差異的向量表示, 即多個詞向量相加后的向量總和(vector sum)或相減后的向量差異(vector difference)。[ 只有同一個語義空間(來自相同語料庫和模型)的詞向量才能進行線性運算, 并且需要進行歸一化(normalization), 即縮放每個詞向量至單位長度1。]
基于詞向量的線性運算, 我們可以得到詞語差異之間的類比(word analogy), 進而獲得可解釋的語義知識(Mikolov et al., 2013)。比如, 語義差異類比可以體現性別差異( ), 語法差異類比可以體現時態變化( ), 從屬關系類比可以體現國家與首都的關系()。
心理學研究中, 詞向量的線性運算還有更一般的用途。比如, 研究者可以通過計算與某個心理概念或維度有關的近、反義詞的詞向量之差, 建立這個概念維度兩極的坐標系, 從而使得計算其他心理概念與這個概念間的語義聯系成為可能(Kozlowski et al., 2019); 研究者還可以通過計算一系列詞向量的總和, 獲得這些詞的語義共性, 以此表征其上位心理概念。
1.3" 測量語義關聯和距離: 詞向量的聯系強度
人類心理的表征在“頭腦內”很多時候表現為概念與概念間的聯系, 而在“頭腦外”的自然語言中則表現為詞與詞之間的語義聯系。因此, 利用自然語言中詞與詞之間的聯系, 我們能在一定程度上探究人類心理特征。
總體上, 語義聯系有絕對和相對之分, 計算方法主要有三種:直接計算詞向量的絕對余弦相似度或距離、通過計算兩組詞向量間的余弦相似度之差獲得相對語義相似度(統稱為“詞嵌入聯系測驗”)、通過計算兩組詞向量間的歐式距離之差獲得相對語義距離(統稱為“相對范數距離”)。下面分別介紹每種方法及其優缺點和適用范圍。
1.3.1" 余弦相似度和距離[ 余弦相似度的計算公式:
當兩個向量的模長經過歸一化, 它們的歐氏距離與余弦相似度或距離存在固定關系:]
兩個詞向量在空間中夾角的余弦值, 即余弦相似度(cosine similarity), 可以衡量兩個詞語之間的語義關聯性(semantic relatedness), 其本質上是這兩個詞的語用或上下文特征的相似性(Lenci, 2018)。余弦相似度取值范圍是?1~1, 但一般很少有負數; 與之相反的是余弦距離(cosine distance; 1 ? 余弦相似度), 取值范圍是0~2。若兩個詞完全相關, 則向量夾角為0°, 余弦相似度為1, 余弦距離為0; 若兩個詞完全無關, 則向量夾角為90°, 余弦相似度為0, 余弦距離為1。
余弦相似度絕對大小的意義并不總是明確。一般而言, 近義詞的相似度往往較高, 但相似度高的未必是近義詞, 也可能是反義詞(如“喜歡?討厭”)、固定搭配(如“單反?相機”)、語境相近的詞(如“鍵盤?鼠標”)等; 同理, 相似度低的也未必是反義詞, 而只是兩個毫無關聯的詞(如“心理?竣工”)。可見, 詞相似度衡量的是語義聯系的絕對值, 既不必然表示聯系的正、負方向, 也難以直接區分同義詞和反義詞。所以在實際應用中, 為了使詞相似度獲得可比較的參照點, 研究者一般計算的是相對的詞相似度(或距離)。
1.3.2" 詞嵌入聯系測驗(WEAT)[ WEAT計算兩類目標概念(如X=花, Y=蟲)和兩類屬性詞(如A=積極, B=消極)的相對相似度。首先計算一組目標詞(X或Y)中的某個具體詞w與屬性A和B的詞相似度之差, 作為w與屬性兩極的相對相似度; 然后計算目標概念X和Y與該屬性相似度的差值, 作為目標和屬性間的相對聯系強度。WEAT的計算公式:
單類SC-WEAT則是計算單類目標概念的每個詞和兩類屬性詞的相似度均值差異, 即上述公式的第一步。]
心理學研究中, 為了運用概念間的相對語義聯系來衡量人們的心理特征, 研究者需要選擇能代表特定人群的語料庫和由此訓練的詞向量, 然后計算詞的相對余弦相似度。這種分析方法強調目標概念和屬性兩極之間的相對語義聯系, 因此后來被統稱為“詞嵌入聯系測驗”。[ WEAT也被譯為“詞嵌入聯想測驗” (吳勝濤 等, 2020)。Association本身有“聯系”和“聯想”兩種含義。本文建議此處譯為“聯系”, 原因如下:(1)起初IAT被譯為“內隱聯想測驗”, 但原始譯者和多位學者已將Association的翻譯修正為“聯系” (楊紫嫣 等, 2015); (2)嚴格來說, WEAT并不測量個體頭腦內的聯想加工過程, 而是測量自然語言中不同詞語之間的語義聯系(Caliskan et al., 2017)。但與WEAT不同, 本文2.3.1節介紹的Divergent Association Task中的Association譯為“聯想”更合適, 因為該測驗涉及個體在任務中的自由發散聯想過程(Olson et al., 2021)。]
詞嵌入聯系測驗(Word Embedding Association Test, WEAT)由Caliskan等(2017)首次提出, 與內隱聯系測驗(Implicit Association Test, IAT)的原理和算法類似, 但結論適用范圍不同。IAT為了測量個體頭腦中的概念聯系, 使用快速按鍵分類任務測量被試的反應時, 然后將目標概念詞(如花?蟲)和屬性詞(如積極?消極)在不相容和相容條件下的反應時之差作為態度、偏見、刻板印象等心理特征的間接測量指標(Greenwald et al., 1998; 楊紫嫣 等, 2015)。WEAT則是將詞相似度視為IAT中的反應速度, 使用兩組目標詞和兩組屬性詞的詞相似度之差來測量目標概念詞和屬性詞在自然語言中的相對聯系強度, 并且可以使用d值衡量標準化效應量(Caliskan et al., 2017)。
同時, 為了考察單類目標概念(如職業)與兩極屬性(如性別)的聯系, Caliskan等(2017)還提出了詞嵌入事實聯系測驗(Word Embedding Factual Association Test, WEFAT), 后來被稱為單類WEAT (single-category WEAT, SC-WEAT; Toney- Wails amp; Caliskan, 2021)。這種單類WEAT和單類IAT (SC-IAT; Karpinski amp; Steinman, 2006)類似, 允許研究者只考察單個目標概念而無需找到與之相對的另一個目標概念, 但屬性詞仍要有兩極對比。
WEAT和SC-WEAT是目前在心理學研究中應用最多的基于詞向量的概念相對聯系測量方法。但是, 在使用群體大規模語料的前提下, 其測量的并不是個體頭腦中的概念聯系, 而是概念聯系在特定時空下的某個語料庫中的一種外化表達, 由此僅能推測產生語料的相應群體的心理特點。因此, 雖然WEAT和IAT的結果可以做類似理解, 比如都能用來測量刻板印象、偏見等, 但WEAT反映的是群體水平的概念聯系, 而IAT測量的則是個體水平的概念聯系。
1.3.3" 相對范數(歐氏)距離(RND)[ 范數(norm)是線性代數的術語, 表示向量在空間中的長度(模長), 此處指L2范數(歐式范數)。兩個向量的范數距離表示它們差異的長度, 衡量了它們在空間中的距離; 詞向量的范數距離衡量了語義距離。由此, 相對范數距離(RND)計算目標概念和兩類屬性詞的相對語義距離。比如, 對于職業(目標概念)和性別(屬性)的聯系, 首先分別計算男性和女性所有詞的平均向量, 然后計算每個職業的詞向量與這兩個平均向量的歐氏距離之差, 即單個職業的RND, 最后計算所有職業RND之和。結果若為負值(職業和男性詞向量的歐式距離小于和女性詞向量的歐式距離), 則說明職業與男性的聯系比女性更緊密。RND的計算公式:
概念間的相對聯系還可以通過Garg等(2018)提出的相對范數距離(relative norm distance, RND)來衡量。相對范數距離又稱相對歐氏距離(relative Euclidean distance; Bhatia amp; Bhatia, 2021), 計算的是一個目標詞(比如某職業)和兩類屬性詞(比如男性和女性)的詞向量歐式距離之差。
RND與SC-WEAT類似, 都用于衡量單類別目標概念與一對屬性的相對聯系, 只是解釋的方向相反。SC-WEAT數值表示相對語義相似度, 因此數值越大表示概念相對聯系越緊密; 而RND數值表示相對語義距離, 因此數值越小表示概念相對聯系越緊密。二者算法上的區別對結果的實際影響不大, 研究者可根據實際需求選用其中一種指標。
總之, 根據詞嵌入技術對詞匯語義的表征, 研究者可以較好地量化文本中的語義信息。具體地, 研究者不僅能通過詞向量的線性運算獲得語義共性或差異的表征, 而且能通過計算余弦相似度、歐氏距離、基于余弦相似度的WEAT與SC- WEAT、基于歐氏距離的RND等方法衡量概念間的語義聯系。利用這些前沿技術和方法, 研究者就能通過自然語言來量化并探究人類的心理和行為規律。
2" 基于詞嵌入技術的心理學研究
自從Mikolov等(2013)首次提出詞嵌入算法, 特別是Caliskan等(2017)首次將詞嵌入技術應用于社會科學領域以來, 基于詞嵌入的心理學研究在短短幾年內大量涌現, 內容涉及心理語言學、決策判斷、心理健康、社會認知、人格心理、道德心理、政治心理、文化心理等眾多心理學領域。而與這些研究有關的一項基礎工作是利用詞向量相似度來輔助構建合理、有效的心理概念詞表。因此, 下面將首先介紹詞嵌入在詞表構建方面的應用。
2.1" 構建心理詞表:研究的基礎工作
詞向量首先可以用來構建心理概念詞表, 包括使用詞相似度評估詞表的信效度、擴充近義詞等。例如, 一項研究在構建刻板印象內容(stereotype content)詞表時, 使用詞向量計算了每兩個詞的相似度, 發現同一維度內的詞相似度高于不同維度間的詞相似度, 以此驗證了詞表的內部一致性信度和區分效度(Nicolas et al., 2021)。還有研究者借助詞相似度為初步構建的詞表擴充近義詞, 并結合專家評估進一步確定復雜概念的詞表, 比如文化松緊性(tightness?looseness; Jackson et al., 2019)、本真性(authenticity; Le et al., 2021)等。此外, 基于預訓練語言模型, 清華大學的研究團隊開發了WantWords反向詞典平臺(https://wantwords.net), 可以幫助研究者根據定義、詞性、字數、包含的字詞等方面精準查找近義詞。總之, 利用詞相似度輔助構建詞表, 能避免人工選詞過程中可能存在的主觀偏差, 提高詞表的規模、信度、效度和代表性, 最終增強研究的客觀性和可靠性。
接下來, 我們以“語義”作為邏輯線索, 將詞嵌入技術在心理學研究中的具體應用分兩類介紹:基于語義表征的研究和基于語義關聯的研究。
2.2" 基于語義表征的研究
2.2.1" 幫助探究人類語義加工的腦活動
詞向量作為計算機對語義的向量化表征, 能用來幫助考察人類語義加工的腦活動。具體來說, 在使用神經影像測量儀器(如功能性磁共振fMRI)記錄被試大腦活動的基礎上, 研究者可以構建詞向量與相應的詞誘發的大腦神經活動之間的映射關系模型(詞的神經響應模型), 進而預測大腦對其他詞匯語義和語義關系加工的特異性腦活動。例如, 一項發表于Nature的研究使用fMRI記錄被試聽故事時的腦活動, 在分析時對實驗材料的每個詞分別構建其與一系列基礎詞匯在既有語料庫中的共現頻次, 以此作為詞向量, 進而構建每個故事在這些維度上的語義向量的時間序列矩陣; 然后利用機器學習, 發現基于這種語義向量構建的神經響應模型能有效預測額葉、顳葉等腦區的激活, 說明這兩個腦區在語義表征中具有重要作用(Huth et al., 2016)。與之方法類似, 另一項研究使用每對詞的詞向量之差表示其語義關系(如“手?手指”反映了從整體到部分的語義關系), 結果發現基于這種語義關系向量構建的機器學習模型也能預測特定腦區的激活(Zhang et al., 2020)。
2.2.2" 預測人們對特定事物的認知判斷
詞向量在探究人類認知加工方面的應用還可以拓展到更復雜的形式。基于詞向量原始值構建的機器學習模型能預測人們的各類認知判斷結果, 從而可以對人類的復雜認知判斷進行更準確的計算建模(Bhatia et al., 2019)。研究者將預訓練的詞向量原始值作為預測變量(每個維度是一個變量), 將人們對不同事物的評價作為結果變量(單個事物獲得的多人評價平均值), 使用嶺回歸(ridge regression)等算法構建機器學習模型, 進而預測人們對公眾人物和其他事物的認知評價。例如, 一項研究通過建立嶺回歸模型, 把公眾人物名字的詞向量作為預測變量, 把這些人物被人們評價的領導力作為結果變量, 發現模型可以根據人名詞向量預測人們感知到的領導力(Bhatia et al., 2022)。基于這類模型, 研究者還可以根據事物名詞的詞向量預測人們對風險源(Bhatia, 2019a)、食品健康程度(Gandhi et al., 2022)、身體健康狀態(Aka amp; Bhatia, 2022)、食物熱量和嬰兒死亡率(Zou amp; Bhatia, 2021)的認知判斷, 以及社會認知、風險感知、健康行為、組織行為和市場營銷等領域中的復雜認知判斷(Richie et al., 2019)。這些研究都是直接利用原始詞向量中的語義信息, 并將其用于建立行為預測模型。
此外, 研究者基于特征屬性兩極的向量差異構建語義特征維度(比如大小、安全?危險程度), 將詞向量在不同維度上分別進行語義投影(semantic projection), 結果發現, 經過語義投影的詞向量在相應維度上的位置可以預測人類對這些事物相應屬性的判斷(Grand et al., 2022)。這種方法仿照心理量表的形式, 利用詞嵌入對語義差異的表征, 不僅實現了對事物屬性的自動化評估, 而且還原了蘊含在詞向量中的豐富的語義信息和人類知識。
2.2.3" 評估個體的情緒和心理健康
還有研究將原始詞向量作為機器學習模型的輸入參數, 以此建立預測模型, 實現對個體情緒和心理健康狀況的評估。例如, 研究利用BERT模型, 將個體靜息狀態下的自發思維內容(句子)轉換為“片段向量”, 然后使用有監督的深度學習來訓練情緒分類模型, 從而識別個體自發思維內容的情緒類型(H.-X. Li et al., 2022)。也有不少研究沿用類似手段, 基于微博等社交平臺用戶自發產生的文本, 使用詞向量原始值和機器學習模型識別個體的心理健康狀況和精神障礙, 包括抑郁、焦慮、壓力、自殺風險等(Kalyan amp; Sangeetha, 2020; Salas-Zárate et al., 2022)。同時, 在詞向量基礎上考慮用戶的人口學變量和微博行為(王垚 等, 2022)、多模態信息(Lin et al., 2020)等, 能進一步提高對心理癥狀識別的準確性。
2.3" 基于語義關聯的研究
2.3.1" 評估和探究個體心理
利用詞向量相似度衡量的語義關聯, 并借助專門設計的研究范式, 研究者可以評估和探究部分個體心理, 目前主要涉及發散思維能力、決策傾向等。
首先, 將詞向量距離指標與心理測量任務相結合, 研究者可以更客觀地評估個體的發散思維(遠距離聯想)能力。研究者提出了發散聯想任務(Divergent Association Task, DAT):施測時讓被試思考并列出10個相互盡可能無關的名詞; 然后利用預訓練的詞向量計算這些詞兩兩之間的余弦距離; 這種根據被試列舉的若干名詞計算的平均語義距離可以反映個體在多大程度上能想出距離較遠的事物, 語義距離越大, 則說明個體的發散思維越強(Olson et al., 2021)。類似地, 其他研究者也提出了利用語義距離測量發散思維的方法(Beaty amp; Johnson, 2021; Heinen amp; Johnson, 2018; Johnson et al., 2021)。這些結合詞向量語義距離的測量方法彌補了創造力傳統測量工具的局限:一方面, 測量無需依賴自評或專家評定, 避免了主觀性; 另一方面, 實際施測時只需要請被試自由列舉一系列詞匯, 并由此計算平均語義距離, 提高了測量的便捷性, 有助于大規模施測。
其次, 詞相似度衡量的語義關聯能反映個體決策中的聯想加工傾向。例如, 研究者在多種決策情境中比較了問題文本與不同選項文本間的語義相似度, 結果發現人們傾向于選擇與題干語義最相近的選項(Bhatia, 2017a)。使用類似方法, 研究者還驗證了決策的語義聚集效應, 即個體在選擇情境逐一給出回答時, 傾向于搜索與已經想到的回答語義相近的答案(Bhatia, 2019b)。因此, 詞向量蘊含的語義關聯信息有助于研究者更準確地探究個體的決策傾向與選擇偏好。
2.3.2" 評估和探究社會心理
現有的詞向量通常是由一個群體產生的大規模文本語料訓練出來的, 這些文本可能蘊含群體的心理特征。因此, 基于詞向量(目前主要是靜態詞向量)計算的語義關聯, 包括WEAT、RND等概念相對聯系指標(見1.3節), 可專門用于測量群體的心理特征, 比如群體的社會態度、刻板印象、社會偏見、道德偏差、文化心理聯系等, 以及上述心理現象的產生、發展和演變。
在WEAT提出之前, Bolukbasi等(2016)發現性別詞向量之差(如“she?he”)與職業詞向量之差(如“nurse?surgeon”)的余弦相似度能預測人工評價的性別?職業刻板印象。受其啟發, Caliskan等(2017)發表在Science的研究進一步提出了WEAT和SC-WEAT, 用來測量群體的社會認知, 并重復了內隱社會認知領域的多項經典結果, 包括花?蟲內隱態度、樂器?武器內隱態度、內隱種族偏見、內隱性別?職業刻板印象、內隱性別?學科刻板印象等。這兩項奠基性研究迅速激發了一系列研究直接應用WEAT或類似方法測量各類社會認知, 例如:對不同顏色的態度和性別?顏色刻板印象(Jonauskaite et al., 2021)、對不同職業和國籍群體的人格特質刻板印象(Agarwal et al., 2019)、不同語言中的性別偏見(Kurpicz-Briki amp; Leoni, 2021)、法律文書中的種族偏見(Rice et al., 2019)、新聞報紙中的種族偏見和性別刻板印象(Bhatia, 2017b)、電影和文學作品中的性別刻板印象(Xu et al., 2019)、人類集體概念(collective concept; PERSON/ PEOPLE)的性別偏差(Bailey et al., 2022)、群際態度(評價)和群際信念(刻板印象)之間的關系(Kurdi et al., 2019, Study 3)、企業組織語境中的性別?領導力刻板印象及其與女性領導雇傭比例之間的相互影響(Lawson et al., 2022)、不同政治傾向或黨派的新聞媒體對政治內群體的積極態度偏差和對政治外群體的消極態度偏差(Rozado amp; al-Gharbi, 2022)等。
同時, WEAT和SC-WEAT還被用于探究群體的道德偏差。一項研究使用WEAT考察了“自我?他人”目標詞和“道義主義?功利主義”屬性詞的相對語義聯系, 結果發現自我(vs.他人)與道義(vs.功利)的聯系更緊密, 說明人們傾向于認為別人是功利而非道義的, 揭示了群體層面的自我?他人道德偏差(M.-H. Li et al., 2021, Study 3)。另一項研究則使用SC-WEAT考察了“正義”單類目標詞和“自我?他人”屬性詞的相對語義聯系, 結果發現正義與他人(vs.自我)的聯系更緊密, 據此推測正義動機可能存在他人凸顯效應(吳勝濤 等, 2020)。
此外, 類似方法還能用于分析公眾人物被人們感知到的人格特質。一項研究基于公開新聞語料計算了美國前總統候選人唐納德·特朗普(Donald Trump)和希拉里·克林頓(Hillary Clinton)的人名向量與各種人格特質評價(如溫暖、能力、道德)詞向量的相對余弦相似度, 以此衡量大眾感知到的二人的人格特質(Bhatia et al., 2018)。這類研究可以在非接觸條件下, 間接測量人們對公眾人物的人格特質的感知, 從而彌補傳統量表工具難以用于公眾人物的局限, 也有助于探究與政治人物有關的問題。
除了使用WEAT等方法直接測量群體層面的社會心理特征, 還有不少研究進一步探究了刻板印象、偏見等社會心理現象的產生、發展和變遷。
首先, 關于社會認知的產生, 目前有兩項研究采用WEAT測量了多個國家的社會刻板印象或偏見, 發現語言特征可能會塑造和加深人們的社會認知。其中, 一項研究選取25種語言, 發現語言中的性別?職業刻板印象WEAT分數和性別化職業詞(如waiter/waitress)的比例均能正向預測國家層面的內隱性別?職業刻板印象IAT結果, 說明語言可能會塑造內隱社會認知(Lewis amp; Lupyan, 2020)。另一項研究則將45種語言分為性別化語言(gendered language; 名詞、動詞和形容詞有陰陽性之分, 如法語、西班牙語)和無性別語言(genderless language; 詞語不區分陰陽性, 如漢語、英語、芬蘭語), 計算了每種語言的性別偏見WEAT分數, 結果在性別化語言中發現了更大的性別偏見, 說明一門語言的語法規則可能會加深社會偏見(DeFranza et al., 2020)。這些研究利用詞嵌入的方法優勢和多語種詞向量庫的豐富資源, 巧妙解決了此前難以直接回答的理論問題。
其次, 關于社會認知的發展, 目前也有兩項研究采用WEAT測量并追溯了性別刻板印象在兒童發展早期的表現。其中, 一項研究收集兒童和成人語料庫并訓練詞向量, 計算了性別刻板印象的WEAT分數, 結果發現性別刻板印象存在于不同年齡的語言中(Charlesworth et al., 2021)。另一項研究則使用親子對話語料庫, 計算了詞匯被不同性別使用的概率、詞匯?性別的概念聯系WEAT分數及兩者相關, 結果發現2~5歲兒童已經有了性別化的語言表達(Prystawski et al., 2020)。這些研究同樣利用詞嵌入的方法優勢, 巧妙實現了對嬰幼兒群體的心理測量。
最后, 基于語義關聯的歷時性演變, 不少研究利用詞向量探討了社會認知與文化心理的變遷。社會與文化變遷是近年來心理學、社會學的前沿研究熱點(蔡華儉 等, 2020; 黃梓航 等, 2018, 2021)。以往研究主要是利用調查數據、歷史檔案數據、過去發表的研究數據等考察某個心理現象的均值或水平的變遷, 而較少能探討概念含義或概念之間關系的變遷(蔡華儉 等, 2023)。利用跨時間的詞向量庫, 為每個年代或年份分別計算語義聯系指標并形成時間序列, 可以考察社會態度、偏見、刻板印象、概念的文化含義、文化與心理的關系等方面的變遷。
現有研究主要使用了HistWords項目預訓練好的以十年為單位的詞向量庫(Hamilton et al., 2016), 然后為每個年代分別計算語義關聯指標(如WEAT或RND), 分析刻板印象與偏見的變化; 或提取出每個年代與目標概念(如社會群體)聯系最緊密的特質詞, 并分析這些詞的效價(積極/消極)等屬性的變化。基于此, 研究者揭示了:美國社會的性別刻板印象和種族刻板印象在20世紀逐漸減弱(Bhatia amp; Bhatia, 2021; Garg et al., 2018); 社會的不同屬性維度(如貧?富、男性化?女性化、道德高低、教養高低等)及不同維度之間的關系在20世紀的變化(Kozlowski et al., 2019); 新聞媒體對種族外群體的刻板印象內容從2005到2015年的變化(Kroon et al., 2021); 人們對14類社會群體(包括不同性別、種族、年齡、體型和社會階層的群體)的刻板印象內容及其效價從1800到2000年的變化(Charlesworth et al., 2022); 道德概念、道德的積極?消極效價和道德基礎維度(如關愛?傷害、公平?欺騙)從1800到2000年的變化(Xie et al., 2019)。此外, 一項研究利用谷歌圖書和《紐約時報》語料庫, 分別使用詞頻分析、情感分析、主題模型分析和詞嵌入分析, 揭示了1800~2000年風險(risk)概念的詞頻在上升, 情感效價越來越消極, 主題從戰爭轉向疾病, 語義逐漸趨近于對風險的規避和預防(Y. Li et al., 2020)。而關于文化心理變遷, Hamamura等(2021)考察了中國的個人主義/集體主義與其他10個概念(如積極、消極、成就、金錢、休閑、工作、家庭等)之間的聯系從1950到2000年的變化; 根據對其結果的重新分析和正確解讀, 個人主義越來越被中國人接受(態度從消極變為中性), 并且與富裕(而非貧窮)、休閑娛樂等方面的聯系變得更緊密(Bao et al., 2022)。
2.4" 小結
總之, 由大規模語料訓練出來的詞向量不僅表征了社會文化中的語義信息, 而且蘊含了許多人類心理和行為信息。心理學研究可以利用詞向量的原始值(向量)、線性運算結果、絕對相似度或距離、相對相似度或距離, 考察蘊含在詞向量或其關系背后的心理和行為現象及其規律。表2總結了這些應用形式、用途特點和利用的語義信息。
3" 討論
現代科學心理學始于1879年馮特在德國萊比錫大學建立的第一個心理學實驗室。大家所熟知的是, 通過建立第一個心理學實驗室, 馮特為科學研究人類心理與行為指明了一個基本途徑, 即通過直接觀測和分析人的心理與行為來研究其規律; 然而不太為大家所知的是, 馮特晚年專注的民族心理學其實還為研究人類心理與行為指明了另外一種途徑, 即研究包含大量人類心理與行為信息的各種產品。一百多年來, 心理學的絕大多數研究都是基于馮特開創的第一個途徑開展的。近年來, 隨著計算機、人工智能和自然語言處理技術的突飛猛進, 通過文化產品和自然語言來探索人類心理和行為規律的研究開始涌現。作為自然語言處理的關鍵技術, 詞嵌入近年來在心理學研究中得到了越來越多的應用。為了促進詞嵌入在中國心理學界的普及和應用, 本文對詞嵌入的基本方法及其在心理學領域的各種應用進行了至今最全面的介紹。下面的討論中, 我們將首先總結該方法在心理學中應用的基本流程, 然后分析其優缺點和主要問題, 最后試圖指明重要的未來研究方向。
3.1" 運用詞嵌入方法開展心理學研究的基本流程
為了便于大家更好地掌握詞嵌入方法在心理學研究中的應用流程, 根據前面兩部分的介紹和整理, 我們構建了一個基于詞嵌入的心理學研究的整體框架(圖2)。從圖2可以看出, 總體上, 基于詞嵌入的心理學研究通常是數據和理論共同驅動的。數據驅動部分的詞向量訓練為研究提供必需的語義特征向量, 理論驅動部分的問題提出和假設推導則為詞向量的應用指明方向。在詞表構建過程中, 數據和理論都不可或缺。有了合理的詞表和預訓練好的詞向量, 研究者就可以根據研究目的, 選取恰當的詞向量分析指標來開展心理學研究, 包括對心理和行為的描述和預測。
3.2" 詞嵌入方法的優勢
與傳統的對人的心理和行為直接觀測和分析的方法相比, 詞嵌入方法具有多方面的獨特優勢。
第一, 研究成本低。使用詞嵌入方法幾乎不需要考慮招募被試的成本; 同時, 如果使用現成的預訓練好的詞向量庫, 則只需要一臺普通的計算機即可完成分析。而傳統的行為實驗、問卷、訪談等都需要人工招募被試, 研究周期較長, 被試費成本較高。
第二, 樣本代表性高。詞向量通常是根據大規模文本語料訓練的(比如Common Crawl語料庫覆蓋了多種來源、萬億級規模的網頁鏈接), 分析結果更能代表人群總體。而傳統方法中, 樣本量一般比較有限, 且以學生樣本居多, 只有經過嚴格、系統的抽樣才能保證樣本代表性。
第三, 分析客觀性強。詞向量是通過機器學習算法自動訓練而來的, 全程少有人為干預, 雖然語言本身是由人類產生的, 但對語言的分析是量化、自動化、無需依賴人類主觀報告的, 因此分析過程具有相對客觀性。而傳統基于被試自我報告的方法容易受到主觀性、社會贊許性和反應偏差的影響。
第四, 研究結果可重復。如果研究者使用相同的語料庫、預訓練詞向量庫、詞典和分析方法, 則理論上可以獲得完全一致的結果。因此, 在當前社會科學面臨可重復性危機的背景下, 詞嵌入方法具有明顯優勢。
第五, 研究主題靈活。研究者借助詞向量庫可以分析任意詞語或概念間的語義聯系, 從而可以靈活選取研究主題。如果要納入更多的詞, 則不需要重新收集數據, 只需要增加相應的詞。
第六, 特別適用于研究某些特定問題。雖然對于一些研究主題(如語義加工腦活動), 詞嵌入僅起到輔助作用, 但如果研究者想要探究橫跨數百年的社會認知與文化變遷, 或考察幾十種語言文化中的社會認知, 或大規模快速測量個體的發散思維能力等, 則詞嵌入是不可或缺的方法。
3.3" 詞嵌入方法的局限
盡管詞嵌入有諸多優勢和獨特價值, 心理學研究者仍需認識到其局限。
首先, 計算機算法學習語義的過程只是利用詞共現信息估計模型參數, 與人類習得語言的復雜過程相差甚遠, 因此詞向量難以對語義背后深層的心理機制(如動機、目標、意圖等)進行表征(Lake amp; Murphy, 2021), 也難以直接反映人們頭腦內的主觀心理過程。
其次, 在理解詞向量時, 語料及其產生群體的特點和性質是非常關鍵的, 因為這在很大程度上決定了詞向量的意義和結論的適用范圍。比如, 基于新聞報道訓練的詞向量反映了媒體記者的語用特征和心理特點, 而基于微博訓練的詞向量反映了微博用戶的語用特征和心理特點。詞向量只能用于探究對應群體的心理, 不能推廣到其他群體。因此, 在心理學研究中選取詞向量數據時, 要盡量保證語料庫來源與研究問題相符和匹配, 否則得到的結論未必正確。
再次, WEAT、SC-WEAT、RND等方法一般是基于群體語料及由此訓練的詞向量, 在此情況下只能測量群體的社會認知, 不能像IAT一樣測量個體的社會認知(Caliskan et al., 2017)。從某種意義上講, WEAT等前沿方法和IAT等傳統方法是互補的, 必要的話可以結合起來使用(如Kurdi et al., 2019; M.-H. Li et al., 2021; Rheault amp; Cochrane, 2020; Rozado amp; al-Gharbi, 2022)。
最后, 目前基于詞向量的心理測量在信度(Du et al., 2021; Durrheim et al., 2023; Richie amp; Bhatia, 2021)和效度(Joseph amp; Morgan, 2020; Rodman, 2020)方面仍存在一定爭議。為了增強結果的穩健性和結論的說服力, 研究者需要構建盡可能充足、全面的近義詞表, 而不應只依賴少量關鍵詞。同時, 對于同一個研究問題, 研究者可以將詞嵌入方法和傳統文本分析方法(如詞頻分析、主題模型分析)結合起來, 從而充分挖掘文本中蘊含的心理規律(Arseniev-Koehler et al., 2022; Y. Li et al., 2020)。
3.4" 詞嵌入心理學研究的重要問題
雖然詞嵌入方法在心理學研究中的應用發展迅猛, 但是依然存在一些重要的基礎性問題。下面我們對其中關注度比較高的三個問題進行分析和討論。
3.4.1" 如何有效解釋詞向量維度?
在大部分詞嵌入算法中, 詞向量的維度本質上是神經網絡模型的隱含層權重或輸出權重組合。因此, 詞向量對語義的表征是抽象的, 難以從語言學角度解釋, 也難以確定每個維度究竟代表哪種語義特征。為了增強詞向量的直觀性, 研究者往往會使用一種降維算法:t分布隨機近鄰嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)。詞向量常見的幾十到幾百維對于人類而言仍屬于高維信息, 而t-SNE算法可以將詞向量嵌入到二維或三維空間, 同時盡量保留原始向量空間中的語義距離(Hinton amp; Salakhutdinov, 2006; van der Maaten amp; Hinton, 2008)。圖3舉例展示了t-SNE降維后的可視化結果。可見, 降至平面的詞向量不僅較好地保留了詞匯間的語義距離和類比關系, 而且使這些語義關聯的解釋更直觀。
然而, t-SNE維度仍然是抽象的, 不表示具體語義; 而且t-SNE是隨機過程, 每次都產生不同結果。如果想從詞向量不可解釋的維度中提取出可解釋的語義信息, 可事先確定語義維度并建立坐標系, 然后計算每個詞與維度兩極的相對相似度(Kozlowski et al., 2019)或進行語義投影(Grand et al., 2022); 此外, 還可以使用主成分分析、有監督的機器學習等方法(Günther et al., 2019; Utsumi, 2020)。
3.4.2" 如何區分不同的心理特征?
詞向量是多方面因素共同作用的復雜產物, 因此由詞向量或詞向量的關系指標得到的結果可能是多種心理特征的混合, 比如情緒詞反映的情緒可能是理想情感(ideal affect)和實際情感(actual affect)的混合(Tsai, 2007)、認知偏差可能是外顯(explicit)和內隱(implicit)認知的混合(Greenwald et al., 1998)。
具體到詞嵌入研究, 雖然自Caliskan等(2017)基于IAT的思想提出WEAT和SC-WEAT以來, 大量研究應用這些方法考察了文本中蘊含的社會態度、偏見和刻板印象, 但目前我們仍不清楚WEAT測量的社會認知是外顯的、內隱的還是二者的混合產物。
為了區分WEAT測量中的外顯和內隱認知成分, 研究者提出了一種可能的解決思路:將WEAT的目標詞分為概念詞(如“花”)和范例詞(如“玫瑰”、“郁金香”), 而態度屬性詞保持一致(如積極?消極); 然后將概念詞與屬性詞的WEAT分數作為外顯態度, 范例詞與屬性詞的WEAT分數作為內隱態度(Wang et al., 2019; 薛栢祥, 2019)。不過, 該方法只區分了目標詞的性質, 而且概念詞數量可能不足5個(甚至只有1個), 遠小于范例詞數量, 容易使結果不穩定。本文認為, 區分屬性詞的性質也許是一種更合適的解決辦法。比如, 對于積極?消極屬性, 直接描述態度對象的評價性詞匯(如“芳香”、“惡臭”)可能反映外顯態度, 而間接關聯的非評價性詞匯(如“健康”、“疾病”)可能反映內隱態度。總之, 關于如何有效區分詞向量概念聯系指標的外顯和內隱成分, 目前尚無充分、直接的實證證據, 未來需要深入探討。
3.4.3" 絕對還是相對的詞相似度?
詞相似度指標既可以是絕對的(如余弦相似度、歐氏距離), 也可以是相對的(如WEAT、RND)。在研究中, 我們應該使用絕對還是相對指標呢?實際上, 原始的詞相似度很難體現其效應大小, 目前并沒有關于詞相似度大小的明確劃定標準; 如果沒有參照點, 則絕對值難以解釋。因此, 大部分研究都采用相對的詞相似度(如Caliskan et al., 2017; Garg et al., 2018; Kozlowski et al., 2019)。特別是, 當涉及存在效價或極性的概念(如積極?消極)時, 如果不區分而將其混在一起分析, 則研究結論可能有偏誤(如Hamamura et al., 2021)。
由于詞相似度無法區分反義詞, 研究者需要人工將效價或極性相反的詞(反義詞)明確區分開(Bao et al., 2022; Grand et al., 2022; Kozlowski" "et al., 2019; Lee et al., 2021; Nicolas et al., 2021)。例如, 道德概念中的積極詞(“善”的方面)和消極詞(“惡”的方面)構成了道德維度兩極, 研究者可以將近義詞、反義詞的詞向量配對相減得到差異向量, 然后以此為基準計算單個目標詞向量與該差異向量的相似度(Izzidien, 2022)。相對指標更少受到共變因素干擾, 心理學含義也更明確。例如, 一項研究發現大部分詞的絕對相似度都存在下降趨勢, 作者認為一種可能的原因是語言復雜性的增加(Hamamura et al., 2021); 但是, 詞的相對相似度沒有明顯的整體下降趨勢(Bao et al., 2022)。
3.5" 詞嵌入心理學研究的未來展望
詞嵌入作為一項新興的自然語言處理技術, 在心理學研究中已經并將繼續展示巨大的應用潛力。下面我們聚焦三個亟待未來研究的方向。其中, 前兩個涉及方法, 第三個涉及實質性的心理學研究。
3.5.1" 建立細粒度的詞向量數據庫[ 自行訓練詞向量也存在一定風險, 需要特別注意以下問題:(1)由較小規模語料訓練得到的詞向量可能缺乏準確性和代表性, 導致研究結果產生偏差。目前, 尚無關于語料規模大小的明確要求, 但基本原則是語料越充足, 詞向量越可靠, 尤其要保證語料中有足夠多與研究問題有關的詞。 (2)對于中文詞向量的訓練, 需要事先進行中文分詞, 以保證后續結果的準確性。如何對中文進行準確分詞是一個重要的基礎技術問題。研究者可以選用目前較成熟的中文分詞工具, 如jieba、HanLP、清華大學THULAC、北京大學pkuseg、哈工大LTP等。]
雖然目前已有的詞向量庫已經初步劃分了年代和語種(見附表S1), 但為了探究更細水平的心理規律, 比如將年代細化至年份, 或將語種和國家細化至同一國家內部的不同地區, 則需要額外訓練獲得細粒度(fine-grained)的詞向量數據。首先是時間維度。HistWords詞向量庫的時間粒度僅到年代(每10年分別訓練的詞向量), 時間點較少(中文詞向量僅覆蓋5個年代), 難以滿足變遷研究的需求, 也難以在其中應用時間序列分析方法, 如格蘭杰因果檢驗(蔡華儉 等, 2023)。同時, HistWords項目僅使用了谷歌圖書語料, 目前暫時缺少基于其他語料的跨時間詞向量庫。為了克服這些局限, 未來研究有必要使用更多來源的語料, 如《人民日報》、《新聞聯播》、微博等, 建立以年為單位的詞向量庫。自行訓練詞向量時, 可采取一些策略彌補每年文本量的不足, 增強年度詞向量數據的穩健性:采用3年滑動窗(某年及前后各一年)的全部文本作為該年的文本來訓練詞向量, 相當于從源頭進行平滑化(Garg et al., 2018; Lawson et al., 2022)。此外, 為了使詞向量具有跨時間可比性, 即解決不同時期向量空間的對齊問題(alignment problem), 一般可以使用Sch?nemann (1966)提出的正交普魯克(Orthogonal Procrustes)矩陣對齊方法(Y. Li et al., 2020; Hamilton et al., 2016; Rodman, 2020)。
另一個需要細化的維度是空間。目前已有的詞向量庫幾乎都是按語言劃分的(如Grave et al., 2018; Hamilton et al., 2016), 缺少一個國家內部的州/省/市/縣級別的空間細粒度詞向量數據, 這限制了詞向量在探討文化內差異方面的應用。當然, 想獲得細粒度的詞向量, 合適、有效的文本語料是必不可少的。遺憾的是, 目前大部分可獲取的語料, 包括Common Crawl、谷歌圖書、維基/百度百科、《人民日報》等, 都無法獲得詳細的地區信息。不過, 一種可行的辦法是使用帶有用戶地區標記的新媒體平臺(如新浪微博)或地方性報紙, 為每個省或地區專門訓練一個詞向量模型。這可能需要花費大量時間和資源來采集數據和訓練模型, 但只要形成規模, 將極大促進跨文化心理學研究。
3.5.2" 應用動態詞向量和語言模型
迄今為止, 雖然詞嵌入模型在工業界已經從靜態發展到動態, 產生了很多大型預訓練語言模型(車萬翔 等, 2021), 但是以Word2Vec、GloVe、FastText為主的靜態詞向量仍然是現有心理學研究的主流應用方式。靜態詞向量將一個詞在語料庫中的所有上下文信息都壓縮到一個向量表示; 然而, 詞義可能依語境而變, 更嚴謹的自然語言分析需要考慮動態詞向量(即考慮語境的影響)。
基于動態詞向量, Guo和Caliskan (2021)提出了語境化詞嵌入聯系測驗(Contextualized Embedding Association Test, CEAT)。通過從研究者感興趣的語料庫隨機抽取較大數量的包含目標詞和概念詞的句子, 然后使用ELMo、GPT、BERT模型計算每個詞在特定句子中的動態詞向量, 可以計算語境化的WEAT分數并得到其分布, 進而將不同語境(句子)中的WEAT分數視為效應量, 使用隨機效應元分析匯總所有語境下的效應量(Guo amp; Caliskan, 2021)。同樣利用動態詞向量, 一項最新研究在自然語言中重復驗證了大五人格結構, 發現宜人性、外傾性、盡責性是得到較好重復的人格特質維度, 從而為人格心理學的詞匯學假設提供了新證據(Cutler amp; Condon, 2023)。
未來研究不僅要突破靜態詞向量的局限并利用語境化的動態詞向量, 還要嘗試打破“向量”這種形式的束縛, 探索直接利用GPT、BERT等大型預訓練語言模型的可能。本文介紹的詞嵌入向量只是自然語言處理的基石而非全貌。未來需要開展大量工作, 發展更優的研究方法和測量工具。
3.5.3" 開展跨時間和跨語種的研究
利用詞向量的跨時間變化和跨語種差異來考察社會與文化心理在時間上的變遷和空間上的差異是未來兩個重要的具體研究方向。
在跨時間研究方面, 以往研究主要使用了預訓練好的以年代為單位的HistWords詞向量庫(Hamilton et al., 2016)或自己訓練的以年份為單位的詞向量數據(如Lawson et al., 2022), 主題涉及社會偏見與刻板印象的變遷、政治意識形態的變遷、文化及其心理含義的變遷等。國內還有學者基于歷史語料庫和詞嵌入技術, 專門開發了用于研究語義演變的Macroscope平臺(Y. Li et al., 2019)。鑒于社會變遷問題的重要性和前沿性(蔡華儉 等, 2020, 2023; 黃梓航 等, 2018, 2021), 未來研究可以將主題拓展至自我建構、社會動機、群際關系、消費需求、環境態度與行為等方面的變遷, 也可以將時間范圍追溯至近代以前, 或將時間粒度細化至月甚至天(取決于能否獲得相應的文本語料)。此外, 新近研究發現, 人們越晚習得的、越難進行認知加工的詞匯越容易產生歷時性的語義演變(Y. Li amp; Siew, 2022)。因此, 未來還可以繼續探究人類對語言的習得和加工如何影響和塑造語義演變。
在跨語種研究方面, 以往研究同樣提供了優質、可直接使用的多語種詞向量庫(Grave et al., 2018), 并從語言的社會心理屬性(比如詞語是否區分陰陽性)等視角考察了社會偏見等現象(DeFranza et al., 2020), 或從文化相似性、歷史相關性、地理鄰近性等視角考察了詞義表征的跨語言一致性和差異性(Thompson et al., 2020)。未來研究應突破對語言本身的關注, 將多語種詞向量數據與國家層面社會生態數據(包括人均GDP、人口密度、氣候條件、農耕方式等)相結合, 并嘗試利用計量經濟學方法解決因果推斷問題, 探索可能的文化心理機制。同時, 研究也要關注語種和國家之間的對應問題, 因為使用同一種語言的國家可能不止一個。
最后, 我們想指出, 雖然詞嵌入技術最初源自計算機科學領域對自然語言處理的需要, 對計算編程有一定的要求, 但是近年來, 不同領域的一些前期開拓者已經為運用詞嵌入技術開展心理學研究做了大量技術準備, 極大降低了技術門檻(見補充材料2和附表S2)。其中, 本文第一作者基于R語言為心理學研究者專門開發了一個免費的詞嵌入研究綜合工具包:PsychWordVec (Bao, 2022)。運用PsychWordVec包, 每一位具有R編程基礎的心理學研究者都能很快掌握詞向量數據的管理與調用、詞相似度與WEAT等指標的計算和統計分析、預訓練語言模型的調用等, 從而為自己的研究服務。我們期待, 越來越多的國內心理學研究者能及時了解詞嵌入這一前沿方法及其在心理學領域的廣闊應用前景, 并充分利用PsychWordVec等集成化工具包, 將詞嵌入真正“嵌入”自己的研究。
參考文獻
蔡華儉, 黃梓航, 林莉, 張明楊, 王瀟歐, 朱慧珺, … 敬一鳴. (2020). 半個多世紀來中國人的心理與行為變化——心理學視野下的研究. 心理科學進展, 28(10), 1599?1688.
蔡華儉, 張明楊, 包寒吳霜, 朱慧珺, 楊紫嫣, 程曦, … 王梓西. (2023). 心理學視野下的社會變遷研究: 研究設計與分析方法. 心理科學進展, 31(2), 159?172.
車萬翔, 郭江, 崔一鳴. (2021). 自然語言處理: 基于預訓練模型的方法. 北京: 電子工業出版社.
陳萌, 和志強, 王夢雪. (2021). 詞嵌入模型研究綜述. 河北省科學院學報, 38(2), 8?16.
黃梓航, 敬一鳴, 喻豐, 古若雷, 周欣悅, 張建新, 蔡華儉. (2018). 個人主義上升, 集體主義式微? ——全球文化變遷與民眾心理變化. 心理科學進展, 26(11), 2068? 2080.
黃梓航, 王俊秀, 蘇展, 敬一鳴, 蔡華儉. (2021). 中國社會轉型過程中的心理變化: 社會學視角的研究及其對心理學家的啟示. 心理科學進展, 29(12), 2246?2259.
王垚, 賈寶龍, 杜依寧, 張晗, 陳響. (2022). 基于詞向量的多維度正則化SVM社交網絡抑郁傾向檢測方法. 計算機應用與軟件, 39(3), 116?120.
吳勝濤, 楊晨曦, 王世強, 馬瑞啟, 韓布新. (2020). 正義動機的他人凸顯效應: 基于詞嵌入聯想測驗的證據. 科學通報, 65(19), 2047?2054.
薛栢祥. (2019). 社會媒體語言中外顯及內隱社會態度的自動化分析 (碩士學位論文). 天津大學.
楊紫嫣, 劉云芝, 余震坤, 蔡華儉. (2015). 內隱聯系測驗的應用: 國內外研究現狀. 心理科學進展, 23(11), 1966?1980.
Agarwal, O., Durup?nar, F., Badler, N. I., amp; Nenkova, A. (2019). Word embeddings (also) encode human personality stereotypes. In Proceedings of the Eighth Joint Conference on Lexical and Computational Semantics (pp. 205?211), Minneapolis, Minnesota. Association for Computational Linguistics. https://doi.org/10.18653/v1/S19-1023
Aka, A., amp; Bhatia, S. (2022). Machine learning models for predicting, understanding, and influencing health perception. Journal of the Association for Consumer Research, 7(2), 142?153.
Arseniev-Koehler, A., Cochran, S. D., Mays, V. M., Chang, K.-W., amp; Foster, J. G. (2022). Integrating topic modeling and word embedding to characterize violent deaths. Proceedings of the National Academy of Sciences, 119(10), Article e2108801119.
Bailey, A. H., Williams, A., amp; Cimpian, A. (2022). Based on billions of words on the internet, PEOPLE = MEN. Science Advances, 8(13), Article eabm2463.
Bao, H.-W.-S. (2022). PsychWordVec: Word embedding research framework for psychological science [Computer software]. https://CRAN.R-project.org/package=PsychWordVec
Bao, H.-W.-S., Cai, H., amp; Huang, Z. (2022). Discerning cultural shifts in China? Commentary on Hamamura et al. (2021). American Psychologist, 77(6), 786?788.
Beaty, R. E., amp; Johnson, D. R. (2021). Automating creativity assessment with SemDis: An open platform for computing semantic distance. Behavior Research Methods, 53, 757?780.
Bengio, Y., Ducharme, R., Vincent, P., amp; Jauvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137?1155.
Bhatia, N., amp; Bhatia, S. (2021). Changes in gender stereotypes over time: A computational analysis. Psychology of Women Quarterly, 45(1), 106?125.
Bhatia, S. (2017a). Associative judgment and vector space semantics. Psychological Review, 124(1), 1?20.
Bhatia, S. (2017b). The semantic representation of prejudice and stereotypes. Cognition, 164, 46?60.
Bhatia, S. (2019a). Predicting risk perception: New insights from data science. Management Science, 65(8), 3800? 3823.
Bhatia, S. (2019b). Semantic processes in preferential decision making. Journal of Experimental Psychology: Learning, Memory, and Cognition, 45(4), 627?640.
Bhatia, S., Goodwin, G. P., amp; Walasek, L. (2018). Trait associations for Hillary Clinton and Donald Trump in news media: A computational analysis. Social Psychological and Personality Science, 9(2), 123?130.
Bhatia, S., Olivola, C. Y., Bhatia, N., amp; Ameen, A. (2022). Predicting leadership perception with large-scale natural language data. The Leadership Quarterly, 33(5), Article 101535.
Bhatia, S., Richie, R., amp; Zou, W. (2019). Distributed semantic representations for modeling human judgment. Current Opinion in Behavioral Sciences, 29, 31?36.
Blei, D. M., Ng, A.Y., amp; Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research 3, 993?1022.
Bolukbasi, T., Chang, K.-W., Zou, J., Saligrama, V., amp; Kalai, A. (2016). Man is to computer programmer as woman is to homemaker? Debiasing word embeddings. arXiv. https:// doi.org/10.48550/arXiv.1607.06520
Caliskan, A., Bryson, J. J., amp; Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183?186.
Charlesworth, T. E. S., Caliskan, A., amp; Banaji, M. R. (2022). Historical representations of social groups across 200 years of word embeddings from Google Books. Proceedings of the National Academy of Sciences, 119(28), Article e2121798119.
Charlesworth, T. E. S., Yang, V., Mann, T. C., Kurdi, B., amp; Banaji, M. R. (2021). Gender stereotypes in natural language: Word embeddings show robust consistency across child and adult language corpora of more than 65 million words. Psychological Science, 32(2), 218?240.
Chen, H., Yang, C., Zhang, X., Liu, Z., Sun, M., amp; Jin, J. (2021). From symbols to embeddings: A tale of two representations in computational social science. Journal of Social Computing, 2(2), 103?156.
Cutler, A., amp; Condon, D. M. (2023). Deep lexical hypothesis: Identifying personality structure in natural language. Journal of Personality and Social Psychology. Advance online publication. https://doi.org/10.1037/pspp0000443
DeFranza, D., Mishra, H., amp; Mishra, A. (2020). How language shapes prejudice against women: An examination across 45 world languages. Journal of Personality and Social Psychology, 119(1), 7?22.
Du, Y., Fang, Q., amp; Nguyen, D. (2021). Assessing the reliability of word embedding gender bias measures. arXiv. https://doi.org/10.48550/arXiv.2109.04732
Durrheim, K., Schuld, M., Mafunda, M., amp; Mazibuko, S. (2023). Using word embeddings to investigate cultural biases. British Journal of Social Psychology, 62(1), 617?629.
Gandhi, N., Zou, W., Meyer, C., Bhatia, S., amp; Walasek, L. (2022). Computational methods for predicting and understanding food judgment. Psychological Science, 33(4), 579?594.
Garg, N., Schiebinger, L., Jurafsky, D., amp; Zou, J. (2018). Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16), E3635?E3644.
Grand, G., Blank, I. A., Pereira, F., amp; Fedorenko, E. (2022). Semantic projection recovers rich human knowledge of multiple object features from word embeddings. Nature Human Behaviour, 6(7), 975?987.
Grave, E., Bojanowski, P., Gupta, P., Joulin, A., amp; Mikolov, T. (2018). Learning word vectors for 157 languages. arXiv. https://doi.org/10.48550/arXiv.1802.06893
Greenwald, A. G., McGhee, D. E., amp; Schwartz, J. L. K. (1998). Measuring individual differences in implicit cognition: The Implicit Association Test. Journal of Personality and Social Psychology, 74(6), 1464?1480.
Griffiths, T. L., Steyvers, M., amp; Tenenbaum, J. B. (2007). Topics in semantic representation. Psychological Review, 114(2), 211?244.
Guo, W., amp; Caliskan, A. (2021). Detecting emergent intersectional biases: Contextualized word embeddings contain a distribution of human-like biases. arXiv. https://doi.org/10.48550/arXiv.2006.03955
Günther, F., Rinaldi, L., amp; Marelli, M. (2019). Vector-space models of semantic representation from a cognitive perspective: A discussion of common misconceptions. Perspectives on Psychological Science, 14(6), 1006?1033.
Hamamura, T., Chen, Z., Chan, C. S., Chen, S. X., amp; Kobayashi, T. (2021). Individualism with Chinese characteristics? Discerning cultural shifts in China using 50 years of printed texts. American Psychologist, 76(6), 888?903.
Hamilton, W. L., Leskovec, J., amp; Jurafsky, D. (2016). Diachronic word embeddings reveal statistical laws of semantic change. arXiv. https://doi.org/10.48550/arXiv. 1605.09096
Harris, Z. S. (1954). Distributional structure. Words, 10(2?3), 146?162.
Heinen, D. J. P., amp; Johnson, D. R. (2018). Semantic distance: An automated measure of creativity that is novel and appropriate. Psychology of Aesthetics, Creativity, and the Arts, 12(2), 144?156.
Hinton, G. E., amp; Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504?507.
Hirschberg, J., amp; Manning, C. D. (2015). Advances in natural language processing. Science, 349(6245), 261?266.
Huth, A. G., de Heer, W. A., Griffiths, T. L., Theunissen, F. E., amp; Gallant, J. L. (2016). Natural speech reveals the semantic maps that tile human cerebral cortex. Nature, 532(7600), 453?458.
Izzidien, A. (2022). Word vector embeddings hold social ontological relations capable of reflecting meaningful fairness assessments. AI amp; Society, 37, 299?318.
Jackson, J. C., Gelfand, M., De, S., amp; Fox, A. (2019). The loosening of American culture over 200 years is associated with a creativity?order trade-off. Nature Human Behaviour, 3(3), 244?250.
Jackson, J. C., Watts, J., List, J.-M., Puryear, C., Drabble, R., amp; Lindquist, K. A. (2022). From text to thought: How analyzing language can advance psychological science. Perspectives on Psychological Science, 17(3), 805?826.
Johnson, D. R., Cuthbert, A. S., amp; Tynan, M. E. (2021). The neglect of idea diversity in creative idea generation and evaluation. Psychology of Aesthetics, Creativity, and the Arts, 15(1), 125?135.
Jonauskaite, D., Sutton, A., Cristianini, N., amp; Mohr, C. (2021). English colour terms carry gender and valence biases: A corpus study using word embeddings. PLoS ONE, 16(6), Article e0251559.
Joseph, K., amp; Morgan, J. H. (2020). When do word embeddings accurately reflect surveys on our beliefs about people? arXiv. https://doi.org/10.48550/arXiv.2004.12043
Kalyan, K. S., amp; Sangeetha, S. (2020). SECNLP: A survey of embeddings in clinical natural language processing. Journal of Biomedical Informatics, 101, Article 103323.
Karpinski, A., amp; Steinman, R. B. (2006). The Single Category Implicit Association Test as a measure of implicit social cognition. Journal of Personality and Social Psychology, 91(1), 16?32.
Kozlowski, A. C., Taddy, M., amp; Evans, J. A. (2019). The geometry of culture: Analyzing the meanings of class through word embeddings. American Sociological Review, 84(5), 905?949.
Kroon, A. C., Trilling, D., amp; Raats, T. (2021). Guilty by association: Using word embeddings to measure ethnic stereotypes in news coverage. Journalism amp; Mass Communication Quarterly, 98(2), 451?477.
Kurdi, B., Mann, T. C., Charlesworth, T. E. S., amp; Banaji, M. R. (2019). The relationship between implicit intergroup attitudes and beliefs. Proceedings of the National Academy of Sciences, 116(13), 5862?5871.
Kurpicz-Briki, M., amp; Leoni, T. (2021). A world full of stereotypes? Further investigation on origin and gender bias in multi-lingual word embeddings. Frontiers in Big Data, 4, Article 625290.
Lake, B. M., amp; Murphy, G. L. (2021). Word meaning in minds and machines. Psychological Review. Advance online publication. https://doi.org/10.1037/rev0000297
Landauer, T. K., amp; Dumais, S. T. (1997). A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104(2), 211?240.
Lawson, M. A., Martin, A. E., Huda, I., amp; Matz, S. C. (2022). Hiring women into senior leadership positions is associated with a reduction in gender stereotypes in organizational language. Proceedings of the National Academy of Sciences, 119(9), Article e2026443119.
Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabási, A.-L., Brewer, D., … van Alstyne, M. (2009). Computational social science. Science, 323(5915), 721?723.
Lazer, D. M. J., Pentland, A., Watts, D. J., Aral, S., Athey, S., Contractor, N., … Wagner, C. (2020). Computational social science: Obstacles and opportunities. Science, 369(6507), 1060?1062.
Le, T. H., Arcodia, C., Abreu Novais, M., Kralj, A., amp; Phan, T. C. (2021). Exploring the multi-dimensionality of authenticity in dining experiences using online reviews. Tourism Management, 85, Article 104292.
Lee, K., Braithwaite, J., amp; Atchikpa, M. (2021). Word embedding analysis on colonial history, present issues, and optimism toward the future in Senegal. Computational and Mathematical Organization Theory, 27(3), 343?356.
Lenci, A. (2018). Distributional models of word meaning. Annual Review of Linguistics, 4, 151?171.
Lewis, M., amp; Lupyan, G. (2020). Gender stereotypes are reflected in the distributional structure of 25 languages. Nature Human Behaviour, 4, 1021?1028.
Li, H.-X., Lu, B., Chen, X., Li, X.-Y., Castellanos, F. X., amp; Yan, C.-G. (2022). Exploring self-generated thoughts in a resting state with natural language processing. Behavior Research Methods, 54, 1725?1743.
Li, M.-H., Li, P.-W., amp; Rao, L.-L. (2021). Self-other moral bias: Evidence from implicit measures and the Word- Embedding Association Test. Personality and Individual Differences, 183, Article 111107.
Li, Y., Engelthaler, T., Siew, C. S. Q., amp; Hills, T. T. (2019). The Macroscope: A tool for examining the historical structure of language. Behavior Research Methods, 51, 1864?1877.
Li, Y., Hills, T., amp; Hertwig, R. (2020). A brief history of risk. Cognition, 203, Article 104344.
Li, Y., amp; Siew, C. S. Q. (2022). Diachronic semantic change in language is constrained by how people use and learn language. Memory amp; Cognition, 50(6), 1284?1298.
Lin, L., Chen, X., Shen, Y., amp; Zhang, L. (2020). Towards automatic depression detection: A BiLSTM/1D CNN- based model. Applied Sciences, 10(23), Article 8701.
Mikolov, T., Chen, K., Corrado, G., amp; Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv. https://doi.org/10.48550/arXiv.1301.3781
Nicolas, G., Bai, X., amp; Fiske, S. T. (2021). Comprehensive stereotype content dictionaries using a semi-automated method. European Journal of Social Psychology, 51(1), 178?196.
Olson, J. A., Nahas, J., Chmoulevitch, D., Cropper, S. J., amp; Webb, M. E. (2021). Naming unrelated words predicts creativity. Proceedings of the National Academy of Sciences, 118(25), Article e2022340118.
Prystawski, B., Grant, E., Nematzadeh, A., Lee, S. W. S., Stevenson, S., amp; Xu, Y. (2020). Tracing the emergence of gendered language in childhood. In S. Denison, M. Mack, Y. Xu, amp; B. C. Armstrong (Eds.), Proceedings of the 42nd Annual Conference of the Cognitive Science Society (pp. 1087?1093). Cognitive Science Society. https://cognitive sciencesociety.org/cogsci20/papers/0190/0190.pdf
Rheault, L., amp; Cochrane, C. (2020). Word embeddings for the analysis of ideological placement in parliamentary corpora. Political Analysis, 28(1), 112?133.
Rice, D., Rhodes, J. H., amp; Nteta, T. (2019). Racial bias in legal language. Research and Politics, 6(2), 1?7.
Richie, R., amp; Bhatia, S. (2021). Similarity judgment within and across categories: A comprehensive model comparison. Cognitive Science, 45(8), Article e13030.
Richie, R., Zou, W., amp; Bhatia, S. (2019). Predicting high- level human judgment across diverse behavioral domains. Collabra: Psychology, 5(1), Article 50.
Rodman, E. (2020). A timely intervention: Tracking the changing meanings of political concepts with word vectors. Political Analysis, 28(1), 87?111.
Rozado, D., amp; al-Gharbi, M. (2022). Using word embeddings to probe sentiment associations of politically loaded terms in news and opinion articles from news media outlets. Journal of Computational Social Science, 5, 427?448.
Salas-Zárate, R., Alor-Hernández, G., Salas-Zárate, M. d. P., Paredes-Valverde, M. A., Bustos-López, M., amp; Sánchez-Cervantes, J. L. (2022). Detecting depression signs on social media: A systematic literature review. Healthcare, 10(2), Article 291.
Sch?nemann, P. H. (1966). A generalized solution of the orthogonal Procrustes problem. Psychometrika, 31(1), 1?10.
Thompson, B., Roberts, S. G., amp; Lupyan, G. (2020). Cultural influences on word meanings revealed through large-scale semantic alignment. Nature Human Behaviour, 4, 1029? 1038.
Toney-Wails, A., amp; Caliskan, A. (2021). ValNorm quantifies semantics to reveal consistent valence biases across languages and over centuries. arXiv. https://doi.org/10.48550/ arXiv.2006.03950
Tsai, J. L. (2007). Ideal affect: Cultural causes and behavioral consequences. Perspectives on Psychological Science, 2(3), 242?259.
Utsumi, A. (2020). Exploring what is encoded in distributional word vectors: A neurobiologically motivated analysis. Cognitive Science, 44(6), Article e12844.
van der Maaten, L., amp; Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9, 2579?2605.
Wang, B., Xue, B., amp; Greenwald, A. G. (2019). Can we derive explicit and implicit bias from corpus? arXiv. https://doi.org/10.48550/arXiv.1905.13364
Xie, J. Y., Pinto, R. F., Jr., Hirst, G., amp; Xu, Y. (2019). Text-based inference of moral sentiment change. arXiv. https://doi.org/10.48550/arXiv.2001.07209
Xu, H., Zhang, Z., Wu, L., amp; Wang, C.-J. (2019). The Cinderella Complex: Word embeddings reveal gender stereotypes in movies and books. PLoS ONE, 14(11), Article e0225385.
Zhang, Y., Han, K., Worth, R., amp; Liu, Z. (2020). Connecting concepts in the brain by mapping cortical representations of semantic relations. Nature Communications, 11, Article 1877.
Zou, W., amp; Bhatia, S. (2021). Judgment errors in naturalistic numerical estimation. Cognition, 211, Article 104647.
Abstract: As a fundamental technique in natural language processing (NLP), word embedding quantifies a word as a low-dimensional, dense, and continuous numeric vector (i.e., word vector). Word embeddings can be obtained by using machine learning algorithms such as neural networks to predict the surrounding words given a word or vice versa (Word2Vec and FastText) or by predicting the probability of co-occurrence of multiple words (GloVe) in large-scale text corpora. Theoretically, the dimensions of a word vector reflect the pattern of how the word can be predicted in contexts; however, they also connote substantial semantic information of the word. Therefore, word embeddings can be used to analyze semantic meanings of text. In recent years, word embeddings have been increasingly applied to study human psychology, including human semantic processing, cognitive judgment, divergent thinking, social biases and stereotypes, and sociocultural changes at the societal or population level. Future research using word embeddings should (1) distinguish between implicit and explicit components of social cognition, (2) train fine-grained word vectors in terms of time and region to facilitate cross-temporal and cross-cultural research, and (3) apply contextualized word embeddings and large pre-trained language models such as GPT and BERT. To enhance the application of word embeddings in psychology, we have developed the R package “PsychWordVec”, an integrated word embedding toolkit for researchers to study human psychology in natural language.
Keywords: natural language processing, word embedding, word vector, semantic representation, semantic relatedness, Word Embedding Association Test (WEAT)
附錄
補充材料1" 詞向量的訓練算法和模型
1. 靜態詞向量: Word2Vec、GloVe、FastText
訓練靜態詞向量的基本策略是:將大規模語料的詞共現信息作為機器學習的自監督學習信號(無需人工標注), 利用算法預測詞與上下文的共現關系。這種關系既可以是局部語境中的詞共現情況, 也可以是全局語境中的詞共現矩陣, 兩者分別對應了Word2Vec和GloVe這兩種算法。
Word2Vec是2013年由Google提出的, 包括兩種模型: (1)連續詞袋(Continuous Bag-of-Words, CBOW)模型, 在文本中從頭至尾依次取同等大小的目標窗口(比如大小為2的窗口包括5個連續的詞), 采用單層神經網絡, 根據上下文預測中心詞, 得到的詞向量為神經網絡隱含層權重(一般取輸入權重); (2)跳詞(Skip-Gram, SG)模型, 同樣取一定大小的上下文窗口, 但訓練任務是根據中心詞預測上下文其他詞(Mikolov, Chen et al., 2013)。后者的一個優化方法是負采樣, 即負采樣跳詞(Skip- Gram with Negative Sampling, SGNS)模型: 對于每個訓練樣本, 按照一定概率生成負樣本(不包含當前窗口內詞的樣本)用于分類訓練, 以提高訓練效率和語義表征效果(Mikolov, Sutskever et al., 2013)。
GloVe (Global Vectors)是2014年由斯坦福大學提出的。與Word2Vec僅利用局部上下文不同, GloVe是預測一定大小的上下文窗口內含有全局統計信息的詞?上下文共現矩陣, 并考慮中心詞和上下文其他詞的位置距離, 將距離更近的詞賦予更大權重, 然后進行加權回歸, 得到的詞向量為回歸迭代求解的參數(Pennington et al., 2014)。GloVe既利用了全局的詞共現統計信息, 也考慮了局部上下文語境中詞與詞之間的位置距離對詞共現的影響(Pennington et al., 2014)。因此, GloVe能更好地反映詞與詞的共現情況。
此外, 還有一種基于Word2Vec的改進算法: FastText, 其基本架構與Word2Vec相似, 可以是CBOW或Skip-Gram模型, 但訓練對象不只是單詞, 還包括由子詞(subword)構成的字符級n-gram, 而且訓練時也是預測n-gram的共現(Bojanowski et al., 2017; Joulin et al., 2016)。FastText廣泛適用于多種語言(Bojanowski et al., 2017)。
下載地址:
(1) Google基于Google News訓練的詞向量庫(https://code.google.com/p/word2vec/);
(2)斯坦福大學基于Google Books訓練的跨年代(1800s~1990s)、多語種(英語、法語、德語、漢語)詞向量庫HistWords (Hamilton et al., 2016; https://nlp.stanford.edu/projects/histwords/);
(3)北京師范大學基于百度百科、中文維基百科、人民日報、新聞、微博、知乎、文學作品、四庫全書等語料庫分別訓練的中文詞向量庫(https://github.com/Embedding/ Chinese-Word-Vectors);
(4) GloVe官方基于Wikipedia、Common Crawl、Gigaword、Twitter等大規模語料庫分別訓練的英文詞向量庫(Pennington et al., 2014; https://nlp.stanford.edu/projects/ glove/);
(5) FastText官方基于Wikipedia和Common Crawl大規模語料庫訓練的全球157種語言的詞向量庫(Grave et al., 2018; https://fasttext.cc/docs/en/crawl-vectors.html)。
目前, 基于這三種靜態詞向量訓練算法, 已經有一系列預訓練好的靜態詞向量數據可供研究者直接下載使用(見附表S1)。這些靜態詞向量庫一般使用較大規模的訓練語料, 因此詞匯量較大(幾十萬至幾百萬), 能覆蓋研究需要的大部分詞匯。然而, 對于未出現在詞向量庫中的詞, 我們無法獲取它們的靜態詞向量。為了根據子詞拼接生成整詞的向量表示, 也為了考慮語境對語義的影響, 我們需要利用預訓練語言模型來生成動態詞向量。
2. 動態詞向量和預訓練語言模型:ELMo、GPT、BERT
為了完整實現自然語言的理解和生成, 需要使模型具備語言編碼和解碼的能力。這類模型通常被稱為預訓練語言模型(pre-trained language model), 已不再是簡單的詞向量訓練模型, 而是具有語言綜合處理能力的復雜模型, 參數量更龐大, 詳細原理可參閱技術文獻(車萬翔 等, 2021)。預訓練語言模型的用途很廣, 但最基本的用途之一是可以從中提取語境化、動態的詞向量, 從而解決一詞多義(polysemy)問題, 使語義的向量化表征更準確。不過, 預訓練語言模型的詞匯量一般較小(一種語言可能只有幾萬的詞匯量), 而且詞匯有更多屬于子詞而非整詞。為此, 研究者一般可通過對子詞向量的疊加來獲得詞匯表以外(out-of-vocabulary)的整詞的向量表示。
目前, Hugging Face平臺(https://huggingface. co/models)已公開存儲了萬余種預訓練語言模型, 可供免費下載使用。語言模型的發展極其迅速, 從最初的ELMo (Embeddings from Language Models)動態詞向量預訓練模型(Peters et al., 2018), 到后來的GPT (Generative Pre-trained Transformer)生成式預訓練模型(Radford et al., 2018), 以及BERT (Bidirectional Encoder Representations from Transformers)雙向編碼模型(Devlin et al., 2018), 再到BERT的各種衍生模型(如DistilBERT、ALBERT、RoBERTa、DistilRoBERTa、DeBERTa等)。本文不再詳細介紹, 讀者可參閱其他資料(車萬翔 等, 2021)。
補充材料2" 詞向量軟件工具簡介
附表S2總結了MATLAB、Python和R中與詞向量有關的工具包。其中, R語言PsychWordVec包是為心理學專門開發的詞嵌入研究綜合工具包, 推薦讀者使用(Bao, 2022)。
參考文獻
車萬翔, 郭江, 崔一鳴. (2021). 自然語言處理: 基于預訓練模型的方法. 北京: 電子工業出版社.
Bao, H.-W.-S. (2022). PsychWordVec: Word embedding research framework for psychological science [Computer software]. https://CRAN.R-project.org/package=PsychWordVec
Bojanowski, P., Grave, E., Joulin, A., amp; Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, 135?146.
Devlin, J., Chang, M.-W., Lee, K., amp; Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv. https://doi.org/10.48550/ arXiv.1810.04805
Mikolov, T., Chen, K., Corrado, G., amp; Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv. https://doi.org/10.48550/arXiv.1301.3781
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., Dean, J. (2013). Distributed representations of words and phrases and their compositionality. arXiv. https://doi.org/10.48550/ arXiv.1310.4546
Grave, E., Bojanowski, P., Gupta, P., Joulin, A., amp; Mikolov, T. (2018). Learning word vectors for 157 languages. arXiv. https://doi.org/10.48550/arXiv.1802.06893
Hamilton, W. L., Leskovec, J., amp; Jurafsky, D. (2016). Diachronic word embeddings reveal statistical laws of semantic change. arXiv.https://doi.org/10.48550/arXiv. 1605.09096
Joulin, A., Grave, E., Bojanowski, P., amp; Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv. https://doi.org/10.48550/arXiv.1607.01759
Pennington, J., Socher, R., amp; Manning, C. (2014). GloVe: Global vectors for word representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (pp. 1532?1543), Doha, Qatar. Association for Computational Linguistics. https://doi.org/ 10.3115/v1/D14-1162
Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., amp; Zettlemoyer, L. (2018). Deep contextualized word representations. arXiv. https://doi.org/10.48550/ arXiv.1802.05365
Radford, A., Narasimhan, K., Salimans, T., amp; Sutskever, I. (2018). Improving language understanding by generative pre-training. Retrieved April 19, 2022 from https://cdn. openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf