林浩,王春東,孫永杰
1.天津理工大學 計算機科學與工程學院,天津300384
2.計算機病毒防治技術國家工程實驗室,天津300384
3.智能計算及軟件新技術天津市重點實驗室,天津300384
4.天津理工大學 語言文化學院,天津300384
人格是一種跨時間、跨情境的,與人類的想法、情緒、行為相關的穩定模式。任何涉及對人類行為的理解、分析、預測的技術都可能受益于人格識別,例如人機交互[1]、推薦系統[2]、謠言傳播研究[3-4]、精神疾病診斷[5]、自我傾向揭示[6]、網絡空間安全[7]等。準確識別人格是上述研究領域實現“以人為本”和個性化的重中之重。而有關人格識別的研究已成為心理學、認知科學、計算機科學等領域中的一個多學科交叉的熱點研究課題。但自陳量表[8]、投射測驗[9]等標準化的傳統人格心理測驗實施要求較高,難以采集大量樣本,使用范圍有限,使得相關研究的被試量不足,難以實現統計有效性。社交媒體為人格識別研究提供了良好的數據源[10-11],同時也催生了基于機器學習的人格識別研究。但目前基于機器學習訓練的人格識別模型仍有很大性能提升空間。如能探明社交媒體數據和用戶人格特質之間的聯系,實現高性能的人格識別,將為心理學提供能夠大規模采集樣本的心理測驗方案,進而促進其他交叉學科的相關研究發展。
縱觀國內已有綜述,對這一領域的研究進展的關注較少。張磊等人[12]完整綜述了社交網絡用戶的人格分析與預測。費定舟等人[13]綜述了自動人格識別、自動人格感知、自動人格綜合三個利用社交媒體的研究方向。為闡明當前人格識別領域的研究現狀,本文依據數據類型綜述已有研究,總結該領域研究不足及未來的研究方向,并提出了諸多擬解決方案。
心理學對個體差異的研究衍生了許多人格理論,這些理論可分為6個流派:精神分析流派、特質流派、生物學流派、人本主義流派、行為主義流派以及認知流派[14]。6個流派分別站在不同的知識領域解釋人格。在人格識別領域應用最廣泛的是特質流派中的大五人格模型(Big Five model,Big5)。
大五人格模型通過詞匯學的方法構建,從反映個體情感調節過程的神經質(neuroticism)、表示人際互動能力的外向性(extraversion)、描述個體認知風格的開放性(openness)、評估個體喜歡與他人一同出現程度的宜人性(agreeableness)和評估個體在目標導向行為上的能力的盡責性(conscientiousness)5 個人格特質描述個體的人格[15]。每個人格特質又可分為多個子維度。
邁爾斯布里格斯類型指標(Myers-Briggs type indicator,MBTI)[16]:以瑞士心理學家卡爾·榮格劃分的8 種心理類型為基礎,形成4 個人格特質描述人格,即外傾與內傾(E/I)、實感與直覺(S/N)、思維與情感(T/F)、判斷與知覺(J/P)。卡特爾16種人格因素模型(16PF):是伊利諾斯州立大學人格及能力測驗研究所卡特爾教授編制的人格因素模型。該模型的因素包括樂群性、聰慧性、穩定性、恃強性、興奮性、有恒性、敢為性、敏感性、懷疑性、幻想性、世故性、憂慮性、實驗性、獨立性、自律性、緊張性。此外,還有明尼蘇達多項人格調查表(Minnesota multiphasic personality inventory,MMPI)、艾森克人格問卷(Eysenck personality questionnaire,EPQ)、人格七因素模型(seven-factor personality model)等人格模型在心理學領域被廣泛使用。但因缺乏公開數據集,導致沒有相關人格識別研究。
Vinciarelli等人[17]指出,在語言心理學的理論中,一個人對于詞語的選擇不僅僅取決于詞語本身的含義,同時也受情緒、態度以及人格特質等心理現象的影響。因此,結合語言心理學和自然語言處理(natural language processing,NLP)技術從文本數據中推斷人格特質也就成為了可能。
文獻[18]是最早的基于心理語言學特征的人格識別的成果之一。這項工作將語料庫中的單詞分為function、cohesion、assessment 和appraisal 4 個具有心理意義的類別,并計算每個類別中單詞的相對頻率,最終將頻率輸入支持向量機(support vector machine,SVM)執行人格識別任務。Mairesse等人[19]使用相同的語料庫和SVM,并額外采用了LIWC(linguistic inquiry and word count)和MRC Psycholinguistic Database,取得了57%的平均準確率。Nguyen等人[20]標注了Livejournal 中的10 000 個用戶的Big5 人格標簽,并采用LIWC 特征和邏輯回歸(logistic regression,LR)來識別用戶的外向性人格特質。進一步的,Poria等人[21]利用LIWC、MRC 和SenticNet 特征構建序列最小優化算法(sequential minimal optimization,SMO)識別人格特質。類似的,Celli[22]采用LIWC特征來預測“FriendFeed”交友網站上156名意大利用戶的Big5人格特質,平均準確率達到63.1%。
除Big5 的相關研究外,Amirhosseini 等人[23]通過TF-IDF(term frequency-inverse document frequency)特征和XGBoost(extreme gradient boosting)構建了MBTI人格特征識別模型。Choong等人[24]針對MBTI的J/P 特質設計識別模型。該模型利用字符級TFIDF、詞級TF-IDF 和LIWC 特征作為輸入,以Light GBM作為分類器,得到了最優的識別效果。Yang等人[25]采用LIWC為每個用戶構建異構Tripartite圖,進而利用圖神經網絡識別MBTI 人格。有關上述文獻的數據、方法和結果的總結參見表1和表2。

表1 基于傳統心理語言學特征的大五人格識別研究總結Table 1 Summary of Big5 personality recognition research based on traditional psycholinguistic features

表2 基于傳統心理語言學特征的MBTI人格識別研究總結Table 2 Summary of MBTI personality recognition research based on traditional psycholinguistic features
預訓練語言模型(pre-trained model)大致可以分為兩代。第一代預訓練語言模型的學習目標是與上下文無關的分布式詞嵌入,是單詞級別的靜態詞向量。這代模型以Word2Vec[26]、GloVe(global vectors for word representation)[27]和FastText[28]為代表。然而,由于大多數NLP任務都超出單詞理解級別,需要在句子級別或更高級別上對神經編碼器進行預訓練,由此衍生出第二代預訓練語言模型,代表模型為GPT(generative pre-training)[29]、BERT(bidirectional encoder representation from transformers)[30]、RoBERT(robustly optimized BERT)[31]、XLNets[32]等。
基于第一代預訓練語言模型的人格識別有部分成果[33-35],但普遍識別性能不佳。BERT 的成功使得人格識別的研究者更多地關注預訓練語言模型。Mehta等人[36]報告了BERT在Essays和Kaggle數據集上得到的結果。他們認為在人格識別領域通過預訓練語言模型提取的特征始終優于傳統的心理語言學特征。Wang等人[37]提出了一個結合膠囊網絡和預訓練語言模型XLNets的人格識別框架。Jiang等人[38]提出了一種使用預訓練語言模型RoBERT 和注意力神經網絡的人格自動識別方法。該方法將Essays 數據集的最優結果提高了2.49 個百分點。El-Demerdash等人[39]混合使用三種預訓練語言模型Elmo(embeddings from language models)、ULMFiT(universal language model fine-tuning)和BERT提取特征,在MyPersonality 數據集上取得了領先的結果。類似的,Lopez 等人[40]混合使用Word2Vec、GloVe 和BERT三種預訓練語言模型提取YouTube視頻的音譯文本,從而實現大五人格特質識別。
除Big5的相關研究外,Vásquez等人[41]提出了利用RoBERT提取特征,進而識別被試者的MBTI人格特質。張晗等人[42]基于BERT 獲取網絡文本中完整的上下文語義特征和長距離的上下文依賴關系,并利用隨機森林算法作為分類器實現了羞怯、合作性、完美主義、焦慮四種心理特質的分類。有關上述文獻的數據、方法和結果的總結,參見表3和表4。

表3 基于預訓練語言特征的大五人格識別研究總結Table 3 Summary of Big5 personality recognition research based on pre-trained language features

表4 基于預訓練語言特征的MBTI人格識別研究總結Table 4 Summary of MBTI personality recognition research based on pre-trained language features
近年來,有少量研究將心理語言學特征和預訓練語言特征融合訓練人格識別模型。特征融合方法多數采用Concat 等早融合方法。Yuan 等人[43]將LIWC 特征和Word2Vec 提取的特征進行結合,并將其作為輸入實驗了多個分類器的性能,最終采用多項式樸素貝葉斯(multinomial naive Bayes,MNB)構建人格識別模型。Majumder[44]總結LIWC、MRC 和韻律特征提出了文檔級Mairesse 特征,并將其與Word2Vec提取的單詞級特征融合實現了人格識別模型。但該模型的效果不如基于預訓練語言模型的人格識別模型。文獻[36]報告了類似的結論。BERT出現后,Kazameini等人[45]將BERT提取的特征與Mairesse特征進行拼接,并將拼接后的特征輸入到多個SVM中進行集成學習。與文獻[45]類似,Ren 等人[46]利用BERT提取的特征和SenticNet 特征得到了更高性能的人格自動識別模型。
Pavan等人[47]提出了目前基于文本的MBTI人格識別最優方法,該方法將TF-IDF特征、GloVe提取的特征和少量統計特征拼接,并利用遺傳算法(genetic algorithm,GA)進行特征篩選,最終利用SVM 和RF作為分類器識別MBTI人格特質,如圖1所示。有關上述文獻的數據、方法和結果的總結,參見表5和表6。

表5 基于上述兩類特征的大五人格識別研究總結Table 5 Summary of Big5 personality recognition research based on above two features

表6 基于上述兩類特征的MBTI人格識別研究總結Table 6 Summary of MBTI personality recognition research based on above two features

圖1 Pavan等人提出的人格識別方法框架Fig.1 Framework of personality recognition proposed by Pavan et al
總的來說,基于社交文本數據的人格識別的研究在特征層面已接近飽和,可用于人格識別的社交文本特征幾乎全部涉及。但單獨使用心理語言學特征構建的識別模型性能低下,而現有研究多數使用預訓練語言模型或少量的心理語言學特征構建人格識別模型。個體的語言使用差異一直被認為是心理的反映[36]。傳統的心理語言學特征對于人格識別同樣重要。除Mairesse 和SenticNet 特征以外,如NRC Emotion Lexicon[48]、NRC VAD Lexicon[49]、Affectivespace[50]、Readability[36]等心理語言學特征應該在人格識別中得到更多關注。此外,心理語言學特征維數很高,且特征融合使得輸入特征的維數增加,應考慮合理的特征篩選方法最大化特征和標簽之間的相關性,并最小化特征之間的冗余度。Lin 等人[51]的研究證明了對心理語言學特征進行特征篩選可以提高人格識別模型性能,但其特征篩選方法的性能仍有提升空間。
社會心理學家的研究已經表明,人們總是花費大量精力來管理他們給他人的印象,而管理方式取決于他們的人格。社交圖像數據是除社交文本外另一個直觀的渠道向他人傳輸自己的形象。社交媒體中涉及的圖像數據包括社交用戶頭像、用戶發布的圖像和視頻以及用戶瀏覽的圖像和視頻等。圖2 展示了各種社交用戶頭像。圖3展示了各種用戶發布、瀏覽、收藏的圖像。

圖2 社交用戶頭像Fig.2 Social user avatar

圖3 用戶發布、瀏覽、收藏的圖像Fig.3 Images published,browsed and collected by users
Fitzgerald 等人[52]率先開啟了社交用戶頭像的相關研究。他們為社交賬戶頭像標注內容(物體、動物、人)、身體部位、面部表情(微笑不漏齒、微笑露齒、不微笑)、外觀(眼鏡、太陽鏡、衣服)、是否凝視相機等40個與Big5人格特質相關的特征。Celli等人[53]的研究表明Facebook用戶的頭像能夠一定程度上反映用戶人格,并采用BoVW(bag-of-visual-word)提取頭像信息特征以識別人格。Tareaf 等人[54]收集了Twitter 平臺的個人資料圖片,進一步利用皮爾遜相關系數和增強決策樹篩選頭像信息特征,并結合文本數據識別用戶的Big5人格特質。Segalin等人[55]采用了更多的特征,包括基于計算美學(computational aesthetics,CA)的特征、基于金字塔直方圖(pyramid histogram of oriented gradients,PHOG)提取的視覺特征、基于圖像分析工具(image analysis tool,IATO)提取的淺層特征和基于Caffe提取的深層特征。
Jeremy 等人[56]基于MBTI 人格特質進行了與文獻[54]類似的研究,但他們報告的結果表明僅使用頭像信息比頭像信息結合文本信息更適合人格識別。Ferwerda 等人[57]報告了類似的結論,他們認為在人格識別任務中單獨使用用戶頭像的視覺特征或內容相關特征要優于二者結合。Segalin等人[58-59]收集了300名Flickr用戶發布的共60 000張最喜愛的照片,從中提取顏色、構圖、紋理屬性和面孔四類特征,最終采用回歸算法判斷用戶的人格特質。實驗結果顯示,真實人格與預測人格的均方根差(root mean square error,RMSE)在0.17~0.22,其中,外向性的RMSE 最低為0.17。Torfason等人[60]從社交賬戶頭像和用戶收藏的圖像中檢測圖像的屬性,該任務如圖4所示。

圖4 圖像屬性預測Fig.4 Image attribute prediction
Torfason等人的實驗結果表明,利用圖像屬性和其他特質可以從數十個社交用戶頭像或用戶收藏的圖像中準確預測Big5 人格特質。Kunal 等人[61]綜合考慮社交用戶頭像、用戶發布的圖像和網頁導航圖像,提取圖像的描述以構建一組詞匯表,通過定義詞匯表中單詞之間的關系來獲得模糊共現矩陣,最終將其輸入到多層感知機進行人格特質識別分類。有關上述文獻的數據、方法和結果的總結,參見表7。

表7 基于社交圖像數據的人格識別研究總結Table 7 Summary of personality recognition research based on social image
總的來說,基于社交圖像數據的人格識別效果優于基于社交文本數據的人格識別。但在綜合社交文本數據和社交圖像數據的多模態識別研究中存在分歧。多模態一定是人格識別領域的未來方向,應進一步研究社交文本數據和社交圖像數據的多模態融合方法。還應在當前研究基礎上考慮新圖像特征和新數據來源。此外,圖像數據量比文本數據量更大,需額外考慮識別模型的實時性。
使用時長、發帖次數、社交網絡大小等社交應用數據亦可為人格計算提供數據基礎。圖5 展示了社交游戲平臺Steam中的部分社交應用統計數據。

圖5 Steam中的部分社交應用統計數據Fig.5 Some social application statistics in Steam
目前研究中,這些統計數據均結合文本和圖像數據使用。Golbeck等人[62]統計了167位Facebook用戶的個人特征(姓名、教育水平、宗教、婚姻狀況等)、社交網絡密度、是否發布了政治傾向以及基于LIWC的文本特征。結果表明,Gaussian 回歸和M5 算法的平均絕對誤差低于0.13。之后,Golbeck 等人[63]又對Twitter 用戶進行了類似的研究,并增加了基于MRC的文本特征以及followers數量、following數量、hashtags 數量等統計特征。Celli 等人[64]在Twitter 數據上提取了幾種類型的特征:基于bi-grams、tri-grams、LIWC 的文本特征和followers/following 比率、hashtags/單詞比率、背景顏色、文本顏色等十個元數據特征。他們使用AutoWeka(內置多種機器學習模型)在MBTI人格特質識別任務中平均準確率達到65%,在Big5人格特質識別任務中平均準確率達到61%。鄭敬華等人[65]從新浪微博數據中挖掘出用戶114 個特征,分為靜態特征、行為特征和文本特征。靜態特征包括性別、地址、昵稱、是否認證等;行為特征包括發狀態數、粉絲數、關注數、收藏數等;文本特征為利用中科院心理所的文獻處理系統從博文中提取出的102 維特征。Gjurkovi?等人[66]構建了更大的數據集Reddit,從中提取基于LIWC 和LDA(latent Dirichlet allocation)的文本特征以及評論數量、帖子點贊數、帖子反對數等多個統計特征。有關上述文獻的數據、方法和結果的總結,參見表8和表9。
不同社交平臺可能收集到的社交應用統計數據差異很大。故此很難設計通用型的基于社交應用統計數據的人格識別方法,應結合具體應用場景和其他數據綜合識別人格。此外,仍有很多已被證明和人格相關的社交應用統計數據尚未被人格識別研究采用,例如數字游戲社交平臺數據[67]。
盡管針對單一模態信息的人格識別研究取得了一些成果,但在實際生活中人類自身的人格分析往往是多模態的。因此,僅僅通過單一模態信息來識別人格存在諸多局限。從2015 年起,研究者開始嘗試面向社交媒體數據的多模態人格識別。社交媒體中最常見的模態是文本模態和圖像模態,但在人格識別領域中被研究最多的模態是音頻模態和圖像模態,且也少有研究能夠將三種模態融合[68]。
多模態人格識別中模態融合可分為早期融合和晚期融合(也稱決策層融合)。早期融合是指先將多模態的特征融合后再訓練模型,缺點是無法充分利用多個模態數據間的互補性,且存在特征冗余問題,容易出現維數災難問題。晚期融合是指先將不同模態各自得到的結果統一打分,再根據某種策略融合。常用的融合策略包括“多數投票”“最大”“總和”“最小”“平均”“乘積”等[69]。優點是模型獨立魯棒性強,靈活性較高。由于融合模型的誤差來自不同的分類器且各分類器間互不影響,不會造成誤差累加問題。但晚期融合認為不同的模態是相互獨立的,故無法利用各模態之間的相關性。
文獻[70]將圖像特征、文字特征、用戶元特征(性別、年齡、國籍等)早期融合以識別用戶人格。實驗利用Instagram 和Twitter 兩個平臺抽取62 名用戶信息,使用Big5人格問卷標注數據,最終采用決策樹執行分類任務。Wei 等人[71]提出了一種稱為HIE(heterogeneous information ensemble)的異構信息集成框架,如圖6所示。

圖6 HIE框架Fig.6 Framework of HIE
HIE 可通過整合文本、頭像、表情符號和響應模式等異構信息來推測用戶大五人格特質。Onno等人[72]提出了一種三模態(音頻、文本和圖像)人格識別架構,用于從視頻中推測用戶人格,如圖7 所示。對于每個模態都使用堆疊卷積神經網絡進行特征提取,并將各自結果在決策層進行晚期融合。實驗表明,多模態融合方法優于單個模態通道,比最佳單個模態的MAE提高了9.4個百分點。

圖7 Kampman等人提出的三模態人格識別架構Fig.7 Three-modal personality recognition framework proposed by Kampman et al
多模態一定是人格識別領域的未來。Huang 等人[73]的研究指出,當數據量達到一定規模,模態種類越完整,多模態模型的效果必然越好。應更多地研
究基于文本、圖像、社交應用甚至腦電圖等多源異構數據的多模態人格識別。此外,潛在空間的質量決定了多模態模型的效果,提高人格多模態識別模型的潛在表示質量是未來的關鍵工作。
經調研可知,目前四類人格識別方法的性能均有很大進步空間,準確率大都處于60%~80%之間。且由上述總結表可知,當前研究在分類器層面沒有獨特之處,多數研究的差異表現在輸入數據或輸入特征層面。其中,基于社交文本數據的人格識別是基石,因為被試者相關的社交文本數據最易獲得[51]。文本數據可進一步融合圖像等其他數據實現多模態人格識別。
人格識別領域現階段不足和未來研究趨勢主要體現在以下方面。
(1)多模態一定是人格識別領域的未來。應對多模態人格識別進行更多研究,可將Auxiliary regularized machine[74]、Deep robust unsupervised multi-modal network[75]、Comprehensive multi-modal learning[76]等多模態學習方法應用于人格識別領域,并研究提高多模態人格識別模型的潛表示質量的新方法。
(2)通過高成本的傳統人格測量方法進行標記的有監督學習數據集太小,不足以訓練更復雜的識別模型。Vinciarelli等人[17]認為眾包是一種可能的解決方法。但心理學家對眾包數據的嚴謹性和生態效度存疑。生成式對抗網絡(generative adversarial network,GAN)是近年常用的數據增強方法,但小樣本的數據對于GAN來說不太友好,因為GAN需要足夠的數據來訓練網絡以達到收斂[77]。目前人格識別數據集只能采用EDA(easy data augmentation)[78]、平移[79]、翻轉[79]等簡單方法增強數據。對于人格識別數據集的擴充,仍然缺乏更加有效的手段。
(3)目前只有使用自陳量表標注的人格識別數據集。有研究指出,在短文本中發現的語言線索與基于自陳量表標注的人格結果不直接對應[80]。且有些人格模型自身的自陳量表嚴謹性有待提高,例如MBTI的嚴謹性一直被心理學家詬病[80-81]。使用其他人格測量如評價啟動任務[82]、內隱聯想測驗[83]、內隱關系評估[84]等方法標注數據集,并研究其差異是一項可以預見的重要研究。
(4)用一個識別模型識別所有人格特質是不合理的。以Big5 為例,Big5 使用行為統計學方法構建人格模型,導致人格特質相互之間相關程度很小。利用t-SNE(t-distributed stochastic neighbor embedding)等高維數據可視化方法可以直觀地展示此問題[85]。故應參考文獻[20,24],研究每個人格特質相關數據的特點,為每個人格特質設計不同的識別模型。
(5)當前的人格識別領域中少有考慮特征篩選問題的研究。人格識別涉及的特征繁多,且其特征工程未達成共識。因為一些冗余特征對分類沒有幫助,可能誤導分類器,采用所有特征可能會得到很差的結果[86]。需在未來的研究中綜合考慮人格識別領域中特征-標簽的相關性和特征-特征的冗余度。設計均衡相關性和冗余度的適應度函數并利用啟發式算法篩選特征是一種可行的解決方法[51]。
(6)人格并不像石膏一般堅硬,它是一種既穩定又可變的模式。McCrae闡述了人格發展的特征性適應,如圖8所示[87]。人格是一種具有穩定特征的個體與特定生活經歷交互作用而隨著時間推移演化的心理結構。這類人格發展理論可支持時序化的人格識別,將歷史人格信息或歷史人格相關特征作為輸入,訓練更復雜的人格識別模型。

圖8 人格發展與特征性適應Fig.8 Personality development theory and characteristic adaptation
(7)人格識別不是人格計算的終點。應對人格識別結果進行深入分析,使得人格識別模型真正地用于研究和生活中,例如:利用Twitter文本識別人格研究COVID-19 疫情對用戶人格的影響[4]、研究人格和網絡安全行為的關系[88]、利用人格差異設計個性化程序交互界面[89]。
本文通過梳理基于社交媒體數據識別人格的研究,探索該領域的研究現狀、研究不足以及未來研究方向。該技術將為人機交互、推薦系統、網絡空間安全、人力資源提供決策依據,并為心理學家提供更加可靠的人格研究手段。目前的人格識別技術仍有諸多地方需要改進。期待在不久的將來,該領域研究人員能夠更多地將研究結果變成實際成果,發揮其更大的研究和應用潛力。