魏佳琪,劉華平,王博文,孫富春
(1. 河北工業大學 省部共建電工裝備可靠性與智能化國家重點實驗室,天津 300130; 2. 清華大學 智能技術與系統國家重點實驗室,北京 100084)
隨著計算機技術的發展,人機交互的領域愈加廣泛,機器人的情感理解能力逐漸成為衡量智能程度的標準。觸覺是最基本交互方式之一,無論是對人類還是機器人,觸覺信息都是與周圍環境進行交互的重要媒介[1]。人們逐漸意識到,觸覺可以用來調節情緒,增加人與人之間情感和信任,幫助建立良好的人機關系。同時,越來越多的人使用觸摸功能的機器人完成醫療以及遠程數學等任務。
圖像和聲音一直以來是情感狀態識別的主流方式,但有些時候圖像和語音并不能真實地反映出用戶當時的情感狀態。圖像識別在計算量上特別大,而且非常依賴光照條件。比如在賽車時,由于頭盔限制了圖像的采集,并不能有效地利用圖像識別出駕駛員的情感信號;語音識別同時也存在著缺陷,用戶通過語音來表達情感時,常常伴隨著語義的理解問題,需要通過語料的內容才能正確地判斷說話人的情緒。因此,發展一種新的情感識別研究方向成為趨勢。
觸覺在復雜的社會信息中扮演著重要角色,情感識別正逐步成為人機交互領域研究的熱點和發展方向[2]。人機情感交互讓機器人更加了解人類的情緒,并做出相應的反饋。這也讓觸覺情感識別走進了人類生活。例如:智能家居能夠通過觸摸來識別出用戶的情感,進而做出反應調整燈光或音樂;在線學習的用戶通過觸摸屏幕傳遞情感信息,當用戶面對學習系統表現出煩躁或者焦慮情緒時,系統能夠及時地給用戶鼓勵信息,使用戶的注意力重新轉移到學習中;在醫療方面還可以用情感識別來治療自閉癥患者和對養老院老人進行心理疏導。
Morrison等[3]用實驗證明觸摸是傳遞親密情感的主要方式;Debrot等[4]證實了情侶之間的積極接觸增強了他們的情感狀態;Park等[5]設計了觸覺電話,證實觸覺在面對面交流中的作用;Guest等[6]研究觸覺與情感之間的聯系,并建立了一份英語中最常用的形容詞,用來描述觸摸體驗;Kim等[7]提出一種基于神經網絡的紡織品-情緒索引方法,研究情感與圖案之間的聯系;Huang等[8]利用神經網絡得到從圖像特征空間到心理空間的映射函數,確定圖像與情感之間的聯系;Jung等[9]建立CoST(corpus of social touch)觸覺數據集,對14種觸覺手勢進行識別分類,準確率達到60%;周楠等[10]利用3D卷積神經網絡對觸覺手勢識別進行了改進;Hughes等[11]設計了一種新型傳感器,將距離信號和力信號用于手勢識別,并證明與單獨的力信號相比,近距離感知信號增加了手勢識別的準確性; Maramis等[12]利用安卓手機設計開發了一款APP來引導用戶自然地表達情感并進行觸覺情感識別;Gao等[13]在ipod上通過游戲探究觸覺行為是否反應玩家的情緒,并用機器學習完成4個情緒狀態的分類。但是觸摸屏在硬件方面存在一定的局限性,并不能像壓阻式傳感器一樣具有很好的延展性和可彎曲性[14],且僅能通過在觸摸屏上滑動來采集數據,形式較為單一。本文提出了一種基于陣列式觸覺傳感器的情感識別方式,并在手勢識別數據集上進行了實驗,探究不同手勢下的情感識別。
基于觸覺手勢的情感識別技術主要分為數據采集、數據預處理、特征提取、情感識別以及結果分析5個部分,如圖1所示。數據采集通過陣列式觸覺傳感器固定在載體上采集不同參與者的壓力值數據;數據預處理是將已采集的壓力隨時間變化的數據進行處理,比如除掉錯誤的幀或者錯誤的樣本數據;特征提取是對處理后的壓力值數據進行分析,并提出情感識別相關的特征進行提取;情感識別是將提取的情感識別特征輸入到分類器中進行訓練;最后將情感識別的結果進行分析。

圖 1 情感識別流程圖Fig. 1 The flow chart of emotion recognition
本文研究的基于觸覺手勢的情感識別技術是對多種手勢進行情感識別,目的是探究手勢對情感識別結果產生的影響以及情感之間的聯系。首先,對采集到的數據進行數據預處理,將“不規則”的幀排除;將預處理好的數據按照手勢的不同拆分;再對其中每一幀的數據進行分析,提出情感識別相關的特征;將每個特征集按照參與者劃分為訓練集和測試集;最后用極限學習機(ELM)分類器測試實驗結果,并對實驗結果進行對比分析。
ELM是新加坡南洋理工大學的黃廣斌教授提出來的針對單個隱含層的前饋型神經網絡(SLFNs)的監督型學習算法[15],其主要思想是:輸入層與隱含層之間的權值參數以及隱藏層上的偏置向量參數,是不需要像其他基于梯度的學習算法一樣通過迭代反復調整刷新,而是直接求解一個最小范數最小二乘問題,最終化歸成一個矩陣的廣義逆問題。ELM的原理如圖2所示。

圖 2 ELM的網絡結構Fig. 2 The model structure of ELM
在以往的研究中,大部分學者把重心放在手勢識別上[16],本文主要對不同的手勢進行情感識別。對數據集的處理一般包括3部分:數據預處理、特征提取、特征選擇。因為特征維度并不大,所以在本文中并沒有使用常用的隨機森林模型進行特征選擇。
文獻[16]中提出的CoST數據集包含31個參與者,每個參與者根據要求分別執行14個手勢,每個手勢重復6次,每個動作分別以3種情感(溫柔、普通、暴躁)來執行。也就是說,每個參與者都會執行252次動作。手勢包括grab、hit 、massage、pat、pinch、poke、press、rub、scratch、slap、squeeze、stroke、tap、tickle。表1是對14個手勢的定義[17]。

表 1 手勢的定義Table 1 Gesture definition
該數據集的采集由安裝在假肢手臂上的8×8陣列式觸覺傳感器以135 f/s的頻率完成。每一個手勢均由多個幀的數據構成,數據集的每一幀都由64個傳感器通道的壓力值組成,壓力值單位為[18]g/cm2。圖3為傳感器的8×8壓力通道一幀的灰度圖,白色部分對應壓力值最高的通道,黑色部分對應壓力值最低的通道。

圖 3 傳感器的灰度圖Fig. 3 Gray scale image of sensor
首先,對部分數據進行觀察,畫出CoST數據集幀數與每一幀壓力總和之間的關系圖,如圖4所示,但手勢的前半部分(第1個虛線前)屬于手勢執行前的噪聲,虛線內的部分才是手勢執行的過程,所以虛線前并無實際意義,需要刪除此部分。因此對整體的CoST數據集進行分割,以此來刪除掉手勢中無意義的幀。這樣就能保證計算的時間序列特征更有意義。

圖 4 對“暴躁的massage”的分割圖Fig. 4 Segmentation of a “rough massage”
不同的情感環境下,最主要的3個影響因素分別為壓力值、傳感器的接觸面積和觸摸的有效時間。顯然,不同情感的平均壓力值和最大壓力值是判別情感程度的初步特征,壓力值由小到大分別為:溫柔的動作壓力值、正常的動作壓力值、暴躁的動作壓力值。光有這兩個特征遠遠不夠。情感的準確辨別,至少需要2種行為特征:觸覺行為的持續時間和強度[19]。因此我們對其他特征進行了探究。
首先對CoST數據集的poke手勢進行了分析,如圖5、圖6所示,通過對手勢的壓力值大小與時間關系的二維圖、三維圖的分析,進而推斷出影響情感的因素。

圖 5 3種情感下的二維圖Fig. 5 A two-dimensional comparison of three emotions
1)一幀中陣列傳感器所有通道的平均值。
2)所有幀所有通道的平均值和最大值。
3)該動作的所有幀當中,無信號的百分比。如果這一幀的64列的平均壓力值小于60 g/cm2,那么就說明這個幀是沒有信號的。
4)所有幀當中每一列的平均壓力。5)所有幀當中每一行的平均壓力。
6)每一幀的總壓力,然后求幀與幀之間總壓力差的絕對值。此特征顯示該情感下不同時刻間力的大小變化。
7)取特征2)中的平均值,計算達到平均值的幀數所占該動作總幀數百分比。
8)求出每一幀中64個通道的最大值,求當前幀下,達到50%最大值的數量。
9)接觸面積。
10)壓力峰值的間距。每一幀的壓力值總和隨著幀數變化,其中極大值之間的時間差。
11)每一個動作下不同情感的有效接觸時間。即求出每個動作各個情感的總有效幀數。
由此得到數據特征集。邊緣檢測是圖像處理和計算機視覺中的常用手段,目的是標識圖像中亮度變化明顯的點[20]。圖像屬性中的顯著變化通常反應了屬性的重要事件和變化。用于視頻分類的特征可以用于CoST數據集,因為CoST數據是以固定速率更新的網格形式的壓力值,其類似于低分辨率灰度視頻。利用sobel算子,通過銳化對比度,構建了第2組數據幀,使用3.2節中相同的提取特征程序,獲得一組新的數據特征集。將兩組數據特征集合整合到一起。
本文采用了3種分類器:支持向量機(SVM)、極限學習機(ELM)和隨機森林(RF)。本文的支持向量機分類器使用了libsvm工具箱的RBF核函數來訓練樣本;本文的ELM分類器對參數最優值進行了研究,如圖7所示,激活函數設置為sine,隱含層數量設置為100時,ELM的分類效果最好。隨機森林是一種包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數而定,決策樹數量設置為300時,隨機森林的分類效果最好。

圖 7 ELM參數靈敏圖Fig. 7 Parameter-sensitive map of ELM
將31個參與者中隨機抽取的21個人的所有特征數據當作訓練集,另外10個人的所有特征數據當作測試集。將訓練集和測試集再按照手勢分成14組,依次進行分類識別。分類結果如表2所示,從14個手勢的整體來看,SVM和隨機森林的分類準確率較為相似,ELM無論是從準確度上還是分類時間上都要優于其他2個分類器。圖8中,雷達圖的最外層代表80%的準確率,最內層代表30%。從圖8可以看出,14個手勢中stroke手勢的情感分類效果最好,在3個分類器的分類結果中均為最高,在觸覺情感識別中,ELM的輸入層與隱含層之間的權值參數以及隱藏層上的偏置向量參數是不需要像其他基于梯度的學習算法一樣通過迭代反復調整刷新,而是直接利用情感特征求解一個最小范數最小二乘問題。所以ELM在情感識別中效果較優。其中,ELM分類器對stroke手勢的情感識別分類精度達到70.95%。圖9為SVM分類器下的混淆矩陣圖,從圖中可以看出stroke手勢在3種不同的情感狀態下均有較好的分類效果;手勢和情感之間存在著某些聯系,不同的手勢本身對應著不同情感,會對實驗結果產生影響。比如當人們執行pinch手勢時,更傾向于暴躁情緒,同時暴躁情感的識別準確度也最高,也更容易將其他2種情感混為暴躁情緒;而press手勢則被容易理解為一種溫柔情感下的動作,其在執行和識別的過程中更傾向于溫柔情緒。

表 2 情感識別準確率Table 2 Accuracy of emotion classification %

圖 8 情感識別雷達圖Fig. 8 Radar map of emotion classification

圖 9 手勢的情感識別混淆矩陣Fig. 9 Emotion recognition confusion matrix of the gestures
本文提出了基于觸覺手勢的情感識別技術,通過對CoST數據集的7 805個手勢進行分析,對數據集進行數據預處理,剔除部分錯誤的手勢,使數據集更加完善。使用MATLAB等軟件對數據進行整理,并通過相關論文引證,提出一系列情感識別的特征。使用多種分類器進行分類比對,整體來看14種手勢中SVM和隨機森林的情感識別效果不相伯仲。不同分類器下的stroke手勢的情感識別效果均為最高,但ELM的stroke手勢的情感識別效果要比基于RBF核函數的SVM分類器的效果好(SVM=70.95%,ELM=72.07%)。并且ELM的識別時間要明顯短于SVM(SVM=0.33 s,ELM=0.04 s)。本文針對CoST數據集進行了一系列研究實驗,得到了3點結論:stroke手勢具有最好的情感識別效果,且分類精度較高;ELM作為觸覺情感識別的分類器具有較好的表現,識別精度高且識別速度快;有的手勢(比如pinch、press)本身對應著某種情感,會影響情感識別的結果。因此,在設計觸覺情感識別傳感器時,可以誘導用戶做出情感識別率最高的手勢,從而間接地提高分類精度。這為以后的觸覺情感識別系統的設計提供了思路,也為建立新的情感識別數據集奠定了基礎。