汪 穎,黃 澤
(浙江理工大學,浙江 杭州 310018)
隨著計算機與顯示技術的發展,對于計算機的命令行接口功能變得日益豐富與強大,但對于絕大多數老年人而言這樣復雜的人機交互形式難于使用。自然交互界面是一種新興的用戶界面,其目的是通過利用人的視覺、觸覺、聲音和動作等行為能力以及人的認知能力,基于自然的方式來實現人機交互[1]。回顧人機交互的歷史進程,不難發現扮演適應角色的總是人類而非計算機,人類需要理解機器并按照其標準進行交互,這對于很多人尤其是老年人而言極不友好。基于此問題,越來越多的研究者致力于開發能夠跨越人機交互障礙的新技術。
近二十年來的科學研究根據人格效應和媒體等式理論,通過在屏幕上描繪一個虛擬的交流伙伴,從而對人機交互產生了有益的影響[2]。在利用人類行為能力的交互方式中,手勢由于其強大的表現力和速度優勢,在人機交互系統中得到了最為廣泛的應用。例如基于視覺的手勢識別(hand gesture recognition,HGR)系統可以在無菌環境(如醫院手術室)中實現非接觸式交互,也可以簡單地為娛樂和游戲應用提供參與式控制[3]。
然而,HGR并不像標準的基于鍵盤和鼠標的交互那么靈敏,在復雜背景和不同光照條件下的性能以及手勢相位的可靠檢測等問題限制了手勢作為界面設計中可靠方式的使用。人類與世界的互動本質上是多模態的,為了使人機交互變得如人類之間交流那么自然,多樣化的交互形式不可或缺,除手勢以外,研究人員已經將自然交互形式拓展到了更多領域,如語言[4]、視覺[5]、身體動態[6],甚至是復雜的情緒和感受[7-8]。
鑒于人機自然交互研究的豐富成果以及老年人對于復雜人機交互環境的適應困境,該文試圖直觀地展現老齡化自然交互領域的全貌,并用文獻計量方法深入探討這一領域的研究現狀和進展。具體來說,該研究對過去20年(2000~2019年)與情感計算相關的科學出版物進行了嚴格的文獻計量分析,包括國家和期刊表現,以及領域內共引文獻的可視化分析。研究結果有助于相關研究者掌握老齡化自然交互方面的知識結構和最新趨勢,確立或改變后續的研究方向,為研究者更快速地了解老齡化自然交互領域提供便利。
為了收集到有代表性的老齡化自然交互相關文獻,該文選擇以Web of Science(WoS)作為來源數據庫獲取待分析的初始數據。WoS是全球最大、覆蓋學科最多的綜合性學術信息資源,利用其豐富而強大的檢索功能,用戶可以方便快速地找到有價值的科研信息[9]。該文旨在通過文獻計量學的方法對老齡化自然交互相關文獻進行定量、可視化分析,因此在WoS核心數據庫中使用“主題”搜索以獲取盡可能多的相關文獻,使用“主題”作為搜索方式意味著只要文獻的題名、摘要或關鍵詞中任意一項包含搜索詞,即會出現在結果隊列中。
用于初始數據收集的關鍵詞包含不同的表達式,分別是“elder”、“old people”、“human-computer nature interaction”或“natural human computer interaction”,將時間跨度設定為2000年至2019年。得到搜索結果后,為了盡可能涵蓋更多的附加信息,將1 447篇初始文獻以“txt”格式從WoS中導出“全紀錄和引用的參考文獻”。最終將結果導入CiteSpace(版本5.5.R2)中進行去除重復項操作,得到1 434篇老齡化自然交互相關文獻用于后續分析。
文獻計量學是對文獻或書籍等書面出版物的統計分析,可以追溯到二十世紀初,其通過復雜網絡對大量文獻樣本進行數據組織和可視化分析。文獻計量學比較研究學者和研究機構之間的時間尺度和學科引用效果,這兩個因素與出版物的質量不相關,基于此可以對這些學術成果進行定量評估[10]。通過文獻計量方法對某個領域內的研究熱點和研究趨勢等進行分析已經在學術界得到了廣泛的應用。
從文獻分析工具的選用上來看,目前被使用較多的軟件工具包括BibExcel、CiteSpace、Pajek、VOSviewer、Histcite、Sci2等。BibExcel可以靈活地管理和轉換不同格式的初始文獻,并從中提取出每一篇文獻的基本信息,包括作者、國家、發表年份、發表期刊等等。BibExcel提取的信息經過其自動歸類后能夠直觀地展示不同國家和期刊之間的差異性,而后借助VOSviewer或Origin可以對直觀數據進行文獻計量網絡的構建以及可視化。與VOSviewer類似,CiteSpace同樣是可視化的文獻分析軟件,但其特點是可以用于特定學科中研究熱點和新興趨勢的分析,它既可以顯示某個領域在給定時期內的表現和趨勢,也可以探索前沿研究的發展[11]。
為了了解老齡化自然交互研究領域的國家水平,在BibExcel中將初始數據轉化為可識別的out文件格式,分別按國家和年份排序。由于2008年之前所有國家的相關文獻數量均小于5篇,因此圖1顯示了2008年至2019年間出版物的總數量和貢獻最多的國家。可以看到,老齡化自然交互的總文獻量隨著年份增長呈現波動上漲的趨勢,推斷正是由于21世紀初計算機科技的高速發展和人機交互的多樣化導致了學術關注的提高。同時,觀察各條折線的波動形態,可以發現美國和中國的文獻發表量最高,且二者的折線形態與總文獻量的折線形態幾乎完全一致,這也在一定程度上凸顯了美國和中國對老齡化自然交互相關研究領域的學術引導地位。
可以看到,盡管中國對于此研究領域的起步相較美國更晚,但在2015年之后相關文獻的數量已然趕超美國,這表明美國學者雖然更早關注到了自然交互領域,但中國學者在投入高度關注的情況下也已經產出大量學術成果。然而,2018年及之后,各國和總體的文獻量都出現了較明顯的下滑,筆者認為這可能是因為統計信息的缺乏。學術研究內容輸出到網上需要時間,在統計時會出現不可避免的延遲現象,因此這并不能表示2018年之后老齡化自然交互領域研究熱度的下滑。

圖1 不同國家老齡化自然交互年份趨勢圖
文章共引,被定義為兩篇文獻同時被其他文獻一起引用的頻率。基于已發表文獻來分析學者之間聯系的研究已然持續了幾十年,使用映射技術進行的作者引文分析最常用于根據學者著作的共同引用來研究兩位作者在思想領域的緊密程度[12]。基于這一假設,文獻計量領域研究者提出了利用文獻共引網絡的聚類分析來探索知識領域內容的方法[13]。
為了進一步呈現老齡化自然交互領域的研究進程,該文利用CiteSpace對初始數據引用的所有參考文獻進行文獻共引網絡分析。1 434篇初始文獻所引用的共計38 054篇參考文獻被導入CiteSpace進行共引分析,共引分析的選擇標準:引用閾值調整為前10%的項目被保留,其中最大選擇項的數目不超過100。最后通過軟件自行構建得到762個節點,1 797條邊的參考文獻共引網絡(基于圖片可讀性,此處并未顯示所有節點),對共引網絡進行聚類,軟件自動剔除其中含量過少的聚類標簽后得到圖2所示共引網絡聚類視圖,8個主要聚類的具體信息見表1,表1中8個聚類集群的輪廓大小都接近于1,說明聚類結果是可信的。

圖2 老齡化自然交互的共引網絡視圖
CiteSpace使用基于原始網絡Laplacian矩陣為特征向量的聚類算法,與傳統算法相比具有更高的效率和靈活性[14]。聚類標簽的詞匯是由每個聚類的名詞短語和參考文獻的索引詞通過篩選得出,通過查閱8個聚類標簽中的主要文獻,可以將主要聚類分為三組,分別是:手勢交互(#1,#6,#8,#9)、模式識別與圖像處理(#0,#4,#10)以及自然人機交互接口(#7)。

表1 共引網絡中8個主要聚類的具體信息
顯而易見,手勢作為一種表達性、自然性和直覺性的交互方式,已經被大量運用在計算機和可視化設備的交互控制上[15]。手勢識別研究的快速發展,使手勢交互已經能夠基本滿足人機交互系統的兩個基本要求,即高識別精度和快速響應時間。基于幀與幀之間比較的深度學習模型是一種有效且計算效率高的方法[16],但這種方法的缺點是需要進行圖像的預處理和一個靜態的背景。膚色在顏色空間中占據相當明確的區域,因此可用于準確分辨頭部和手部[17],其限制在于易與背景中相似顏色物體的混淆以及姿勢識別方面的不完全。
歸根結底來說,手勢交互實則屬于模式識別的一部分。但盡管手勢識別具備良好的準確度和普及性,但多模態的自然交互才更貼合人們與真實世界的交互形式[3]。關于模式識別和圖像處理,除手勢外,研究者基于人的多維感官以及情緒感受做了大量的探索。即便只是簡單的語言對話交流,人與人之間的交流方式也與人機交流存在差異。人們對于計算機需要使用更簡單且控制化的語言,而這樣不自然的交互形式難以產生愉悅感[18]。情緒特征的提取雖然同樣來自語言,但相較語言控制,其實現形式更為困難。為了更精確地獲取各種語言風格中的情感內容,研究者利用卷積神經網絡(convolutional neural network,CNN)和深度殘差網絡(residual network,ResNet)分別提取語音特征和視覺模態以識別人的自然情感[8]。
最后,自然人機交互接口作為自然交互的實際應用形式,其相關文獻量較少,但能直觀展現出自然交互的實用性。當前對于自然交互接口設備的使用多為醫學領域,免觸摸控制系統大幅提升醫生在無菌環境中的操作效率,盡管目前的準確度較低,但其效用性不可忽視[19]。此外,結合醫療領域中非接觸式交互方法來看,雖然已經產生了大量的解決方案,但只有少數幾個在手術環境中得到了系統評估,自然人機交互的軟件接口問題限制了進一步的研究,這應當是未來的主要挑戰[20]。
除此之外,老齡化自然交互共引網絡的時間軸視圖導出如圖3,從時間軸視圖能夠更清晰地了解過去數年間老齡化自然交互的進化足跡。
從圖3可以看出,2007年之前的早期研究主要關注于手勢識別,包括#1三維手勢跟蹤、#8空中手寫漢字識別以及#9人機手勢交互。早期識別方法主要通過從時空維度中提取三維手勢特征,并通過時間軸上的圖像幀比較來測定其相似性,在手勢分析綜述中這被定義為時空方法[21]。手寫字符的識別,尤其是漢字,因其復雜性而使早期研究者們備受困擾。而隨著各種手寫字符數據庫的建立,手寫字符的識別問題得到較好的解決,其平均識別準確度達到90%以上[22]。
2007年之后,隨著手勢、字符以及各種人類活動識別方法的研究發展,以計算機視覺模擬人機交互成為一個重要的研究領域。研究者們意識到人機交流不應局限于觸覺,語言和視覺同樣重要,#4三維CAD(computer aided design,CAD)建模、#6基于視覺的手勢識別、#7自然用戶接口設備和#10計算機視覺四個集群相繼產生。在類似博物館這樣的開放環境中,更有趣的互動和參與能改善來訪者的體驗,以身體為基礎的人機交互形式有助于培養存在感和交流感。

圖3 老齡化自然交互的共引網絡視圖(時間軸)
對文獻的來源期刊進行分析可以確定領域內的核心期刊,而期刊被引用頻次則能夠有效展現其受領域內研究者關注的程度。同時,高被引期刊也匯聚了該領域內核心學者的學術成果和高質量的前沿研究文獻,能夠為想要了解該領域的研究者提供指引。為了了解期刊績效和引用情況,該文利用BibExcel提取初始數據中的期刊字段并按降序排列,得到表2所示老齡化自然交互相關文獻中排名前十的來源出版期刊及其被引文獻數量表格。

表2 排名前十的文獻來源期刊
為了了解老齡化交互的期刊集中度,本研究查閱了表2所示十大文獻來源期刊的重點研究內容和主要發表領域,排名前十的期刊共計刊登文獻252篇,占據總文獻量的17.57%。雖然這些期刊大多屬于人機自然交互和模式識別領域,但需要注意的是,在計算機技術和人工智能領域的期刊上也發表了大量關于自然交互的論文,這說明人機自然交互需要以大量的計算機信息技術為基礎,而人工智能則是自然人機交互的媒介,通常會通過關注和學習特定的用戶行為以幫助計算機更好地了解人類意圖[23]。
在CiteSpace中對所有文獻進行期刊共引分析,得到了引用率排名前25的高被引期刊,并按起始時間升序排列得到圖4,其中Begin和End分別代表期刊中高被引文獻的集中起止年份,由于2008年之前老齡化自然交互相關文獻不存在高引用率期刊,因此圖片右側時間分布段落的整體時間段為2008~2019年。時間段的灰色部分為期刊中高被引文獻的集中時間,可以看到,其集中時間段與圖3中的文獻共引網絡聚類集中時間存在較高的相似度。
某一領域內的學術動態在一定程度上可以通過相關期刊的高引用率來體現,這在知識可視化角度被稱為突發引用[24]。
突發引用的出現表明學術界已經或正在高度關注此領域,而對比圖3與圖4的集中時間段不難看出,2008年到2013年間出現了類似突發引用的事件,熟悉這段時間內具有較高引用爆發力的期刊所發表的內容,將有助于研究者快速了解不同研究點的形成,以及老齡化自然交互領域的重點關注內容。

圖4 排名前25的高引用率期刊(按起始時間排序)
以2000年至2019年從Web of Science收集到的1 434篇文獻作為數據集,對老齡化自然交互領域內的研究進行了嚴格且深入的文獻計量分析,并對國家、期刊以及共引網絡進行了可視化研究。可視化圖表顯示,在過去的20年里,出版物總量隨時間呈現明顯的波動增長趨勢,且增長率很高。值得注意的是,中美兩國對出版物和國際合作的貢獻最大,其次是德國和印度。除此之外,借助文獻共引網絡對不同階段的主要研究內容和重點文獻進行了調查,結果顯示早期的自然交互研究主要集中于手勢識別方面,手部行為因其靈活性和不易混淆的模態得到了研究者的高度關注。近十年來隨著技術的發展,主流的研究已經轉向利用多模態內容進行自然交互的嘗試。多模態內容不僅指字符、語言、視覺的多模態領域,還包括情緒、感受等生物傳感領域。隨著人工智能技術的迅速發展,許多機器學習算法被應用于自然交互研究,卷積神經網絡是其中應用最廣的一種機器學習模型。
對于老齡化自然交互領域進行計量可視化研究具有重要意義。一方面,這有助于相關研究者快速獲得具有影響力的相關作者和期刊,得到明確的領域內學術動態,找出關注或可投稿的期刊。作者具體信息也能提供實用性的指導,在國際合作的背景下,尋求相似研究人員或研究機構進行交流顯得合理。另一方面,通過構建引文聚類網絡,系統且有序地探析了老齡化自然交互的最新研究領域和前沿趨勢,幫助學者把握老齡化自然交互領域的全貌。就數據來說,計量可視化的方法實現了對于以往模糊的專業評價的量化[25],而老齡化自然交互的可視化指標也表明其正在被更廣泛的地區和知識領域所接受。
不可避免的是,盡管該文通過總結過去20年的研究得到了一些可用的結論,但方法仍存在一定的局限性。通過共引網絡分析,共識別出11個聚類,其中許多小類因內容不足而被剔除,這可能導致重要信息的遺漏。另外,從知識可視化角度來看,有更多的方法可用于計量可視化分析,如果能在BibExcel和CiteSpace之外嘗試運用更多的結合分析,或許可以得到更科學、更有說服力的結論。