曹望成,徐洪國,于 波,于立洋
(1.牡丹江師范學院計算機與信息技術學院,牡丹江 157011;2.哈爾濱理工大學軟件學院嗎,哈爾濱 150040)
隨著社會的信息化程度越來越高,人類對計算機的智能水平有了越來越高的需求。人機交互的方式也也不僅局限于原本的基于硬件進行交互,一些相對更智能的交互方式逐漸出現在人們的生活中,譬如通過人臉識別、手勢識別以及語音識別等一系列更加智能的方式建立人類與計算機之間溝通。這些更為方便的交互方式的出現已經成為當前人機交互領域的一大發展趨勢,人機交互方式發展的目標自然是讓計算機服務并適應人類的需求,以人為中心,而非強迫人去適應計算機。
人機交互(HCI:Human-Computer Interaction)是一門研究人、計算機以及兩者之間相互交互方式的學科。隨著社會的信息化程度越來越高,人機交互方式的發展也會促進我們的日常生活的便捷,越來越多方便新穎的交互方式推出。
語音交互是人機交互中的一個主要的交互技術,也是最為常用的交互技術。語音識別技術本質上來說是一種分類問題,而SVM(Support Vector Machine)是一種機器學習里最為經典的分類模型,很容易可以將這種模型應用到語音識別這一領域。通過提取輸入的語音流中的某些特征,對這些特征進行分類,根據參考模型的匹配結果判定輸入的語音是由哪一位說話人所發出。
人臉作為區分人與人之間的主要特征,現在也被廣泛應用到人機交互中。越來越多的解鎖模式采用人臉解鎖,方便快捷,節省時間,錯誤率低。隨著SVM在語音識別中的應用,SVM也漸漸被運用到了人臉識別中,并在基礎的SVM的基礎上,融合無監督聚類來進行多分類。
表情識別現在也已經在日常生活中比較常見,譬如笑臉相機,通過檢測笑臉自動拍照。這些功能都可以通過SVM模型來實現。
基于手勢和動作識別的人機交互方式十分自然且易用,也成為了當前人機交互中研究的一個熱點。根據手勢和動作輸入的方式不同,我們將這類識別方式分為兩種:一種是基于數據手套等傳感器捕捉設備的方法,另一種是基于視覺的方法。基于數據手套等傳感器捕捉設備的方式,設備通常比較昂貴,布置穿戴也比較麻煩,通常在日常生活中不太常用,多被用于影視制作和科學研究。基于視覺的手勢和動作識別是對視頻采集設備拍攝到的包含手勢或動作的圖像序列采用各種技術進行處理。
近些年來,腦-機接口技術的研究在國際上引起了廣泛的興趣并獲得了快速的發展。這種模式需要一些硬件設備來獲得腦電信號來實現無動作的人機交互,也就是利用腦電信號來表達自己的意思,并讓相應的外界設備做出一定的動作反應。這種新的模式可以為神經肌肉損傷患者提供一種新的溝通方式,也可以為正常人提供輔助控制通道或在特殊環境下的控制通道,這一人機交互的新方式具有巨大的社會價值和應用前景。
預處理截斷是對數據進行簡單的過濾操作,降低噪聲干擾。這一步主要進行信號的放大、防混疊濾波、自動增益控制、模數轉換、消除噪聲、端點檢測等操作。
模式識別技術中,特征提取是最為關鍵的一步,選擇適合的特征來表達數據才能有效地通過分類技術準確識別。語音數據大致包含一下幾個常用特征:時平均能量、線性預測系數、頻譜、短時過零率、三個共振峰頻率(F1、F2、F3的頻率值、帶寬、幅值)、LPC倒譜和Mel倒譜、HMM的概率函數、矢量量化的矢量等。人臉數據的以下幾個特征經常被使用作為模式識別的依據:全局特征和局部特征。在進行手勢和動作識別之前,需要先進行定位操作。而定位又根據使用的線索不同分為:基于顏色的定位、基于運動的定位和多種模式定位。
從輸入數據提取多維特征或單維特征作為SVM模型的輸入,進行后續的匹配操作。
后處理是模式識別的最后一步,也是系統識別效果的最終表現。根據參數模式庫判決選擇出可能的結果中最好的作為識別系統的輸出。
現階段的研究中,SVM方法在人機交互的研究中展現出了良好的性能,也被越來越多的學者采用。研究者應該立足實際,本著科學實用的目標,不斷推進人機交互這一學科的發展。