田懷谷,孔令云,龔元霞,徐教禮,戴 浩
(西京學院理學院,西安 710123)
在大多數的情況下,語音控制機器人是方便的。但不可避免的是,有些事情不能用言語來表達,而此時,一個直觀的手勢可以讓機器人知道用戶的意圖。因此,將語音和手勢相結合,可以使人機交互更加方便和準確。
在此人機交互模型中,當用戶發出語音命令,通過Microsoft Speech SDK 獲取命令并轉換為文本。采用最大熵模型對文本進行處理,從而讓機器人理解用戶的意圖。與此同時機器人確定是否有手勢指示在講話中,如果語音中包含了某些手勢指令,那么用戶的手勢就會被手部追蹤控制器(厲動)所捕獲并進行處理,處理后的數據將被視為用戶意圖的一部分。在此過程中如果語音指令是一個完整的命令,則語音指令將單獨控制機器人。否則即將手勢指令和語音指令相結合,為機器人控制提供完整的指令。人機交互模型的實現過程如圖1所示。

圖1 人機交互模型的實現過程
在文獻的基礎上,通過對多個控制指令庫的分析以及引入的四個屬性變量( 、 、 、 ),設計了機器人控制命令。四個屬性變量表示機器人操作方向的關鍵字,即上、下、前、后、左或右,這四個屬性變量的定義使指令更加系統化,提高機器人的性能。例如,如果運算符發送的“向上10mm”指令,它將被轉換為屬性變量[上,移動,10,mm]等。在這種情況下,用戶的語音可以組合成大量特定的可執行機器人命令。由于控制指令庫的存在,機器人的執行效率會更高。
最大熵的概念最早由杰恩提出,并首次應用于語音的處理中。目前,最大熵模型在語音的處理任務中得到了廣泛的應用。作為一種判別模型,最大熵模型的優點是它可以將多個特征融合在一個模型中,并將這些特征建模并后驗,另外,最大熵模型的分布是指數分布便于計算。最大熵模型的核心思想是在預測隨機變量的概率分布時,在滿足所有已知條件的情況下,不對未知條件作任何假設。此時,概率分布的信息熵是最大的,這就使各種可能性和預測的風險相吻合。
通過最大熵模型,可以識別用戶語音,轉換成文本并提取文本中包含的交互指令。然后將文本轉換為機器人控制指令,以控制機器人的運動。
手部追蹤控制器(厲動)可以檢測和跟蹤類似手指的手指和工具。厲動軟件分析了設備可見范圍內的對象,如果對象存在于當前幀中,則查詢函數將返回對象的引用。如果對象不存在,則查詢函數將返回一個特殊的無效對象。通過手勢識別算法,可以從測量數據中得到加速度和方位。
在本研究中,手勢是對語音的補充,主要用于指示方向。每個手指有三個關節,每兩個關節的位置用區間卡爾曼濾波估計,以提高機器人界面的精度,與標準卡爾曼濾波[7]相比,可以用統計參數和不準確的動力學來處理這種情況。估計的數據將被視為用戶意圖的一部分。
手勢與語音的人機交互包括兩部分:語音和手勢。機器人將首先分析Microsoft Speech SDK 轉換的四個屬性變量。如果機器人得到某一動作的方位和距離的具體描述,機器人就會知道語音指令可以在沒有手勢輔助的情況下單獨工作。相反,如果四個屬性變量不包含方位和距離的屬性,則手部追蹤控制器將捕獲用戶的手勢。對手勢進行分析,利用區間卡爾曼濾波估計,作為對語音的補充估計的數據被視為用戶意圖的一部分。用語音來處理人與機器人之間的交流是非常方便和直接的,而手勢通常是在很難用言語來表達的情況下使用的。根據語音和手勢的結合,易于構造四個屬性變量,使人機交互變得更加自然和高效。
本文綜合考慮了前人研究的優缺點,提出了一種改進的人機交互方法。智能機器人的運動是由用戶的語音和手勢共同控制的。事實上,在現實環境中,機器人面臨著更復雜的任務和指令,語音與手勢交互的關鍵技術以及其他交互方式相結合等方面有許多問題亟待解決。
總之,智能機器人交互技術經過近幾年的飛速發展,證明其具有很大的潛在市場,也是網絡時代最為方便的一種交流工具。基于語音和手勢的智能機器人必將在未來發揮重要作用,在家庭、教學、服務等領域獲得廣泛應用。