邵幫麗,朱寅,朱潤(rùn),潘晨曦,王堅(jiān),奚雪峰*,楊顥,2
(1. 蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009; 2. 蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009; 3. 昆山市公安局,江蘇 昆山 215300)
隨著物聯(lián)網(wǎng)的發(fā)展,嵌入式設(shè)備在人們的日常家居生活中得到了廣泛應(yīng)用,人機(jī)交互技術(shù)為用戶(hù)帶來(lái)高質(zhì)量的生活體驗(yàn)。現(xiàn)有智能家居人機(jī)交互主要借助遙控器或者手機(jī)進(jìn)行紅外遙控,通過(guò)按鍵或者觸屏進(jìn)行操作;還有依托語(yǔ)音助手[1]控制家居設(shè)備,實(shí)現(xiàn)非接觸式控制。然而,上述兩種主要控制方式都存在局限性。紅外遙控需要借助第三方移動(dòng)設(shè)備,增加了故障載體;語(yǔ)音助手的控制方式,同樣依賴(lài)第三方移動(dòng)設(shè)備,并且雖然融入了語(yǔ)音控制的便捷性,但仍存在輸入數(shù)據(jù)來(lái)源單一、準(zhǔn)確率不高等問(wèn)題。考慮到目前存在的人機(jī)交互方式都是間接控制且存在上述問(wèn)題,本研究提出一種多模態(tài)融合[2]的方法應(yīng)用于家居設(shè)備中空調(diào)的日常控制。通過(guò)語(yǔ)音識(shí)別將語(yǔ)音指令轉(zhuǎn)換為文字指令加以理解,并輔于設(shè)定的手勢(shì)調(diào)節(jié),不借助其他設(shè)備,僅依賴(lài)于用戶(hù)語(yǔ)音及手勢(shì)特征。
本研究基于多模態(tài)融合現(xiàn)有的方法以及相關(guān)基礎(chǔ)理論,分析并探討多模態(tài)人機(jī)交互方法,并將其應(yīng)用于家居生活中空調(diào)控制系統(tǒng)的構(gòu)建。
現(xiàn)有的多模態(tài)融合方法可分為模型無(wú)關(guān)的方法和基于模型的方法。模型無(wú)關(guān)的方法依據(jù)融合的階段可以分為早期融合,即基于特征的融合,在提取特征后立即集成特征[3];晚期融合,即決策級(jí)融合方法,在每種模式輸出結(jié)果后才執(zhí)行集成,主要采用如最大值融合、平均值融合、貝葉斯規(guī)則融合以及集成學(xué)習(xí)等規(guī)則來(lái)綜合不同模型輸出的結(jié)果[4];混合融合結(jié)合早期融合和單模態(tài)預(yù)測(cè)其輸出,綜合兩者的優(yōu)點(diǎn),但也帶來(lái)了結(jié)構(gòu)復(fù)雜和訓(xùn)練的困難[5]。而利用模型解決融合的方法有核方法、圖模型方法、神經(jīng)網(wǎng)絡(luò)模型方法等[6-7]。結(jié)合視覺(jué)和語(yǔ)言的多模式智能應(yīng)用目前頗受關(guān)注的有生成圖片字幕、文字到圖片的生成[8-10]、視覺(jué)問(wèn)答[11]、視覺(jué)推理等[12]。
智能家居的發(fā)展創(chuàng)造出舒適便捷、高效節(jié)能的家居生活環(huán)境,在物聯(lián)網(wǎng)技術(shù)的支持下從窗簾、電視等家電設(shè)備的自動(dòng)控制,到智能插座、智能門(mén)鎖等智能單品的出現(xiàn),再到場(chǎng)景化家居以及安全節(jié)能、家居安防,智能家居解決方案越發(fā)成熟、完善。近期工作有將視覺(jué)與語(yǔ)音的多模態(tài)應(yīng)用于智能機(jī)器人[13],語(yǔ)言模型選用的最大熵模型,手勢(shì)識(shí)別部分選用手勢(shì)追蹤控制器,但速度與精度還有提升的空間;有基于Android手機(jī)手勢(shì)和語(yǔ)音的系統(tǒng)[14],分別依賴(lài)方向傳感器通過(guò)角度來(lái)判別方向,以及訊飛語(yǔ)記語(yǔ)音識(shí)別器來(lái)進(jìn)行語(yǔ)音識(shí)別,由于方向傳感器局限于方向,不能捕捉手勢(shì)的細(xì)節(jié)動(dòng)作;此外有應(yīng)用于智能助老助殘系統(tǒng)[15],依賴(lài)于第三方語(yǔ)音識(shí)別芯片和體感控制器,以此來(lái)控制履帶車(chē)及機(jī)械手。
手勢(shì)識(shí)別在人機(jī)交互方面的應(yīng)用主要是智能穿戴設(shè)備[16]以及車(chē)載場(chǎng)景[17],當(dāng)駕駛員集中注意力于路面情況時(shí),一些日常操作如接掛電話(huà)、調(diào)節(jié)音量、播放暫停音樂(lè)等可以通過(guò)手勢(shì)控制,從而避免視線(xiàn)被轉(zhuǎn)移造成的危險(xiǎn)。手勢(shì)識(shí)別常規(guī)方法是通過(guò)手的膚色、形狀[18]、像素值、運(yùn)動(dòng)等視覺(jué)特征的組合來(lái)檢測(cè)手部動(dòng)作,然后進(jìn)行手勢(shì)跟蹤提供手或手指外觀位置的幀間坐標(biāo),從而產(chǎn)生手部運(yùn)動(dòng)的軌跡以便進(jìn)行后續(xù)識(shí)別[19]。
語(yǔ)音識(shí)別在智能家居中的應(yīng)用以智能音箱為主,在同一局域網(wǎng)內(nèi),智能音箱可以控制多個(gè)智能設(shè)備。語(yǔ)音識(shí)別本質(zhì)是統(tǒng)計(jì)模式識(shí)別,依賴(lài)于聲學(xué)模型和語(yǔ)言模型兩個(gè)模型,前者是文字和拼音的對(duì)應(yīng)轉(zhuǎn)換,而后者是字詞在整個(gè)句子中出現(xiàn)的概率[20]。
本研究所提及的交互方法主要包含3個(gè)部分:第1部分首先通過(guò)采集數(shù)據(jù)并進(jìn)行預(yù)處理得到標(biāo)準(zhǔn)化輸入,然后分別使用CNN模型和ResNet模型進(jìn)行手勢(shì)訓(xùn)練;第2部分依次使用LSTM+CTC聲學(xué)模型、N-gram語(yǔ)言模型對(duì)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練;第3部分,當(dāng)鏡頭出現(xiàn)控制手勢(shì)時(shí),手勢(shì)模型作出識(shí)別,提示語(yǔ)音輸入后,語(yǔ)音模型作出識(shí)別,此時(shí)通過(guò)余弦相似度的計(jì)算,將語(yǔ)音識(shí)別結(jié)果映射到手勢(shì)標(biāo)簽,投票法按權(quán)重對(duì)3種結(jié)果計(jì)算,得到最終控制指令(圖1)。

圖1 模塊分析圖
2.1.1 基于機(jī)器視覺(jué)的手勢(shì)識(shí)別分析
實(shí)驗(yàn)中采用羅技B525攝像頭進(jìn)行圖像信息的采集。首先自定義手勢(shì),在手勢(shì)識(shí)別中主要捕獲4種靜態(tài)手勢(shì)用于模擬家居場(chǎng)景——使用空調(diào)的不同操作,分別定義如下:?jiǎn)问肿觥癘K”的姿勢(shì),如圖2a所示,代表用戶(hù)想要打開(kāi)空調(diào)的操作;單手做“V”的姿勢(shì),如圖2b所示,代表用戶(hù)想要提高空調(diào)溫度的操作;單手握拳,如圖2c所示,代表用戶(hù)想要降低空調(diào)溫度的操作;五指并攏伸出,如圖2d所示,代表用戶(hù)想要關(guān)閉空調(diào)的操作;額外定義一種“nothing”,即不符合以上4種手勢(shì)的干擾圖片。

圖2 采樣手勢(shì)
數(shù)據(jù)預(yù)處理的流程見(jiàn)圖3,首先進(jìn)行高斯濾波去噪,高斯濾波對(duì)噪聲可以起到很好的削弱功效,然后操作膚色分割[21],即對(duì)圖像中人體皮膚所在像素區(qū)域進(jìn)行篩選檢測(cè)分離,之后對(duì)選中的圖像進(jìn)行二值化處理,接著對(duì)膚色分割殘留的點(diǎn)進(jìn)行形態(tài)學(xué)處理,先腐蝕后膨脹,最后采用膚色提取輪廓的方法得到標(biāo)準(zhǔn)化輸入。

圖3 手勢(shì)圖片預(yù)處理流程
膚色分割的方法是基于HSV顏色空間的膚色分割,用建立顏色空間的方式來(lái)把手勢(shì)完整地分割出來(lái)。HSV[22]顏色空間是依照顏色的直觀特性而創(chuàng)建的,用色調(diào)、飽和度、明度來(lái)描述顏色。該模式首先獲取手勢(shì)框圖,將其轉(zhuǎn)換到HSV空間(圖4);然后獲取圖片每個(gè)像素點(diǎn)的HSV值,即將1個(gè)二維矩陣拆成3個(gè)二維矩陣;最后根據(jù)膚色范圍定義H、S、V值的遮罩,設(shè)置判斷條件,不在膚色范圍內(nèi)把遮罩設(shè)為黑色即可。膚色分割后的效果在圖5處呈現(xiàn),將握拳手勢(shì)放置于捕捉窗口中間,ROI窗口顯示處理后得到的手勢(shì)。

圖4 HSV模型

圖5 Mask模式
從圖4 HSV模型中可以看出,當(dāng)不斷增加白色時(shí),參數(shù)V會(huì)保持不變而參數(shù)S會(huì)不斷減小,因此當(dāng)光線(xiàn)充足時(shí),此模式非常有效。
2.1.2 基于機(jī)器視覺(jué)的手勢(shì)識(shí)別建模
本系統(tǒng)手勢(shì)識(shí)別部分使用的CNN模型見(jiàn)圖6,由輸入層、卷積層、池化層、dropout層、flatten層、全連接層、輸出層構(gòu)成。兩層dropout層用于緩解過(guò)擬合,一層flatten層用于連接卷積層和全連接層。

圖6 CNN網(wǎng)絡(luò)模型示意圖
數(shù)據(jù)集是手動(dòng)錄制的,每種手勢(shì),包括nothing,錄制了803張圖片,采用6種數(shù)據(jù)增強(qiáng)方式擴(kuò)充數(shù)據(jù)集:添加椒鹽、高斯噪聲,降低、提高圖片亮度,以隨機(jī)角度旋轉(zhuǎn)以及翻轉(zhuǎn)。最終數(shù)據(jù)集包括28 105張手勢(shì)的圖片,每種手勢(shì)5 621張,按6∶2∶2的比例來(lái)劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集。用該CNN模型訓(xùn)練了15輪,模型訓(xùn)練結(jié)果從圖7可以看出,訓(xùn)練精度與測(cè)試精度趨勢(shì)相同,收斂時(shí)差距較小,其間通過(guò)dropout正則化來(lái)減少過(guò)擬合現(xiàn)象。

圖7 模型實(shí)驗(yàn)結(jié)果
ResNet深度殘差網(wǎng)絡(luò),是為解決網(wǎng)絡(luò)層的增加導(dǎo)致訓(xùn)練集準(zhǔn)確率下降的問(wèn)題而被引入的。綜合考慮數(shù)據(jù)集規(guī)模以及訓(xùn)練時(shí)間,本研究選擇ResNet50進(jìn)行手勢(shì)的訓(xùn)練,調(diào)用Keras內(nèi)部封裝好的模型,共50層,調(diào)整輸入大小為200×200。由于網(wǎng)絡(luò)層數(shù)較深,訓(xùn)練數(shù)據(jù)復(fù)雜度較小,因此訓(xùn)練輪數(shù)可以適當(dāng)縮減,表1是訓(xùn)練10輪的情況。測(cè)試集上的精度最終達(dá)到94.51%。

表1 ResNet50模型訓(xùn)練情況
2.1.3 基于聲學(xué)與語(yǔ)言模型的語(yǔ)音識(shí)別分析
語(yǔ)音識(shí)別采用清華大學(xué)THCHS30中文語(yǔ)音數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。THCHS30內(nèi)含了1萬(wàn)余條中文語(yǔ)音文件,總時(shí)長(zhǎng)超過(guò)30 h,采樣頻率為16 kHz,采樣大小為16 bits,是完全免費(fèi)的。原創(chuàng)錄音于2000—2001年由朱曉燕教授的項(xiàng)目小組完成,起初設(shè)計(jì)目的是作為863數(shù)據(jù)庫(kù)的補(bǔ)充,盡量提高中文語(yǔ)音的覆蓋率。
2.1.4 基于聲學(xué)與語(yǔ)言模型的語(yǔ)音識(shí)別建模
聲學(xué)模型選用LSTM+CTC模型。LSTM(long short-term memory,長(zhǎng)短期記憶網(wǎng)絡(luò))是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),其核心目的就是解決一般RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長(zhǎng)期依賴(lài)問(wèn)題,已被人們所熟知。CTC算法全稱(chēng)是連接時(shí)序分類(lèi)算法,是一種基于神經(jīng)網(wǎng)絡(luò)的時(shí)序分類(lèi)算法[23]。它可以在輸入輸出序列長(zhǎng)度比不定的情況下完成音頻文本的映射。
語(yǔ)言模型選用了N-Gram模型,本質(zhì)上是一種概率圖模型。核心目標(biāo)就是得出文本中某個(gè)具體句子存在的概率。語(yǔ)言模型的作用就是把字詞解碼成句子,把每一個(gè)拼音對(duì)應(yīng)到多個(gè)漢字,每個(gè)漢字一次只讀一個(gè)拼音,這樣把拼音和漢字彼此之間的對(duì)應(yīng)關(guān)系從左到右連在一起,就有了如圖8所示的有向圖。其中,y1,y2,…,yn是輸入的拼音;w11、w12、w13是y1的候選漢字;w21、w22是y2對(duì)應(yīng)的候選漢字。以此類(lèi)推,計(jì)算每一步的概率。通過(guò)設(shè)置閾值將概率過(guò)低的路徑過(guò)濾掉,每走一步就對(duì)閾值進(jìn)行一次冪運(yùn)算。依次迭代,最終得到比較理想的映射。關(guān)于語(yǔ)音識(shí)別模型的訓(xùn)練,由于數(shù)據(jù)集太大,在云端用GPU訓(xùn)練,可選用平臺(tái)FloydHub(網(wǎng)址:https://www.floydhub.com/)。

圖8 拼音轉(zhuǎn)漢字的網(wǎng)格圖
當(dāng)前模型在驗(yàn)證集上的漢語(yǔ)拼音準(zhǔn)確率為81.74%,錯(cuò)誤率為18.26%。最終,對(duì)預(yù)設(shè)的4條指令,每條進(jìn)行了100次的語(yǔ)音識(shí)別操作,結(jié)果見(jiàn)表2。其中基本識(shí)別是指將“關(guān)閉空調(diào)”指令識(shí)別為“關(guān)低空調(diào)”,雖然沒(méi)有達(dá)到準(zhǔn)確識(shí)別,但對(duì)空調(diào)的操作關(guān)鍵詞比較敏感。本模型基本可以完成對(duì)這4條指令的識(shí)別,在提高溫度和降低溫度兩指令上的準(zhǔn)確度有待提高。基本識(shí)別情況中多數(shù)由“溫”字識(shí)別錯(cuò)誤導(dǎo)致,其錯(cuò)誤識(shí)別為“翁”的概率為74.23%,后續(xù)可以選取更契合的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。

表2 語(yǔ)音識(shí)別測(cè)試結(jié)果
2.1.5 融合手勢(shì)與語(yǔ)音識(shí)別的多模態(tài)人機(jī)智能交互
融合模塊中使用的預(yù)測(cè)類(lèi)別方法是集成學(xué)習(xí)算法的一種,即投票法。使用投票法來(lái)創(chuàng)建強(qiáng)監(jiān)督模型的方法即整合每一種弱監(jiān)督模型的預(yù)測(cè),然后通過(guò)投票去預(yù)測(cè)分類(lèi)。這些弱監(jiān)督分類(lèi)器訓(xùn)練的數(shù)據(jù)集并不相同,彼此之間互不相關(guān)。本次實(shí)驗(yàn)基于該方法,完成預(yù)測(cè)手勢(shì)識(shí)別和語(yǔ)音識(shí)別多個(gè)分類(lèi)器結(jié)果加權(quán)投票,得到最終結(jié)果。
實(shí)驗(yàn)過(guò)程中,除了上面所提及的基于HSV顏色空間的膚色分割模式,還增加了基于閾值自適應(yīng)的膚色分割模式。兩者呈現(xiàn)的效果較為不同。圖9中呈現(xiàn)的是握拳手勢(shì)在閾值自適應(yīng)模式下的預(yù)測(cè)結(jié)果可視化以及關(guān)閉指令在另一種模式下的識(shí)別結(jié)果。圖10是兩種模式下nothing指令識(shí)別效果,分別是閾值自適應(yīng)模式下3根手指對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽、基于HSV顏色空間的膚色分割模式下4根手指對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽。閾值自適應(yīng)計(jì)算公式為:

圖10 兩種模式下nothing指令
(1)
式中:Gavg為整幅圖的平均灰度級(jí);u[i]為零階矩;v[i]為一階矩,可根據(jù)直方圖計(jì)算得到;f[i]是最大類(lèi)間方差,該方差的灰度值便是自適應(yīng)閾值。
在得到語(yǔ)音識(shí)別所形成的文本結(jié)果后,將文本結(jié)果映射為標(biāo)簽類(lèi)型。具體而言,首先將文本結(jié)果轉(zhuǎn)化為詞向量,接著與手勢(shì)標(biāo)簽所對(duì)應(yīng)的文本詞向量進(jìn)行余弦相似度的計(jì)算,最終將計(jì)算結(jié)果作為語(yǔ)音識(shí)別結(jié)果到手勢(shì)標(biāo)簽的映射,參與加權(quán)投票。由于本研究的多模態(tài)包含手勢(shì)和語(yǔ)音兩種單模態(tài),并且多模態(tài)兼容單模態(tài)方式,單模態(tài)工作時(shí)會(huì)有二次驗(yàn)證,因此投票權(quán)重在多模態(tài)工作下發(fā)揮重要作用。設(shè)置權(quán)重如下:初始情況兩種模態(tài)權(quán)重各占一半;ResNet-50所得到的手勢(shì)識(shí)別結(jié)果設(shè)置權(quán)重為0.3,CNN所得到的手勢(shì)識(shí)別結(jié)果設(shè)置權(quán)重為0.2,而將語(yǔ)音識(shí)別的結(jié)果權(quán)重設(shè)置為0.5,系統(tǒng)實(shí)驗(yàn)結(jié)果如表3所示。

表3 融合模塊測(cè)試結(jié)果
從表3中可以看出,對(duì)于語(yǔ)音識(shí)別結(jié)果來(lái)說(shuō),正確結(jié)果中有182次能做到完整識(shí)別出指令并準(zhǔn)確識(shí)別,還有57次輸出能識(shí)別出指令的含義,但是個(gè)別字映射錯(cuò)誤,并不影響整體結(jié)果,比如錄入指令為“降低溫度”,而識(shí)別出“降地溫度”等。對(duì)于最終結(jié)果來(lái)說(shuō),有225次能輸出正確的指令結(jié)果,64次識(shí)別出手勢(shì)結(jié)果與語(yǔ)音結(jié)果不一致,在投票法的使用下,模態(tài)融合指令結(jié)果都與實(shí)際情況相吻合。測(cè)試結(jié)果表明,整體系統(tǒng)的準(zhǔn)確率高于單獨(dú)的手勢(shì)識(shí)別和語(yǔ)音識(shí)別的準(zhǔn)確率。
圖11中手勢(shì)識(shí)別預(yù)測(cè)的是指令“調(diào)高溫度”,語(yǔ)音識(shí)別結(jié)果不一致,結(jié)果顯示兩次預(yù)測(cè)不一致,在投票法原則下正確識(shí)別的結(jié)果對(duì)錯(cuò)誤結(jié)果進(jìn)行一定程度的糾正,融合兩模態(tài)的結(jié)果,最終結(jié)果為手勢(shì)識(shí)別的結(jié)果。圖12中手勢(shì)預(yù)測(cè)為“降低溫度”,是正確指令;語(yǔ)音識(shí)別結(jié)果是“占低”,盡管語(yǔ)音識(shí)別不能準(zhǔn)確識(shí)別語(yǔ)音指令,但對(duì)指令中的詞有一定的敏感度。

圖11 預(yù)測(cè)不一致的場(chǎng)景案例

圖12 預(yù)測(cè)一致的場(chǎng)景案例
圖13呈現(xiàn)出來(lái)的是手勢(shì)與語(yǔ)音互補(bǔ)工作。當(dāng)環(huán)境比較嘈雜時(shí)會(huì)影響語(yǔ)音識(shí)別效果,此時(shí)可采取手勢(shì)識(shí)別調(diào)控;當(dāng)光線(xiàn)比較昏暗時(shí),手勢(shì)識(shí)別會(huì)受影響,此時(shí)可以采用語(yǔ)音識(shí)別調(diào)控。多模態(tài)的融合充分利用了人的肢體靈活性以及手勢(shì)等姿態(tài),也因此彌補(bǔ)了環(huán)境復(fù)雜的情況下識(shí)別準(zhǔn)確率不高的情況,體現(xiàn)了人機(jī)交互的友好性。

圖13 家居適用場(chǎng)景
實(shí)驗(yàn)結(jié)果表明,當(dāng)手勢(shì)識(shí)別結(jié)果無(wú)誤的時(shí)候,即便語(yǔ)音識(shí)別結(jié)果模糊,依舊可以通過(guò)系統(tǒng)的判斷,得出正確結(jié)果;反之類(lèi)似。因此可以實(shí)現(xiàn)在一種模態(tài)失效的情況下,仍然保持家居設(shè)備能正常使用,體現(xiàn)出了多模態(tài)信息融合的宗旨,提高了整體系統(tǒng)的魯棒性。同時(shí),多模態(tài)的交互方式可以兼容單模態(tài)的存在,若當(dāng)前只能識(shí)別到一種模態(tài),為提高指令準(zhǔn)確率,系統(tǒng)會(huì)提示二次操作,進(jìn)行確認(rèn)。當(dāng)然,筆者所提出的方法還有很大改進(jìn)空間,例如,當(dāng)前手勢(shì)指令覆蓋的范圍較小,后期可適當(dāng)增加設(shè)定的手勢(shì)。此外,目前的語(yǔ)料庫(kù)與當(dāng)前使用情景貼合度不夠高;后續(xù)的實(shí)驗(yàn)操作,可考慮自己錄制符合使用情景的語(yǔ)料庫(kù)。此外,模態(tài)融合的方法也可以調(diào)整為基于模型的神經(jīng)網(wǎng)絡(luò)模型等方法。
智能家居的發(fā)展得益于技術(shù)的成熟,從智能插座、智能門(mén)鎖等到自動(dòng)開(kāi)關(guān)衣柜,人機(jī)交互的自然程度越來(lái)越高。本研究提出并構(gòu)建了一個(gè)多模態(tài)的人機(jī)自然交互方法,并將其應(yīng)用于家居生活中空調(diào)控制系統(tǒng)構(gòu)建。用戶(hù)可以通過(guò)本系統(tǒng),采用手勢(shì)和語(yǔ)音兩種方式來(lái)對(duì)空調(diào)下達(dá)指令。利用深度學(xué)習(xí)技術(shù),把包括語(yǔ)音指令控制、語(yǔ)義理解等的自然語(yǔ)音信號(hào)和機(jī)器視覺(jué)組合到一起,極大提高了智能家居系統(tǒng)中人機(jī)交互的自然程度,并且一定程度上增強(qiáng)了用戶(hù)體驗(yàn)度,縮小人機(jī)交互的局限性,提升交互的精確性、順暢性和自然性。