摘要:提出的多通道交互通用開發框架可以快速地開發出支持多通道交互的應用,也可以將已經存在的應用快速更改為多通道交互應用;基于此理論,設計和實現了一種支持手寫筆和語音輸入的多通道家電開關控制系統。具體地闡明了實際開發中應該重點注意的環節,希望能夠對當前手持移動設備的多通道交互化有所借鑒。
關鍵詞:手持移動設備; 人機交互; 多通道交互模式; 擴展多通道腳本語言; 家電開關控制系統
中圖分類號:TP311.11文獻標志碼:A
文章編號:1001-3695(2007)09-0156-03
隨著手持計算技術及無線通信技術的發展,手機、PDA及掌上電腦等個人手持移動設備逐漸普及,計算功能越來越強大,多媒體、互聯網、遠程控制、電子地圖、移動定位等新功能在手持移動設備上已經得到了廣泛的支持。傳統的菜單輸入、液晶屏幕輸出的人機交互方式讓人使用起來不自然、不方便,從而導致交互效率低下。為了提高人機交互的效率,開發更加自然和方便的人機交互方式已經成為一個新的課題。而多通道(multimodal,又稱為多模式或多模態)交互模式已被研究證明是提高交互效率和自然性的有效途徑[1],對于解決該問題帶來了新的希望。
在傳統的人機交互方式下,用戶通過鼠標、鍵盤操作菜單來輸入具有精確含義的命令或指令,系統完成指定的運算任務后,移動設備上的小型液晶屏將結果顯示給用戶。目前最為常用的人機交互方式是WIMP(windows, icons, menus and pointing device)界面模式,即圖形窗口、位圖圖標、菜單風格和指示設備方式[2]。在使用移動設備時,因為鍵盤小,眼和手十分勞累,造成交互效率不高。與之不同的多通道交互模式模擬人們之間的通信方式,利用觸覺、聽覺、視覺等一個以上的感覺和運動通道的信息互補特性來全面捕捉用戶的意向,并對各個通道的信息進行融合,得到用戶真正所需要輸入的具體語義。通過多通道來實現自然的人機交互,提高人機通信的效率。
多通道系統能夠并行處理兩個或兩個以上通道的用戶輸入信息,它相對于WIMP模式的信息更加自然語言化,在實現和處理上也更加復雜。多通道交互模式系統實現難度大、開發周期長。雖然在桌面計算機系統中多通道交互已經比較成熟,但是在手持移動設備上的運用并不多見。為此,本文提出了用于手持移動設備的通用多通道開發框架,并通過舉例一種多通道的家電開關控制系統來論述具體的實現方法。
1歷史和發展
多通道交互誕生于20世紀80年代,第一個系統叫做put that there,通過計算機演示了一個能夠并行處理語音命令和觸摸屏指令的多通道系統。從此,支持多通道交互模式的各種運行于桌面計算機系統的應用不斷出現[3]。隨著移動計算技術和移動通信技術的發展,手機、PDA和掌上電腦的移動處理器的運算能力越來越強、速度越來越快,最新的計算機識別技術在手持移動設備上也得到了運用,這就使得手持設備的多通道交互成為可能。目前可以見到的有多通道地理信息系統、多通道交互游戲等少量的應用??梢灶A見,多通道交互模式將發展為一種重要的人機交互方式。
2通用開發框架
作為手持移動設備的多通道交互系統應該具備兩個或兩個以上的交互接口,常見的有鍵盤、麥克、手寫筆和觸摸屏幕等。在設計開發上簡單的方法是結合應用程序的需求來考慮交互方式,然后對所需的交互方式進行有針對性的開發。這種實現方法僅僅考慮到了為單一的應用開發多通道交互方式,而不具備擴展性和通用性。當多個應用都需要采用多通道交互模式時,開發效率會比較低下,很難做到底層代碼的共用和復用,開發成本較高[4]。
為了能夠高效地開發出運行于手持設備的多通道應用,參考W3C提出的多通道軟件框架[5]。本文實現了一種適用于手持設備的多通道開發框架,如圖1所示。該多通道交互開發框架具有通用性和擴展性,使用它不但能夠快速開發多通道交互的應用,而且對于已經存在的應用程序來說,只需很少的改動就能轉換為多通道交互的應用。
2.1輸入識別
框架中雖然只列舉了目前移動手持設備中最為常用的三種輸入方式,但是其他沒有列出的輸入方式也能支持。手寫觸摸屏輸入方式用于實現點擊、圈選等筆手勢信息的輸入;麥克是用做語音信息的輸入設備;另外就是通用的鍵盤設備。所有輸入設備的輸入信息均會被傳遞到專門的解析引擎進行信息處理。輸入引擎所需要完成的功能有:信息識別和信息表示,如手寫輸入引擎要能夠識別信息的種類,對其進行分類處理。例如,手寫信息可分為文本輸入、圖形、特殊符號和筆手勢命令等;而對于通過麥克輸入的語音信息,需要利用語音識別引擎將語音信號轉換為符號表示。一般說來移動設備可以采用集成式語音識別方案,也可以采用分布式語音識別方案。集成式語音識別方案通常是由前端設備中的識別引擎直接完成語音的識別工作;分布式語音識別方案需要將輸入語音分段、壓縮或作簡單處理,再通過網絡傳遞給后臺的服務器,由服務器來完成識別工作,最后將識別結果傳回前端設備。
2.2信息表示
經過識別處理后的信息將作為下一級處理模塊的輸入信息。在本框架中,識別引擎模塊還含有EMMA信息格式轉換功能,能夠將識別后的信息轉換為EMMA格式表示出來。EMMA是由國際互聯網聯盟(W3C)定義的擴展XML的多通道接口語言。 2002 年W3C 的多通道交互工作組提出了一類支持移動設備多通道交互的協議標準,全稱是擴展多通道腳本語言(extensible multimodal annotation markup language)[6]。這種語言能夠用來表示來自不同輸入通道的被識別后的信息,也能夠描述語義融合后的綜合信息。使用該規范,框架中不同模塊之間可以實現信息的交換。
2.3信息融合
多通道信息融合包括交互設備、交互方式的交融以及多個通道在意義上的傳達和協作。只有通過多個通道的協作,多通道的優勢才能得到充分的體現[7]。具體實現時,經過識別后的信息雖然已經被表示為EMMA格式,但是其具體的語義解釋還沒有確定,可能具有多種解釋含義。而多通道融合算法可以將來自各通道的信息進行語義融合,消除歧義,得到具體的有惟一語義描述的信息。融合原理是根據各通道信息的時間相關性和語義相關性。首先,各通道的輸入信息均帶有時間戳,融合器能夠根據時間戳來對輸入的信息進行時間關聯判斷。如果前后兩條信息的時間間隔超過某一要求,那么這兩條信息將不進行融合處理,而被視做前后兩個事件。對于在合理時間間隔內的信息,將進行語義關系的融合。
基于圖2的多通道融合語義樹,融合過程就是對這棵樹的節點遍歷和匹配過程。當收到來自多個通道的多條信息時,融合器會對比輸入的信息和語義樹的最底層所有子節點的預置信息,直到發現信息相吻合的節點,這些節點稱為匹配節點。在所有匹配節點中,如果某個事件(event)節點的所有子分支都有匹配節點,這些信息會被融合,融合后產生惟一的一個事件描述信息。圖2中event1的語法結構被假設為動賓形式,因此體現為該節點下有兩個分支。
2.4信息解釋
多通道交互設備與上層應用程序之間是通過一個解釋器來實現EMMA語言的解釋和應用程序事件的生成。它是一個中間層,與應用程序之間的關系比較密切,受應用程序的影響較大。起到交互框架與應用層之間的橋梁作用,應用程序的事件生成也是由該模塊來完成的。
3實例分析
根據以上論述的通用多通道交互開發框架原理,舉例討論如何實現一種多通道家電開關控制系統(home appliances switch,HAS)。該系統設計運行于安裝有Microsoft Windows Mobile的智能移動設備上,可以是手機或掌上電腦。應用程序的開發采用Microsoft embedded visual tools, 硬件要求具有手寫筆和語音識別設備,支持WLAN或GSM/GPRS無線傳輸協議[8]。程序的主要功能是遠程控制家居或公寓的家用電器設備,在人機交互上主要采用筆式觸摸屏幕和語音等多通道交互方式。家居管理員可以通過移動手持設備遠程監視和控制各個房間的電器設備的開閉狀態[8]。交互模式主要有設置電器、設置房間、多通道控制電器開閉、語音控制電器開閉等。
3.1交互模式
如圖3所示,本系統主要支持手寫筆和語音命令同步的多通道交互模式。開發方面,首先在PC上搭建該應用程序的一個原型,然后評估該原型,最后移植到移動設備上運行。手寫輸入是采用WCOM觸摸屏;語音輸入,開發階段采用了IBM的語音識別引擎,這是一種集成式的語音識別引擎,所有的識別處理在識別引擎模塊中完成。在HAS系統的人機交互模型中,筆既可以作為指點和選擇工具,也可以作為手寫輸入的介質,而指點和選擇可以視為一種手勢交互,如通過圈選來批量選擇設備;用戶可以單獨地或交替地使用各個輸入通道,同時用戶也可以并發地使用所有的輸入通道來進行信息的輸入[9]。
如表1所示,為了說明HAS系統中的多通道交互模式,筆者將系統中的幾個具有代表性的多通道任務列舉出來進行交互設計說明。
任務“布置一個電器設備”,就是在當前圖形界面上的指定地方放置某一個特定的電器設備,并獲得該設備的狀態。該任務由語音命令和觸摸屏上點擊的位置信息組成。任務“設置電器所屬房間”是指將某一個未知房間的電器選中,并設置該電器所屬的房間。任務“打開電器”是指將某一個指定的電器打開,即語音命令信息和用戶在觸摸屏上的圈選區域信息組成,也可以是完全語音的單通道輸入方式來實現。表1中還針對來自各個通道的信息,采用EMMA片段(擴展XML語言)的形式來進行表述和說明。
從表1的任務交互分析中可以看出,語音是HAS系統的一個重要通道,很多重要的交互任務都是通過語音完成。HAS系統在支持多通道同步交互模式的同時也保留了傳統的單通道交互模式。交互設計的要點就是對應用系統中的所有任務分別進行信息交互分析,找出可能存在的交互方式;分析具體交互的信息的表示方法。
3.2多通道融合
在HAS系統中涉及到的融合信息通道有兩個,即手寫觸摸通道和語音通道。融合器的核心是針對應用程序來設計的融合語義樹及融合算法。圖4定義了該應用的多通道融合語義樹。下面就以任務“打開電器設備”為例說明該應用的融合語義樹的設計和使用方法。融合語義樹的第二層為該應用的任務節點層,打開電器設備對應節點 open device。該任務由兩個語素構成,動詞“打開”和賓語“設備名稱”,這兩個語素有可能來源于語音通道也有可能來源于手寫通道。當這兩個任務節點的兩個分支都有匹配的輸入信息時,該任務被融合。例如,用戶將一群設備用手寫筆圈住同時發出語音命令turn on,實際處理時根據語音識別結果,open分支中的turn on節點被匹配成功,同時根據手寫筆的圈選結果,device分支中的type=circle節點被匹配成功。兩者被融合,產生的融合信息用EMMA片段表示如下:
〈event〉
〈name = \"open_the selected device\"〉
〈command〉
〈 switch_on〉
〈area>(x1,y),(x2,y2),(x3,y3),…
〈/area〉
〈/switch_on〉
〈/command 〉
〈/event〉
根據語義匹配的原理和路徑回溯方法,當應用中的交互信息和底層節點相匹配時,能夠實現如下功能:
a)回溯找到對應的任務,從而解析出用戶輸入的意圖。
b)任務節點將來自各通道的信息進行消除岐義處理,從而實現輸入信息的融合。
4結束語
本文重點討論了手持移動設備中多通道交互應用的通用開發框架模型,并結合HAS分析了在實際開發過程中有關交互模式和信息融合方面應該考慮的要點問題。下一步工作就是繼續完善和優化框架,使之與更多的應用相結合;將更多應用改造為多通道交互模式,并對多通道交互的方便性和效率進行評估。相信多通道用戶界面將發展成為移動手持設備中的一種重要的交互方式。
參考文獻:
[1]DONG Shihai, WANG Jian,DAI Guozhong. Humancomputer interaction and multimodal user interface[M].Beijing:Science Press,1999.
[2]TAYLOR A G. WIMP interfaces[EB/OL]. http://www.cc.gatech.edu/classes/cs6751_97_winter/Topics/dialogwimp/.
[3]OVIATT S,COHEN P,WU L Z,et al.Designing the user interface for multimodal speech and gesture applications: stateoftheart systems and research directions for 2000 and beyond[C]//CARROLL J,et al. Humancomputer interaction in the new millennium. Boston: AddisonWesley, 2000:263-332.
[4]FLIPPO F, KREBS A, MARSIC I. A framework for rapid development of multimodal interfaces[C].Proc of the 5th Int’l Conf on Multimodal Interface. New York:ACM Press, 2003:109-116.
[5]Speech technology magazine[EB/OL].(2003-11-12).[2006-04-23].http://www.speechtechmag.com/issues/8_6/technology_trends/.
[6]W3C.EMMA: extensible multimodal annotation markup language[EB/OL].http://www.w3.org/TR/emma/.
[7]LI Jie, TIAN Feng, WANG Weixin, et al. A multimodal interaction system for children[J].Journal of Software,2002,13(9):1846-1851.
[8]PLOMP J. UIML in future home environments[C]//Proc of the Aristote European Conference:UIML, a User Interface Markup Language. Paris:[s.n.], 2001:8-9.
[9]WANG Yue,YUE Weining,WANG Heng, et al. Multimodal interaction in handheld mobile computing[J].Journal of Software, 2005,16(1):29-36.
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”