孫偉博 張斌
【摘要】 ? ?人與計算機的交互系統(tǒng)是將機器視為認知對象的人與計算機的交互系統(tǒng)。電腦軟件、硬件技術(shù)和移動互聯(lián)網(wǎng)的高速發(fā)展,人類和機器之間的認知對話系統(tǒng)能夠有效地處理不準確的信息互動,并符合人類互動的自然習慣,得到了越來越多的關(guān)注。本文提出將人與機器之間的認知對話分為三個層次:物理層、管理層和應(yīng)用層。相關(guān)技術(shù)包括通道技術(shù)、認知技術(shù)和知識管理技術(shù)。在其中,認知技術(shù)是一種新的交互式中間軟件技術(shù),是由于移動實時交互的新需求而產(chǎn)生的。它的目標是提供人類認知交互的特征,這些認知互動可以與另一方進行深刻的理解、學習、誘導(dǎo)和適應(yīng),其中大部分包括信息不準確的理解技術(shù)、基于不確定性的推理技術(shù)、適應(yīng)和進化技術(shù),這篇文章詳細介紹了人類機器對話系統(tǒng)中認知技術(shù)的定置和具體概念,總結(jié)了相關(guān)技術(shù)領(lǐng)域的進展,并考慮了未來的關(guān)鍵研究方向。
【關(guān)鍵詞】 ? ?人機交互 ? ?認知技術(shù)范疇 ? ?對話系統(tǒng) ? ?認知控制
引言
人與計算機相互交互(HCI,人機交互)是一種技術(shù),研究自計算機出現(xiàn)以來人類和計算機設(shè)備之間的相互作用。它的目標是讓機器幫助人們高效、舒適和安全地完成任務(wù)。人類和計算機之間的互動是一種基本技術(shù),它對信息時代的生產(chǎn)和生活產(chǎn)生了巨大的影響。美國在2000年實施的信息技術(shù)研究預(yù)算中,包括了“人機互動”、“軟件”、“網(wǎng)絡(luò)”和“人工計算”在內(nèi)的四項核心研究[1]。Dialogue(對話)系統(tǒng)是人機交互技術(shù)的主要領(lǐng)域之一。, 這是一種計算機軟件和硬件系統(tǒng),人類和機器之間的相互信息交換可以滿足人類的一些特殊和內(nèi)在需求。大致來說, 交互系統(tǒng)包括圖形用戶界面(GUI)、虛擬現(xiàn)實交互等,所有人機交互系統(tǒng)。從狹義上講,對話系統(tǒng)尤其適用于執(zhí)行類似人類的通信任務(wù)的計算機系統(tǒng)。它的目的是使人與機器之間的對話像人與人之間的對話一樣有效、快速和自然。這種交互式系統(tǒng)強調(diào)機器在執(zhí)行任務(wù)、信息共享和環(huán)境感知方面的擬人化特征,并將其視為雙邊信息互動中的“認知對象”, 因此,“認知能力和相關(guān)技術(shù)”是這些系統(tǒng)的核心功能和特性。這篇文章討論了人類機器狹小對話系統(tǒng)中的認知技術(shù)。
一、基于任務(wù)型人機對話系統(tǒng)中的認知技術(shù)
從本體結(jié)構(gòu)和業(yè)務(wù)邏輯的角度來看,對話系統(tǒng)可以分為領(lǐng)域任務(wù)類型和開放類型的信息互動。領(lǐng)域任務(wù)型系統(tǒng)針對特定領(lǐng)域的應(yīng)用程序,明確定義業(yè)務(wù)語義單位、本體結(jié)構(gòu)和目標用戶范疇,如查詢航班、視頻搜索、設(shè)備管理等。此類交互通常以特定的業(yè)務(wù)任務(wù)的執(zhí)行為基礎(chǔ)。公開信息的交互不是針對某個領(lǐng)域或一個非常大的領(lǐng)域。交互目的不是商業(yè)目標,而是滿足用戶在其他方面的需求,例如,開放的問答解惑、聊天等,即便在某種程度上可以發(fā)揮人工智能的作用,但是因為它不致力于幫助人們解決真正的現(xiàn)實問題,它的實際范圍相對較小[2]。近年來移動終端的飛速發(fā)展使得人們越來越關(guān)注人和機器之間自然對話系統(tǒng)以及由此在學術(shù)和商業(yè)領(lǐng)域所產(chǎn)生的認知控制理論。這就是文章的重點。
1.1任務(wù)型對話系統(tǒng)認知技術(shù)范疇
現(xiàn)代的人機交互系統(tǒng)需要“控制層”,它將信道編碼和服務(wù)器部分的知識連接起來,起到管理和協(xié)調(diào)前端和后臺的作用。“控制層”的主要功能包括:從輸入代碼理解用戶的初衷,管理并控制對話框(對話框管理),并將初衷轉(zhuǎn)換為輸出代碼(信息生成)。是在傳統(tǒng)的人體與電腦的機械系統(tǒng)中,可以忽略控制層,因為用戶的意圖是由輸入工具精確定義的[4]。例如,當與圖形用戶界面交互時,點擊鼠標打開或關(guān)閉窗口,內(nèi)部的知識管理會直接導(dǎo)入。但是,在自然的人與機器的對話系統(tǒng)中,因為機器需要能夠與人有效對話的認知主體,所以控制層是一個獨立的不可缺少的模塊,與此模塊相關(guān)的技術(shù):“認知技術(shù)”[5]。認知技術(shù)的類別主要包括以下類別:
(1)非精確條件下的理解
不確定性(或不精確)是人機對話渠道的重要特征之一。語音識別本身有不可避免的錯誤,因為噪音干擾,對話人的口音說話速度等等。當出現(xiàn)多通道時,每一條通道都會受到干擾和不確定。在IO層中的編碼錯誤被傳送到語義分析級別,導(dǎo)致語義分析的不確定性[3]。另一方面,從認知的角度來看,人們用模糊的信息進行溝通很容易,因為這分發(fā)信息的速度大大增加了。信息傳輸和對話意圖不確定性,機器理解用戶的意圖已成為重要的認知技術(shù)類別之一[6]。與傳統(tǒng)的“語義理解”和“自然語言處理”不同的根本區(qū)別在于,不確定性屬于了研究領(lǐng)域。
(2)基于不確定性的推理及決策控制
人機對話系統(tǒng)的重要功能是有效的多回合互動。根據(jù)系統(tǒng)的運行狀態(tài)并執(zhí)行特定的任務(wù),如果理解用戶的意圖,特別是不確定的意圖理解、推理、決策反饋方法和反饋信息的情況下, 選擇反饋方法和反饋內(nèi)容最有助于完成任務(wù),這是認知技術(shù)另一個重要方面。交互戰(zhàn)略的核心是人機對話的閉環(huán)控制技術(shù),由此賦予機器“推論和決策”的認知主觀特性。
(3)交互自適應(yīng)及進化
學習和適應(yīng)能力是認知對象的另一個重要特征。機器適應(yīng)用戶輸入和輸出通道和控制層的適用技術(shù)是認知技術(shù)的第三類。在對話過程中,它不僅包括對用戶輸入和輸出特性的低級別適應(yīng),還包括對用戶行為的適應(yīng)和互動的規(guī)律習慣的適應(yīng)[4]。另一方面,認知控制技術(shù)除短期調(diào)整外還包括長期“進化”系統(tǒng)、用于研究新知識(語義元素等)和長期人類交互模式
1.2任務(wù)型對話系統(tǒng)的認知自然度
“自然交互”是任務(wù)型對話系統(tǒng)的目標,也是認知技術(shù)合理使用的結(jié)果。除了前述的自然語義交互方面的內(nèi)容之外,任務(wù)型對話系統(tǒng)對其它方面的自然度要求也成為新的挑戰(zhàn)。情緒的檢測和傳達是人類自然交互中不可或缺的一環(huán)。情感計算已經(jīng)發(fā)展多年,在情感分類和特征建模、情感識別、情感表達等方面都有了較大進展,將情感分析應(yīng)用于任務(wù)型對話系統(tǒng)也得到了產(chǎn)業(yè)界的重視,呼叫中心中利用情感分析來獲取用戶滿意度也得到了應(yīng)用。未來研究中,如何將情緒等非語義的自然交互信息全面引入任務(wù)型對話系統(tǒng),是一個重要方向。這其中需要具體解決的重要問題包括:面向交互任務(wù)的情感、情境的量化分析感知及信息融合;情感的表達模型和高表現(xiàn)力的情感合成(主要是語音和圖像);引人情感因素的對話狀態(tài)空間定義及強化學習算法等。情感計算中的情感維度空間模型等提供了將情感特征量化的良好手段,將利于將情感信息引入POMDP框架。而在多模態(tài)交互條件下,結(jié)合文本、視頻、音頻進行聯(lián)合的情感分析將是未來實現(xiàn)情感計算與任務(wù)型對話系統(tǒng)結(jié)合的重要方法。目前在國內(nèi)外所有任務(wù)型對話系統(tǒng)研究中,都有一個最基本的假設(shè):人機交互的一個輪回必須是一個“句子”。但這種一問一答的方式與實際人類自由對話的方式相去甚遠。很多心理學文獻都明確指出人類的交互是漸進性的。而且以整旬為處理單位會使整個人機對話的時間變長,變得不自然,也會影響用戶,使他們對目標的注意力下降。更重要的是,以前的研究全部把輪回檢測看成與對話管理無關(guān)的獨立任務(wù),并沒有嘗試去研究輪回檢測對整體任務(wù)型對話系統(tǒng)的性能影響。尤其在較大尺度和真實環(huán)境的任務(wù)型對話系統(tǒng)中,往往不是由于機器聽不懂用戶或者不知道如何反饋導(dǎo)致了對話失敗,而失敗往往來源于機器不知道何時對用戶反饋或者用戶不知道什么時候該對機器說話[5]。
這個現(xiàn)象意味著目前的任務(wù)型對話系統(tǒng)研究只關(guān)注“反饋什么”,卻缺失了另一個重要的交互研究課題:“何時反饋”,因此,基于自然輪回的任務(wù)型對話系統(tǒng)是認知技術(shù)未來研究的另一個重要課題。對此,一種可行的思路應(yīng)是在對話管理器之外,引入新的“輪回管理器”,獨立地對輪回和時序問題進行研究。
1.3大規(guī)模真實世界任務(wù)型對話系統(tǒng)
雖然任務(wù)型對話系統(tǒng)已經(jīng)在若干真實世界系統(tǒng)中得到過實現(xiàn),但其系統(tǒng)都還是小規(guī)模或非真實的系統(tǒng).例如卡內(nèi)基梅隆大學的Spoken Dialogue Challenge中的公交信息查詢系統(tǒng)雖然是在匹茲堡市運行的真實系統(tǒng),但其處理的任務(wù)僅僅是公交車的站點和時間信息,任務(wù)規(guī)模很小;而歐盟CLASSIC項目中的餐館查詢系統(tǒng)雖然涉及的數(shù)據(jù)信息較多任務(wù)規(guī)模較大,但相關(guān)系統(tǒng)的運行還是基于招募的測試者而非真實的用戶,這也使得對話策略的訓練和任務(wù)型對話系統(tǒng)的評估都受到了影響.認知技術(shù)至今仍然還沒有在大數(shù)據(jù)真實條件下得到完整的實踐驗證[6]。因此,在已有研究的基礎(chǔ)上,面向真實世界的大規(guī)模任務(wù)搭建并運行完整的任務(wù)型對話系統(tǒng),并與傳統(tǒng)的機械式任務(wù)型對話系統(tǒng)對比是認知技術(shù)的實驗方向,也是應(yīng)對前述各種挑戰(zhàn)的必要的實測平臺。
二、總結(jié)
任務(wù)型人機任務(wù)型對話系統(tǒng)是人機對話領(lǐng)域的熱門研究課題之一,鑒于任務(wù)型人機任務(wù)型對話系統(tǒng)在不同領(lǐng)域都存在著廣泛的應(yīng)用價值,為了有效降低任務(wù)型人機任務(wù)型對話系統(tǒng)的開發(fā)周期和研發(fā)成本,提升任務(wù)型人機任務(wù)型對話系統(tǒng)開發(fā)的便利性,本文目標是認識了解任務(wù)型對話系統(tǒng)中的認知技術(shù)。
參 ?考 ?文 ?獻
[1]黃寅.任務(wù)型人機對話系統(tǒng)開發(fā)平臺研究[J].信息與電腦(理論版),2020,32(06):115-117.
[2]趙陽洋,王振宇,王佩,楊添,張睿,尹凱.任務(wù)型對話系統(tǒng)研究綜述[J].計算機學報,2020,43(10):1862-1896.
[3]齊玉碧. 任務(wù)型人機對話系統(tǒng)開發(fā)平臺的設(shè)計與實現(xiàn)[D].北京郵電大學,2019.
[4]陳健鵬,馬建輝,王怡君.基于多輪交互的人機對話系統(tǒng)綜述[J].南京信息工程大學學報(自然科學版),2019,11(03):256-268.
[5]孟張圓. 任務(wù)型人機對話系統(tǒng)的研究與實現(xiàn)[D].上海交通大學,2019.
[6]姜衡軍. 端到端人機口語對話系統(tǒng)設(shè)計與實現(xiàn)[D].北京郵電大學,2018.