999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聊天機器人的分類標準和評估標準綜述

2021-04-06 04:04:19王艷秋管浩言張彤
軟件工程 2021年2期

王艷秋 管浩言 張彤

摘? 要:近年來,人工智能和大數(shù)據(jù)技術(shù)的發(fā)展極大地推動了聊天機器人產(chǎn)業(yè)的發(fā)展。如今,聊天機器人種類眾多,但質(zhì)量參差不齊,對其進行評估成為當下的重要問題之一。本文首先通過功能和技術(shù)實現(xiàn)方式方面的分析,對當前的聊天機器人進行了歸納分類。然后從多方面對聊天機器人的評估方式進行了系統(tǒng)的整理與總結(jié),并詳細介紹分析了其中各種評估指標。最后探討了當前聊天機器人的研究難點與評估難點,并在此基礎(chǔ)上對聊天機器人未來的研究發(fā)展方向進行了展望。

關(guān)鍵詞:聊天機器人;分類標準;評估標準

Abstract: In recent years, the development of artificial intelligence and big data technology has greatly promoted chatbot industry. Currently, there are many types of chatbots, but the quality is uneven, and the evaluation criteria are becoming an important issue. This paper first summarizes and categorizes the current chatbots technology based on their functions and technical implementation methods. Then, it systematically proposes an evaluation approach for chatbots quality via different aspects, and introduces various evaluation indicators in detail. Finally, current research issues and evaluation difficulties of chatbots are discussed, and on this basis, future research and development directions of chatbots are prospected.

Keywords: chatbot; classification criteria; evaluation criteria

1? ?引言(Introduction)

隨著人工智能和大數(shù)據(jù)技術(shù)的發(fā)展,聊天機器人已經(jīng)不再是個新鮮的詞匯,并且早已慢慢滲入人們的日常生活中,如蘋果的Siri、阿里巴巴的阿里小蜜、百度的小度、微軟的Cortana和小冰、亞馬孫的Alexa、IBM的Watson等。這些聊天機器人應用于不同場景,有著不同的定位與功能,但其中都使用了自然語言處理(Natural Language Processing,NLP)相關(guān)技術(shù),使機器人能夠使用文本或語音與人類進行對話。如今的聊天機器人并不完善,時常會出現(xiàn)答非所問、語句不通順等問題,因此聊天機器人需要能夠反映其真實智能水平的評估標準來促進其優(yōu)化改進。本文針對不同功能與技術(shù)實現(xiàn)方式對聊天機器人進行了分類,同時對現(xiàn)有的所有聊天機器人評價指標進行了分析、分類與總結(jié),并指出了當下聊天機器人發(fā)展的困境以及未來的發(fā)展方向。

2? ?聊天機器人分類(Chatbot taxonomy)

2.1? ?任務(wù)導向型與閑聊型

根據(jù)功能的不同,可分為任務(wù)導向型聊天機器人和閑聊型聊天機器人。任務(wù)導向型聊天機器人是指以任務(wù)驅(qū)動來完成多輪對話的對話系統(tǒng),通常針對封閉專業(yè)領(lǐng)域知識,機器人需要在對話過程中理解、澄清并生成對話,其構(gòu)建方式主要為Pipeline和End-to-end。Pipeline的構(gòu)建采用模塊化結(jié)構(gòu),包含四個主要模塊:自然語言理解(Natural Language Understanding,NLU)、對話狀態(tài)追蹤(Dialogue State Tracking,DST)、對話策略學習(Dialogue Policy Learning,DPL)、自然語言生成(Natural Language Generation,NLG)。這種構(gòu)建方式容易實現(xiàn),可解釋性強,但模塊之間誤差會逐層積累,又因各模塊之間相互獨立導致無法聯(lián)合調(diào)優(yōu)。End-to-end即基于深度學習的端到端系統(tǒng),使用大量標注數(shù)據(jù)進行訓練得到一個深度學習模型,用戶從輸入端輸入語句便可從輸出端得到相應回復。這種方法可擴展性強,但需要大量且高質(zhì)量的標注數(shù)據(jù),目前仍處于探索階段。閑聊型聊天機器人主要與用戶進行面向開放域的閑聊,目標是與用戶進行有意義的自然多輪對話。相比于任務(wù)導向型聊天機器人,閑聊型聊天機器人涉及的領(lǐng)域范圍更大,用戶意圖更模糊難識別,因此要求更高,實現(xiàn)更難。

2.2? ?檢索式與生成式

聊天機器人需要對用戶的輸入做出自然的語言回復,這涉及自然語言生成技術(shù)。根據(jù)對話生成的不同技術(shù),可將聊天機器人分為檢索式與生成式兩種[1]。檢索式模型基于現(xiàn)成的數(shù)據(jù)庫進行基于規(guī)則的模式匹配,或應用較為復雜的深度學習算法進行模式匹配,但并不生成全新的回復。因此檢索式模型產(chǎn)生的回復具有流暢自然、信息量豐富的優(yōu)點,但同時也具有無法進行上下文關(guān)聯(lián)的不足[2]。最早出現(xiàn)的模擬心理醫(yī)生的聊天機器人ELIZA便是完全基于規(guī)則手工建立的,雖然能夠生成較好的回復,但構(gòu)建過程過于煩瑣,耗費了大量人力。生成式模型則會產(chǎn)生全新的語句回復,通過將大量人類真實語料輸入深度學習模型中進行特征提取與特征學習,再使用模型對用戶的輸入做出回復。生成式模型會有記憶功能,即可利用歷史對話信息形成對話的上下文關(guān)聯(lián),但生成的回復可能會有不符合語法規(guī)則、語句不通順、逃避復雜問題進行無意義回復等情況出現(xiàn)。目前生成效果較好的模型有微軟DialoGPT、谷歌Meena、Facebook Blender、百度PLATO & PLATO-2等,這些均使用了超大規(guī)模文本數(shù)據(jù)進行模型訓練,模型參數(shù)都在億量級。

3? ?評價指標分類(Evaluation index taxonomy)

聊天機器人評價通常是指對機器人對話回復質(zhì)量的評估,但也有聊天機器人能夠識別用戶發(fā)出的圖片并進行回復與評論,這時則涉及圖像描述生成的相關(guān)評估。此外,對于一些產(chǎn)品化的任務(wù)導向型聊天機器人,也需要進行一些產(chǎn)品層面的評估。本文分別對這幾類聊天機器人的評價指標進行了總結(jié),圖1是所有評價指標的分類圖。下文將對所有評價指標進行詳細介紹。

3.1? ?對話評估

3.1.1? ?人工評價

人工評價是目前最準確、最有效地對話質(zhì)量評價指標,但存在耗費人力、耗時長的問題,主要包含成對對比和李克特量表評價兩種評價方式。

成對對比:即對兩個系統(tǒng)產(chǎn)生的回復就不同的側(cè)重點進行人工評價,如圖2所示的ACUTE-EVAL評估界面,它要求人們比較兩個多輪對話,在對話1(淺藍色)和對話2(深藍色)之間進行選擇。同樣還有基于單輪對話的成對對比評估。

李克特量表:在聊天機器人的人工評價中,李克特量表指的是李克特量表形式的人工評分,評分可設(shè)置為3、5、7等級,如對聊天機器人的回復是否連貫進行5等級評分,將分數(shù)范圍設(shè)置為[0,1,2,3,4],再由人工針對回復的連貫性在分數(shù)范圍內(nèi)選擇合適的分數(shù)進行評價。可以針對對話質(zhì)量的多方面進行評價,如對話的信息量(Informativeness)、連貫性(Coherence)、新穎性(Engagingness)、人性(Humanness)等。還有一種谷歌在其Meena聊天機器人中提出的評價指標SSA(Sensibleness and Specificity Average),指的是敏感性和特異性平均值。特異性表示是否是針對上句對話的特定的具體的回答,敏感性表示聊天機器人的對話是否有意義。單純以敏感性作為唯一指標,會導致回答趨向模糊無聊的安全回答,因此將敏感性與特異性結(jié)合來進行綜合評價更能體現(xiàn)回復的質(zhì)量。實驗顯示,SSA與自動評價指標困惑度成正相關(guān)關(guān)系。

盡管人們一直在探索能夠代替人工評價的自動評價方法,但至今沒有自動評價方法能夠代替人工評價,人工評價仍是所有聊天機器人都必須進行的評價。人工評價盡管必不可少,但也有一些弊端,例如不同模型的評價者背景條件、人群規(guī)模往往不盡相同,在不同模型之間很難做到完全客觀的對比評價。

3.1.2? ?自動評價

自動評價可以分為兩部分:一部分不需要參考回復即可進行評價,其中包含針對檢索式模型和生成式模型的評價指標;另一部分是需要參考回復的評價指標,且基本都是針對生成式模型所生成對話的質(zhì)量的評價。而根據(jù)評價原理又可分為基于詞重疊、基于詞向量以及基于深度學習的各種評價指標。

(1)不需要參考回復——檢索式模型

檢索式聊天機器人的關(guān)鍵點在于匹配答案時候選回復的排列順序,所以其評價指標一般使用傳統(tǒng)信息檢索系統(tǒng)常用的評價指標。

召回率(Recall):又稱查全率,指檢索出的相關(guān)回復占所有相關(guān)回復總數(shù)的比例,表示是否查全。

準確率(Precision):又稱查準率,指檢索出的相關(guān)回復占所有檢索出的回復總數(shù)的比例,表示是否查準。

F值(F-measure):指召回率和準確率的調(diào)和平均值,它綜合了兩者的評價效果。

平均準確率均值(Mean Average Precision,MAP):平均準確率(Average Precision,AP)將準確率與候選回復的排列順序相結(jié)合,如公式(3)所示,其中i指第i個候選回復;s表示第i個回復的位置,指的是一個查詢中檢索出的相關(guān)回復的P@K的平均值。MAP則是對所有查詢的平均準確率再求均值,其值越高說明檢索出的相關(guān)回復排列順序越靠前。

(2)不需要參考回復——生成式模型

生成式模型主要評價的是生成回復的質(zhì)量,其評價一方面聚焦于回復本身的信息量和生成概率,另一方面則由用戶與其交互的時間來側(cè)面反映。

熵(Entropy):指的是回復中N-gram包含的信息量,用來衡量回復多樣性[4]。

困惑度(Perplexity):語言模型的標準度量指標[5],可用來評價對話模型中回復的生成質(zhì)量,一定程度上可體現(xiàn)多樣性,是目前常用的聊天機器人回復質(zhì)量評價指標。語言模型實際上是計算語句概率的模型,概率值越高,語言模型越好,困惑度越小。

平均長度(Average Length):指的是生成回復的平均長度,普遍認為生成長句子的對話生成模型相對質(zhì)量更高。

單次平均對話輪數(shù)(Conversation-turns Per Session,CPS):指的是聊天機器人和用戶之間的每次對話中所含對話輪數(shù)的平均值[7]。一般用來對閑聊型聊天機器人進行評價,CPS越大,說明聊天機器人的社交參與程度越高。

對話時間:指用戶與聊天機器人的對話所持續(xù)的時間。

(3)需要參考回復——基于詞重疊

基于詞語重疊的評價方法需要有參考回復,主要是根據(jù)參考回復與生成回復之間詞語的重疊程度來進行度量。

BLEU:全稱為BiLingual Evaluation Understudy[8],最早用于機器翻譯任務(wù),評價前提是需要語料庫中有高質(zhì)量的參考回復,核心思想是比較生成回復文本和參考回復文本中N-gram的重合程度,重合程度越高則認為文本質(zhì)量越高。N一般取1—4,然后進行加權(quán)平均,時用于衡量單詞翻譯的準確性,時用于衡量句子的流暢性。隨后優(yōu)化改進出了多種新的評價指標。雖然近年來BLEU被證明與人工判斷的相關(guān)性不高[9],但目前仍然是聊天機器人評估常用的指標。

NIST:全稱是National Institute of Standards and Technology[10],改進自BLEU方法,引入了每個N-gram的信息量的概念,定義見公式(7)。公式中分母表示N-gram在參考回復中出現(xiàn)的次數(shù),分子表示對應的(N-1)-gram在參考回復中出現(xiàn)的次數(shù),當時,分子取值為整個參考回復的長度。由此,將一些出現(xiàn)較少的重點詞的權(quán)重增大。

ROUGE:全稱是Recall-Oriented Understudy for Gisting Evaluation,改進自BLEU方法,不同于BLEU,它專注于衡量N-gram的召回率,而不是準確率。通常使用的有ROUGE-N[11]和ROUGE-L[12]。ROUGE-N通過統(tǒng)計參考回復中N-gram的個數(shù)與參考回復和生成回復中共有的N-gram個數(shù)來計算召回率。

METEOR:全稱為Metric for Evaluation of Translation with Explicit ORdering[13],該指標同時考慮了準確率和召回率,其中召回率的權(quán)重更高。將生成回復與參考回復之間的Uni-grams通過簡單的映射進行對齊,可進行詞干提取和精確的單詞匹配,從而計算得到特定的匹配關(guān)系,與人類判斷有較好的相關(guān)性。

(4)需要參考回復——基于詞向量

不同于基于詞重疊(即利用N-gram計算生成回復和參考回復之間的重合程度)的方式,基于詞向量的評價方式則是利用Word2Vec、Sent2Vec等方法把回復表示為句向量,再通過余弦相似性等方法計算生成回復與參考回復之間的相似程度。

貪婪匹配(Greedy Matching):本質(zhì)是計算兩個語句的相似性。該方法分別將生成回復和參考回復中的每個詞轉(zhuǎn)換為詞向量,然后對參考回復中每個詞向量,計算其在生成回復中與每個詞向量的余弦相似度,取最高的余弦相似度將其相加并求平均,最后再對生成回復進行相同流程的計算,取兩者平均值。

平均匹配(Embedding Average):使用句向量計算生成回復和參考回復的余弦相似度。句向量由語句中每個詞向量相加再取平均值得到。

向量極值(Vector Extrema):同樣基于句向量計算兩個語句的相似性,但句向量由詞向量每個維度中極值最大的一維構(gòu)成,然后再計算余弦相似度。這種方法可以忽略語句中的常見表達,保留特殊的重要語義詞語[14]。

(5)需要參考回復——基于深度學習

近幾年,深度學習快速發(fā)展,針對基于深度學習進行生成回復評價的研究也逐漸增多。以下是幾種典型的應用深度學習進行生成回復評價的方法。

ADEM:全稱為Automatic Dialogue Evaluation Model[15],即對話系統(tǒng)自動評價模型,它將對話系統(tǒng)的評價問題轉(zhuǎn)換為預測回復語句的人工評分問題,收集人類對對話語料進行評分的數(shù)據(jù)集,訓練使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)構(gòu)建自動評價模型。雖然文章指出這種方法效果要好于BLEU、ROUGE,但后續(xù)研究表明ADEM存在明顯的缺陷,其分配給各種回復的分值分布在范圍內(nèi),分辨力較低,無法為多個回復提供合適的評分,仍需要改進[16]。

RUBER:全稱為Referenced metric and Unreferenced metric Blended Evaluation Routine[17],是一種針對開放域?qū)υ捪到y(tǒng)的無監(jiān)督自動評估方法,不需要人工評分數(shù)據(jù)。其主要思想是將有參考回復評估和無參考回復評估以不同的策略結(jié)合起來以提高評估性能。有參考回復評估采用詞向量池化的方法,選擇詞向量每個維度的最大值和最小值來代表語句,然后計算余弦相似度;無參考回復評估通過訓練神經(jīng)網(wǎng)絡(luò)模型來衡量生成回復和對應查詢之間的匹配程度。實驗表明,RUBER可擴展到不同數(shù)據(jù)集中,且與人工評價具有一定的相關(guān)性。

GAN-based:生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)通常應用于圖像生成任務(wù)中,受其啟發(fā)產(chǎn)生了基于GAN結(jié)構(gòu)的對話系統(tǒng)評價模型,使用生成器生成回復,判別器區(qū)分生成回復和參考回復。

BERTScore:一種基于Bert的生成回復評估方法[18]。給定一個參考回復和生成回復,使用Bert來提取輸入每個單詞的上下文特征,表示為帶有上下文信息的詞向量,然后使用余弦相似度計算每兩個詞向量之間的匹配相似度。使用貪婪匹配來最大化匹配相似度得分,選擇性地使用逆文檔頻率分數(shù)對詞向量進行重要性加權(quán)。實驗表明,BERTScore取得了比一般指標更好的相關(guān)性,并且對于模型選擇有一定效果,但是沒有一種BERTScore配置明顯優(yōu)于其他所有配置。

3.2? ?圖像描述生成評估

人們在社交聊天中經(jīng)常會圍繞圖片展開交流和討論,圖片中所體現(xiàn)的事物、事件、氛圍或感情通常是人們討論的主要內(nèi)容。圖像描述生成技術(shù)便是為了能夠自動生成能真實全面地表現(xiàn)圖片中發(fā)生事件以及反映出的感情的描述,運用到的技術(shù)實際上是計算機視覺(Computer Vision,CV)和自然語言處理的結(jié)合,通過CV技術(shù)分析圖像內(nèi)容,利用NLP技術(shù)生成相對應的文字來描述圖像中明顯的特征。生成對話的評估方法大多數(shù)能直接用于圖像描述生成的評估,除此以外,CIDEr和SPICE是專門用于圖像描述生成的評估方式。

CIDEr:全稱是Consensus-based Image Description Evaluation[19],即基于共識的圖像描述評估。其主要思想是利用TF-IDF計算得到生成回復和參考回復的不同N-gram的權(quán)重,將在數(shù)據(jù)集中比較常見、包含較小信息量的N-gram權(quán)重調(diào)低,然后計算生成回復與參考回復的余弦相似度,再對每個N-gram的相似度加和求平均值,得到最終的CIDEr評估值。

SPICE:全稱是Semantic Propositional Image Caption Evaluation[20],即語義命題圖像描述評估。不同于CIDEr利用詞語重疊進行評估,SPICE通過建立場景圖(Scene Graphs)來對圖像描述中的對象、屬性和關(guān)系進行編碼。首先利用PCFG依賴解析器把要評估的圖像描述轉(zhuǎn)換為語法依賴樹;然后根據(jù)九種簡單的語言規(guī)則把生成的語法依賴樹映射到場景圖;再把場景圖中的語義關(guān)系看作對象、屬性和關(guān)系構(gòu)成的元組,計算生成回復和參考回復的元組之間的F值作為最終的SPICE評估值。

3.3? ?任務(wù)導向型評估

任務(wù)導向型聊天機器人通常應用于特定的情景和場所中,面向特定領(lǐng)域,主要是一些為用戶提供信息或任務(wù)導覽等服務(wù)來滿足用戶明確需求的機器人。目前這類機器人在訂餐、訂票、訂酒店、商品咨詢、業(yè)務(wù)辦理等方面應用較多。雖然任務(wù)導向型聊天機器人也可以用準確率、召回率等評價對話質(zhì)量的標準來評估,但更多地需要從整體來對產(chǎn)品進行評價。

任務(wù)成功率:指成功解決用戶問題的對話所占比例,如票務(wù)系統(tǒng)為用戶成功訂票次數(shù)占全部訂票需求數(shù)量的比例。

單次任務(wù)平均對話輪數(shù):與前文中的單次平均對話輪數(shù)(CPS)不同,任務(wù)導向型聊天機器人講求效率,需要在盡可能少的對話輪數(shù)內(nèi)解決問題,所以對話越簡潔、越明確,越能為用戶提供更好的服務(wù)。

用戶留存:好的產(chǎn)品需要不斷地迭代更新,與此同時,用戶往往是流動的。用戶留存率可以讓開發(fā)者更清晰地看到更新前后一段時間內(nèi)的用戶留存狀態(tài),從而對產(chǎn)品的優(yōu)化提供反饋。

用戶活躍度:用戶活躍度指的是頻繁使用產(chǎn)品的用戶所占比例,即會頻繁地使用任務(wù)導向型聊天機器人進行相關(guān)服務(wù)的用戶所占比例,用戶活躍度越高,側(cè)面說明機器人的任務(wù)完成得越好,越能滿足用戶要求。

4? 研究難點與未來發(fā)展方向(Research difficulties and future development direction)

4.1? ?研究難點

隨著近幾年相關(guān)技術(shù)的發(fā)展,尤其是深度學習的逐漸成熟,聊天機器人技術(shù)也在快速發(fā)展,但仍存在著諸多難點。

(1)對話技術(shù)依舊不成熟

目前在某些封閉域方面,聊天機器人可以很好地與用戶進行溝通,比如購票系統(tǒng)等。但當聊天范圍逐漸擴大到開放領(lǐng)域,即用戶希望與聊天機器人閑聊時,聊天機器人的回答就會變得粗糙。這就是目前技術(shù)的瓶頸,即如何讓聊天機器人在與用戶進行無特定范圍的開放域聊天時,能做出合理回復。聊天機器人需要數(shù)據(jù)集來反復訓練,一旦用戶期望的對話內(nèi)容沒有在訓練數(shù)據(jù)集中體現(xiàn),聊天機器人就無法給出合理的回答,然后給出“我不知道”等搪塞用戶的敷衍回答。

(2)人類和聊天機器人對話的心理問題

恐怖谷理論說明,當機器人的外貌和人類極其相似的時候,人類會對它產(chǎn)生非常強烈的厭惡情緒。在對話方面,人類也有類似心理,即當聊天機器人的回答內(nèi)容過于真實或表現(xiàn)出過于透徹的了解時,會使用戶產(chǎn)生隱私被窺視的感受,用戶可能會產(chǎn)生厭惡心理。這種現(xiàn)象是十分矛盾的,算法的設(shè)計需要聊天機器人的回答內(nèi)容趨向于真實自然,并且以對用戶信息的了解為基礎(chǔ)才能生成個性化對話內(nèi)容;但是表現(xiàn)得過于真實與了解就可能使用戶產(chǎn)生反感,甚至出現(xiàn)侵犯隱私問題。

(3)聊天機器人的個性選取

對于同一個問題,不同的人會有不同的回答,這取決于每個人的個性,聊天機器人也一樣。目前主流的聊天機器人個性設(shè)置都是溫柔、耐心等,但由于暴力、色情等不良內(nèi)容很容易出現(xiàn)在聊天機器人的訓練數(shù)據(jù)集中,導致聊天機器人的個性并不能完全被控制。另一方面,某些用戶在與聊天機器人對話的過程中可能表現(xiàn)出一些心理問題,聊天機器人如何疏導用戶,幫助其調(diào)整心態(tài),而不是加重其心理問題是目前技術(shù)暫時無法突破的難點。

(4)聊天機器人所需計算資源較大

深度學習讓聊天機器人的魯棒性有了很大的飛躍,但同時也帶來了巨大的計算資源的需求。尤其是現(xiàn)在聊天功能的需求廣泛,網(wǎng)頁端、移動端等沒有太多計算資源的邊緣設(shè)備,都需要后臺服務(wù)器輔助計算。對此問題,輕量化聊天機器人的算法、對算法的蒸餾等,仍需要更多的研究和應用。

(5)需要“大規(guī)模”和“有質(zhì)量”的語料庫

語料庫,即聊天機器人的訓練數(shù)據(jù)集,是機器人學習說話的來源,對于回答的質(zhì)量非常關(guān)鍵。“大規(guī)模”指的是語料庫內(nèi)容要多,涉及方方面面,才能讓機器人無所不知;“有質(zhì)量”指語料庫的內(nèi)容要可靠,不能有不良信息,也不能有答非所問的內(nèi)容,這樣的語料庫才能訓練出優(yōu)秀的聊天機器人。而現(xiàn)實是,一方面高效獲得語料庫是一個難點問題;另一方面即使找到現(xiàn)有的語料庫,目前最多的訓練用語料庫都是以成億計,語料的內(nèi)容也是良莠不齊,高質(zhì)量語料篩選工作也是一個難點問題。

(6)自動評估與人工評估相關(guān)性較差

生成回復的自動評價一直是聊天機器人評估領(lǐng)域探索的重點內(nèi)容,也是難點內(nèi)容。由于自動評價與人工評價的相關(guān)性一直不高,尤其是現(xiàn)有的自動評價方法很多都來源于機器翻譯等其他領(lǐng)域,對生成回復的語義多樣性能否進行評價,以及對模型的有效性和優(yōu)化反饋能否起到作用等問題一直存在爭議。

4.2? ?發(fā)展方向

未來聊天機器人的發(fā)展方向?qū)②呄蛴诔墒斓膶υ捝赡P陀柧毢湍P洼p量化。目前聊天機器人的回答依然存在答非所問等問題,未來的發(fā)展方向必然需要向增強對話生成的魯棒性和合理性前進。另一方面,計算輕量化的需求也日益增長,即能夠在計算能力較弱的機器人中部署需求,這是當今聊天機器人應用場景與應用設(shè)備日益擴張的必然要求。

5? ?結(jié)論(Conclusion)

目前,進入市場并產(chǎn)品化的聊天機器人主要是功能導向型聊天機器人,產(chǎn)品形式主要是嵌入PC端與手機端應用的問詢功能模塊、實體化的問詢功能機器人和智能語音音箱等智能家居。當前相關(guān)產(chǎn)業(yè)已經(jīng)較為成熟,產(chǎn)品也逐漸趨同,評價精度方面并無較大進展。處于研究階段的大規(guī)模開放域的訓練模型,訓練參數(shù)逐漸增多,模型體量逐漸增大,發(fā)展空間與潛力較大。但這些模型質(zhì)量參差不齊,對其進行有效精準的評價十分重要。本文在實現(xiàn)功能和實現(xiàn)技術(shù)兩方面對聊天機器人進行了分類,從多方面對評價標準進行了較為系統(tǒng)的介紹、分析與總結(jié),提出了目前聊天機器人技術(shù)的研究難點與未來的發(fā)展方向。希望能夠為目前聊天機器人的分類和評價標準構(gòu)建出一個較為完整的全局概覽圖,為相關(guān)研究人員提供一定參考和借鑒。

參考文獻(References)

[1] 陳晨,朱晴晴,嚴睿,等.基于深度學習的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J].計算機學報,2019,042(007):1439-1466.

[2] 戴怡琳,劉功申.智能聊天機器人的技術(shù)綜述[J].計算機科學與應用,2018,8(6):918-929.

[3] Li M, Weston J, Roller S. ACUTE-EVAL: Improved dialogue evaluation with optimized questions and multi-turn comparisons[DB/OL]. [2019-09-06]. https://arxiv.org/pdf/1909.03087.pdf.

[4] Zhang Y, Galley M, Gao J, et al. Generating informative and diverse conversational responses via adversarial information maximization[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems, 2018: 1815-1825.

[5] Tevet G, Berant J. Evaluating the evaluation of diversity in natural language generation[DB/OL]. [2020-04-26]. https://arxiv.org/pdf/2004.02990v2.pdf.

[6] Li J, Galley M, Brockett C, et al. A diversity-promoting objective function for neural conversation models[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016:110-119.

[7] Zhou L, Gao J, Li D, et al. The design and implementation of XiaoIce, an empatheic social chatbot[J]. Computational Linguistics, 2020, 46(1):53-93.

[8] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002:311-318.

[9] Liu C W, Lowe R, Serban I V, et al. How not to evaluate your dialogue system: An empirical study of unsupervised evaluation metrics for dialogue response generation[DB/OL]. [2017-01-03]. https://arxiv.org/pdf/1603.08023v2.pdf.

[10] Doddington G. Automatic evaluation of machine translation quality using N-gram co-occurence statistics[C]. Proceedings of the second international conference on Human Language Technology Research, 2002:138-145.

[11] Lin C Y, Hovy E. Automatic evaluation of summaries using N-gram co-occurrence statistics[C]. Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003:71-78.

[12] Lin C Y, Och F J. Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics[C]. Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL-04), 2004: 605-612.

[13] Banerjee S, Lavie A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[C]. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005:65-72.

[14] 張偉男,張楊子,劉挺.對話系統(tǒng)評價方法綜述[J].中國科學:信息科學,2017,47(08):953-966.

[15] Lowe R, Noseworthy M, Serban I V, et al. Towards an automatic turing test: Learning to evaluate dialogue responses[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017:1116-1126.

[16] Sai A B, Gupta M D, Khapra M M, et al. Re-evaluating ADEM: A deeper look at scoring dialogue responses[C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33:6220-6227.

[17] Tao C Y, Mou L, Zhao D Y, et al. RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems[C]. The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), 2018, 32(1):722-729.

[18] Zhang T, Kishore V, Wu F, et al. BERTScore: Evaluating text generation with BERT[DB/OL]. [2020-02-24]. https://arxiv.org/pdf/1904.09675.pdf.

[19] Vedantam R, Zitnick C L, Parikh D. CIDEr: Consensus-based Image Description Evaluation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015:4566-4575.

[20] Anderson P, Fernando B, Johnson M, et al. SPICE: Semantic Propositional Image Caption Evaluation[J]. Adaptive Behavior, 2016, 11(4):382-398.

作者簡介:

王艷秋(1993-),女,碩士,初級研究員.研究領(lǐng)域:人工智能,數(shù)據(jù)挖掘.

管浩言(1994-),男,碩士,初級研究員.研究領(lǐng)域:人工智能,計算機視覺.

張? 彤(1994-),女,碩士,初級研究員.研究領(lǐng)域:人工智能,圖像處理.

主站蜘蛛池模板: 啊嗯不日本网站| 青青国产视频| 久久精品这里只有国产中文精品 | 日韩中文字幕免费在线观看| 欧美视频二区| av在线5g无码天天| 久久久亚洲色| 欧美视频在线第一页| 国产成人区在线观看视频| 一级黄色欧美| 日韩人妻无码制服丝袜视频| 国产精品成人观看视频国产| 日韩色图区| 亚洲人成网站日本片| 亚洲av成人无码网站在线观看| 亚洲伊人天堂| 亚洲国产成人在线| 午夜国产小视频| 久久久久国产精品免费免费不卡| 欧美福利在线| 呦女亚洲一区精品| 日本一区二区三区精品视频| 三上悠亚一区二区| 熟女日韩精品2区| 国产aⅴ无码专区亚洲av综合网| 久久久久无码精品| 2021国产精品自产拍在线| 色哟哟色院91精品网站| 91在线国内在线播放老师| 伊人五月丁香综合AⅤ| 色偷偷一区| 国产精品极品美女自在线| 久久中文字幕2021精品| 久久精品午夜视频| 色老头综合网| 国产精品无码AV中文| 亚洲第一视频网| 国产综合精品一区二区| 六月婷婷精品视频在线观看| 国产人成乱码视频免费观看| 久久免费观看视频| 美女高潮全身流白浆福利区| 一区二区三区四区日韩| 精品欧美日韩国产日漫一区不卡| 92精品国产自产在线观看| 国产视频a| 欧美国产综合色视频| 国产精品免费电影| 2020最新国产精品视频| 久久99国产视频| 高潮毛片无遮挡高清视频播放| 欧美日韩一区二区三| 日本高清有码人妻| 国产SUV精品一区二区| 日韩在线视频网站| 国产精品9| 欧美精品影院| 精品亚洲欧美中文字幕在线看| 亚洲人成影院午夜网站| 亚洲成a人片7777| 91麻豆国产视频| 好吊色妇女免费视频免费| 久久精品国产精品青草app| 国产导航在线| 欧美翘臀一区二区三区| 五月天香蕉视频国产亚| 国产亚洲欧美日韩在线一区| 内射人妻无套中出无码| 六月婷婷精品视频在线观看| 久久无码av三级| 中文毛片无遮挡播放免费| 亚洲va精品中文字幕| 亚洲愉拍一区二区精品| 日韩精品专区免费无码aⅴ| 91麻豆精品国产91久久久久| 国产亚洲男人的天堂在线观看| jizz在线观看| 欧美综合在线观看| 欧洲亚洲欧美国产日本高清| 都市激情亚洲综合久久| 久久国产精品嫖妓| 国产剧情一区二区|