999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于監督學習與深度強化學習的任務型對話模型設計與實現

2024-05-23 08:37:16李昱珩朱彥霞
河南科技 2024年6期

李昱珩 朱彥霞

摘 要:【目的】探討智能對話系統中任務型對話模型的設計,提出一個基于監督學習和強化學習的任務型對話系統框架?!痉椒ā坎捎帽O督學習和強化學習相結合的方法。首先,將開放域對話模型的生成回復嵌入到任務型回復的過程中,構建一個綜合的對話模型。其次,利用監督學習和遷移學習的方法,構建對話策略模型,用于指導對話系統的決策過程。最后,采用深度強化學習算法進行優化更新,以提高對話系統的性能?!窘Y果】實驗結果表明,任務型對話系統模型在評估指標BLEU、ROUGE和F1分數方面優于其他基準模型。該模型具備良好的對話生成能力和回復多樣性,能夠生成準確且多樣化的回復?!窘Y論】通過綜合應用監督學習和強化學習的方法,成功設計了一個基于任務型對話模型的智能對話系統框架。該框架在任務型對話上取得了較好的性能,為智能對話系統的發展提供了有益的探索。

關鍵詞:任務型對話系統;監督學習;強化學習

中圖分類號:TP181? ? ? 文獻標志碼:A? ? 文章編號:1003-5168(2024)06-0020-05

DOI:10.19968/j.cnki.hnkj.1003-5168.2024.06.004

Design and Implementation of a Task-Oriented Dialogue Model Based on Supervised Learning and Deep Reinforcement Learning

LI Yuheng1 ZHU Yanxia2

(1. School of Mathematical Sciences, East China Normal University, Shanghai 200241, China; 2. Henan General Hospital, Zhengzhou 450000, China)

Abstract:[Purposes] This study aims to explore the design of task-oriented dialogue models in intelligent conversational systems and propose a task-oriented dialogue system framework based on supervised learning and reinforcement learning. [Methods] The study adopts a combined approach of supervised learning and reinforcement learning. Firstly, the generation replies from open-domain dialogue models are incorporated into the task-oriented dialogue process, constructing a comprehensive dialogue model. Then, using methods of supervised learning and transfer learning, a dialogue policy model is constructed to guide the decision-making process of the dialogue system. Finally, deep reinforcement learning algorithms are employed for optimization and updates to enhance the performance of the dialogue system. [Findings] Experimental results demonstrate that the task-oriented dialogue system model outperforms other baseline models in evaluation metrics such as BLEU, ROUGE, and F1 scores. The model exhibits good dialogue generation capabilities and response diversity, generating accurate and diverse replies. [Conclusions] The study successfully designs an intelligent dialogue system framework based on task-oriented dialogue models by integrating supervised learning and reinforcement learning. The framework shows promising performance in task-oriented dialogue tasks, providing valuable exploration for the development of intelligent conversational systems.

Keywords: task-oriented dialogue system; supervised learning; reinforcement learning

0 引言

隨著人工智能技術的快速發展,人機交互、智能助手、智能客服、問答咨詢等人機對話場景的廣泛應用,以及ChatGPT的問世極大地推動了自然語言處理(Natural Language Processing,NLP)領域的快速進展,使得智能對話系統的研究成為學術界及各應用行業的研究熱點之一。

目前,智能對話系統主要分為開放域對話系統和任務型對話系統。開放域對話系統主要用于閑聊領域,旨在提供自由流暢的對話體驗。而任務型對話系統則專注于幫助用戶完成特定任務,旨在提供任務相關的指導和支持。任務型對話系統的設計旨在滿足用戶對特定任務的需求,并通過提供準確的指導和目標導向的交互,能夠提供準確的信息和服務,在特定的領域的任務中表現出色,實用性較強。近年來,任務型對話系統的關鍵技術取得了顯著的進展,并在眾多領域得到廣泛應用。典型的任務型對話系統包括蘋果的Siri、微軟的小娜(Cortana)[1]、阿里巴巴的天貓精靈[2]和京東的JIMI客服機器人等。然而,任務型對話系統在特定任務的應用場景中依然面臨著對話數據規模有限以及用戶需求復雜、需要進行多輪互動等挑戰。為了提高對話任務的效率,本研究對基于監督學習與強化學習的任務型對話模型進行了研究與探索。

1 相關研究

1.1 任務型對話系統一般過程

任務型對話系統實現方式主要是端到端(End-to-End)和管道(Pipeline)。端到端方法[3]使用單一模塊直接完成從輸入的文本建模到輸出的回復,其訓練參數少、泛化能力強、應用場景較靈活,但優化難度與解釋性較差。管道方法[4]將系統視為一個流水線,把任務分為自然語言理解(Natural Language Understanding,NLU)、對話狀態跟蹤(Dialog State Tracking,DST)、對話策略學習(Dialogue Policy Learning,DPL)、自然語言生成(Natural Language Generation,NLG)4個模塊,模塊間可并行且通過級聯實現對話,其復雜度高、易于解釋、商用性強。

任務型對話系統的一般過程如圖1所示。任務系統首先通過自然語言理解(NLU)將用戶話語(Utterance)轉化為語義信息,并提取用戶意圖(Intent)和槽值(Slot)信息;其次對話狀態跟蹤(DST)根據自然語言理解(NLU)的信息評估得到用戶目標和請求,構建并記錄對話狀態;再次對話策略學習(DPL)根據對話狀態(Dialog State)來決策系統采取的動作(Action);最后自然語言生成將對話策略(DPL)生成的對話動作轉換為最終的自然語言。

1.2 任務型對話系統研究進展

在任務型對話系統中,準確理解用戶意圖并提取槽值數據中的關鍵信息對于實現準確性至關重要[5],因此,近年來NLU領域涌現出許多新的技術及應用成果。葉銥雷等[6]針對任務型多輪對話,提出了一種粗粒度意圖識別方法,該方法針對特定復雜場景下的多輪對話,將意圖識別任務分解為對話序列標注和意圖分類兩個任務,有效地提高用戶意圖識別率;高作緣和陶宏才[7]提出了一種基于RoBERTa-WWW及可模塊替換的壓縮多任務聯合模型,該模型意圖識別、語義槽填充等聯合進行訓練,同時引入Focalloss機制均衡優化數據;王明虎等[8]提出了一種基于RoBERTa和圖增強Transformer的序列推薦方法,該方法利用RoBERTa對評論文本進行預訓練,以捕捉語義特征和初步建模用戶的個性化興趣,將商品交互的時序特征圖輸入到圖增強Transformer后,再接入全連接層,以提升用戶興趣偏好的整體性捕捉和實現對商品的預測評分。

對話策略是根據自然語言理解的結果和對話狀態跟蹤的輸出來制定對話動作,因此對話策略學習在自然語言理解和自然語言生成中發揮著重要作用。Levin等[9]最早將對話策略建模稱為馬爾可夫決策過程(Markov Decision Process,MDP)并進行了復雜性分析,為基于強化學習的對話策略研究奠定了基礎;Takanobu等[10]提出了一種基于對抗性逆強化學習的引導對話策略學習算法,用于多領域任務導向對話中的聯合獎勵估計和策略優化;Wu等[11]提出了Switch-DDQ框架,該框架擴展了Deep Dyna-Q(DDQ)框架,集成一個切換器,該切換器可以自動確定使用真實體驗還是模擬體驗進行Q學習,提高了模型訓練效率。

2 設計與實驗

2.1 基于監督學習與強化學習的任務型對話模型設計

監督學習(Supervised Learning,SL)和強化學習(Reinforcement Learning,RL)是機器學習領域中兩個重要的分支。監督學習是一種利用已標記的訓練數據去學習輸入函數與輸出函數之間映射關系的機器學習任務。它通常應用于解決分類問題和回歸問題,其中分類問題涉及將輸入實例分配到預定義的類別中,而回歸問題涉及預測連續值輸出。強化學習是一種涉及智能體(Agent)與環境(Environment)之間不斷交互的學習過程。在這個過程中,智能體通過與環境進行交互,不斷學習并改進其策略(Policy),以最大化獲得其回報(Reward)。強化學習的目標是通過試錯和學習,使智能體能夠在復雜的動態環境中做出準確的決策并獲得最大的累積回報[12]。強化學習過程的實質[13]是Agent隨著時間推移與環境交互反饋進行不斷學習的過程。在t時刻,Agent接受狀態s遵循π(a|s)策略從動作空間中選擇一個動作a,作用于環境,環境反饋獎賞r并且依據概率P(s'|s,a)轉換到下一個狀態St'。強化學習的最終目的是通過調整自身策略來最大化累計獎賞Rt=[k=0∞λrt+k],其中:λ∈[0,1]為折扣因子;狀態動作函數為Qπ(s,a)=[E(t=0∞γrt|S=s,A=a,π]),根據π=argmaxQπ(s,a)(a∈A)得到最優策略。深度強化學習是深度學習與強化學習的深度融合,該方法可通過構建并訓練Agent用于知識庫的構建與學習,其原理框架如圖2所示。

目前,基于強化學習的對話策略技術[14]主要有基于值函數逼近的對話策略、基于策略梯度的對話策略、基于層次的對話策略、基于強化學習模型的對話策略、基于逆強化學習的對話策略等。在現實世界中,非基于模型的對話策略算法的訓練試錯成本相對較高,在考慮成本的前提下,一種可行的方法是利用成熟的模型來完成環境交互過程。具體來說就是根據學習到的模型去規劃一系列動作,然后將這些動作應用于相似的場景中(如采用Model Predictive Control,MPC模型[15]),或者根據模型生成模擬樣本數據并利用這些模擬數據進行策略或值函數的評估(如Dyna-Q方法[16]),這樣的方法能夠在較低的成本下改善對話策略算法的性能。

本研究設計的基于監督學習和強化學習的任務型對話系統框架如圖3所示。該框架將開放域對話模型的生成回復嵌入到任務型回復的過程中。首先,采用監督學習的方法構建對話策略模型,利用行業中現有的真實對話數據集。其次,借鑒遷移學習思想,將用戶輸入傳遞給現有的成熟或開源的對話模型,獲取初步的用戶意圖和槽值,并進行初步的用戶或Agent反饋,計算Q(s,a|θi)。最后,在此基礎上將初步形成的用戶意圖和槽值傳入基于監督學習構建的對話模型中,獲取Yi,并計算損失函數L(θi)=Es,a,r,s'[Yi-Q(s,a|θi))2](其中:s表示當前狀態;a表示當前狀態下采取的動作;r表示當前狀態下采取a動作所對應的獎懲;s'代表下一個狀態;i表示迭代次數)。在訓練過程中,記錄真實用戶體驗過程,并利用深度強化學習算法更新對話模型和經驗池。

本模型中基于監督學習生成的對話模型,可作為基于開放模型的對話模型遷移到新環境中的驗證。同時,在真實環境中應用深度強化學習,能夠實現對模型的優化更新,減少真實人員驗證的參與度。

2.2 任務型對話模型實驗

2.2.1 實驗環境與測試數據。

2.2.1.1 實驗環境。本實驗操作系統為Windows 10;處理器為 amd ryzen 55 800x;內存128 GB;顯卡為A4 000;采用Python編程語言3.6版本。

2.2.1.2 實驗測試數據。以某大賽提供的電商客服為實驗數據[17],實驗數據集合基本情況見表1。

2.2.2 實驗過程及結果。

2.2.2.1 數據預處理過程。本研究的數據預處理工作包括對Session進行拆分以獲取對話歷史記錄,合并同一ID用戶的連續對話內容,刪除停用詞等操作。對于多輪對話,本研究保留了上一輪的對話信息,數據集構建的樣例如圖4所示。

2.2.2.2 任務型對話測試。本模型測試過程中的一個回復生成情況如圖5所示。

2.2.2.3 性能測試。本研究使用了Seq2Seq模型、BERT-Retrieval模型與本研究提出的模型對測試數據集進行了實驗對比和性能評估。在深度強化學習中,本研究將折扣因子γ設為0.7,dropout概率設為0.05。模型的優化方法采用了Adam優化器,學習速率設為0.001。BLEU和ROUGE分數是廣泛應用于自然語言處理和多輪對話生成任務中的評估指標,用于衡量模型輸出與目標文本之間的相似度;DISTINCT2用于評估回復的多樣性;而F1分數則用于評估準確性和召回率。各模型性能測試結果見表2。

從表2可知,本研究模型在BLEU、ROUGE和F1分數方面表現優于其他基準模型,這表明該研究模型在對話生成方面能夠有效地學習京東客服的對話模式,并且回復模型的多樣性也表現較好。

3 結語

本研究基于監督學習和深度強化學習的模型設計了一個整合開放域任務型對話模型的框架。通過監督學習方法構建對話策略模型,利用真實任務型對話數據集進行訓練;利用遷移學習思想,將用戶輸入傳遞給開放域對話模型,獲取初步的用戶意圖、槽值、Agent反饋;用t時刻輸入詞匯及基于監督學習對話策略輸出詞匯作為t時刻狀態;用度量相似性的評價指標雙語評估替換指標作為獎勵。同時,記錄真實用戶體驗并利用深度強化學習算法更新對話模型和經驗池,減少了真實人員驗證的參與度,且該模型在實驗中性能表現較好。

參考文獻:

[1]HOY M B.Alexa,siri,cortana,and more: an introduction to voice assistants[J].Med Ref Serv Q,2018(1):81-88.

[2]天貓精靈鮑娟:天貓精靈用AI連接家庭全場景智慧營銷[J].國際品牌觀察,2021(20):47-48.

[3]王堃,林民,李艷玲.端到端對話系統意圖語義槽聯合識別研究綜述[J].計算機工程與應用,2020(14):14-25.

[4]趙陽洋,王振宇,王佩,等.任務型對話系統研究綜述[J].計算機學報,2020(10):1862-1896.

[5]于丹,閆曉宇,王艷秋,等.任務型對話機器人的設計及其應用[J].軟件工程,2021(2):55-59.

[6]葉銥雷,曹斌,范菁,等.面向任務型多輪對話的粗粒度意圖識別方法[J].小型微型計算機系統,2020(8):1620-1626.

[7]高作緣,陶宏才.面向任務型對話機器人的多任務聯合模型研究[J].成都信息工程大學學報,2023(3):251-257.

[8]王明虎,石智奎,蘇佳,等.基于RoBERTa和圖增強Transformer的序列推薦方法[J].計算機工程,2024:1-12.

[9]LEVIN E,PIERACCINI R,ECKERT W. Learning dialogue strategies within the Markov decision process framework[C]. 1997 IEEE Workshop on Automatic Speech Recognition and Understanding Proceedings,1997:72-79.

[10]TAKANOBU R,ZHU H L,HUAN M L.Guided dialog policy learning: reward estimation for multi-domain task-oriented dialog[J]. CoRR,2019:100-110.

[11]WU Y X, LI X J, LIU J J, etal. Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning[J]. Proceedings? of the AAAI Conference on Artificial Intelligence,2019(33):7289-7296.

[12]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature,2015(7540):529-33.

[13]馬騁乾,謝偉,孫偉杰.強化學習研究綜述[J].指揮控制與仿真,2018(6):68-72.

[14]徐愷,王振宇,王旭,等.基于強化學習的任務型對話策略研究綜述[J].計算機學報,2024,1-33.

[15]KOLLER T, BERKENKAMP F, TURCHETTA M, et al. Learning-Based Model Predictive Control for Safe Exploration[J]. Annual Review of Control,Robotics,and Autonomous Systems,2020(3):269-296.

[16]PENG B L, LI X J, GAO J F, et al. Deep dyna-q: Integrating planning for task-completion dialogue policy learning[C]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne,Australia,2018:2182-219.

[17]SIMON J Y. JDDC-Baseline-Seq2Seq[EB/OL]. (2018-05-07)[2023-11-12]. https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq.

主站蜘蛛池模板: 在线观看网站国产| 伊人久久综在合线亚洲2019| 欧美日韩国产高清一区二区三区| 亚洲色偷偷偷鲁综合| 91成人在线观看视频| 秋霞午夜国产精品成人片| 在线观看91精品国产剧情免费| 亚洲综合色婷婷| 久久综合丝袜长腿丝袜| 国产精品密蕾丝视频| 欧美另类第一页| 亚洲精品无码日韩国产不卡| 试看120秒男女啪啪免费| 2022精品国偷自产免费观看| 超碰91免费人妻| 日本久久久久久免费网络| 东京热av无码电影一区二区| 美女国产在线| 97视频免费看| 欧美一区二区福利视频| 国产午夜精品一区二区三| 四虎综合网| 日韩123欧美字幕| 超碰aⅴ人人做人人爽欧美| 在线亚洲精品自拍| 国产丝袜无码一区二区视频| 在线看AV天堂| 自慰高潮喷白浆在线观看| 午夜精品久久久久久久无码软件| h视频在线播放| 无码综合天天久久综合网| 性色生活片在线观看| 国产自视频| 久久免费看片| 无码国内精品人妻少妇蜜桃视频| 精品国产香蕉在线播出| 亚洲三级a| 亚洲第一成人在线| jizz亚洲高清在线观看| 欧美日韩国产成人高清视频| 中文字幕第4页| 99色亚洲国产精品11p| 亚洲日韩精品综合在线一区二区| 国产97区一区二区三区无码| 日韩人妻无码制服丝袜视频| 青青久久91| 九九热精品视频在线| 亚洲欧美国产视频| 亚洲一区二区日韩欧美gif| 国产亚洲视频在线观看| 亚洲国产欧洲精品路线久久| 四虎成人精品| 亚洲日韩久久综合中文字幕| 国产成人乱无码视频| 国产精品v欧美| 欧美激情第一欧美在线| 精品国产电影久久九九| 国产草草影院18成年视频| 久久91精品牛牛| 国产免费福利网站| 欧美日韩第二页| 亚洲天堂视频在线播放| 日本一区二区三区精品视频| 中国一级特黄视频| 国产理论一区| 国产永久无码观看在线| 国产麻豆永久视频| 国产精品9| 青青青国产视频| www.国产福利| 国产一区二区三区免费| 青青国产在线| 99视频精品在线观看| 精品国产Ⅴ无码大片在线观看81 | 麻豆精品国产自产在线| 波多野结衣中文字幕久久| 精品丝袜美腿国产一区| 国产亚洲精久久久久久无码AV| 精品欧美一区二区三区久久久| 婷婷激情五月网| 国产在线97| 欧美国产日产一区二区|