999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向任務(wù)型對(duì)話機(jī)器人的多任務(wù)聯(lián)合模型研究

2023-06-01 08:40:16高作緣陶宏才
關(guān)鍵詞:語(yǔ)義文本實(shí)驗(yàn)

高作緣, 陶宏才

(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,四川 成都 611756)

0 引言

在任務(wù)型對(duì)話機(jī)器人[1]的搭建中,準(zhǔn)確地理解用戶的意圖、判斷語(yǔ)句中可能包含的行業(yè)分類、提取語(yǔ)句中的關(guān)鍵信息至關(guān)重要。因?yàn)閷?duì)話機(jī)器人會(huì)依據(jù)內(nèi)容,再結(jié)合對(duì)話的上下文信息來(lái)決定下一步的行為走向。

近年來(lái),隨著大規(guī)模預(yù)訓(xùn)練BERT(bidirectional encoder representation from transformers)模型的提出[2],自然語(yǔ)言處理的發(fā)展邁入了新階段。BERT 模型采用了雙向的Transformer 作為特征提取器,性能有顯著提升,刷新了自然語(yǔ)言處理的多項(xiàng)記錄[3]。另外,應(yīng)用遷移學(xué)習(xí)[4]后的自然語(yǔ)言處理不再受數(shù)據(jù)源的限制,輕松解決了目標(biāo)領(lǐng)域數(shù)據(jù)樣本不足的問(wèn)題。而RoBERTa-WWM 模型[5]作為BERT 模型的改進(jìn)版本,采用了更大的模型參數(shù)量、更多的訓(xùn)練數(shù)據(jù)和更大的batch size,還引入了動(dòng)態(tài)掩碼、文本編碼,比BERT模型更好地推廣到下游任務(wù)。因此,本文將以Ro-BERTa-WWM 模型為基礎(chǔ)開(kāi)展研究,實(shí)現(xiàn)意圖識(shí)別和行業(yè)識(shí)別的子任務(wù)。在此基礎(chǔ)上,該部分還引入了Focal loss 機(jī)制,解決多分類中數(shù)據(jù)不平衡的問(wèn)題,提高模型的穩(wěn)定性和性能。

語(yǔ)義槽填充子任務(wù)本質(zhì)就是序列標(biāo)注問(wèn)題[6],主要目的就是提取語(yǔ)句中的實(shí)體信息,并填充到對(duì)應(yīng)的語(yǔ)義槽中。在序列標(biāo)注問(wèn)題中,BiLSTM+CRF 是非常經(jīng)典的模型[7]。該模型通過(guò)雙向LSTM 能更好地捕捉序列中上下文的信息,提高標(biāo)注的準(zhǔn)確性;通過(guò)條件隨機(jī)場(chǎng)(CRF)可以獲取全局最優(yōu)解,避免出現(xiàn)不合理的標(biāo)注結(jié)果。最后,再引入RoBERTa-WWM 模型來(lái)獲取語(yǔ)義表示,提高模型的整體性能。綜上,將采用RoBERTa-WWM-BiLSTM-CRF 模型來(lái)完成語(yǔ)義槽填充子任務(wù)。

自然語(yǔ)言處理常見(jiàn)的任務(wù)有文本分類、序列標(biāo)注、自動(dòng)文摘等[8]。意圖識(shí)別和行業(yè)識(shí)別實(shí)際就是文本分類任務(wù),再加上本質(zhì)為序列標(biāo)注任務(wù)的語(yǔ)義槽填充,模型需處理3 個(gè)子任務(wù)。而在傳統(tǒng)的自然語(yǔ)言處理算法中,面對(duì)多任務(wù)時(shí)一般采用不同子任務(wù)獨(dú)立訓(xùn)練,最終以結(jié)合的方式來(lái)完成模型的整合。而在實(shí)際的語(yǔ)言表達(dá)中,意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充3 個(gè)子任務(wù)并非完全孤立[9],其中一個(gè)子任務(wù)的預(yù)測(cè)結(jié)果很可能影響其他子任務(wù)的預(yù)測(cè)過(guò)程。因此,提出Joint-Ro-BERTa-WWM 模型,將意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充進(jìn)行聯(lián)合學(xué)習(xí),強(qiáng)化子任務(wù)之間的關(guān)聯(lián)性,提高模型的綜合預(yù)測(cè)能力。

研究表明[10],像BERT 這樣基于Transformer 的預(yù)訓(xùn)練模型,存在參數(shù)設(shè)置過(guò)多、模型過(guò)厚重、計(jì)算成本過(guò)高的問(wèn)題。因此,本文基于模型的工程性應(yīng)用考慮,進(jìn)一步提出了一種基于模塊替換[11]的壓縮聯(lián)合模型Joint-RoBERTa-WWM-of-Theseus,在略微損失預(yù)測(cè)精度的前提下,大幅加快了預(yù)測(cè)速度,提高了模型的實(shí)時(shí)性,更好地為實(shí)際工程應(yīng)用提供服務(wù)。

1 相關(guān)工作

1.1 任務(wù)型機(jī)器人

1950年,Turing[12]提出了圖靈測(cè)試。之后,圍繞人機(jī)對(duì)話的研究逐漸成為了人機(jī)交互[13]領(lǐng)域中的核心研究?jī)?nèi)容,而對(duì)話系統(tǒng)是實(shí)現(xiàn)人機(jī)對(duì)話最直觀的表現(xiàn)形式。經(jīng)過(guò)基于規(guī)則模板的對(duì)話系統(tǒng)、統(tǒng)計(jì)對(duì)話系統(tǒng)和神經(jīng)對(duì)話系統(tǒng)等3 個(gè)階段的發(fā)展[14],對(duì)話系統(tǒng)已經(jīng)開(kāi)始向?qū)υ挋C(jī)器人演變。在應(yīng)用場(chǎng)景上,對(duì)話機(jī)器人可分成3 類:問(wèn)答型機(jī)器人(QA robot)、閑聊型機(jī)器人(chat robot)和任務(wù)型機(jī)器人(task robot)。

問(wèn)答型機(jī)器人主要為一問(wèn)一答的形式,機(jī)器人在解析用戶提出的問(wèn)題后,需要在知識(shí)庫(kù)中搜索相關(guān)的正確答案并將結(jié)果返回給用戶。其中,每次問(wèn)答均是獨(dú)立的,與上下文對(duì)話無(wú)關(guān)。而閑聊型機(jī)器人主要以滿足用戶的情感需求為主,通過(guò)有趣、個(gè)性化的回復(fù)與用戶進(jìn)行互動(dòng),較知名產(chǎn)品有微軟的小冰。相對(duì)于前面兩類對(duì)話機(jī)器人,任務(wù)型機(jī)器人可以滿足更復(fù)雜的業(yè)務(wù)需求,一般指的是機(jī)器人為了滿足用戶的需求目標(biāo)從而產(chǎn)生多輪對(duì)話,通過(guò)在對(duì)話中不斷澄清或調(diào)整用戶意圖完成用戶的請(qǐng)求。這就要求機(jī)器人能整合上下文信息,根據(jù)上一輪對(duì)話的內(nèi)容來(lái)決定下一輪對(duì)話的子目標(biāo)。典型的任務(wù)型機(jī)器人有阿里巴巴的天貓精靈[15]、蘋果的Siri[16]和微軟的Cortana(小娜)[17]。

目前,任務(wù)型對(duì)話機(jī)器人被廣泛使用于不同領(lǐng)域的多個(gè)場(chǎng)景,如客服行業(yè)、醫(yī)療行業(yè)、生活?yuàn)蕵?lè)場(chǎng)景等。在生活場(chǎng)景中,任務(wù)型對(duì)話機(jī)器人的出現(xiàn)能夠幫助人們更方便快捷地工作,提高效率。以Siri 為例,它可以幫助機(jī)主完成打電話、發(fā)短信、播放歌曲等任務(wù)。在執(zhí)行任務(wù)的過(guò)程中,Siri 需要先對(duì)機(jī)主的語(yǔ)音消息進(jìn)行識(shí)別,再根據(jù)識(shí)別結(jié)果執(zhí)行意圖、領(lǐng)域的預(yù)測(cè)和語(yǔ)義槽填充3 個(gè)子任務(wù),最后再根據(jù)預(yù)測(cè)結(jié)果做出相應(yīng)的行為來(lái)幫助機(jī)主完成該次任務(wù)。類似此應(yīng)用場(chǎng)景,本文的模型將用于搭建電商行業(yè)的智能客服機(jī)器人,因此模型的預(yù)測(cè)主要包括了意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充3 個(gè)子任務(wù)。意圖、行業(yè)的預(yù)測(cè)和語(yǔ)義槽填充的樣例如表1 所示。

表1 子任務(wù)結(jié)果樣例

1.2 RoBERTa-WWM 模型

BERT 模型的訓(xùn)練過(guò)程主要包含掩碼語(yǔ)言模型(mask language model, MLM)和下一句預(yù)測(cè)(next sentence prediction, NSP)兩個(gè)重要任務(wù)。其中,掩碼語(yǔ)言模型的原理是隨機(jī)選取輸入序列中15%的Token,在已經(jīng)選取的Token 中,以80%的概率用標(biāo)記[MASK]替換掉原始Token,以10%的概率將原始Token 替換為隨機(jī)Token,以剩余10%的概率保持原有Token,這樣可以大大提高模型的泛化能力。而NSP 主要用于判斷兩個(gè)句子之間的關(guān)系,對(duì)自然語(yǔ)言推理(natural language inference, NLI)這樣的下游任務(wù)起到至關(guān)重要的作用。

對(duì)比BERT 模型,RoBERTa 模型的改進(jìn)主要體現(xiàn)在:(1)RoBERTa 模型移除了NSP 任務(wù),采用Full-Sentences 方式,可以從一篇或多篇文章中連續(xù)抽取句子填充到模型的輸入序列中,提高了效率。(2)BERT模型采用的是Character 級(jí)別的字節(jié)對(duì)編碼(byte-pair encoding, BPE),詞表大小僅有30 KB;而RoBERTa 模型采用了Byte 級(jí)別的字節(jié)對(duì)編碼,詞表大小50 KB左右,比BERT 模型詞表大近70%。(3)BERT 模型只在數(shù)據(jù)預(yù)處理期間執(zhí)行一次掩碼,得到一個(gè)靜態(tài)掩碼,這樣會(huì)導(dǎo)致每次訓(xùn)練時(shí)mask 位置都相同,使模型學(xué)習(xí)的語(yǔ)句模式比較單一;而RoBERTa 模型采用動(dòng)態(tài)掩碼,每次向模型輸入一個(gè)序列時(shí)都會(huì)隨機(jī)地mask 不同的Token,可以保證模型逐漸適應(yīng)不同的掩碼策略,學(xué)習(xí)不同的語(yǔ)言表征。(4)RoBERTa 模型通過(guò)采用更大的batch size、更多的訓(xùn)練數(shù)據(jù)和訓(xùn)練步驟,較BERT模型表現(xiàn)更好。通過(guò)以上4 個(gè)方面的改進(jìn),RoBERTa模型在自然語(yǔ)言理解基準(zhǔn)測(cè)試RACE、GLUE 和SQuAD 中達(dá)到了SOTA。

而RoBERTa-WWM 模型就是在RoBERTa 模型的基礎(chǔ)上,采用全詞掩碼(whole word masking, WWM)策略。在中文文本中,采用原始策略可能會(huì)使一個(gè)詞語(yǔ)中只有部分字被mask,而采用WWM 策略可以使整個(gè)詞語(yǔ)都被mask,這樣能增強(qiáng)文本的表示效果。

在模型結(jié)構(gòu)上,RoBERTa-WWM 模型繼承了BERT模型的特點(diǎn),由12 層雙向Transformer 組成。初始文本輸入,用W={w1,w2,w3,…,wn}表示;模型的輸入為該文本字向量、段向量和位置向量的和,用E={e1,e2,e3,…,en}表示;模型的輸出向量用T={t1,t2,t3,…,tn}表示。RoBERTa-WWM 模型結(jié)構(gòu)如圖1 所示。

圖1 RoBERTa-WWM 模型結(jié)構(gòu)圖

1.3 BiLSTM-CRF 模型

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)是一種用來(lái)處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[19],它能挖掘數(shù)據(jù)中的時(shí)序信息和語(yǔ)義信息。但是,在實(shí)際應(yīng)用中,RNN因?yàn)閱卧询B導(dǎo)致梯度爆炸或消失較明顯。為解決這個(gè)問(wèn)題,Hochreiter 等[20]在1997年提出了長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)概念。LSTM 作為RNN 的一種變體,通過(guò)在隱藏層加入記憶單元和門控制器結(jié)構(gòu),使其具備長(zhǎng)期記憶的能力。在LSTM 中,每個(gè)重復(fù)的神經(jīng)元都有三類門,分別為遺忘門(ft)、輸入門(it)和輸出門(ot)。LSTM 的單元結(jié)構(gòu)如圖2 所示。

圖2 LSTM 單元結(jié)構(gòu)圖

在LSTM 中,第一步,計(jì)算遺忘門,確定要遺忘的信息。遺忘門由ht-1和xt線性變換后通過(guò)sigmoid 函數(shù)計(jì)算輸出后并與Ct-1相乘。遺忘門的計(jì)算如下:

第二步,確定要記憶的信息,通過(guò)sigmoid 函數(shù)決定需要更新的值it,再通過(guò)tanh 函數(shù)創(chuàng)建一個(gè)新的候選值向量,并將其加入到神經(jīng)元狀態(tài)中,對(duì)神經(jīng)元狀態(tài)進(jìn)行更新得到Ct。第二步的計(jì)算如下:

第三步,基于當(dāng)前時(shí)刻的隱藏層狀態(tài)來(lái)決定最終的輸出。首先使用sigmoid 函數(shù)決定輸出神經(jīng)元狀態(tài)的部分ot,再使用tanh 函數(shù)處理神經(jīng)元狀態(tài),最后與門控值相乘后即可得到當(dāng)前時(shí)刻的輸出ht。第三步的計(jì)算如下:

在此基礎(chǔ)上,Fukada[21]提出了雙向長(zhǎng)短期記憶(bi-directional long short-term memory, BiLSTM)網(wǎng)絡(luò)概念,更好地捕捉雙向的語(yǔ)義依賴。BiLSTM 模型由前向LSTM 和后向LSTM 組成,相較于單向LSTM,它可以獲得更加完整的上下文語(yǔ)義信息。但是BiLSTM 模型的輸出沒(méi)有考慮標(biāo)簽之間的約束和依賴關(guān)系,可能會(huì)輸出無(wú)效的序列。如預(yù)測(cè)的實(shí)體開(kāi)頭應(yīng)該是“B-”而非“I-”,句子的開(kāi)頭應(yīng)該是“B-”或“O”。為了解決這個(gè)問(wèn)題,在模型中引入條件隨機(jī)場(chǎng)(condition random field, CRF)模型,為BiLSTM 模型的輸出添加約束關(guān)系,保證輸出序列的正確性。CRF 由Lafferty 等[22]于2001年提出,結(jié)合最大熵模型和隱馬爾科夫模型的特點(diǎn),在序列標(biāo)注任務(wù)中表現(xiàn)突出。在CRF 中,對(duì)于指定的輸入序列x=(x1,x2,…,xt),預(yù)測(cè)序列y=(y1,y2,…,yt)的得分:

式中,P為BiLSTM 的輸出,A為轉(zhuǎn)移分?jǐn)?shù)矩陣,Ai,j為標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的分?jǐn)?shù)。進(jìn)一步,預(yù)測(cè)序列Y產(chǎn)生的概率:

綜上,在BiLSTM 模型后接入條件隨機(jī)場(chǎng)可以保證最終獲取一個(gè)有效的預(yù)測(cè)結(jié)果,得到全局最優(yōu)序列。

2 多任務(wù)聯(lián)合模型及模型壓縮

2.1 Joint-RoBERTa-WWM 聯(lián)合模型

意圖識(shí)別和行業(yè)識(shí)別這兩個(gè)子任務(wù)本質(zhì)就是文本分類問(wèn)題,本文將使用RoBERTa-WWM 模型通過(guò)對(duì)下游任務(wù)進(jìn)行微調(diào)來(lái)實(shí)現(xiàn)。模型的初始輸入是文本語(yǔ)句,語(yǔ)句經(jīng)過(guò)分詞后形成“[CLS] 語(yǔ)句[SEP]”的結(jié)構(gòu)。“[CLS]”標(biāo)簽先經(jīng)過(guò)Encoder 的向量表征,再經(jīng)過(guò)Pooler 后就能得到句子的向量表征,最后通過(guò)softmax 函數(shù)就可以實(shí)現(xiàn)文本分類任務(wù),輸出句子所屬的意圖和行業(yè)。

在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),數(shù)據(jù)集中的意圖類別分布極其不均勻,導(dǎo)致模型的穩(wěn)定性較差。因此,在處理意圖識(shí)別和行業(yè)識(shí)別這兩個(gè)多分類子任務(wù)時(shí),引入Focal loss[23]機(jī)制,通過(guò)改進(jìn)損失函數(shù)來(lái)兼顧數(shù)據(jù)量少的類別。這樣,既不影響數(shù)據(jù)集的原始分布,也能有效提高模型的性能。Focal loss 是交叉熵?fù)p失函數(shù)(CE loss)的優(yōu)化版本,簡(jiǎn)單的二分類交叉熵?fù)p失函數(shù)如下:

為方便表示,可化簡(jiǎn)為:

針對(duì)類別不均勻問(wèn)題,傳統(tǒng)的做法是α-balanced CE,即在CE loss 前增加權(quán)重系數(shù)α,以此來(lái)平衡各類別的分布情況。其中,數(shù)據(jù)量少的類別α越大,而數(shù)據(jù)量多的類別α越小。α-balanced CE 的表示如下:

但是,α-balanced CE 只平衡了不同類別對(duì)于模型的影響,它無(wú)法區(qū)分容易樣本和困難樣本,可能導(dǎo)致容易樣本主導(dǎo)梯度而困難樣本影響輕微的問(wèn)題。因此,在模型中引入Focal loss,以在平衡各類別分布的同時(shí),加強(qiáng)困難樣本對(duì)loss 的影響,削弱容易樣本的重要性。Focal loss 函數(shù)表示:

其中(1-pt)γ是調(diào)節(jié)因子,γ控制了樣本權(quán)重的下降程度。

語(yǔ)義槽填充子任務(wù)本質(zhì)上是序列標(biāo)注問(wèn)題,本文將使用RoBERTa-WWM-BiLSTM-CRF 模型來(lái)實(shí)現(xiàn)該任務(wù)。該模型主要分為3 層:首先,在RoBERTa-WWM層,將初始輸入的文本語(yǔ)句轉(zhuǎn)換為向量;其次,在BiLSTM 層中,RoBERTa-WWM 層的向量輸出將作為該層的輸入,提取上下文信息;最后,在CRF 層,通過(guò)施加約束和標(biāo)簽間的依賴關(guān)系保證獲取有效的預(yù)測(cè)結(jié)果,獲得全局最優(yōu)序列。

在實(shí)際的文本語(yǔ)義中,意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充3 個(gè)子任務(wù)并非是獨(dú)立的,三者之間存在較強(qiáng)的關(guān)聯(lián)性,其中一個(gè)子任務(wù)可能對(duì)另外兩個(gè)子任務(wù)的預(yù)測(cè)過(guò)程產(chǎn)生一定的影響。因此,提出Joint-RoBERTa-WWM 聯(lián)合模型,采用多任務(wù)學(xué)習(xí)(multitask learning)的方式將3 個(gè)子任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),通過(guò)最小化3個(gè)子任務(wù)的損失來(lái)建立統(tǒng)一的聯(lián)合損失函數(shù)。若用LI(θ)、LD(θ)、LS(θ)分別表示意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充3 個(gè)子任務(wù)的損失函數(shù),則聯(lián)合損失函數(shù)為

Joint-RoBERTa-WWM 聯(lián)合模型的結(jié)構(gòu)如圖3 所示。

圖3 Joint-RoBERTa-WWM 聯(lián)合模型結(jié)構(gòu)圖

2.2 Joint-RoBERTa-WWM-of-Theseus 壓縮聯(lián)合模型

目前,基于Transformer 的預(yù)訓(xùn)練模型已經(jīng)占據(jù)了自然語(yǔ)言處理領(lǐng)域舉足輕重的地位。但有研究表明[24],這其實(shí)是得益于它們“過(guò)度參數(shù)化”的特點(diǎn),它們包括了數(shù)百萬(wàn)甚至十億個(gè)參數(shù),導(dǎo)致計(jì)算成本高并且效率低下,嚴(yán)重阻礙了模型在生產(chǎn)環(huán)境中的應(yīng)用。Xu C 等[11]提出BERT-of-Theseus,這是一種基于模塊替換的模型壓縮方法。相比于傳統(tǒng)的知識(shí)蒸餾[25],該方法在對(duì)初始模型進(jìn)行壓縮后可以保證壓縮模型的結(jié)構(gòu)與初始模型仍然相似,使整個(gè)壓縮過(guò)程更加簡(jiǎn)捷。BERT-of-Theseus 壓縮方法可以將原始的12 層BERT教師模型P={prd1,prd2,…,prd12},壓縮成一個(gè)6 層的學(xué)生模型S={scc1,scc2,…,scc6},具體可以分為兩個(gè)階段:

(i)第一階段是模塊替換訓(xùn)練。將每個(gè)教師模塊prdi替換為相應(yīng)的學(xué)生模塊scci。若第i個(gè)模塊的輸出向量表示為yi,則教師模型第i+1 個(gè)模塊的前向計(jì)算輸出:

對(duì)于第i+1 個(gè)模塊,通過(guò)伯努利分布采樣一個(gè)隨機(jī)變量ri+1,采樣概率為p,如下:

則第i+1 個(gè)模塊在學(xué)生模型中的最終輸出為

其中*表示按元素計(jì)算的乘法。

第一階段的替換流程如圖4 所示。

圖4 第一階段替換流程圖

(ii)第二階段是學(xué)生模型S自身的微調(diào),讓所有的學(xué)生模塊都參與到訓(xùn)練中,最后組合成學(xué)生模型S:

第二階段的訓(xùn)練流程如圖5 所示。

圖5 第二階段訓(xùn)練流程圖

經(jīng)過(guò)以上兩個(gè)階段,每個(gè)prdi模塊都?jí)嚎s成更小的scci模塊,這樣教師模型P被壓縮成一個(gè)更小的學(xué)生模型S。借助Theseus 壓縮的思想,Joint-RoBERTa-WWM 模型經(jīng)過(guò)相同的方法進(jìn)行壓縮后,便構(gòu)成了本文所提出的Joint-RoBERTa-WWM-of-Theseus 模型,大幅提高了模型的預(yù)測(cè)速度,使模型能更好地服務(wù)于生產(chǎn)環(huán)境。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境如下:Windows10 操作系統(tǒng),Ryzen 5 5600X@3.70 GHz CPU,NVIDIA GeForce RTX 3070 顯卡,16 GB內(nèi)存。另外,實(shí)驗(yàn)中采用Python 編程語(yǔ)言和Tensorflow 深度學(xué)習(xí)框架實(shí)現(xiàn)模型的搭建。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

以某大賽提供的真實(shí)對(duì)話數(shù)據(jù)為基礎(chǔ),添加了通過(guò)Scrapy 框架爬取的某電商平臺(tái)4 個(gè)品類共9865 條商品數(shù)據(jù),抽取、標(biāo)注了3075 條文本語(yǔ)料作為實(shí)驗(yàn)數(shù)據(jù)集。在數(shù)據(jù)集中,共有4 個(gè)行業(yè)分類、14 個(gè)意圖分類和22 個(gè)槽位。數(shù)據(jù)分布不平衡的問(wèn)題在多分類任務(wù),尤其是在意圖識(shí)別子任務(wù)中,表現(xiàn)得尤其明顯,圖6 展示了不同意圖在數(shù)據(jù)集中的分布對(duì)比。由圖可以看出,不同的類別之間數(shù)據(jù)量相差較大。因此,在模型的調(diào)優(yōu)過(guò)程中解決數(shù)據(jù)分布不平衡的問(wèn)題是十分必要的。

圖6 各類意圖分布情況

3.3 實(shí)驗(yàn)參數(shù)與評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)中采用Adam 優(yōu)化器;設(shè)置的最大文本長(zhǎng)度是128;學(xué)習(xí)率為0.00002;RoBERTa-WWM 層數(shù)為12層,隱藏層大小為768;訓(xùn)練時(shí)加入早停機(jī)制,并設(shè)置Dropout 比例為0.5 來(lái)避免過(guò)擬合;為使損失函數(shù)下降更穩(wěn)定,設(shè)置Warmpu 比例為0.1;在進(jìn)行Theseus 壓縮時(shí),模塊替換概率設(shè)置為0.5。實(shí)驗(yàn)中主要的超參數(shù)如表2 所示。

表2 超參數(shù)設(shè)置

在實(shí)驗(yàn)中,采取F1值作為模型的評(píng)價(jià)指標(biāo),同時(shí)兼顧準(zhǔn)確率和召回率。若用F1I、F1D、F1S分別表示意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充3 個(gè)子任務(wù)的F1值,則模型整體的F1:

3.4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)將Joint-RoBERTa-WWM 模型和Joint-BERT模型進(jìn)行比較,并對(duì)比了Joint-RoBERTa-WWM 模型在使用CE loss、α-balanced CE、Focal loss 等不同的損失函數(shù)時(shí)的表現(xiàn)情況,證明了Joint-RoBERTa-WWM 模型使用Focal loss 解決數(shù)據(jù)不平衡問(wèn)題的優(yōu)勢(shì)。這些模型的對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示。

表3 模型對(duì)比實(shí)驗(yàn)結(jié)果

另外,實(shí)驗(yàn)將Joint-RoBERTa-WWM-of-Theseus 模型、Joint-RoBERTa-WWM 模型進(jìn)行對(duì)比,證明經(jīng)過(guò)Theseus 方法壓縮,可以使模型在略微損失精度的前提下,大幅提高預(yù)測(cè)速度,幫助其為生產(chǎn)環(huán)境提供性能良好的實(shí)時(shí)預(yù)測(cè)服務(wù)。為了模擬真實(shí)生產(chǎn)環(huán)境下的模型運(yùn)行情況,實(shí)驗(yàn)使用Flask 框架分別將兩個(gè)模型接口化部署后,測(cè)試900 條不同文本的實(shí)時(shí)預(yù)測(cè)接口請(qǐng)求平均時(shí)長(zhǎng)并將其作為評(píng)估標(biāo)準(zhǔn),對(duì)比兩個(gè)模型的預(yù)測(cè)速度,對(duì)比結(jié)果如表4 所示。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn),通過(guò)Theseus 方法壓縮后的聯(lián)合模型預(yù)測(cè)速度可以提高至壓縮前的2.33倍,為模型在實(shí)際生產(chǎn)環(huán)境中的順利使用奠定了基礎(chǔ)。

表4 模型壓縮前后預(yù)測(cè)速度對(duì)比

4 結(jié)束語(yǔ)

在任務(wù)型對(duì)話機(jī)器人的應(yīng)用場(chǎng)景下,提出了Joint-RoBERTa-WWM-of-Theseus 壓縮聯(lián)合模型。該模型充分考慮不同子任務(wù)之間的相互影響,將意圖識(shí)別、行業(yè)識(shí)別和語(yǔ)義槽填充3 個(gè)子任務(wù)進(jìn)行聯(lián)合學(xué)習(xí)訓(xùn)練;其次,在多分類子任務(wù)中引入了Focal loss 機(jī)制,通過(guò)損失函數(shù)的優(yōu)化來(lái)解決數(shù)據(jù)分布不平衡問(wèn)題;另外,采用Theseus 方法將模型進(jìn)行壓縮,使模型以很小的精度損失為代價(jià)換取了更快的預(yù)測(cè)速度,大幅提高了其在生產(chǎn)環(huán)境下的服務(wù)能力。實(shí)驗(yàn)表明,Joint-RoBERTa-WWM-of-Theseus 壓縮聯(lián)合模型為任務(wù)型對(duì)話機(jī)器人的搭建提供了良好的算法基礎(chǔ)。

猜你喜歡
語(yǔ)義文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 国产成人亚洲无吗淙合青草| 国产高清不卡视频| 亚洲性网站| 广东一级毛片| 97一区二区在线播放| 亚洲香蕉在线| 国产精品福利尤物youwu | 国产精品免费久久久久影院无码| 久久香蕉欧美精品| 为你提供最新久久精品久久综合| 亚洲清纯自偷自拍另类专区| yjizz视频最新网站在线| 女同久久精品国产99国| 国产乱子伦一区二区=| 亚洲天堂777| 日韩东京热无码人妻| 91一级片| 日韩精品久久久久久久电影蜜臀| 成人午夜精品一级毛片| 人妻熟妇日韩AV在线播放| 午夜毛片免费观看视频 | 91毛片网| 精品国产一区91在线| 国内熟女少妇一线天| 91九色国产porny| 亚洲欧美日韩成人在线| 成人在线第一页| 怡红院美国分院一区二区| 国产成人综合网| 国产精品999在线| 亚洲开心婷婷中文字幕| 国内熟女少妇一线天| 亚洲精品不卡午夜精品| 亚洲香蕉在线| 亚洲va精品中文字幕| 久久黄色影院| 真人高潮娇喘嗯啊在线观看| 青青国产成人免费精品视频| 免费不卡视频| 免费国产好深啊好涨好硬视频| 狠狠躁天天躁夜夜躁婷婷| 久久久久国色AV免费观看性色| 真人免费一级毛片一区二区| 国产91高清视频| 中文精品久久久久国产网址| 在线看国产精品| 99激情网| 久久亚洲天堂| www.99在线观看| 午夜三级在线| 伊人色在线视频| 日韩高清欧美| 天堂在线www网亚洲| 91探花在线观看国产最新| 国产黄网永久免费| 日韩在线永久免费播放| 亚洲精品无码在线播放网站| 伊人久久大香线蕉影院| 国产91无码福利在线| 视频一本大道香蕉久在线播放| 九九久久99精品| 免费jjzz在在线播放国产| 欧美精品啪啪一区二区三区| 99视频精品全国免费品| 亚洲国产亚洲综合在线尤物| 色屁屁一区二区三区视频国产| 国产成人一二三| 乱系列中文字幕在线视频| 成人永久免费A∨一级在线播放| 亚洲人成网站日本片| 无码视频国产精品一区二区| 国产视频入口| 九九热精品在线视频| 免费在线观看av| 91无码人妻精品一区二区蜜桃| 99热这里只有精品在线观看| 毛片视频网| 欧美一道本| 综合色88| 91福利在线观看视频| 国产性精品| 精品成人一区二区|