999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識增強的企業(yè)技能智能問答應(yīng)用研究

2022-07-25 09:42:08馮強中
現(xiàn)代計算機 2022年9期
關(guān)鍵詞:模型

馮強中

(科大國創(chuàng)云網(wǎng)科技有限公司,合肥 230088)

0 引言

科技的迅猛發(fā)展以及網(wǎng)絡(luò)信息的爆炸式增長,致使傳統(tǒng)的信息獲取方式變得越來越不適合人們的日常需要。為了適應(yīng)信息的快速增長,滿足人們的日常查詢,能夠和人們進行互動的自動問答技術(shù)逐漸走進研究者的視野。傳統(tǒng)的信息獲取方法主要是以人工為主(如人工客服、商業(yè)導(dǎo)購等),但由于當前網(wǎng)絡(luò)信息比較繁雜以及人們查詢信息的方式也不標準化,因此面對各式各樣的用戶查詢,人工方式會耗費大量的時間和精力去獲取用戶想要答案,特別是咨詢的問題大多數(shù)為重復(fù)的時候,資源浪費特別嚴重。因此,基于深度學習技術(shù)實現(xiàn)的自動問答模型變得十分符合現(xiàn)在人們對查詢問題的迫切需求。

大數(shù)據(jù)、機器學習、模式識別以及神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)的飛速發(fā)展和成熟落地使得機器替代人工來進行沉重和繁瑣的作業(yè)成為可能。繼計算機視覺領(lǐng)域取得巨大進展之后,深度學習技術(shù)在自然語言處理領(lǐng)域也迎來了它的光輝時刻。作為自然語言處理領(lǐng)域重要的應(yīng)用場景——智能問答機器人,是機器替代人工進行工作來提高工作效率、降低人工成本的典型代表。根據(jù)用戶問題的所屬數(shù)據(jù)領(lǐng)域,本文所研究的問答系統(tǒng)屬于面向常用問題集(frequently-asked questions, FAQ)的 問 答 系統(tǒng)。針對公司專業(yè)領(lǐng)域的知識數(shù)據(jù),本文提出了一種基于知識增強的智能問答模型。通過相關(guān)實驗,證明了本文所提出的模型不僅能夠克服之前靜態(tài)FAQ 方式的缺點,而且在面對用戶的重復(fù)性問題時,該模型能夠精確地定位用戶提問的知識,再及時、準確地給出用戶解答。該模型能夠以一問一答的交互形式及時為用戶提供服務(wù),避免回復(fù)不及時等降低用戶體驗的情況出現(xiàn),降低了相關(guān)的人工成本以及資源。

1 相關(guān)研究

基于自然語言處理等深度學習技術(shù)實現(xiàn)的智能問答系統(tǒng)有很多,比如Bordes等對問句中實體準確定位,將問句中的實體抽取出來,再將實體連接到知識庫,以該實體為起點,查找與其關(guān)系相連的實體作為候選答案。其次計算這些實體關(guān)系的組合與問句之間的相似度,通過打分排序,選擇相似度最大的候選項返回答案,取得很好效果。Dong 等設(shè)計了一種多列卷積神經(jīng)網(wǎng)絡(luò),根據(jù)知識圖譜特點,定義答案路徑、上下文路徑、答案類型,作為參考特征,并且每個特征對應(yīng)一個已經(jīng)訓練的卷積神經(jīng)網(wǎng)絡(luò),用于捕獲問句中語義信息,再通過計算問句與答案之間的相似度,對結(jié)果打分排序,排名第一的作為最終答案。Dong 等提出用兩級encoder-decoder 改進機器翻譯端到端模型,有效解決自然語言與語義表示之間跨度大的問題,通過問題分解來提升性能。Qu 等提出了一種基于相似矩陣的遞歸神經(jīng)網(wǎng)絡(luò)(AR-SMCNN)模型,利用RNN 順序建模特性捕獲語義及相關(guān)性,使用注意機制跟蹤實體和關(guān)系重要部分,并制定了一種準確確定問句中主實體的方法。史夢飛設(shè)計了一種分布式的問答系統(tǒng),將問題句進行分類,提高下游任務(wù)的準確性,通過構(gòu)建基于深度學習的End2End 問答模型,同時考慮中文問句的復(fù)雜性,提出結(jié)合語義依存分析的剪枝算法及自動化模板的方法。付燕等用LSTM+CNN 提取問題和答案的特征,利用構(gòu)造負樣本的方法,完成了一種基于混合神經(jīng)網(wǎng)絡(luò)的問答算法。曹明宇等基于當前主流的BILSTM-CRF 神經(jīng)網(wǎng)絡(luò)模型,對問題中的藥物、疾病等實體進行識別;然后結(jié)合TF-IDF 與預(yù)訓練的詞向量,得到問題向量,將其與預(yù)先定義的問題模板進行相似度匹配,得到最相似的問題模板;該系統(tǒng)可以有效地回答原發(fā)性肝癌相關(guān)的藥物、疾病及表征等問題。Qu 等在傳統(tǒng)的基于向量模型的基礎(chǔ)上,提出一種AR -SMCNN 模型,利用CNN 與RNN 神經(jīng)網(wǎng)絡(luò)優(yōu)化提取信息的精度,解決了之前忽視自然語言原始信息的問題,取得了Simple Question 測評上的最優(yōu)效果。Hamilton 等認為知識圖譜是一張由關(guān)系和實體組成的圖,通過學習實體低緯度嵌入表示,可以預(yù)測潛在或者缺失的邊。目前知識圖譜查詢的難點在于處理更為復(fù)雜的邏輯查詢,因為這涉及多個未發(fā)現(xiàn)的邊、實體和屬性。針對這一問題,Hamilton 等設(shè)計了一種框架,實現(xiàn)在不完整知識圖譜上有效地對連接邏輯查詢進行預(yù)測,在低維空間中對圖譜節(jié)點embedding 操作,并在這個embedding space 中將邏輯運算符表示為學習過的幾何運算(例如平移、旋轉(zhuǎn))。通過在低維embedding space 中執(zhí)行邏輯運算,可以預(yù)測圖譜中的關(guān)系。

由以上方法可知,神經(jīng)網(wǎng)絡(luò)和知識圖譜在知識問答領(lǐng)域的表現(xiàn)都十分良好。但在實際應(yīng)用中,尤其面對公司特定領(lǐng)域知識的業(yè)務(wù)場景時,很難獲取如上述方法那樣充足的數(shù)據(jù)。因此面對這種情況,大多數(shù)面向公司專業(yè)領(lǐng)域知識問答模型都是基于字符匹配的。但是這樣的模型準確率卻不高。考慮到神經(jīng)網(wǎng)絡(luò)進行特征提取的效果往往是最優(yōu)越的,而知識圖譜表達數(shù)據(jù)中的相關(guān)實體以它們之間的關(guān)系最有效、最直觀。因此本文針對較少的公司專業(yè)領(lǐng)域的數(shù)據(jù),通過數(shù)據(jù)增強,然后以雙向LSTM 結(jié)合知識圖譜為基礎(chǔ)進行知識增強,構(gòu)建出了一種基于知識增強的智能問答模型。

2 數(shù)據(jù)處理

數(shù)據(jù)來源于公司特定領(lǐng)域的專業(yè)知識,具體內(nèi)容如表1所示。其中“問題”表示企業(yè)知識庫中用來查詢的標準查詢語句,“回復(fù)”是左側(cè)每個“標準問題”對應(yīng)的標準答案,“相似問題”是“問題”列中每個問題的相似查詢語句。例如:輸入查詢語句“人才政策”,回復(fù)的答案就是“1、合肥市……”;同樣,考慮到用戶在進行查詢時所輸入的自然語言不一定標準,可能會輸入“人才補貼”、“住房補貼”等相對接近標準問題“人才政策”的相似查詢語句,也應(yīng)該返回問題“人才政策”的答案。

表1 企業(yè)技能知識庫原始數(shù)據(jù)

為了方便模型構(gòu)建,我們需要把表1的數(shù)據(jù)進行處理。

(1)表1所示的數(shù)據(jù)量太少,并且沒有相關(guān)的負樣本,因此需要把表1 的數(shù)據(jù)進行數(shù)據(jù)增強,處理成<問題,相似問題,非相似問題>格式的數(shù)據(jù),詳細如表2所示。

表2 標準問題匹配數(shù)據(jù)集

通過對原有數(shù)據(jù)進行清洗、篩選、擴展等數(shù)據(jù)處理操作,將“問題”列中的每個問題和“相似問題”列中的每個相似問題進行匹配擴展,同時對“問題”列中非當前問題的其他問題,包括與之對應(yīng)的相似語句都可以是當前問題的非相似問題,最終數(shù)據(jù)從300 多條增強為95336條。

(2)為快速查詢相關(guān)問題,本文構(gòu)建了知識圖譜,為此將表1 的數(shù)據(jù)處理成三元組,見表3。

表3 企業(yè)知識庫三元組數(shù)據(jù)

為構(gòu)建知識圖譜,表1中“問題”列中的每個問題,“回復(fù)”列中的每個答案,“相似問題”列中的每個相似問題都被定義為實體,并且考慮到表1中的數(shù)據(jù)比較少,知識比較分散,本文為知識圖譜添加了一個主實體:機器人(robot),并且定義主實體和“問題”實體之間的關(guān)系是‘相關(guān)’(related)。通過相關(guān)數(shù)據(jù)處理,本文一共定義“問題”和“答案”實體各126 個,“相似問題”實體315 個。實體之間的關(guān)系3 個,分別是相關(guān)、答案以及相似。比如實體“人才政策”和實體“機器人”的關(guān)系為‘相關(guān)’,和“1、合肥市公共租賃住房申請指南…”的關(guān)系為‘答案’,和“住房補貼”的關(guān)系是‘相似’。

3 模型構(gòu)建

模型的總體架構(gòu)思路如圖1所示,問題查詢語句輸入模型后,由訓練數(shù)據(jù)訓練完成的雙向LSTM 模型可以對輸入的查詢語句進行‘標準化’,得到標準問題。將標準問題輸入構(gòu)建的知識圖譜,利用知識圖譜可以對標準問題進行查詢,返回用戶所需答案。下面將具體說明雙向LSTM模型和相應(yīng)的知識圖譜。

圖1 模型總體架構(gòu)示意圖

3.1 雙向LSTM模型示意圖

將數(shù)據(jù)處理成<問題q,相似問題q+,非相似問題q->格式之后,首先建立詞典和隨機初始化詞向量矩陣,然后索引得到每一個問題的語義矩陣表示,帶入雙向LSTM 模型中對問題的語義向量表示進行微調(diào)訓練,最后迭代縮小損失函數(shù),使得<問題,相似問題>的cosine 的值變大,而<問題,非相似問題>的cosine 值變小。具體框架示意圖如圖2所示。

較遠的詞與詞之間的聯(lián)系選取出更好的特征。最后損失函數(shù)的計算采用如下公式:

其中,是需要設(shè)定的參數(shù),可以改變,實驗中設(shè)置為1,、、分別是問題、相似問題、非相似問題的語義表示向量。通過迭代縮小損失函數(shù),使得<問題,相似問題>的cosine的值變大,而<問題,非相似問題>的cosine 值變小。

3.2 知識圖譜示例圖

根據(jù)表3企業(yè)知識三元組數(shù)據(jù)生成的知識圖譜總體如圖3 所示。它以主實體robot 為中心向外發(fā)散,robot 用‘相關(guān)’關(guān)系連接著每個“問題”和“相似問題”的實體,其中每個實體都通過各自的‘關(guān)系’連接著其他實體。

圖3 公司技能知識圖譜示例圖

下面是“問題”實體中的“人才政策”實體對應(yīng)的子圖譜。它用‘相關(guān)’關(guān)系連接著主實體機器人;用‘相似’關(guān)系連接“住房補貼”、“租房補貼”等相似實體;‘答案’關(guān)系直指它對應(yīng)的標準答案。同時,我們從圖2也可以看到,每個“相似實體”也都有自己的關(guān)系連接著其他實體。

圖4 “人才政策”單個實體示例圖

4 實驗結(jié)果分析

本次實驗采用95336 條數(shù)據(jù)和雙向2 層的LSTM 預(yù)訓練模型進行實驗,將數(shù)據(jù)按照7:3 的比例劃分成訓練集和測試集。然后將訓練集的數(shù)據(jù)按2000 一組進行分組,每一組計算一次損失來迭代更新模型,最后雖不滿2000 個仍然將其分為一組,迭代50輪。通過測試集中問題的句子向量以及相似問題的句子向量,得到測試集相似和非相似的準確率。模型的損失變化趨勢如圖5 所示,雙向LSTM 模型訓練時間為305 s,精確率達到83.44%。

圖5 雙向LSTM損失函數(shù)變化趨勢圖

模型訓練完成之后,輸入問題“住房補貼”進行測試,模型的預(yù)測結(jié)果如圖6所示。

圖6 測試用例示意圖

由測試結(jié)果可知,當輸入查詢語句“住房補貼”后,模型能夠?qū)藴蕟栴}“人才政策”對應(yīng)的答案輸出出來,說明本文提出的模型能夠及時響應(yīng)并返回準確答案。

5 結(jié)語

本文針對公司專業(yè)領(lǐng)域的知識數(shù)據(jù),以雙向LSTM 結(jié)合知識圖譜為基礎(chǔ)進行知識增強,提出了一種基于知識增強的智能問答模型。面對公司數(shù)據(jù)量比較少的情況,先以數(shù)據(jù)增強為手段對數(shù)據(jù)進行擴展,然后利用處理后的數(shù)據(jù)對雙向LSTM 網(wǎng)絡(luò)進行微調(diào)訓練,使得微調(diào)后的模型能對輸入的自然語言語句進行特征提取,然后與公司專業(yè)技能知識庫中相對應(yīng)的標準“問題”進行匹配,得到最相似的標準問題。之后將標準問題送入利用問題、相似問題和答案等實體構(gòu)建的知識圖譜中,利用查詢語言得到與之相應(yīng)的標準答案。實驗證明,本文提出的模型提升了答案準確率并提升了響應(yīng)速度,能在節(jié)省大量資源的前提下實現(xiàn)對用戶查詢的自動回復(fù)。但由于數(shù)據(jù)量太少,本文模型能實現(xiàn)自動問答的問題僅僅只支持已有的公司數(shù)據(jù),因此后續(xù)工作會繼續(xù)收集數(shù)據(jù)來對模型進行迭代優(yōu)化。在數(shù)據(jù)量充足的情況下,我們還會嘗試結(jié)合圖表征來學習更多的語義知識,進一步提高模型的準確率。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: av无码一区二区三区在线| 玖玖精品在线| 草草影院国产第一页| 日本草草视频在线观看| 手机在线免费毛片| 久久这里只有精品66| 日本91视频| 理论片一区| 成人日韩欧美| 久久精品aⅴ无码中文字幕| 国产一在线| 欧美日韩成人| 亚洲午夜片| 2024av在线无码中文最新| 中文字幕有乳无码| 欧美成人怡春院在线激情| 国产一级二级三级毛片| 蜜臀AVWWW国产天堂| 国产麻豆精品在线观看| 亚洲床戏一区| 欧美亚洲综合免费精品高清在线观看| 亚洲免费成人网| 亚洲日本韩在线观看| 色有码无码视频| 99久久精品免费看国产免费软件| 久久精品这里只有精99品| 国产精品一线天| 国产精品美乳| 久久这里只精品国产99热8| 国产网站免费| 日韩色图区| 2021亚洲精品不卡a| 99精品在线视频观看| 欧美精品1区2区| 91在线一9|永久视频在线| 91色综合综合热五月激情| 国产成人乱无码视频| 国产黄网站在线观看| 91在线精品麻豆欧美在线| 91成人在线免费视频| 色婷婷电影网| 夜夜爽免费视频| 在线视频亚洲欧美| 国产黄在线观看| 超碰aⅴ人人做人人爽欧美 | 亚洲最新网址| 爱色欧美亚洲综合图区| 四虎亚洲精品| 99热这里只有精品2| 国产精品久久自在自2021| 欧类av怡春院| 国产丝袜啪啪| 免费无码AV片在线观看中文| 亚洲天堂自拍| 国产网站免费| 91无码视频在线观看| 大乳丰满人妻中文字幕日本| 国产SUV精品一区二区6| 91在线高清视频| 久久五月视频| 欧美国产日韩一区二区三区精品影视| 欧美a级在线| 国产性精品| 黄色片中文字幕| 欧美日韩在线观看一区二区三区| 亚洲中文无码h在线观看 | 中文国产成人精品久久| 2020国产精品视频| 日本高清有码人妻| 亚洲欧美在线精品一区二区| 无码不卡的中文字幕视频| 日本欧美中文字幕精品亚洲| 国产成人你懂的在线观看| 亚洲成a人片7777| 97在线免费| 好吊色妇女免费视频免费| 在线亚洲小视频| 国产日本一线在线观看免费| 国产成人成人一区二区| av手机版在线播放| 欧美国产日产一区二区| 人人91人人澡人人妻人人爽|