999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智能運維場景下的問答系統設計與應用

2022-07-29 06:54:14趙艷興趙逢波王旭鵬張治國
智能計算機與應用 2022年8期
關鍵詞:模型系統

王 越,趙艷興,賀 霆,趙逢波,王旭鵬,張治國

(北京寶蘭德軟件股份有限公司,北京 100089)

0 引言

在智能運維AIOps 領域,問答系統可以幫助企業運維人員完成運維工作,如作業下發、運維知識查詢等。通過與問答系統一問一答的交互,運維人員能夠更加快速、便捷地完成運維工作,降低企業的運維成本。

Rasa 是當前主流的開源問答系統框架,用于構建聊天機器人和智能助手。Rasa 框架的模塊化和靈活設計使開發人員能夠輕松構建新的擴展和功能,包含自然語言理解(NLU)模塊與核心(Core)模塊兩部分。NLU 模塊用于解析用戶輸入語句,識別語句中的實體、意圖等信息;Core 模塊負責對話管理,用于跟蹤對話狀態,執行對話策略,并提供可編輯的模板,方便開發人員設計多輪對話。

常見的問答系統通常功能較為單一,只能完成某些特定功能的問答場景。百度的AnyQ 框架采用自研的SimNet 網絡結構完成研發問題對(FAQ)的問答場景。58 同城采用qa_match 框架,基于深度學習的2 層架構,完成FAQ 場景問答。美團大腦基于問答對數據與知識圖譜構建FAQ 和圖譜問答(KBQA)。

本文構建了一種高效的多功能問答場景融合架構,可以將任務型(Task)、FAQ、KBQA、閑聊型問答(Chat)整合為一體,通過分層的插件化設計思路,保證系統可以毫秒級快速響應用戶多功能查詢需求。架構中的Task 場景與Chat 場景采用Rasa 框架開發,包括意圖識別、詞槽提取、對話狀態管理、多輪對話設計等。針對運維場景的數據特點,在Rasa 的NLU 模塊采用了本文提出的基于BERT 的改進型意圖識別神經網絡結構,明顯提升了意圖識別模型準確率。最后,通過問答系統部署現場的真實數據,驗證了本文提出的多功能問答場景融合架構與改進型意圖識別模型性能的有效性。

1 系統架構設計

問答系統要求能夠為不同需求的運維人員提供多種運維功能。Task 場景是問答系統的核心功能,支持運維人員通過一輪或多輪對話的方式完成具體的運維操作,如“系統健康度分析”、“創建故障群組”、“執行OOS 系統作業”等。知識型問答場景包括FAQ 與KBQA,其中FAQ 支持運維人員查詢系統內的運維知識,而系統中對接的AMDB 知識圖譜數據支持運維人員對系統節點的狀態、關系等信息進行查詢。Chat 場景內置“功能類”與“人格屬性類”等問題,“功能類”問題支持回答用戶諸如“你會做什么?”、“你有什么功能”等問題,“人格屬性類”問題可以回答“你是誰”、“你幾歲了?”等常見閑聊問題。

多功能問答融合示意圖如圖1 所示,根據功能可以分為4 個模塊:Task 插件模塊、知識型問答模塊、Rasa 服務模塊、意圖置信度賦值模塊。在開發過程中,Task 場景和Chat 場景整合在Rasa 框架中實現,將意圖訓練樣本同時配置在Rasa 框架提供的配置文件中,并采用本文實現的改進型意圖識別模型進行預測。對此擬展開研究分述如下。

圖1 多功能問答融合示意圖Fig.1 Schematic diagram of multi-function questions and answers fusion

1.1 Task 插件模塊

用戶輸入語句首先經過Task 插件模塊處理,該模塊包含“專家規則檢測”與“對話狀態檢測”兩種功能。其中,“專家規則檢測”旨在識別實際應用中常見的Task 場景語句,被識別的語句無需再經過知識型問答模塊查詢和Rasa 意圖識別模型的預測,可以大幅度提升問答系統的響應速度。系統設計了業務關鍵詞字典與模式匹配兩種方式,專家規則處理示意圖如圖2 所示。

圖2 專家規則處理示意圖Fig.2 Expert rules processing diagram

以Task 場景中的“創建群組”類別為例,開發者可將“創建群組,拉建群組”等關鍵詞配置在字典中,同時也可配置正則表達式“(創建|拉建)(.+?)(群組|群聊)”作為模式匹配。匹配中關鍵詞字典或正則表達式語句則可認為被“專家規則檢測”功能所識別。開發過程中,可以通過配置文件的方式或前端界面工具的方式進行專家規則的配置,也可以根據實際情況靈活地調整專家規則,或在新增意圖時便捷地擴展專家規則。不同類別的專家規則之間不可有規則重疊。

對現場用戶實際輸入的數據進行統計,通過“專家規則檢測”功能可以識別約40%的Task 問答語句。分析用戶使用心理發現:Task 場景中用戶在使用時傾向于簡短且常用的正式語句。近一半的語句可以被“專家規則檢測”功能攔截是合理的,被截留的語句直接進行“意圖置信度賦值”模塊的處理。

Task 插件模塊的“對話狀態檢測”功能旨在檢測當前對話狀態是否處于多輪對話狀態中,防止意圖誤識別的產生。問答系統功能設計中,Task 場景支持多輪對話,用戶新輸入的語句不再需要其它模塊的檢測,將語句輸入到Rasa 服務中即可。例如:用戶輸入“創建群組”,系統會追問“請輸入群名稱”,此時待輸入的群名稱語義上會較為靈活;用戶再輸入“智能巡檢方法”,該語句與FAQ 問題重復,“對話狀態檢測”功能則避免了系統錯誤返回知識型場景的答案。Rasa 框架的Core 模塊會維護對話狀態跟蹤、記錄對話歷史與當前狀態等。Rasa HTTP 服務接口可以獲取所需狀態信息。多輪對話示意圖如圖3 所示。圖3 中,序號1~7 代表多輪問答順序。

圖3 多輪對話示意圖Fig.3 Multi-round dialogues schematic diagram

1.2 知識型問答模塊

沒有被Task 插件模塊識別的語句會流入知識型問答模塊,當前系統開發了KBQA 場景與FAQ 場景兩部分,都是通過對存儲在知識庫中的知識進行語義相似度的檢索,將滿足閾值要求的答案返回給用戶。

KBQA 模型采用基于答案排序的方式實現。圖譜數據存儲在圖數據庫ArangoDB 中,首先對用戶輸入語句進行命名實體識別,將提取出的實體放在知識圖譜中查找與實體相連的所有三元組,組成候選答案。其次,計算問句與候選三元組的語義相似度,選出最相似的三元組判斷是否滿足所設定的相似度閾值。基于答案排序的KBQA 的工作流程圖示意如圖4 所示。

圖4 KBQA 流程示意圖Fig.4 Schematic diagram of KBQA

FAQ 場景中將問答對數據存儲在Elasticsearch(ES)庫中,采用ES 的倒排索引快速檢索用戶輸入的相似問句。系統在實現過程中引入了近義詞表來泛化ES 的相似度檢索效果。以問句“如何restart電腦”為例,用戶希望在FAQ 庫中匹配到“怎樣重啟計算機”問句,而倒排索引本身是基于共現詞來創建索引,沒有近義詞來泛化則不能準確找到對應的候選問題。在實際生產中,可以將近義詞表放入ES中加速查詢過程,在ES 中引入近義詞詞典如圖5 所示。

圖5 在ES 中引入近義詞詞典Fig.5 Introducing a dictionary of synonyms in ES

預測時知識型模塊同時調用KBQA 與FAQ 的2 個服務接口,并行預測給出檢索結果。當2 個模型都有結果輸出時,依據FAQ 模型得到的準確率優于KBQA 模型,因此優先選擇FAQ 的結果。

1.3 Rasa 服務模塊

用戶輸入語句通過知識型問答模塊后如果不滿足相似度閾值,則進入Rasa 服務模塊。通過框架中NLU 模塊與Core 模塊可以便捷地搭建起Rasa 問答服務。Rasa 框架內置了多種意圖識別模型與詞槽提取模型,系統采用了本文提出的基于BERT 的改進型意圖識別神經網絡結構,針對運維場景優化了意圖識別效果。Core 模塊內置多種問答策略,Form Policy 實現詞槽追問功能,如創建群組時追問群名稱;Fallback Policy 實現默認回答功能,當輸入問答系統不能理解的語句時,系統返回默認語句“不理解您的意思,請換個說法”。

1.4 意圖置信度賦值模塊

符合Task 插件模塊的語句會流入意圖置信度賦值模塊。當系統處于對話狀態之中時,該模塊將問答語句輸入Rasa 服務中進行下一輪對話流程;反之,模塊則主動對輸入的語句進行類別置信度賦值操作。如用戶輸入“創建hadoop 故障群組”,滿足“創建群組”的專家規則,模塊會主動將其標注為該類別,置信度賦值1.0。賦值后的語句不再需要Rasa 服務中的意圖識別模型的判別,模塊負責將語句的類別與置信度等所需信息存入Rasa 服務狀態中,從而開啟接下來的對話流程。

2 意圖識別

在問答系統中,意圖識別屬于文本分類場景,將不同的輸入語句判別到對應類別、即完成意圖識別功能。Rasa 框架中內置了多種算法功能,如:分詞、詞向量化、分類算法等,這些算法可以拼接成算法流程進行意圖識別。在運維場景中,內置的算法流程在實際數據上效果欠佳,本文針對運維數據特點提出了一種基于BERT 的改進型意圖識別神經網絡結構。

2.1 數據分析

Task 場景與Chat 場景中用戶輸入語句均為短文本,相較于長文本,短文本對分類模型要求更高。Task 場景下用戶輸入語句一般由2 部分組成:語義表示與詞槽;而Chat 場景語句也可以理解為沒有詞槽的Task 語句。任務型場景數據見表1。

表1 任務型場景數據表Tab.1 Data table of task scenarios

如“創建群組”類意圖,用戶輸入“建群”,“建個群聊”等帶有明顯語義表示的詞語,較容易識別;當輸入“創建執行hadoop 定時作業群組”時,語句中包含的“執行hadoop 定時作業”的詞槽,容易引起分類錯誤,模型置信度一般也較低。本文嘗試了Rasa 框架內置的基于scikit-learn 庫的多種傳統機器學習算法與Rasa 自研的DIET 深度學習算法均不能很好地解決這個問題。效果更優的DIET 模型面對此類數據往往在意圖分類時會呈現出“label:創建群組,confidence:0.54;label:執行OOS系統作業,confidence:0.44;label:......”的窘境。排名第一的類別置信度與第二類別置信度相差不大且置信度低,無法超過類別閾值(一般0.8 以上)。

2.2 模型設計

面對多變的詞槽,要求意圖識別模型可以學習出語句中不同詞語間與不同詞序的權重,對語義表示部分的詞語需提高權重,對詞槽部分的詞語降低權重。根據這樣的思路,本文設計了更優的意圖識別模型。

BERT 預訓練語言模型采用雙向Transformer 結構,以 Mask Language Model 和 Next Sentence Prediction 的多任務訓練為目標,在自然語言處理等眾多領域達到了最優效果。Transformer 結構中的自注意力機制(self-attention)是算法核心,selfattention 的數學表達式可寫為:

其中,d表示向量的維度數,,,分別表示查詢向量、鍵向量、值向量,由此推導得到的數學公式為:

其中,x表示輸入語句的詞嵌入2 維矩陣,實際模型訓練過程中使用訓練樣本集的3 維句向量矩陣計算;W表示查詢矩陣。鍵向量和值向量生成方式與此相同。

兩矩陣相乘可解釋self-attention 的self 概念,每個詞向量會和包括自身在內的句子中所有詞進行相乘。相乘后的矩陣除以向量維度的平方根,在計算過程中可以使梯度更加穩定。中的部分屬于點積縮放的注意力機制,得到的值后再乘以值向量,最終獲得經注意力機制調整的矩陣。

本文選擇針對中文優化的BERT-wwm 模型構建雙通道輸入的改進型意圖識別網絡結構,如圖6所示。

圖6 改進型意圖識別網絡結構Fig.6 Improved intention recognition network structure

左通道通過本文提出的NS-Sampling(Sampling based on negative sample)算法流程進行訓練樣本設計與均衡,算法流程圖如圖7 所示。

圖7 NS-Sampling 算法流程圖Fig.7 NS-Sampling algorithm flow chart

2.2.1 數據標記

構建意圖訓練樣本時首先需要將語句中的詞槽標記出來,詞槽對意圖傾向沒有貢獻,反而會干擾模型訓練。如“創建[智能巡檢]的群組”,詞槽“智能巡檢”被標識出,這樣做的目的是為了在負樣本生成時程序可以自動識別,快速擴展新的Task 場景,在工程應用中加快模型迭代速度。

2.2.2 負樣本設計

本文將意圖識別模型支持的意圖稱為正類,不支持識別的其它意圖統稱為負類,負類的識別能力對模型性能有著決定性影響,負樣本的設計也是關鍵因素。本文將負樣本分為2 部分:種子負樣本與程序生成負樣本。對此可給出剖析論述如下。

建設公共數學教學資源共享平臺,打造精品特色.教學資源共享平臺內容既包括高等數學、線性代數和概率統計課程的選擇,又有分類、分級的選擇.具體內容包括課程描述、分類分級課程標準、分類分級考試大綱及樣題、教學進度表、電子教案、多媒體課件、學習輔導、網絡課程、課程教學隊伍及主講教師簡介、在線交流、授課錄像、通知公告、校校協同的教學資源、教學研究與改革等.此共享平臺教學資源豐富,具有網絡課程和精品資源共享課的特點.

種子負樣本是在編寫樣本時通過人工整理特別設計的樣本,這類樣本容易與某些正類意圖混淆,如“創建”只出現在“創建群組”的類別中,當用戶只輸入“創建”時,因BERT 會將該類詞語的權重學習得很高,意圖識別模型會誤將詞語“創建”識別為“創建群組”類別。因此將其配置在負樣本中,就可以主動降低這些易混淆詞語的權重。

程序生成負樣本來自數據標注步驟中標識出來的詞槽,這些詞槽不可以與正類意圖重疊,在模型訓練時會由程序自動補充到負樣本中。

2.2.3 數據增強

數據增強采用近義詞替換的方式來擴展樣本較少的類別。以所有類別中樣本數量最多的類別為增強數量的上限,通過分詞后的樣本進行近義詞替換。這里不對標記的詞槽進行替換。

2.2.4 過采樣

經過近義詞數據增強后的樣本多數情況下可以達到數據均衡,個別類別可能會由于詞語的近義詞數量不夠而增加后的樣本依然較少,采用過采樣的方法來提升這些類別的樣本數量。

意圖識別模型的右通道提供特征工程入口,通過分析訓練樣本,本文設計了若干可以輔助提升意圖識別的特征,部分特征見表2。

表2 特征表Tab.2 Feature table

一條語句形成的特征稀疏矩陣如圖8 所示,橫坐標表示特征個數,序號0~4、共5 個特征;縱坐標表示經過輸入語句分詞后的詞,這里有0~14 個、共15 個詞。矩陣中滿足該特征條件的值為1,否則為0。

圖8 特征工程矩陣Fig.8 Feature engineering matrix

稀疏矩陣輸出到全連接網絡中,從而獲得與左通道中BERT-wwm 的向量相同的768 維度向量。將左、右兩端的向量進行相加后求平均(Mean)值,可以理解為右側的768 維度向量賦予句向量輔助特征信息,求均值后的向量再連接全連接層與層。

3 實驗

本節設計2 組實驗用來檢驗多功能問答場景融合架構與改進型意圖識別模型的性能。實驗測試了問答系統實際響應速度與Task 場景意圖識別預測準確率。這里可做解析表述如下。

3.1 實驗一

對于問答系統響應速度的測試,選用200 條知識型語句,其中KBQA 語句與FAQ 語句各100 條;選用Task 場景包括負類在內的全部12 種類別、250 條單輪問答語句,平均每種場景20 條測試語句。3 種場景實驗數據量之比∶∶1 ∶1 ∶2.5,與實際應用時數據分布接近。實驗分別測試了每種場景下單模型的耗時、融合到框架后每種場景的耗時以及綜合所有場景的系統平均耗時。測試在i7-8700 CPU @ 3.20 GHz 環境中進行。問答系統耗時結果見表3。

表3 問答系統耗時表Tab.3 Time consumption table ms

實驗表明,多功能問答場景的融合架構相比于單模型耗時沒有明顯增加,其中Task 場景得益于Task 插件模塊有了小幅度提升,而綜合所有場景的平均耗時較少,保證了系統可以ms 級地快速響應。

3.2 實驗二

對于Task 場景意圖識別性能的測試,實驗沿用實驗一中的250 條Task 場景測試語句,對比了基于scikit -learn 庫的傳統機器學習算法 Logistic Regression 與SVM(線性核,即LinearSVM)、DIET 算法、微調的BERT模型、改進型意圖識別模型共5種。其中,傳統機器學習算法的句向量化方式分別嘗試了N-gram(1,3)+TF-IDF 與Jieba 分詞+Word2Vec 的方式,Word2Vec 模型選擇基于百度百科的語料訓練,模型中包括了詞向量與單個字向量。實驗評價指標選擇準確率見表4。

表4 模型預測準確率Tab.4 Model prediction accuracy

實驗表明,傳統機器學習算法面對運維場景的短文本分類任務性能欠佳,明顯低于深度學習模型;基于BERT 的意圖識別模型效果明顯高于其他方法,本文提出的基于BERT 的改進型意圖識別模型在BERT的基礎上進一步提升了預測準確率。

4 結束語

在AIOps 場景下,本文設計了多功能問答系統架構,集成了4 種問答功能,能夠輔助運維人員完成運維工作。針對Task 場景,通過對系統部署現場的實際運維數據進行分析,本文提出了基于BERT 的改進型意圖識別神經網絡結構。實驗表明,多功能問答系統架構具有較高性能,在多場景融合的情況下依然可以保持ms 級的快速響應;而采用了基于BERT 的改進型意圖識別神經網絡,Task 場景意圖識別準確率效果極佳。

猜你喜歡
模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品午夜福利麻豆| 全午夜免费一级毛片| 国产成人做受免费视频| 国产浮力第一页永久地址| 九九视频免费在线观看| 四虎永久免费网站| m男亚洲一区中文字幕| 亚洲男人的天堂视频| 精品久久香蕉国产线看观看gif| 在线观看免费AV网| av色爱 天堂网| 亚洲第一av网站| 九九久久精品免费观看| 一级毛片免费观看久| 日韩一二三区视频精品| 欧美在线视频不卡| 91在线中文| 91av成人日本不卡三区| 亚洲日韩精品无码专区| 夜夜高潮夜夜爽国产伦精品| 欧美啪啪精品| 欧美成人aⅴ| 97se亚洲综合在线天天| 中文天堂在线视频| 国产一区二区三区精品久久呦| 日日拍夜夜操| 国产男女XX00免费观看| 在线免费观看AV| 男女性色大片免费网站| 国产69精品久久久久孕妇大杂乱| 久久精品电影| 久久五月天国产自| 亚洲午夜国产精品无卡| 亚洲成aⅴ人片在线影院八| 亚洲伦理一区二区| 色播五月婷婷| 亚洲男人的天堂在线| 亚洲午夜久久久精品电影院| 中文字幕亚洲无线码一区女同| 欧美午夜网站| 久久美女精品| 欧美日韩导航| 免费在线国产一区二区三区精品| 国产精品99久久久久久董美香| 成人午夜视频免费看欧美| 日本伊人色综合网| 国产精品极品美女自在线网站| 制服丝袜一区| 免费看的一级毛片| 亚洲精品手机在线| 日日拍夜夜操| 亚洲丝袜第一页| 四虎影视库国产精品一区| 国产91视频免费观看| 高清色本在线www| 亚洲国产日韩视频观看| 国产女人水多毛片18| 免费jizz在线播放| 看av免费毛片手机播放| 亚洲欧美成人在线视频| 亚洲综合色婷婷中文字幕| 亚洲精选无码久久久| 亚洲国产精品不卡在线| 人妻中文字幕无码久久一区| 日本午夜影院| 5555国产在线观看| 日本a∨在线观看| 日本人又色又爽的视频| 欧美国产日韩在线观看| 亚欧成人无码AV在线播放| 爽爽影院十八禁在线观看| 日日拍夜夜嗷嗷叫国产| 呦视频在线一区二区三区| 国产亚洲精品自在久久不卡| 综1合AV在线播放| 久久亚洲美女精品国产精品| 欧美有码在线| 九九香蕉视频| 日韩国产 在线| 99在线观看免费视频| 在线观看国产黄色| 国产精品久久久免费视频|