999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合主題特征的智能問答技術(shù)研究

2021-03-24 03:25:58杜中方侯躍陸浩東
關(guān)鍵詞:機制文本模型

杜中方 侯躍 陸浩東

(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

0 引言

隨著計算機技術(shù)的發(fā)展,大量數(shù)據(jù)以文本的方式存在于互聯(lián)網(wǎng)中。能夠快速從大量文本中篩選出重要信息顯得尤為重要。與傳統(tǒng)問答系統(tǒng)相比,智能問答系統(tǒng)是一種針對自然語言處理的新型信息檢索系統(tǒng),允許用戶用自然語言輸入問句,并以自然語言形式返回,避免了需要用戶輸入關(guān)鍵詞并自己篩選信息的麻煩。本文中的基本答案選擇模型采用基于注意力機制的BiLSTM模型。并在此基礎(chǔ)之上采用原注意力機制和主題注意力機制結(jié)合的混合注意力機制為深度學(xué)習(xí)模型動態(tài)補充主題特征。實驗結(jié)果表明,改進(jìn)后的答案選擇模型優(yōu)于基本模型。

1 LDA主題模型

LDA在主題模型中占有非常重要的地位,常用來進(jìn)行文本分類。作為主題模型,它可以將文檔集中文本的主題以概率分布的形式呈現(xiàn)出來。另外,L D A 采用詞袋模型,即考慮一個詞匯是否出現(xiàn)時,不考慮其出現(xiàn)的順序。LDA屬于無監(jiān)督貝葉斯模型,訓(xùn)練只需要文檔集和主題個數(shù),通過自動訓(xùn)練即可得到概率分布。因此,在自然語言處理任務(wù)中,引入L DA 模型有助于解決語義理解難題。

一篇文檔,可以看作一組有N 個詞的序列,并且服從“文檔-主題”概率分布,對于一個主題而言,服從“主題-詞語”概率分布。L D A 模型屬于生成模型,通過不斷取樣生成文本。某篇文檔中出現(xiàn)某個詞語的概率可以通過同一主題下詞語出現(xiàn)的概率和同一文檔下某個主題出現(xiàn)的概率相乘獲得。

由此可定義L D A 主題模型的生成過程:選擇一篇文檔,從狄利克雷分布中取樣生成文檔的主題分布;再從主題分布中取樣生成文檔對某一特定詞語的主題;再從狄利克雷分布中取樣生成主題對應(yīng)的詞語分布;最后即可從詞語多項式分布中得到最終的生成詞語。

詳細(xì)過程如下:如圖1所示,若數(shù)據(jù)集中包含K個主題和T 篇文檔,文檔中的所有詞匯都包含在有N 個詞匯的詞集中。θt表示生成第t個文本時抽取的“文本-主題分布”,zt,n表示本篇文本中第n 個詞語的主題編號。βk表示“主題-詞語”概率分布。wt,n表示生成的詞匯。因為在L DA 中采用詞袋模型,T 篇文檔對應(yīng)T 個獨立的狄利克雷多項式分布共軛結(jié)構(gòu)。同樣地,K 個主題也分別有本身獨立的共軛結(jié)構(gòu)。對βk,θt,分別采樣K次和T次,對文本中詞wt,n采樣主題多項式分布zt,n~ Multi(θt)。同時采樣wt,n~Multi(βk)得到對應(yīng)主題下的詞匯。得到LDA模型對應(yīng)的概率分布后,通過極大似然估計確定參數(shù)α和η。從而實現(xiàn)根據(jù)詞頻wt,n來推斷文本集所對應(yīng)的主題結(jié)構(gòu)的效果。

圖1 LDA 的變量關(guān)系圖Fig.1 Variable relation diagram of LDA

圖2 結(jié)合主題特征的深度問答模型Fig.2 A question answering model based on topic features

2 結(jié)合主題特征的深度問答模型

本文中模型的評測數(shù)據(jù)集為開放域問答數(shù)據(jù)集,LDA的訓(xùn)練通過Python中的gensim工具包進(jìn)行相似度計算和信息檢索。按照LDA主題模型的要求輸入處理后的文本,設(shè)定主題數(shù)并編號。不斷掃描語料庫,對每一個詞進(jìn)行采樣,求出主題,并在語料中更新,直到收斂得到topic-word分布,即為L D A 模型。問題、答案的主題特征向量化表示便是在所得主題上的分布情況。

為了在一定程度上彌補深度學(xué)習(xí)模型的不足,本文采用注意力混合機制,即在原本的注意力機制基礎(chǔ)上引入主題特征,將主題信息應(yīng)用于問答模型,達(dá)到為答案特征向量的生成動態(tài)補充相應(yīng)主題信息的效果[1]。

混合注意力機制由原始注意力與主題注意力兩部分組成。原始注意力采用答案選擇模型中采用的注意力機制實現(xiàn), 而主題注意力的實現(xiàn)則先利用L D A 模型得到topicq與topica即問題和答案的主題特征向量,再通過公式獲取問題答案的主題注意力權(quán)重。然后通過對兩個權(quán)重加權(quán)獲得混合注意力機制權(quán)重。最后利用混合注意力機制對原始答案隱藏層向量進(jìn)行更新并獲得新的輸出向量[2]。問答模型大致過程如圖2所示。

3 結(jié)語

通過對基于注意力機制的答案選擇模型和結(jié)合主題特征的混合注意力機制答案選擇模型在M R R 、M A P 、AC C@1三個指標(biāo)上進(jìn)行測評,實驗結(jié)果表明后者比前者在測評指標(biāo)上都得到了一定的提升,說明混合注意力機制相比于原始注意力機制在拓展主題信息方面有一定的提升。

猜你喜歡
機制文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
破除舊機制要分步推進(jìn)
注重機制的相互配合
主站蜘蛛池模板: 人妻免费无码不卡视频| 国产精品美女网站| 伦精品一区二区三区视频| 制服无码网站| 欧美日韩高清在线| 久久天天躁夜夜躁狠狠| 丰满人妻久久中文字幕| 丁香综合在线| 毛片久久网站小视频| 国产精品网拍在线| 国产精品女熟高潮视频| 国产91九色在线播放| 高清不卡毛片| 波多野结衣久久高清免费| 无码国内精品人妻少妇蜜桃视频| 91精品视频在线播放| 国产丝袜无码精品| 中文字幕在线日韩91| 国产自在线拍| 国产欧美日韩资源在线观看| 国产主播福利在线观看| 免费一级毛片不卡在线播放| 精品视频一区二区观看| 深爱婷婷激情网| 日韩精品一区二区三区免费在线观看| www.youjizz.com久久| 91久久夜色精品国产网站 | 欧美精品成人| 欧美一区国产| 91精品伊人久久大香线蕉| 国产白浆视频| 91精品专区| 国产福利一区视频| 亚洲国产成人精品一二区| 亚洲精品成人7777在线观看| 亚洲最大在线观看| 欧美一级夜夜爽www| 在线国产你懂的| 国产青榴视频在线观看网站| 91偷拍一区| 992Tv视频国产精品| 久久综合色天堂av| 国产一线在线| 深夜福利视频一区二区| 谁有在线观看日韩亚洲最新视频 | 久久精品国产精品青草app| 一区二区午夜| 国产高清在线精品一区二区三区| 热久久综合这里只有精品电影| 99视频在线观看免费| 亚洲最黄视频| 国产人前露出系列视频| 日本在线亚洲| 黄色免费在线网址| 国产区在线观看视频| 国产网友愉拍精品| 91区国产福利在线观看午夜| 亚洲免费人成影院| 亚洲天堂视频在线免费观看| 国产精品999在线| 国产精品午夜福利麻豆| 亚洲91在线精品| 欧美成人精品欧美一级乱黄| 国产一区二区三区夜色 | 国产成人精品男人的天堂下载 | 在线观看欧美国产| 一级在线毛片| 婷婷成人综合| 久久婷婷五月综合色一区二区| 亚洲国产天堂久久综合226114| 九色在线观看视频| 亚洲美女视频一区| 麻豆精品在线播放| 在线视频97| 久久精品人妻中文系列| 国产va欧美va在线观看| 国产精品免费p区| 波多野结衣在线se| 欧美国产日本高清不卡| 全部无卡免费的毛片在线看| 69综合网| 亚洲精品国产精品乱码不卞 |