999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于讀者意圖的圖書館智能問答方法

2023-01-01 00:00:00段蘇凌
圖書館研究與工作 2023年5期

摘 要:傳統的問答方法已經不能滿足讀者不斷變化的需求。基于此,文章提出一種基于讀者意圖的圖書館智能問答深度學習方法。該方法首先對讀者的意圖進行識別,發現讀者所提出問題的背景和焦點,其次對讀者的問題進行相似度計算,從FAQ數據庫中找出最相關的問題,最后利用融合讀者意圖的CPT模型進行答案句生成。在已有的數據集上進行實驗,結果表明在圖書館問答方法中加入讀者的意圖,對答案生成具有一定的促進作用。

關鍵詞:圖書館;智能問答;意圖識別;CPT模型;深度學習

中圖分類號:G250.7 " "文獻標識碼:A

A Library Intelligent Question Answering Method Based on Readers' Intention

Abstract The traditional question-answering method can no longer meet the changing needs of readers. Based on this, this paper proposes a library intelligent question answering deep learning method based on readers' intention. This method first identifies readers' intention including the background and focus of the question. Second, a similarity calculation is performed on the questions to find the most relevant ones from the FAQ database. Finally, a pre-trained language model incorporating readers’ intentions is used to generate answer sentences. Experiments are carried out on the existing data sets, and the results show that adding readers' intentions to the library question-answering method has a certain promotion effect on answer generation.

Key words library; intelligent Qamp;A; intention identification; CPT; deep learning

1 引言

問答系統是信息檢索的一種高級形式,它能夠用準確、簡潔的自然語言回答用戶所提出的問題,可以滿足人們需要快速、準確地獲取信息的需求[1]。近年來,隨著圖書館資源的不斷增加,經常會發生自動問答系統的答案不能令讀者滿意的情況。因此,傳統的圖書館問答方法已經不能滿足讀者不斷變化的需求。如何準確掌握讀者的需求,并且根據讀者的需求精確匹配答案,是構建大數據環境下圖書館智能問答系統的關鍵。本文提出一種基于讀者意圖的圖書館智能問答方法。該方法解決了圖書館領域滿意度較低的問題,同時為該領域的智能問答服務提供了一套可行的解決方案。

2 研究現狀

圖書館問答系統的方法可以分為傳統方法和深度學習方法,傳統方法的核心技術是問題搜索和答案生成技術。在問題搜索方面,主流的傳統方法利用關鍵詞匹配搜索相似的問句,代表性的模型包括TF-IDF(Term frequecy-inverse document frequency)[2]、BM25(Okapi BM25)[3]以及語言模型[4]等。此外,還有一些方法將先驗知識加入問題搜索模型,例如同義詞替換[5]、詞義消歧[6]等。這些方法旨在解決詞匯層面的文本搜索問題,但是往往無法解決句子級別的語義鴻溝問題。在答案生成方面,傳統的方法主要有基于規則的方法[7-8]。這些方法通常需要人工定義回答模板,因此這種方法費事費力,并且人工定義的規則很難覆蓋所有的情況。

隨著人工智能技術的不斷發展,深度學習方法已經成功應用在智能問答領域。該方法采用端對端的神經網絡模型對問答任務進行解答,不再需要人工定義特征,靈活的深度網絡架構也提供了強大的文本建模能力。Nie等人[9]提出使用多層的Bi-LSTM(Bi-directional Long Short-Term Memory)網絡和關鍵詞匹配的方法抽取答案句。Seo Minjoon等人[10]提出BIDAF(Bi-Directional Flow)模型,采用多階段、分層次處理文本的方式來捕獲原文中不同粒度的特征,并使用雙向注意力機制獲得問句和答案之間的表征,極大提高了模型對文本的理解能力。譚紅葉等人[11]基于BIDAF模型,在詞嵌入層融入問題類型,在交互層融入問題主題和焦點,對中文描述類問題的解答進行了探索。Yu Adans Wei等人[12]提出的QANet模型完全由多層卷積網絡和自注意力機制編碼,卷積捕獲文本的局部信息,自注意力機制學習每對單詞之間的全局交互,進一步提高了模型的訓練速度和推理能力。張兆濱等人[13]提出基于多任務層級的長短時記憶網絡自動問答方法。

以往的方法存在以下一些缺陷:這些方法都沒有針對讀者的意圖進行建模,導致構建的模型冗余信息較多,對問句的語義理解不夠深入。而在智能問答任務中,需要精確分析讀者提出問題的關鍵語義,并將這些語義信息融入深度學習模型,從而找到與問題更為密切的答案。基于此,本文構建一套基于深度學習的圖書館智能問答方法。該方法首先采用問題分析技術有效識別讀者的意圖,隨后利用融合讀者意圖的深度學習模型精準找到答案。該模型具有強大的語義建模能力,解決了人工設計的模板無法應對所有情況的問題,減輕了圖書館員的咨詢負擔,有效提升了讀者的滿意度。

3 基于用戶意圖識別的圖書館智能問答方法描述

根據圖書館問答方法中的信息的處理流程,本文構建的基于用戶意圖識別的圖書館智能問答系統包括問題分析、問題搜索和答案生成3個模塊,如圖1所示。問題分析模塊使用句法分析技術來識別問題的意圖。然后,問題搜索模塊根據問題分析得到的用戶的意圖表示,借助詞向量工具從常用問題語料庫(Frequently Asked Questions, FAQ)中搜索相似的問題,并將其傳輸入答案生成模塊。答案生成模塊采用預訓練語言模型,結合讀者意圖分析和推理問題語義,實現答案支撐句的提取和答案的生成。最后,系統返回滿足讀者要求的答案。

3.1 讀者意圖識別

問題分析模塊是圖書館智能問答方法了解用戶意圖的重要環節,問題的意圖主要包括問題的背景和問題的焦點。問題背景是讀者最關心的疑問對象,是問題的關鍵語義信息,通常指問題的約束條件或者問題的重要主題,與問題的焦點存在一定的句法關系。而問題的焦點表明讀者所關心背景的某一方面,通常由問題中的疑問詞或疑問詞短語組成。例如“圖書館的座位需要預約嗎?”,“座位”和“需要預約”分別是問題的背景和焦點。對問題的背景和焦點進行有效識別,可以提升圖書館智能問答方法對讀者意圖的分析能力,降低非重要信息的干擾,提高圖書館智能問答方法的自動問答效果。

本文通過句法分析工具[14]獲取問題的背景和焦點。首先構建讀者疑問詞表T和副詞、虛詞等功能性詞表L。隨后對問題進行分詞和依存句法分析,如果詞語或短語Wi∈T,同時Wj與Wi之間具有依存關系,此時如果WjL,則Wj為問題的焦點。否則如果Wj∈L,則繼續查找與Wj具有依存關系的詞語或短語,找到的詞語或短語即為問題的焦點。如圖2所示,短語“需要預約”與疑問詞有依存關系,因此它是問題的焦點。而“座位”與“需要預約”之間具有依存關系,因此它是問題的背景。

如果問題中不存在疑問詞,則將問題中的最后一個詞語當做疑問詞,例如“圖書館有哪些自助設備”,“設備”為疑問詞。如果問題中存在并列結構(COO關系),則問題中的兩個并列詞語或短語都是問題的背景或焦點,如圖3所示,“借閱信息”和“還書時間”都是問題的主題。

3.2 融合讀者意圖的問題檢索方法

在問題搜索模塊對問句進行相關度計算時,傳統的圖書館問答方法采用關鍵詞匹配,導致與問題語義相似度較高的候選問題不能被有效召回。例如,讀者提出問題“圖書館的位置可以隨意就座嗎?”,與常用問題語料庫中“館內的座位需要預約嗎?”這兩個問題雖然表達的內容相似,但是基于關鍵字匹配的方法很難將其召回。如果能將兩個問題的用戶意圖識別出來,分別進行匹配,例如,兩個問題的背景信息“圖書館位置”與“館內座位”、焦點信息“隨意就座”與“需要預約”分別進行計算,就能夠更加準確地衡量句子之間的語義相似程度。此外,在利用圖書館領域大規模文本所訓練的詞向量空間中,句子之間的背景和焦點等詞語的語義距離較近。

本文提出一種融合用戶意圖和詞向量(Word2 Vector)[15]的問題檢索方法。該方法首先對新問題和候選問題集合進行預處理,得到新問題和候選問題集合的關鍵詞集合,即S0=<k1,k,...,km,Si=<w1,w2,...,>,ki和wj分別表示讀者的所提問題和候選問題的關鍵詞集合,隨后,找出問題和候選問題的背景和焦點信息,最后,融合用戶意圖和詞向量計算詞匯間相似度,如公式1所示。

(1)

其中,為計算新問題詞語ki和候選問句詞語wj的詞向量余弦相似度,計算公式為:

(2)

其中,與分別表示新問題詞語與候選問句詞語的詞向量表示,和表示問題i和問題j的背景信息詞向量表示,和表示問題i和問題j的焦點信息詞向量表示,用于調節三種因素的權重,根據實驗結果進行設置。

3.3 答案生成

隨著讀者需求的不斷增多,圖書館用戶所提出的問題種類包羅萬象,通常會涉及到日常生活中的各個方面,因此,經常會發生所提問題不在常用問題語料庫的情況。當這種情況發生時,問題搜索模塊無法將相關的答案召回。基于此,本文提出一種融合用戶意圖的答案生成模型,對于FAQ中不存在的問題進行答案生成。該方法首先將FAQ中的問題-答案對作為訓練語料,對模型進行微調,微調后的模型可以發現問題與答案之間的語義關系。隨后,新的問題將被送入微調過的預訓練模型,通過融合用戶意圖的深度學習模型對問題進行語義分析和推理,最終生成符合讀者要求的答案。經過處理后的問題強化了問題的背景和焦點信息,這些信息可以有效幫助深度學習模型進行語義表示,提高問答系統的滿意度。

3.3.1 CPT模型

CPT(Chinese Pre-trained Unbalanced Transformer)[16]是一個新提出的中文預訓練不平衡的Transformer模型,與以前預訓練模型不同的是,CPT模型既可用于自然語言理解任務,也可用于自然語言生成任務。一個完整的Transformer編碼器-解碼器分為三個主要部分:共享編碼器(S-Enc),一個具有全連接自注意力機制的Transformer編碼器,用于捕獲語言理解和生成的通用語義表示;理解解碼器(U-Dec),一個具有全連接自注意力機制的淺層Transformer解碼器,通過掩碼式的語言建模進行預訓練,專門用于自然語言理解任務;生成解碼器(G-Dec),一個具有掩碼自注意力機制的Transformer解碼器,并通過去噪的自動編碼進行預訓練,可用于自回歸式的生成任務。

本文的任務是對讀者提出的問題進行解答,因此模型的輸入是由問句和答案句組成的句子對。CPT模型的輸出特征為:經過多層Transformer輸出的融合問題焦點、背景信息以及答案句的語義表示。

3.3.2 融合讀者意圖的答案生成模型

隨后利用本文的方法對問題的意圖進行識別,找出問題的背景和焦點信息,在得到問題的語言學特征和深層文本特征的基礎上,本文構建了一個端到端神經網絡來對這兩類特征進行融合并進行答案生成。其網絡結構如圖4所示,該模型由四部分組成,分別是文本特征提取層、讀者意圖識別層、文本特征融合層以及分類決策層。

在答案生成階段將預訓練模型所提取的句子的特征與問題的背景和焦點特征進行融合,融合過程可以形式化表示為:

(3)

(4)

(5)

(6)

(7)

對于大規模圖書館問答語料庫d,利用預訓練模型對材料句子進行訓練,得到的向量,其中dimB表示向量維度,N表示句子數量。該模型的輸入特征記為Ed,經過問題與答案候選句之間的交互,輸出向量,其中dimL表示向量的維度。表示讀者的意圖信息向量,包含了問題背景(FeaBack)和問題焦點(FeaCen)的特征信息,是讀者意圖向量的總維度。其中是融合后得到的特征向量,,,右上角的符號,和分別表示向量的不同維度。bm表示映射參數,Tanch(.)表示激活函數。最終,融合讀者意圖的答案生成模型輸出概率Pd,標識候選句是否是答案句,Wp與bp表示映射參數。

4 實驗

4.1 實驗數據及評價指標

本文的目標是設計并實現一種基于讀者意圖的圖書館智能問答系統,幫助讀者解決在圖書館遇到的疑問,同時減輕館員的解答讀者問題的工作量。本文收集了山西省圖書館辦證臺近三年的常見問題,構建了讀者常用問題語料庫。該語料庫包含了圖書館業務場景中讀者最常見、或最有可能問的532個問題,主要內容涉及借閱服務、圖書查找、入館須知、設施服務以及網絡服務等。由于讀者的需求不斷增多,常用問題語料庫已經不能覆蓋讀者提出的所有問題,因此,本文利用大規模中文問答語料庫和深度學習模型構建答案生成模塊。問答語料庫選取了百度發布的大規模中文問答語料DuReader-robust [17]數據集。該數據集是關注閱讀理解綜合類問答的中文數據集,其數據來源均為真實場景下的用戶問題,領域涉及醫療、交通、文化和交通等,訓練集包括約13 000個樣本,驗證集包括1 300個樣本。

本文采用準確率衡量問答系統的性能,計算公式如(8)所示。將讀者提出的問題輸入問答系統,如果系統輸出的答案與標準答案一致,則表示系統回答正確,反之系統回答錯誤。

(8)

4.2 模型參數設置

本文使用CPT模型的CPT-base模型構建答案生成模塊。經過多次實驗測試,最終學習率設為0.000 02,迭代輪數epoch設為20,批量大小batch_size設為32,句子最大長度設置為25,迭代輪數epoch設置為5,批量大小Batch_size設置為256。問題搜索模塊中,β1:β2:β3設置為0.5:0.2:0.3,用于調節詞向量、問題背景以及問題焦點的權重對問句相似度的影響。

4.3 實驗結果及分析

4.3.1 讀者意圖識別方法效果

為了驗證本文所提出的讀者意圖識別方法的有效性,本文構建了問句意圖識別語料庫,語料庫標注了112個常見問題的背景和焦點信息。人工對句子的背景和焦點信息進行標注。標注小組由3個人組成,采用少數服從多數的原則確定最終的標注結果。本文利用準確率衡量意圖識別方法的效果,準確率公式如下所示:

(9)

將意圖識別方法在構建的數據集上進行實驗,發現問題的焦點識別的準確率(90.1%)比背景識別的準確率(85.1%)高,說明問句背景的識別要比焦點的識別更加困難。這是由于焦點的識別是根據該詞語與疑問詞之間的依存關系得到,而問句背景的識別是根據與問句焦點詞語之間的依存關系,即問句背景的識別依賴于問句焦點識別的準確率。此外,還可以看出,無論是問句焦點還是背景信息的識別,準確率都達到85%以上,證明本文所提出讀者意圖識別的方法是切實有效的。當問題分析模塊掌握了用戶的語義意圖,可以為后續的問題搜索和答案生成模塊提供更加準確的信息,幫助系統提升讀者咨詢的滿意度。

在問題搜索模塊,β1:β2:β3設置為0.5:0.2:0.3,問題的焦點要比問題的背景權重更大,這是由于讀者在提問的時候更加關注問題的焦點,句子中的焦點更加能反映問題的關鍵語義信息。

4.3.2 與其他答案生成方法比較

為了驗證本文所提出的融合讀者意圖的答案生成方法的有效性,本文使用機器閱讀理解問答中主流預訓練模型進行對比實驗,基線模型如下所示:

ALBERT(A Lite BERT)模型[18]:該模型引入詞嵌入的因式分解和交叉層的參數共享,兩種參數精簡技術克服了內存受限和訓練速度受限的問題。

XLNet模型[19] :該模型結合自回歸和自編碼語言模型,在Transformer-XL基礎上提出廣義自回歸方法,可以更好地處理長文本。

實驗結果發現,本文的方法在問答數據集上的回答效果(CPT+讀者意圖方法準確率為81%)比其他方法(ALBERT模型準確率為53%、XLNet模型準確率為65%、CPT模型準確率為74%)更令讀者滿意。說明識別出的意圖信息可以幫助問答系統更好地回答讀者疑問,證明本文所提出的融合讀者意圖的問答方法是切實有效的。此外,CPT模型比其他答案生成模型效果更好,這是由于CPT模型具有特殊結構的優勢,可以學習通用語義表示的公共知識,使其在特征提取和語義表示方面獲得豐富的信息,從而使答案生成模型在語義分析和邏輯推理方面更加具有優勢。

5 結語

本文提出一種基于讀者意圖的圖書館智能問答方法,該方法首先利用句法分析技術對讀者的意圖進行識別,識別結果輸入問題搜索模塊,隨后搜索模塊根據讀者的意圖搜索最相關的問題。最后,利用融入讀者意圖的預訓練模型CPT進行答案句生成。該方法不僅提高了讀者的滿意度,而且減輕了圖書館員的咨詢壓力。

參考文獻:

[1] "余正濤,樊孝忠,郭劍毅,等.基于潛在語義分析的漢語問答系統答案提取[J].計算機學報,2006(10):1889-1893.

[2] 楊欣,郭建彬.基于改進TF-IDF的百度百科詞語相似度計算[J].甘肅科學學報,2019,31(2):51-60.

[3] 邵康,張建偉.基于BM25F模型的Web文本挖掘個性化推薦研究[J].情報理論與實踐,2013,36(11):52-62.

[4] 吳友政,趙軍,徐波.基于主題語言模型的句子檢索算法[J].計算機研究與發展,2007,44(2):81-88.

[5] 賈君枝,王永芳.面向農民的問答系統問句處理研究[J].數據分析與知識發現,2010,26(5):43-49.

[6] 朱姝,張政.基于多層次句子相似度與向量空間模型的詞義消歧[J].北京工商大學學報(自然科學版),2009,27(2):68-72.

[7] 唐素勤,李波,許永敏.基于句型模板的智能問答系統[J].廣西師范大學學報:自然科學版,2007,25(2):43-54.

[8] 胡遷,黃青松,劉利軍,等.基于自動文摘的答案生成方法研究[J].計算機應用與軟件,2018,35(12):76-84.

[9] NIE Y P,HAN Y,HUANG J M,et al.Attention-based encoder-decoder model for answer selection in question answering[J].Frontiers of Information Technology amp; Electronic Engineering,2017,18(4):535-544.

[10] SEO M,KEMBHAVI A,FARHADI A,et al.Bidirectional attention flow for machine comprehension[J].arXiv preprint arXiv:1611.01603,2016.

[11] 譚紅葉,劉蓓,王元龍.基于QU-NNs的閱讀理解描述類問題的解答[J].中文信息學報,2019,33(3):102-109.

[12] YU A W,DOHAN D,LUONG M T,et al.Qanet: Combining local convolution with global self-attention for reading comprehension[J].arXiv preprint arXiv:1804.09541,2018.

[13] 張兆濱,王素格,陳鑫,等.閱讀理解中觀點類問題的擴展研究[J].中文信息學報,2020,34(6):89-96,105.

[14] 劉挺,車萬翔,李正華.語言技術平臺[J].中文信息學報,2011,25(6):53-63.

[15]GOLDBERG Y,LEVY O.Word2vec Explained: Deriving Mikolov et al.'s negative-sampling word-embedding method[J].arXiv:1402.3722,2014.

[16] SHAO Y,GENG Z,LIU Y,et al.CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation[J].arXiv preprint arXiv:2109.05729,2021.

[17] 薛勇.基于DuReader的多文檔機器閱讀理解研究及實現[D].重慶:重慶郵電大學,2019.

[18] CHANTRAPORNCHAI C,TUNSAKUL A.Information Extraction Tasks based on BERT on Tourism Domain[J].Transactions on Computer and Information Technology,2021,15(1):108-122.

[19] ELNAGGAR A,HEINZINGER M.Self-Supervised Deep Learning and High Performance Computing[J].IEEE transactions on pattern analysis and machine intelligence,2020,10(2):133-145.

作者簡介:段蘇凌,碩士,山西省圖書館館員,研究方向為圖書情報技術、數字化圖書館建設。

收稿日期: 2022-06-27本文責編:王曉琳

主站蜘蛛池模板: 四虎影视无码永久免费观看| 亚洲天堂色色人体| 中文字幕久久波多野结衣| 午夜精品区| 亚洲 欧美 偷自乱 图片 | 日韩精品一区二区三区视频免费看| 欧美激情综合| 99视频精品全国免费品| 亚洲无码91视频| 无码 在线 在线| 亚欧成人无码AV在线播放| 欧洲成人在线观看| 制服丝袜无码每日更新| 亚洲一区毛片| 亚洲国产综合第一精品小说| 国产成人h在线观看网站站| 高清无码手机在线观看| 激情无码字幕综合| 日韩在线2020专区| 亚洲香蕉伊综合在人在线| 久久精品66| 国产成人啪视频一区二区三区 | 国产欧美日韩在线在线不卡视频| 白浆视频在线观看| 少妇高潮惨叫久久久久久| 日韩在线1| 40岁成熟女人牲交片免费| 韩日无码在线不卡| 日本精品视频一区二区| 国产精品精品视频| 久久精品人妻中文系列| 欧美日韩在线成人| 强乱中文字幕在线播放不卡| 国内精品久久人妻无码大片高| 久久精品波多野结衣| 国产精品冒白浆免费视频| 欧美国产日本高清不卡| 人人看人人鲁狠狠高清| 久久综合激情网| 亚洲国产精品成人久久综合影院| 亚洲色图欧美在线| 欧美午夜网站| 久久人人97超碰人人澡爱香蕉 | 亚洲国产综合第一精品小说| 国产毛片久久国产| 制服丝袜一区| 日韩欧美一区在线观看| 自偷自拍三级全三级视频| 婷婷六月综合| 毛片在线播放网址| 国产成人免费| 凹凸精品免费精品视频| 亚洲综合极品香蕉久久网| vvvv98国产成人综合青青| 国产精品xxx| 国产日韩欧美黄色片免费观看| 99在线视频免费观看| 自拍偷拍欧美日韩| 国产精品人人做人人爽人人添| 伊人久久久大香线蕉综合直播| 国产成人精品男人的天堂| 在线免费a视频| 精品久久人人爽人人玩人人妻| 欧美精品三级在线| 草逼视频国产| 亚洲午夜天堂| 日韩亚洲综合在线| 一本久道久综合久久鬼色| 欧美精品影院| 久青草免费在线视频| 国产在线98福利播放视频免费| 精品一区二区三区水蜜桃| 久久综合亚洲色一区二区三区| 免费国产黄线在线观看| 玩两个丰满老熟女久久网| 国产青榴视频| 国产精品成人免费视频99| 欧美午夜网站| 无码高潮喷水专区久久| 国产精品人成在线播放| 久久先锋资源| 露脸真实国语乱在线观看|