999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多語義特征的農(nóng)業(yè)短文本匹配技術(shù)

2022-06-21 08:22:00趙春江吳華瑞繆祎晟王海琛楊寶祝
關(guān)鍵詞:語義特征文本

金 寧 趙春江 吳華瑞 繆祎晟 王海琛 楊寶祝

(1.沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 沈陽 110866; 2.沈陽建筑大學(xué)研究生院, 沈陽 110168;3.國家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097; 4.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097;5.沈陽建筑大學(xué)信息與控制工程學(xué)院, 沈陽 110168)

0 引言

農(nóng)業(yè)信息咨詢服務(wù)是農(nóng)業(yè)技術(shù)推廣的途徑之一。“中國農(nóng)技推廣APP”搭建了高效、便捷的手機(jī)移動端農(nóng)業(yè)信息咨詢服務(wù)平臺,至今已完成農(nóng)業(yè)技術(shù)問答超過了千萬次,涵蓋了蔬菜、糧食作物、牲畜等10個品種,涉及病蟲草害、栽培管理、動物疫病等18個種植、養(yǎng)殖方面問題[1]。面對平臺問答社區(qū)飛速增長的提問數(shù)量和大量重復(fù)、相似提問的存在,僅依靠農(nóng)業(yè)專家及農(nóng)業(yè)技術(shù)人員的人工回答已無法滿足農(nóng)戶快速、準(zhǔn)確獲得答案的需求。利用大數(shù)據(jù)和文本挖掘技術(shù)的文本匹配計(jì)算可有效解決上述問題。文本匹配作為文本挖掘技術(shù)的重要組成部分,是實(shí)現(xiàn)智能問答最關(guān)鍵、最基礎(chǔ)的技術(shù)之一[2],是農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的重點(diǎn)研究方向。

文本匹配即構(gòu)建一個模型來學(xué)習(xí)和計(jì)算2個文本的相似度,判定2個句子是否相似[3]。文本匹配方法包括基于字面相似匹配、基于語法結(jié)構(gòu)相似匹配和基于語義相似匹配等方法[4]。基于字面相似匹配一般利用重復(fù)詞、同義詞、公共字符串等詞型表面特征,采用N-gram[5]和Jaccard[6]算法進(jìn)行相似度判斷。此方法僅提取了文本相同詞型或詞數(shù)量等淺層特征,忽視了文本語言結(jié)構(gòu)、語義等深層特征的提取。基于語法結(jié)構(gòu)相似匹配通常利用標(biāo)注的詞語屬性計(jì)算文本間相似性[7],但是由于在特定領(lǐng)域內(nèi)缺少帶有詞語屬性標(biāo)注的文本,并且專業(yè)領(lǐng)域內(nèi)涵蓋的專屬詞語較多,影響了此方法相似度計(jì)算的準(zhǔn)確性。近年來基于語義相似匹配方法在文本匹配研究中應(yīng)用廣泛[8-10]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,將文本轉(zhuǎn)換為Word2vec[11-12]、GloVe[13]等由神經(jīng)網(wǎng)絡(luò)生成的詞向量,運(yùn)用深度學(xué)習(xí)文本匹配模型[14-16]計(jì)算文本相似度已成為當(dāng)前主要研究方法。深度學(xué)習(xí)方法能夠從文本中自動學(xué)習(xí)、抽取特征,可有效解決人工設(shè)計(jì)特征泛化能力差,提取特征數(shù)量少的問題。卷積神經(jīng)網(wǎng)絡(luò)是常用的深度學(xué)習(xí)方法,其卷積核結(jié)構(gòu)能夠有效提取文本局部的信息,通過堆疊卷積層的方法提取文本不同粒度的特征[17-19],但在文本序列化特征提取,特別是長距離依存關(guān)系提取表現(xiàn)不佳。相比卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)更適用于文本序列化建模[20-22]。循環(huán)神經(jīng)網(wǎng)絡(luò)可將歷史信息保存并作用于后續(xù)的計(jì)算進(jìn)而提高匹配的精確度。但此方法也存在對關(guān)鍵信息不敏感,訓(xùn)練時(shí)間長,內(nèi)存消耗大等問題。注意力機(jī)制[23]可有效解決上述問題,其通過賦予關(guān)鍵詞語更高的權(quán)重,幫助模型快速獲得最有效的信息,從而節(jié)省計(jì)算資源。在農(nóng)業(yè)領(lǐng)域,深度學(xué)習(xí)方法在文本分類[24-26]、文本信息提取[27-28]、命名實(shí)體識別[29-31]、實(shí)體關(guān)系抽取等方面取得了一定研究成果。但現(xiàn)有研究仍存在文本特征提取模型結(jié)構(gòu)簡單,短文本特征提取不豐富、不全面等不足,對于農(nóng)業(yè)領(lǐng)域中大量存在的專有名詞、詞語搭配方面的短文本挖掘仍不夠深入。

本文針對農(nóng)業(yè)問答社區(qū)產(chǎn)生的提問文本詞匯總量少、專有名詞多,語句規(guī)范性差,特征稀疏性強(qiáng)的特點(diǎn),從深度語義、詞語共現(xiàn)、最大匹配度3個層面提取短文本特征。根據(jù)不同層面文本特征的特點(diǎn),利用孿生長短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接神經(jīng)網(wǎng)絡(luò),搭建基于多語義的農(nóng)業(yè)短文本匹配模型Co_BiLSTM_CNN,以實(shí)現(xiàn)提問文本相似性判斷。

1 多語義特征文本匹配模型

本文提出的基于多語義特征文本Co_BiLSTM_CNN模型如圖1所示。該模型主要由文本預(yù)處理層和文本匹配層2部分組成。與一般文本匹配模型相比,本文提出的模型在文本預(yù)處理層構(gòu)建了詞語共現(xiàn)關(guān)系網(wǎng),可計(jì)算每個詞語共現(xiàn)對的權(quán)重,進(jìn)一步豐富了短文本特征;再根據(jù)不同文本特征的特點(diǎn),利用雙向長短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接網(wǎng)絡(luò)搭建文本匹配模型,可實(shí)現(xiàn)文本特征的多角度提取。

圖1 Co_BiLSTM_CNN模型結(jié)構(gòu)圖Fig.1 Schematic of Co_BiLSTM_CNN

1.1 文本預(yù)處理

(1)文本分詞及詞性標(biāo)注

為了進(jìn)一步提高文本特征提取的精確度,提升文本處理效率,更加全面、完整地保留文本語義,首先運(yùn)用加載停用詞表方法,刪除文本包含的停用詞、特殊字符、標(biāo)點(diǎn)符號等冗余信息,減少噪聲對文本語義的干擾;然后利用jieba中文分詞庫對文本進(jìn)行分詞,針對文本中農(nóng)業(yè)領(lǐng)域?qū)S性~語識別難的問題,加載搜狗農(nóng)業(yè)詞匯字典作為分詞字典,以提高專有名詞的識別度;為了更加深入地提取文本特征,將分詞結(jié)果的詞性作為文本特征,按照北京大學(xué)詞性標(biāo)注規(guī)范[32],對分詞結(jié)果的詞性逐一進(jìn)行標(biāo)注,利于提取更能體現(xiàn)文本語義的名詞、動詞。對于具有語義代表性的農(nóng)業(yè)領(lǐng)域?qū)S性~語,在詞性標(biāo)注時(shí)專門自定義了詞性,更加方便模型學(xué)習(xí)、提取文本特征。

(2)詞向量轉(zhuǎn)換

由于文本分詞結(jié)果無法被模型直接讀取,需將中文分詞結(jié)果轉(zhuǎn)換為數(shù)字向量形式表示。Word2vec[33]是近年來常用的基于神經(jīng)網(wǎng)絡(luò)的文本向量化表示方法,包括根據(jù)上下文預(yù)測當(dāng)前單詞和根據(jù)目標(biāo)詞語預(yù)測上下文信息2種模式,通過文本數(shù)據(jù)特征可學(xué)習(xí)得到連續(xù)、低維詞向量,有效解決了傳統(tǒng)詞向量模型帶來的語義孤立和維度爆炸問題。

(3)文本特征增強(qiáng)

文本詞語共現(xiàn)關(guān)系是指在同一文本內(nèi),幾個詞語頻繁共同出現(xiàn)構(gòu)成的關(guān)系,是一種基于統(tǒng)計(jì)學(xué)的重要文本特征。在一個問句內(nèi),幾個詞語在固定窗口范圍內(nèi)多次共同出現(xiàn),寓意其很可能表述相同的主題,在語義上具有一定的關(guān)聯(lián)性。對于2個不同的問句,相同詞語共現(xiàn)關(guān)系的數(shù)量越多,代表著兩者之間語義相似度越高。問句一般屬于短文本,具有詞語數(shù)量少、語義特征不明顯的特點(diǎn),利用文本詞語共現(xiàn)關(guān)系可有效增強(qiáng)文本語義特征。為了進(jìn)一步突出文本核心語義,減少噪聲干擾,在構(gòu)建詞語的共現(xiàn)關(guān)系時(shí),先對詞語的詞性進(jìn)行初步篩選,僅統(tǒng)計(jì)更能代表文本語義的名詞、動詞以及農(nóng)業(yè)字典中包含的專有名詞;再對詞頻進(jìn)行限定,僅統(tǒng)計(jì)高于3次的詞語,在保留了原有問句核心詞語的基礎(chǔ)上,使文本語義特征更加豐富。

1.2 多特征文本匹配模型

(1)孿生網(wǎng)絡(luò)模型

孿生網(wǎng)絡(luò)(Siamese network)是一種雙邊的網(wǎng)絡(luò)模型架構(gòu),多用于判斷2個輸入的相似性,具體結(jié)構(gòu)如圖2所示。左右2個輸入首先經(jīng)過LSTM或者CNN等神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練而映射到新的空間,形成輸入在新空間中的表示;其次通過距離度量的方式可計(jì)算左右2個神經(jīng)網(wǎng)絡(luò)輸出的距離。訓(xùn)練參數(shù)包括左右參數(shù)共享及左右參數(shù)不等2種模式,在判斷2個問句相似性問題上,由于2個問句結(jié)構(gòu)基本相同,因此選擇左右參數(shù)共享模式,即利用相同的參數(shù)提取2個問句的特征,該模式具有訓(xùn)練參數(shù)少,訓(xùn)練效率高,避免過擬合等優(yōu)勢。本文在構(gòu)建文本匹配模型時(shí)均使用左右參數(shù)共享的孿生網(wǎng)絡(luò)模型。

圖2 孿生網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.2 Schematic of siamese network

(2)BiLSTM模型文本特征提取

長短期記憶網(wǎng)絡(luò)(Long short-term memory, LSTM)在標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)結(jié)構(gòu)基礎(chǔ)上,增加了遺忘門、輸入門、輸出門和細(xì)胞狀態(tài),能夠在有效保存長序列的歷史信息同時(shí),規(guī)避了標(biāo)準(zhǔn)RNN梯度消失和梯度爆炸等問題,具體結(jié)構(gòu)見圖3。

圖3 LSTM結(jié)構(gòu)圖Fig.3 Schematic of LSTM

ft=σ(Wf[ht-1,xt]+bf)

(1)

it=σ(Wi[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ottanh(Ct)

(6)

式中σ——Sigmod函數(shù)

tanh——雙曲正切函數(shù)

Wf、Wi、WC、Wo——遺忘門、輸入門、細(xì)胞狀態(tài)及輸出門權(quán)重矩陣

bf、bi、bC、bo——遺忘門、輸入門、細(xì)胞狀態(tài)及輸出門偏置

在中文文本中,詞語的前后組合順序會直接影響文本語義。為了更全面地提取文本特征,深入挖掘詞語相關(guān)聯(lián)的上下文信息,利用BiLSTM模型提取文本的特征,解決了LSTM單向傳輸問題。BiLSTM由前向LSTML和后向LSTMR組成,雙向LSTM共享權(quán)值,所有神經(jīng)元內(nèi)的權(quán)重參數(shù)均相同,具體結(jié)構(gòu)如圖4所示。

圖4 BiLSTM結(jié)構(gòu)圖Fig.4 Schematic of BiLSTM

當(dāng)輸入文本詞向量為{x0,x1,x2,x3}時(shí),LSTML訓(xùn)練得到向量{hL0,hL1,hL2,hL3},LSTMR訓(xùn)練得到向量{hR0,hR1,hR2,hR3},最后將生成的向量拼接得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],[hL3,hR3]}。在計(jì)算文本相似度任務(wù)中,由于[hL3,hR3]包括了前向與后向的所有特征信息,一般將其作為文本的特征表示。

(3)CNN模型文本特征提取

由于在文本預(yù)處理階段選擇了文本詞語共現(xiàn)關(guān)系作為文本的特征,原文本已由分詞結(jié)果表示更改為詞語共現(xiàn)對表示,改變了原來的文本語序特征,因此CNN模型更適合提取以詞語共現(xiàn)對表示文本的語義特征。CNN模型主要由卷積層和池化層組成,卷積層按照設(shè)定尺寸的卷積核對文本向量進(jìn)行卷積計(jì)算得到更高級的特征表示。

池化層包括平均池化和最大池化兩類,可將卷積層得到的高階特征進(jìn)行稀疏處理以及下采樣,在降低維度的同時(shí),保留了關(guān)鍵的特征信息,舍棄了不顯著的信息,有效減少了模型參數(shù)及數(shù)據(jù)計(jì)算量,降低了模型過擬合。為了遴選辨識度更高的特征,本文選擇最大池化方法,即在每個池化窗口內(nèi),取每一維的最大特征。

(4)DNN模型文本特征提取

根據(jù)統(tǒng)計(jì)的文本詞語共現(xiàn)情況,本文構(gòu)建了詞語共現(xiàn)網(wǎng)絡(luò),網(wǎng)絡(luò)中的點(diǎn)是數(shù)據(jù)集中詞頻數(shù)大于3的詞語,網(wǎng)絡(luò)中的邊是詞語和詞語之間的共現(xiàn)關(guān)系,邊的權(quán)重計(jì)算公式為

(7)

式中fi,j——詞語共現(xiàn)對〈i,j〉邊的權(quán)重

ni,j——詞語共現(xiàn)對〈i,j〉的詞頻

k——與詞語i組成詞語共現(xiàn)對的詞語數(shù)量

ni,k——詞語共現(xiàn)對〈i,k〉的詞頻

為了進(jìn)一步豐富文本特征,使模型更好地適應(yīng)小規(guī)模數(shù)據(jù)集,本文將2個問句詞語共現(xiàn)對的最大匹配度和權(quán)重作為文本特征。文本特征表示為{l1,l2,g,w},其中l(wèi)1和l2表示2個問句包含的詞語共現(xiàn)對數(shù)量,g表示2個問句的詞語共現(xiàn)對最大匹配度,w表示詞語共現(xiàn)對的權(quán)重之和。將文本特征輸入到DNN網(wǎng)絡(luò)模型中,映射成新空間向量。

2 試驗(yàn)與結(jié)果分析

2.1 試驗(yàn)數(shù)據(jù)

試驗(yàn)數(shù)據(jù)來源于“中國農(nóng)技推廣APP”中的問答社區(qū),共有20 000對問題組合,并通過人工標(biāo)記的方法,標(biāo)注了問題組合對中2個問句是否相似。表1中為部分樣例試驗(yàn)數(shù)據(jù),語義相同的2個問句,其標(biāo)簽值為1,共有9 233個,占46.2%;語義不同的,標(biāo)簽值為0,共10 767個,占53.8%。

表1 試驗(yàn)數(shù)據(jù)樣例Tab.1 Sample of test data

試驗(yàn)數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)3部分,其中訓(xùn)練數(shù)據(jù)占試驗(yàn)數(shù)據(jù)量的80%,用于學(xué)習(xí)文本特征;驗(yàn)證數(shù)據(jù)占10%,用于調(diào)整模型的超參數(shù),用于對模型的能力進(jìn)行初步評估;測試數(shù)據(jù)占10%,用于評估最終模型的泛化能力。

2.2 評價(jià)指標(biāo)

試驗(yàn)選擇精確率、召回率、F1值、正確率以及時(shí)間復(fù)雜度作為評價(jià)指標(biāo),全面衡量模型性能。精確率、召回率、F1值以及正確率是統(tǒng)計(jì)學(xué)以及信息檢索相似性判斷領(lǐng)域的標(biāo)準(zhǔn)指標(biāo)。精確率計(jì)算的是模型判斷相似且實(shí)際也相似的句子數(shù)量,即正樣本與數(shù)據(jù)集中全部句子數(shù)量的比值,代表著模型對正樣本結(jié)果的查準(zhǔn)程度。召回率計(jì)算的是正樣本與數(shù)據(jù)集中全部相似句子總數(shù)的比值,代表著模型對正樣本的查全程度。F1值同時(shí)考慮精確率和召回率,讓兩者同時(shí)達(dá)到最高并取得平衡。正確率表示預(yù)測正確的結(jié)果占全部句子數(shù)量的比例。時(shí)間復(fù)雜度包括對訓(xùn)練時(shí)間和測試時(shí)間的統(tǒng)計(jì),用于衡量模型的效率,取10次試驗(yàn)耗時(shí)的平均值作為試驗(yàn)結(jié)果。

2.3 參數(shù)設(shè)置

問句中包含的有效詞語使用128維的詞向量表示,包含詞語數(shù)量最大為30個,包含詞語共現(xiàn)對數(shù)量最大為50個。BiLSTM模型輸出特征維度是128維,CNN模型卷積核數(shù)量是128,孿生神經(jīng)網(wǎng)絡(luò)的2個子網(wǎng)絡(luò)共享參數(shù)。為了避免過擬合,模型使用dropout函數(shù),隨機(jī)讓一些神經(jīng)元失活,失活率設(shè)定為0.5。

2.4 對比模型

本文模型與近年在文本相似度計(jì)算領(lǐng)域常用的4種深度學(xué)習(xí)模型進(jìn)行比較,對比模型包括基于孿生網(wǎng)絡(luò)的MaLSTM[34]、ESIM[35]、ABCNN[36]、CDNN[37],其中MaLSTM模型利用2個共享權(quán)重的LSTM提取文本特征,使用Word2vec方法將長度不同的句子轉(zhuǎn)換為長度相同的向量,運(yùn)用曼哈頓距離計(jì)算文本相似度;ESIM利用BiLSTM提取2個句子的文本特征,計(jì)算2個句子的相似性矩陣,對文本特征進(jìn)行加權(quán),得到新的文本特征表示向量,最后利用全連接層預(yù)測文本是否相似;ABCNN在CNN基礎(chǔ)上,分別在卷積計(jì)算前和池化計(jì)算前引入了注意力機(jī)制,判斷文本相似情況;CDNN利用CNN提取文本特征,利用文本特征相似度矩陣對2個句子特征進(jìn)行加權(quán)計(jì)算后,判斷文本相似性。

2.5 結(jié)果分析

表2展示了5種試驗(yàn)?zāi)P歪槍r(nóng)業(yè)問答短文本數(shù)據(jù)集的試驗(yàn)結(jié)果。本文提出的Co_BiLSTM_CNN模型的正確率、精確率、召回率及F1值均超過了94%,較對比模型均有大幅提高。在對比模型中,MaLSTM模型的4項(xiàng)指標(biāo)均接近90%。對比正確率和F1值可知,Co_BiLSTM_CNN模型相對于其他模型提高了近5個百分點(diǎn),說明該模型能夠較為全面地提取文本特征,模型在相似性計(jì)算方面的總體性能較好。此外,以LSTM模型框架為基礎(chǔ)的MaLSTM和ESIM的評價(jià)指標(biāo)明顯高于以CNN模型為基礎(chǔ)的CDNN和ABCNN。對比精確率可知,Co_BiLSTM_CNN仍為最優(yōu),說明該模型對于相似性文本的判斷比較準(zhǔn)確,MaLSTM和ESIM在預(yù)測文本為相似文本的表現(xiàn)明顯優(yōu)于CDNN和ABCNN。對比召回率可知,4種對比試驗(yàn)?zāi)P捅憩F(xiàn)較為接近,均超過了89%,ESIM召回率達(dá)到91%,但是與Co_BiLSTM_CNN模型仍有較大的差距。

表2 5種試驗(yàn)?zāi)P偷脑囼?yàn)結(jié)果對比Tab.2 Comparison of five models %

為了進(jìn)一步驗(yàn)證詞語共現(xiàn)特征對于本文相似性計(jì)算的有效性,將4種對比模型進(jìn)行改進(jìn),融合了文本詞語共現(xiàn)特征。圖5展示了4種對比試驗(yàn)?zāi)P驮P团c融合了詞語共現(xiàn)特征模型在相似性計(jì)算正確率方面的對比結(jié)果。如圖5所示,針對農(nóng)業(yè)短文本數(shù)據(jù)集,本文提出的融合詞語共現(xiàn)特征的文本表示方式在4種試驗(yàn)?zāi)P偷南嗨菩杂?jì)算正確率明顯高于原模型,其中MaLSTM正確率最高,達(dá)92.4%。特別對于以CNN為基礎(chǔ)的試驗(yàn)?zāi)P停_率提升效果更加明顯,最高增幅達(dá)到10.2個百分點(diǎn)。4種對比模型在融合了詞語共現(xiàn)特征后,正確率雖明顯提高,但仍低于本文提出的Co_BiLSTM_CNN模型。

圖5 不同模型文本相似性計(jì)算正確率對比Fig.5 Comparison of accuracy by different models

為了驗(yàn)證試驗(yàn)?zāi)P蛯Σ煌?guī)模數(shù)據(jù)集的適用性,本文將Co_BiLSTM_CNN與MaLSTM、CDNN,以及對應(yīng)的融入詞語共現(xiàn)特征的CO_MaLSTM和CO_CDNN模型,分別在10 000、15 000、20 000組問句對數(shù)據(jù)集中進(jìn)行試驗(yàn)。圖6展示了5種試驗(yàn)方法在不同規(guī)模數(shù)據(jù)集下的相似度計(jì)算正確率。由圖6可知,全部試驗(yàn)?zāi)P驮谳^大規(guī)模數(shù)據(jù)集中取得的試驗(yàn)結(jié)果均優(yōu)于小規(guī)模數(shù)據(jù)集,Co_BiLSTM_CNN在不同的規(guī)模數(shù)據(jù)集中均取得了最優(yōu)的試驗(yàn)結(jié)果,特別在小規(guī)模數(shù)據(jù)集中,Co_BiLSTM_CNN優(yōu)勢更為突出,體現(xiàn)了該模型具有較強(qiáng)的魯棒性。融合了詞語共現(xiàn)特征的3個試驗(yàn)?zāi)P驮谛∫?guī)模數(shù)據(jù)集中的正確率仍在90%左右,明顯高于未融合詞語共現(xiàn)特征的MaLSTM和CDNN。

圖6 不同數(shù)據(jù)集的文本匹配正確率Fig.6 Text matching accuracy for different datasets

表3展示了5種試驗(yàn)?zāi)P驮?0 000組問答對數(shù)據(jù)集中的訓(xùn)練和測試所用時(shí)間。CDNN和Co_CDNN在訓(xùn)練時(shí)間上優(yōu)勢明顯,MaLSTM、Co_MaLSTM訓(xùn)練時(shí)間較長,融合了 CNN、BiLSTM和DNN多種模型的Co_BiLSTM_CNN由于結(jié)構(gòu)組成復(fù)雜,導(dǎo)致其訓(xùn)練時(shí)間最長。在實(shí)際應(yīng)用中,由于文本匹配模型的訓(xùn)練一般采取離線方式運(yùn)行,因此模型對時(shí)間復(fù)雜度要求不高,更注重相似性判斷的正確率及結(jié)果反饋時(shí)間。此外,融合了詞語共現(xiàn)特征的Co_CDNN和Co_MaLSTM的訓(xùn)練時(shí)間與基礎(chǔ)CDNN、MaLSTM訓(xùn)練時(shí)間基本相同,可見在文本相似性判斷任務(wù)中,融合詞共現(xiàn)特征對模型時(shí)間復(fù)雜度影響較小。

表3 各試驗(yàn)?zāi)P偷碾x線訓(xùn)練時(shí)間Tab.3 Offline training time comparison of models

3 結(jié)論

(1)Co_BiLSTM_CNN模型滿足問句相似性判斷實(shí)際需要。Co_BiLSTM_CNN能夠多角度提取文本特征,在農(nóng)業(yè)問答問句判斷方面具有良好的試驗(yàn)效果,相似性判斷正確率明顯提高,正確率達(dá)到94.15%,并且在小規(guī)模數(shù)據(jù)集上的表現(xiàn)仍然良好。

(2)利用文本詞語共現(xiàn)關(guān)系增強(qiáng)文本特征,可在保證時(shí)間效率的基礎(chǔ)上,有效提高相似性判斷的正確率,有效解決特征稀疏文本相似性判斷難的問題。該方法在多個試驗(yàn)?zāi)P椭嗅槍Σ煌?guī)模的數(shù)據(jù)均取得了最優(yōu)的試驗(yàn)效果,具有廣泛的適用性。

猜你喜歡
語義特征文本
語言與語義
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 狠狠v日韩v欧美v| 不卡午夜视频| 国内精品视频在线| 久久久久久尹人网香蕉| 国产亚洲精品91| 97久久超碰极品视觉盛宴| 国产精品不卡片视频免费观看| 久久久久青草大香线综合精品| 精品人妻AV区| 无码国产偷倩在线播放老年人| 日本国产一区在线观看| 国产手机在线小视频免费观看| 久久精品国产电影| 拍国产真实乱人偷精品| 丁香六月激情综合| 波多野结衣AV无码久久一区| 91精品最新国内在线播放| 免费av一区二区三区在线| 日韩精品专区免费无码aⅴ| 欧美影院久久| 自偷自拍三级全三级视频| 波多野结衣爽到高潮漏水大喷| 亚洲精品无码高潮喷水A| 日韩中文精品亚洲第三区| 亚洲不卡网| 国产剧情一区二区| 国产网站在线看| 中美日韩在线网免费毛片视频| 国产精品天干天干在线观看| 黑色丝袜高跟国产在线91| 国产成人综合网在线观看| 日韩高清欧美| 亚洲欧美在线精品一区二区| 国产自无码视频在线观看| 亚洲精品国产精品乱码不卞| 麻豆国产精品一二三在线观看| 囯产av无码片毛片一级| 国产XXXX做受性欧美88| 在线国产欧美| 久久美女精品| 91视频99| 青青青视频91在线 | 国产啪在线| 国产一区二区三区在线观看视频| av午夜福利一片免费看| 日本一区二区不卡视频| 久久国产拍爱| 美女潮喷出白浆在线观看视频| 中文字幕人妻无码系列第三区| 国产一区二区网站| 久久亚洲国产一区二区| 国产精品 欧美激情 在线播放| 天天综合色网| 国产亚洲视频播放9000| 91视频首页| 久久大香伊蕉在人线观看热2| 老司机久久精品视频| 国产精品亚洲专区一区| 欧美中文字幕无线码视频| 中文字幕在线不卡视频| 欧美日韩另类在线| 亚洲黄网在线| 国产一区二区三区日韩精品| 2022国产91精品久久久久久| 久久99国产精品成人欧美| 欧美一级在线看| 97人人做人人爽香蕉精品| 亚洲综合在线最大成人| 五月婷婷综合在线视频| 看看一级毛片| 日韩精品毛片人妻AV不卡| 污视频日本| 日韩成人在线一区二区| 嫩草国产在线| 国产欧美在线观看一区| 波多野结衣中文字幕一区二区| 国产白浆在线| 午夜激情福利视频| 成人在线欧美| 一本色道久久88综合日韩精品| 国产精品毛片在线直播完整版| 日韩精品无码免费一区二区三区|