金 寧 趙春江 吳華瑞 繆祎晟 王海琛 楊寶祝
(1.沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 沈陽 110866; 2.沈陽建筑大學(xué)研究生院, 沈陽 110168;3.國家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097; 4.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097;5.沈陽建筑大學(xué)信息與控制工程學(xué)院, 沈陽 110168)
農(nóng)業(yè)信息咨詢服務(wù)是農(nóng)業(yè)技術(shù)推廣的途徑之一。“中國農(nóng)技推廣APP”搭建了高效、便捷的手機(jī)移動端農(nóng)業(yè)信息咨詢服務(wù)平臺,至今已完成農(nóng)業(yè)技術(shù)問答超過了千萬次,涵蓋了蔬菜、糧食作物、牲畜等10個品種,涉及病蟲草害、栽培管理、動物疫病等18個種植、養(yǎng)殖方面問題[1]。面對平臺問答社區(qū)飛速增長的提問數(shù)量和大量重復(fù)、相似提問的存在,僅依靠農(nóng)業(yè)專家及農(nóng)業(yè)技術(shù)人員的人工回答已無法滿足農(nóng)戶快速、準(zhǔn)確獲得答案的需求。利用大數(shù)據(jù)和文本挖掘技術(shù)的文本匹配計(jì)算可有效解決上述問題。文本匹配作為文本挖掘技術(shù)的重要組成部分,是實(shí)現(xiàn)智能問答最關(guān)鍵、最基礎(chǔ)的技術(shù)之一[2],是農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的重點(diǎn)研究方向。
文本匹配即構(gòu)建一個模型來學(xué)習(xí)和計(jì)算2個文本的相似度,判定2個句子是否相似[3]。文本匹配方法包括基于字面相似匹配、基于語法結(jié)構(gòu)相似匹配和基于語義相似匹配等方法[4]。基于字面相似匹配一般利用重復(fù)詞、同義詞、公共字符串等詞型表面特征,采用N-gram[5]和Jaccard[6]算法進(jìn)行相似度判斷。此方法僅提取了文本相同詞型或詞數(shù)量等淺層特征,忽視了文本語言結(jié)構(gòu)、語義等深層特征的提取。基于語法結(jié)構(gòu)相似匹配通常利用標(biāo)注的詞語屬性計(jì)算文本間相似性[7],但是由于在特定領(lǐng)域內(nèi)缺少帶有詞語屬性標(biāo)注的文本,并且專業(yè)領(lǐng)域內(nèi)涵蓋的專屬詞語較多,影響了此方法相似度計(jì)算的準(zhǔn)確性。近年來基于語義相似匹配方法在文本匹配研究中應(yīng)用廣泛[8-10]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,將文本轉(zhuǎn)換為Word2vec[11-12]、GloVe[13]等由神經(jīng)網(wǎng)絡(luò)生成的詞向量,運(yùn)用深度學(xué)習(xí)文本匹配模型[14-16]計(jì)算文本相似度已成為當(dāng)前主要研究方法。深度學(xué)習(xí)方法能夠從文本中自動學(xué)習(xí)、抽取特征,可有效解決人工設(shè)計(jì)特征泛化能力差,提取特征數(shù)量少的問題。卷積神經(jīng)網(wǎng)絡(luò)是常用的深度學(xué)習(xí)方法,其卷積核結(jié)構(gòu)能夠有效提取文本局部的信息,通過堆疊卷積層的方法提取文本不同粒度的特征[17-19],但在文本序列化特征提取,特別是長距離依存關(guān)系提取表現(xiàn)不佳。相比卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)更適用于文本序列化建模[20-22]。循環(huán)神經(jīng)網(wǎng)絡(luò)可將歷史信息保存并作用于后續(xù)的計(jì)算進(jìn)而提高匹配的精確度。但此方法也存在對關(guān)鍵信息不敏感,訓(xùn)練時(shí)間長,內(nèi)存消耗大等問題。注意力機(jī)制[23]可有效解決上述問題,其通過賦予關(guān)鍵詞語更高的權(quán)重,幫助模型快速獲得最有效的信息,從而節(jié)省計(jì)算資源。在農(nóng)業(yè)領(lǐng)域,深度學(xué)習(xí)方法在文本分類[24-26]、文本信息提取[27-28]、命名實(shí)體識別[29-31]、實(shí)體關(guān)系抽取等方面取得了一定研究成果。但現(xiàn)有研究仍存在文本特征提取模型結(jié)構(gòu)簡單,短文本特征提取不豐富、不全面等不足,對于農(nóng)業(yè)領(lǐng)域中大量存在的專有名詞、詞語搭配方面的短文本挖掘仍不夠深入。
本文針對農(nóng)業(yè)問答社區(qū)產(chǎn)生的提問文本詞匯總量少、專有名詞多,語句規(guī)范性差,特征稀疏性強(qiáng)的特點(diǎn),從深度語義、詞語共現(xiàn)、最大匹配度3個層面提取短文本特征。根據(jù)不同層面文本特征的特點(diǎn),利用孿生長短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接神經(jīng)網(wǎng)絡(luò),搭建基于多語義的農(nóng)業(yè)短文本匹配模型Co_BiLSTM_CNN,以實(shí)現(xiàn)提問文本相似性判斷。
本文提出的基于多語義特征文本Co_BiLSTM_CNN模型如圖1所示。該模型主要由文本預(yù)處理層和文本匹配層2部分組成。與一般文本匹配模型相比,本文提出的模型在文本預(yù)處理層構(gòu)建了詞語共現(xiàn)關(guān)系網(wǎng),可計(jì)算每個詞語共現(xiàn)對的權(quán)重,進(jìn)一步豐富了短文本特征;再根據(jù)不同文本特征的特點(diǎn),利用雙向長短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接網(wǎng)絡(luò)搭建文本匹配模型,可實(shí)現(xiàn)文本特征的多角度提取。

圖1 Co_BiLSTM_CNN模型結(jié)構(gòu)圖Fig.1 Schematic of Co_BiLSTM_CNN
(1)文本分詞及詞性標(biāo)注
為了進(jìn)一步提高文本特征提取的精確度,提升文本處理效率,更加全面、完整地保留文本語義,首先運(yùn)用加載停用詞表方法,刪除文本包含的停用詞、特殊字符、標(biāo)點(diǎn)符號等冗余信息,減少噪聲對文本語義的干擾;然后利用jieba中文分詞庫對文本進(jìn)行分詞,針對文本中農(nóng)業(yè)領(lǐng)域?qū)S性~語識別難的問題,加載搜狗農(nóng)業(yè)詞匯字典作為分詞字典,以提高專有名詞的識別度;為了更加深入地提取文本特征,將分詞結(jié)果的詞性作為文本特征,按照北京大學(xué)詞性標(biāo)注規(guī)范[32],對分詞結(jié)果的詞性逐一進(jìn)行標(biāo)注,利于提取更能體現(xiàn)文本語義的名詞、動詞。對于具有語義代表性的農(nóng)業(yè)領(lǐng)域?qū)S性~語,在詞性標(biāo)注時(shí)專門自定義了詞性,更加方便模型學(xué)習(xí)、提取文本特征。
(2)詞向量轉(zhuǎn)換
由于文本分詞結(jié)果無法被模型直接讀取,需將中文分詞結(jié)果轉(zhuǎn)換為數(shù)字向量形式表示。Word2vec[33]是近年來常用的基于神經(jīng)網(wǎng)絡(luò)的文本向量化表示方法,包括根據(jù)上下文預(yù)測當(dāng)前單詞和根據(jù)目標(biāo)詞語預(yù)測上下文信息2種模式,通過文本數(shù)據(jù)特征可學(xué)習(xí)得到連續(xù)、低維詞向量,有效解決了傳統(tǒng)詞向量模型帶來的語義孤立和維度爆炸問題。
(3)文本特征增強(qiáng)
文本詞語共現(xiàn)關(guān)系是指在同一文本內(nèi),幾個詞語頻繁共同出現(xiàn)構(gòu)成的關(guān)系,是一種基于統(tǒng)計(jì)學(xué)的重要文本特征。在一個問句內(nèi),幾個詞語在固定窗口范圍內(nèi)多次共同出現(xiàn),寓意其很可能表述相同的主題,在語義上具有一定的關(guān)聯(lián)性。對于2個不同的問句,相同詞語共現(xiàn)關(guān)系的數(shù)量越多,代表著兩者之間語義相似度越高。問句一般屬于短文本,具有詞語數(shù)量少、語義特征不明顯的特點(diǎn),利用文本詞語共現(xiàn)關(guān)系可有效增強(qiáng)文本語義特征。為了進(jìn)一步突出文本核心語義,減少噪聲干擾,在構(gòu)建詞語的共現(xiàn)關(guān)系時(shí),先對詞語的詞性進(jìn)行初步篩選,僅統(tǒng)計(jì)更能代表文本語義的名詞、動詞以及農(nóng)業(yè)字典中包含的專有名詞;再對詞頻進(jìn)行限定,僅統(tǒng)計(jì)高于3次的詞語,在保留了原有問句核心詞語的基礎(chǔ)上,使文本語義特征更加豐富。
(1)孿生網(wǎng)絡(luò)模型
孿生網(wǎng)絡(luò)(Siamese network)是一種雙邊的網(wǎng)絡(luò)模型架構(gòu),多用于判斷2個輸入的相似性,具體結(jié)構(gòu)如圖2所示。左右2個輸入首先經(jīng)過LSTM或者CNN等神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練而映射到新的空間,形成輸入在新空間中的表示;其次通過距離度量的方式可計(jì)算左右2個神經(jīng)網(wǎng)絡(luò)輸出的距離。訓(xùn)練參數(shù)包括左右參數(shù)共享及左右參數(shù)不等2種模式,在判斷2個問句相似性問題上,由于2個問句結(jié)構(gòu)基本相同,因此選擇左右參數(shù)共享模式,即利用相同的參數(shù)提取2個問句的特征,該模式具有訓(xùn)練參數(shù)少,訓(xùn)練效率高,避免過擬合等優(yōu)勢。本文在構(gòu)建文本匹配模型時(shí)均使用左右參數(shù)共享的孿生網(wǎng)絡(luò)模型。

圖2 孿生網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.2 Schematic of siamese network
(2)BiLSTM模型文本特征提取
長短期記憶網(wǎng)絡(luò)(Long short-term memory, LSTM)在標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)結(jié)構(gòu)基礎(chǔ)上,增加了遺忘門、輸入門、輸出門和細(xì)胞狀態(tài),能夠在有效保存長序列的歷史信息同時(shí),規(guī)避了標(biāo)準(zhǔn)RNN梯度消失和梯度爆炸等問題,具體結(jié)構(gòu)見圖3。

圖3 LSTM結(jié)構(gòu)圖Fig.3 Schematic of LSTM

ft=σ(Wf[ht-1,xt]+bf)
(1)
it=σ(Wi[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo[ht-1,xt]+bo)
(5)
ht=ottanh(Ct)
(6)
式中σ——Sigmod函數(shù)
tanh——雙曲正切函數(shù)
Wf、Wi、WC、Wo——遺忘門、輸入門、細(xì)胞狀態(tài)及輸出門權(quán)重矩陣
bf、bi、bC、bo——遺忘門、輸入門、細(xì)胞狀態(tài)及輸出門偏置
在中文文本中,詞語的前后組合順序會直接影響文本語義。為了更全面地提取文本特征,深入挖掘詞語相關(guān)聯(lián)的上下文信息,利用BiLSTM模型提取文本的特征,解決了LSTM單向傳輸問題。BiLSTM由前向LSTML和后向LSTMR組成,雙向LSTM共享權(quán)值,所有神經(jīng)元內(nèi)的權(quán)重參數(shù)均相同,具體結(jié)構(gòu)如圖4所示。

圖4 BiLSTM結(jié)構(gòu)圖Fig.4 Schematic of BiLSTM
當(dāng)輸入文本詞向量為{x0,x1,x2,x3}時(shí),LSTML訓(xùn)練得到向量{hL0,hL1,hL2,hL3},LSTMR訓(xùn)練得到向量{hR0,hR1,hR2,hR3},最后將生成的向量拼接得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],[hL3,hR3]}。在計(jì)算文本相似度任務(wù)中,由于[hL3,hR3]包括了前向與后向的所有特征信息,一般將其作為文本的特征表示。
(3)CNN模型文本特征提取
由于在文本預(yù)處理階段選擇了文本詞語共現(xiàn)關(guān)系作為文本的特征,原文本已由分詞結(jié)果表示更改為詞語共現(xiàn)對表示,改變了原來的文本語序特征,因此CNN模型更適合提取以詞語共現(xiàn)對表示文本的語義特征。CNN模型主要由卷積層和池化層組成,卷積層按照設(shè)定尺寸的卷積核對文本向量進(jìn)行卷積計(jì)算得到更高級的特征表示。
池化層包括平均池化和最大池化兩類,可將卷積層得到的高階特征進(jìn)行稀疏處理以及下采樣,在降低維度的同時(shí),保留了關(guān)鍵的特征信息,舍棄了不顯著的信息,有效減少了模型參數(shù)及數(shù)據(jù)計(jì)算量,降低了模型過擬合。為了遴選辨識度更高的特征,本文選擇最大池化方法,即在每個池化窗口內(nèi),取每一維的最大特征。
(4)DNN模型文本特征提取
根據(jù)統(tǒng)計(jì)的文本詞語共現(xiàn)情況,本文構(gòu)建了詞語共現(xiàn)網(wǎng)絡(luò),網(wǎng)絡(luò)中的點(diǎn)是數(shù)據(jù)集中詞頻數(shù)大于3的詞語,網(wǎng)絡(luò)中的邊是詞語和詞語之間的共現(xiàn)關(guān)系,邊的權(quán)重計(jì)算公式為
(7)
式中fi,j——詞語共現(xiàn)對〈i,j〉邊的權(quán)重
ni,j——詞語共現(xiàn)對〈i,j〉的詞頻
k——與詞語i組成詞語共現(xiàn)對的詞語數(shù)量
ni,k——詞語共現(xiàn)對〈i,k〉的詞頻
為了進(jìn)一步豐富文本特征,使模型更好地適應(yīng)小規(guī)模數(shù)據(jù)集,本文將2個問句詞語共現(xiàn)對的最大匹配度和權(quán)重作為文本特征。文本特征表示為{l1,l2,g,w},其中l(wèi)1和l2表示2個問句包含的詞語共現(xiàn)對數(shù)量,g表示2個問句的詞語共現(xiàn)對最大匹配度,w表示詞語共現(xiàn)對的權(quán)重之和。將文本特征輸入到DNN網(wǎng)絡(luò)模型中,映射成新空間向量。
試驗(yàn)數(shù)據(jù)來源于“中國農(nóng)技推廣APP”中的問答社區(qū),共有20 000對問題組合,并通過人工標(biāo)記的方法,標(biāo)注了問題組合對中2個問句是否相似。表1中為部分樣例試驗(yàn)數(shù)據(jù),語義相同的2個問句,其標(biāo)簽值為1,共有9 233個,占46.2%;語義不同的,標(biāo)簽值為0,共10 767個,占53.8%。

表1 試驗(yàn)數(shù)據(jù)樣例Tab.1 Sample of test data
試驗(yàn)數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)3部分,其中訓(xùn)練數(shù)據(jù)占試驗(yàn)數(shù)據(jù)量的80%,用于學(xué)習(xí)文本特征;驗(yàn)證數(shù)據(jù)占10%,用于調(diào)整模型的超參數(shù),用于對模型的能力進(jìn)行初步評估;測試數(shù)據(jù)占10%,用于評估最終模型的泛化能力。
試驗(yàn)選擇精確率、召回率、F1值、正確率以及時(shí)間復(fù)雜度作為評價(jià)指標(biāo),全面衡量模型性能。精確率、召回率、F1值以及正確率是統(tǒng)計(jì)學(xué)以及信息檢索相似性判斷領(lǐng)域的標(biāo)準(zhǔn)指標(biāo)。精確率計(jì)算的是模型判斷相似且實(shí)際也相似的句子數(shù)量,即正樣本與數(shù)據(jù)集中全部句子數(shù)量的比值,代表著模型對正樣本結(jié)果的查準(zhǔn)程度。召回率計(jì)算的是正樣本與數(shù)據(jù)集中全部相似句子總數(shù)的比值,代表著模型對正樣本的查全程度。F1值同時(shí)考慮精確率和召回率,讓兩者同時(shí)達(dá)到最高并取得平衡。正確率表示預(yù)測正確的結(jié)果占全部句子數(shù)量的比例。時(shí)間復(fù)雜度包括對訓(xùn)練時(shí)間和測試時(shí)間的統(tǒng)計(jì),用于衡量模型的效率,取10次試驗(yàn)耗時(shí)的平均值作為試驗(yàn)結(jié)果。
問句中包含的有效詞語使用128維的詞向量表示,包含詞語數(shù)量最大為30個,包含詞語共現(xiàn)對數(shù)量最大為50個。BiLSTM模型輸出特征維度是128維,CNN模型卷積核數(shù)量是128,孿生神經(jīng)網(wǎng)絡(luò)的2個子網(wǎng)絡(luò)共享參數(shù)。為了避免過擬合,模型使用dropout函數(shù),隨機(jī)讓一些神經(jīng)元失活,失活率設(shè)定為0.5。
本文模型與近年在文本相似度計(jì)算領(lǐng)域常用的4種深度學(xué)習(xí)模型進(jìn)行比較,對比模型包括基于孿生網(wǎng)絡(luò)的MaLSTM[34]、ESIM[35]、ABCNN[36]、CDNN[37],其中MaLSTM模型利用2個共享權(quán)重的LSTM提取文本特征,使用Word2vec方法將長度不同的句子轉(zhuǎn)換為長度相同的向量,運(yùn)用曼哈頓距離計(jì)算文本相似度;ESIM利用BiLSTM提取2個句子的文本特征,計(jì)算2個句子的相似性矩陣,對文本特征進(jìn)行加權(quán),得到新的文本特征表示向量,最后利用全連接層預(yù)測文本是否相似;ABCNN在CNN基礎(chǔ)上,分別在卷積計(jì)算前和池化計(jì)算前引入了注意力機(jī)制,判斷文本相似情況;CDNN利用CNN提取文本特征,利用文本特征相似度矩陣對2個句子特征進(jìn)行加權(quán)計(jì)算后,判斷文本相似性。
表2展示了5種試驗(yàn)?zāi)P歪槍r(nóng)業(yè)問答短文本數(shù)據(jù)集的試驗(yàn)結(jié)果。本文提出的Co_BiLSTM_CNN模型的正確率、精確率、召回率及F1值均超過了94%,較對比模型均有大幅提高。在對比模型中,MaLSTM模型的4項(xiàng)指標(biāo)均接近90%。對比正確率和F1值可知,Co_BiLSTM_CNN模型相對于其他模型提高了近5個百分點(diǎn),說明該模型能夠較為全面地提取文本特征,模型在相似性計(jì)算方面的總體性能較好。此外,以LSTM模型框架為基礎(chǔ)的MaLSTM和ESIM的評價(jià)指標(biāo)明顯高于以CNN模型為基礎(chǔ)的CDNN和ABCNN。對比精確率可知,Co_BiLSTM_CNN仍為最優(yōu),說明該模型對于相似性文本的判斷比較準(zhǔn)確,MaLSTM和ESIM在預(yù)測文本為相似文本的表現(xiàn)明顯優(yōu)于CDNN和ABCNN。對比召回率可知,4種對比試驗(yàn)?zāi)P捅憩F(xiàn)較為接近,均超過了89%,ESIM召回率達(dá)到91%,但是與Co_BiLSTM_CNN模型仍有較大的差距。

表2 5種試驗(yàn)?zāi)P偷脑囼?yàn)結(jié)果對比Tab.2 Comparison of five models %
為了進(jìn)一步驗(yàn)證詞語共現(xiàn)特征對于本文相似性計(jì)算的有效性,將4種對比模型進(jìn)行改進(jìn),融合了文本詞語共現(xiàn)特征。圖5展示了4種對比試驗(yàn)?zāi)P驮P团c融合了詞語共現(xiàn)特征模型在相似性計(jì)算正確率方面的對比結(jié)果。如圖5所示,針對農(nóng)業(yè)短文本數(shù)據(jù)集,本文提出的融合詞語共現(xiàn)特征的文本表示方式在4種試驗(yàn)?zāi)P偷南嗨菩杂?jì)算正確率明顯高于原模型,其中MaLSTM正確率最高,達(dá)92.4%。特別對于以CNN為基礎(chǔ)的試驗(yàn)?zāi)P停_率提升效果更加明顯,最高增幅達(dá)到10.2個百分點(diǎn)。4種對比模型在融合了詞語共現(xiàn)特征后,正確率雖明顯提高,但仍低于本文提出的Co_BiLSTM_CNN模型。

圖5 不同模型文本相似性計(jì)算正確率對比Fig.5 Comparison of accuracy by different models
為了驗(yàn)證試驗(yàn)?zāi)P蛯Σ煌?guī)模數(shù)據(jù)集的適用性,本文將Co_BiLSTM_CNN與MaLSTM、CDNN,以及對應(yīng)的融入詞語共現(xiàn)特征的CO_MaLSTM和CO_CDNN模型,分別在10 000、15 000、20 000組問句對數(shù)據(jù)集中進(jìn)行試驗(yàn)。圖6展示了5種試驗(yàn)方法在不同規(guī)模數(shù)據(jù)集下的相似度計(jì)算正確率。由圖6可知,全部試驗(yàn)?zāi)P驮谳^大規(guī)模數(shù)據(jù)集中取得的試驗(yàn)結(jié)果均優(yōu)于小規(guī)模數(shù)據(jù)集,Co_BiLSTM_CNN在不同的規(guī)模數(shù)據(jù)集中均取得了最優(yōu)的試驗(yàn)結(jié)果,特別在小規(guī)模數(shù)據(jù)集中,Co_BiLSTM_CNN優(yōu)勢更為突出,體現(xiàn)了該模型具有較強(qiáng)的魯棒性。融合了詞語共現(xiàn)特征的3個試驗(yàn)?zāi)P驮谛∫?guī)模數(shù)據(jù)集中的正確率仍在90%左右,明顯高于未融合詞語共現(xiàn)特征的MaLSTM和CDNN。

圖6 不同數(shù)據(jù)集的文本匹配正確率Fig.6 Text matching accuracy for different datasets
表3展示了5種試驗(yàn)?zāi)P驮?0 000組問答對數(shù)據(jù)集中的訓(xùn)練和測試所用時(shí)間。CDNN和Co_CDNN在訓(xùn)練時(shí)間上優(yōu)勢明顯,MaLSTM、Co_MaLSTM訓(xùn)練時(shí)間較長,融合了 CNN、BiLSTM和DNN多種模型的Co_BiLSTM_CNN由于結(jié)構(gòu)組成復(fù)雜,導(dǎo)致其訓(xùn)練時(shí)間最長。在實(shí)際應(yīng)用中,由于文本匹配模型的訓(xùn)練一般采取離線方式運(yùn)行,因此模型對時(shí)間復(fù)雜度要求不高,更注重相似性判斷的正確率及結(jié)果反饋時(shí)間。此外,融合了詞語共現(xiàn)特征的Co_CDNN和Co_MaLSTM的訓(xùn)練時(shí)間與基礎(chǔ)CDNN、MaLSTM訓(xùn)練時(shí)間基本相同,可見在文本相似性判斷任務(wù)中,融合詞共現(xiàn)特征對模型時(shí)間復(fù)雜度影響較小。

表3 各試驗(yàn)?zāi)P偷碾x線訓(xùn)練時(shí)間Tab.3 Offline training time comparison of models
(1)Co_BiLSTM_CNN模型滿足問句相似性判斷實(shí)際需要。Co_BiLSTM_CNN能夠多角度提取文本特征,在農(nóng)業(yè)問答問句判斷方面具有良好的試驗(yàn)效果,相似性判斷正確率明顯提高,正確率達(dá)到94.15%,并且在小規(guī)模數(shù)據(jù)集上的表現(xiàn)仍然良好。
(2)利用文本詞語共現(xiàn)關(guān)系增強(qiáng)文本特征,可在保證時(shí)間效率的基礎(chǔ)上,有效提高相似性判斷的正確率,有效解決特征稀疏文本相似性判斷難的問題。該方法在多個試驗(yàn)?zāi)P椭嗅槍Σ煌?guī)模的數(shù)據(jù)均取得了最優(yōu)的試驗(yàn)效果,具有廣泛的適用性。