基于多語義特征的農(nóng)業(yè)短文本匹配技術(shù)

2022-06-21 08:22:00趙春江吳華瑞繆祎晟王海琛楊寶祝

農(nóng)業(yè)機(jī)械學(xué)報(bào) 2022年5期

金寧趙春江吳華瑞繆祎晟王海琛楊寶祝

(1.沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院，沈陽 110866； 2.沈陽建筑大學(xué)研究生院，沈陽 110168；3.國家農(nóng)業(yè)信息化工程技術(shù)研究中心，北京 100097； 4.北京農(nóng)業(yè)信息技術(shù)研究中心，北京 100097；5.沈陽建筑大學(xué)信息與控制工程學(xué)院，沈陽 110168)

0 引言

農(nóng)業(yè)信息咨詢服務(wù)是農(nóng)業(yè)技術(shù)推廣的途徑之一。“中國農(nóng)技推廣APP”搭建了高效、便捷的手機(jī)移動端農(nóng)業(yè)信息咨詢服務(wù)平臺，至今已完成農(nóng)業(yè)技術(shù)問答超過了千萬次，涵蓋了蔬菜、糧食作物、牲畜等10個品種，涉及病蟲草害、栽培管理、動物疫病等18個種植、養(yǎng)殖方面問題[1]。面對平臺問答社區(qū)飛速增長的提問數(shù)量和大量重復(fù)、相似提問的存在，僅依靠農(nóng)業(yè)專家及農(nóng)業(yè)技術(shù)人員的人工回答已無法滿足農(nóng)戶快速、準(zhǔn)確獲得答案的需求。利用大數(shù)據(jù)和文本挖掘技術(shù)的文本匹配計(jì)算可有效解決上述問題。文本匹配作為文本挖掘技術(shù)的重要組成部分，是實(shí)現(xiàn)智能問答最關(guān)鍵、最基礎(chǔ)的技術(shù)之一[2]，是農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的重點(diǎn)研究方向。

文本匹配即構(gòu)建一個模型來學(xué)習(xí)和計(jì)算2個文本的相似度，判定2個句子是否相似[3]。文本匹配方法包括基于字面相似匹配、基于語法結(jié)構(gòu)相似匹配和基于語義相似匹配等方法[4]。基于字面相似匹配一般利用重復(fù)詞、同義詞、公共字符串等詞型表面特征，采用N-gram[5]和Jaccard[6]算法進(jìn)行相似度判斷。此方法僅提取了文本相同詞型或詞數(shù)量等淺層特征，忽視了文本語言結(jié)構(gòu)、語義等深層特征的提取。基于語法結(jié)構(gòu)相似匹配通常利用標(biāo)注的詞語屬性計(jì)算文本間相似性[7]，但是由于在特定領(lǐng)域內(nèi)缺少帶有詞語屬性標(biāo)注的文本，并且專業(yè)領(lǐng)域內(nèi)涵蓋的專屬詞語較多，影響了此方法相似度計(jì)算的準(zhǔn)確性。近年來基于語義相似匹配方法在文本匹配研究中應(yīng)用廣泛[8-10]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，將文本轉(zhuǎn)換為Word2vec[11-12]、GloVe[13]等由神經(jīng)網(wǎng)絡(luò)生成的詞向量，運(yùn)用深度學(xué)習(xí)文本匹配模型[14-16]計(jì)算文本相似度已成為當(dāng)前主要研究方法。深度學(xué)習(xí)方法能夠從文本中自動學(xué)習(xí)、抽取特征，可有效解決人工設(shè)計(jì)特征泛化能力差，提取特征數(shù)量少的問題。卷積神經(jīng)網(wǎng)絡(luò)是常用的深度學(xué)習(xí)方法，其卷積核結(jié)構(gòu)能夠有效提取文本局部的信息，通過堆疊卷積層的方法提取文本不同粒度的特征[17-19]，但在文本序列化特征提取，特別是長距離依存關(guān)系提取表現(xiàn)不佳。相比卷積神經(jīng)網(wǎng)絡(luò)，循環(huán)神經(jīng)網(wǎng)絡(luò)更適用于文本序列化建模[20-22]。循環(huán)神經(jīng)網(wǎng)絡(luò)可將歷史信息保存并作用于后續(xù)的計(jì)算進(jìn)而提高匹配的精確度。但此方法也存在對關(guān)鍵信息不敏感，訓(xùn)練時(shí)間長，內(nèi)存消耗大等問題。注意力機(jī)制[23]可有效解決上述問題，其通過賦予關(guān)鍵詞語更高的權(quán)重，幫助模型快速獲得最有效的信息，從而節(jié)省計(jì)算資源。在農(nóng)業(yè)領(lǐng)域，深度學(xué)習(xí)方法在文本分類[24-26]、文本信息提取[27-28]、命名實(shí)體識別[29-31]、實(shí)體關(guān)系抽取等方面取得了一定研究成果。但現(xiàn)有研究仍存在文本特征提取模型結(jié)構(gòu)簡單，短文本特征提取不豐富、不全面等不足，對于農(nóng)業(yè)領(lǐng)域中大量存在的專有名詞、詞語搭配方面的短文本挖掘仍不夠深入。

本文針對農(nóng)業(yè)問答社區(qū)產(chǎn)生的提問文本詞匯總量少、專有名詞多，語句規(guī)范性差，特征稀疏性強(qiáng)的特點(diǎn)，從深度語義、詞語共現(xiàn)、最大匹配度3個層面提取短文本特征。根據(jù)不同層面文本特征的特點(diǎn)，利用孿生長短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接神經(jīng)網(wǎng)絡(luò)，搭建基于多語義的農(nóng)業(yè)短文本匹配模型Co_BiLSTM_CNN，以實(shí)現(xiàn)提問文本相似性判斷。

1 多語義特征文本匹配模型

本文提出的基于多語義特征文本Co_BiLSTM_CNN模型如圖1所示。該模型主要由文本預(yù)處理層和文本匹配層2部分組成。與一般文本匹配模型相比，本文提出的模型在文本預(yù)處理層構(gòu)建了詞語共現(xiàn)關(guān)系網(wǎng)，可計(jì)算每個詞語共現(xiàn)對的權(quán)重，進(jìn)一步豐富了短文本特征；再根據(jù)不同文本特征的特點(diǎn)，利用雙向長短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和密集連接網(wǎng)絡(luò)搭建文本匹配模型，可實(shí)現(xiàn)文本特征的多角度提取。

圖1 Co_BiLSTM_CNN模型結(jié)構(gòu)圖Fig.1 Schematic of Co_BiLSTM_CNN

1.1 文本預(yù)處理

(1)文本分詞及詞性標(biāo)注

為了進(jìn)一步提高文本特征提取的精確度，提升文本處理效率，更加全面、完整地保留文本語義，首先運(yùn)用加載停用詞表方法，刪除文本包含的停用詞、特殊字符、標(biāo)點(diǎn)符號等冗余信息，減少噪聲對文本語義的干擾；然后利用jieba中文分詞庫對文本進(jìn)行分詞，針對文本中農(nóng)業(yè)領(lǐng)域?qū)Ｓ性~語識別難的問題，加載搜狗農(nóng)業(yè)詞匯字典作為分詞字典，以提高專有名詞的識別度；為了更加深入地提取文本特征，將分詞結(jié)果的詞性作為文本特征，按照北京大學(xué)詞性標(biāo)注規(guī)范[32]，對分詞結(jié)果的詞性逐一進(jìn)行標(biāo)注，利于提取更能體現(xiàn)文本語義的名詞、動詞。對于具有語義代表性的農(nóng)業(yè)領(lǐng)域?qū)Ｓ性~語，在詞性標(biāo)注時(shí)專門自定義了詞性，更加方便模型學(xué)習(xí)、提取文本特征。

(2)詞向量轉(zhuǎn)換

由于文本分詞結(jié)果無法被模型直接讀取，需將中文分詞結(jié)果轉(zhuǎn)換為數(shù)字向量形式表示。Word2vec[33]是近年來常用的基于神經(jīng)網(wǎng)絡(luò)的文本向量化表示方法，包括根據(jù)上下文預(yù)測當(dāng)前單詞和根據(jù)目標(biāo)詞語預(yù)測上下文信息2種模式，通過文本數(shù)據(jù)特征可學(xué)習(xí)得到連續(xù)、低維詞向量，有效解決了傳統(tǒng)詞向量模型帶來的語義孤立和維度爆炸問題。

(3)文本特征增強(qiáng)

文本詞語共現(xiàn)關(guān)系是指在同一文本內(nèi)，幾個詞語頻繁共同出現(xiàn)構(gòu)成的關(guān)系，是一種基于統(tǒng)計(jì)學(xué)的重要文本特征。在一個問句內(nèi)，幾個詞語在固定窗口范圍內(nèi)多次共同出現(xiàn)，寓意其很可能表述相同的主題，在語義上具有一定的關(guān)聯(lián)性。對于2個不同的問句，相同詞語共現(xiàn)關(guān)系的數(shù)量越多，代表著兩者之間語義相似度越高。問句一般屬于短文本，具有詞語數(shù)量少、語義特征不明顯的特點(diǎn)，利用文本詞語共現(xiàn)關(guān)系可有效增強(qiáng)文本語義特征。為了進(jìn)一步突出文本核心語義，減少噪聲干擾，在構(gòu)建詞語的共現(xiàn)關(guān)系時(shí)，先對詞語的詞性進(jìn)行初步篩選，僅統(tǒng)計(jì)更能代表文本語義的名詞、動詞以及農(nóng)業(yè)字典中包含的專有名詞；再對詞頻進(jìn)行限定，僅統(tǒng)計(jì)高于3次的詞語，在保留了原有問句核心詞語的基礎(chǔ)上，使文本語義特征更加豐富。

1.2 多特征文本匹配模型

(1)孿生網(wǎng)絡(luò)模型

孿生網(wǎng)絡(luò)(Siamese network)是一種雙邊的網(wǎng)絡(luò)模型架構(gòu)，多用于判斷2個輸入的相似性，具體結(jié)構(gòu)如圖2所示。左右2個輸入首先經(jīng)過LSTM或者CNN等神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練而映射到新的空間，形成輸入在新空間中的表示；其次通過距離度量的方式可計(jì)算左右2個神經(jīng)網(wǎng)絡(luò)輸出的距離。訓(xùn)練參數(shù)包括左右參數(shù)共享及左右參數(shù)不等2種模式，在判斷2個問句相似性問題上，由于2個問句結(jié)構(gòu)基本相同，因此選擇左右參數(shù)共享模式，即利用相同的參數(shù)提取2個問句的特征，該模式具有訓(xùn)練參數(shù)少，訓(xùn)練效率高，避免過擬合等優(yōu)勢。本文在構(gòu)建文本匹配模型時(shí)均使用左右參數(shù)共享的孿生網(wǎng)絡(luò)模型。

圖2 孿生網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.2 Schematic of siamese network

(2)BiLSTM模型文本特征提取

長短期記憶網(wǎng)絡(luò)(Long short-term memory, LSTM)在標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)結(jié)構(gòu)基礎(chǔ)上，增加了遺忘門、輸入門、輸出門和細(xì)胞狀態(tài)，能夠在有效保存長序列的歷史信息同時(shí)，規(guī)避了標(biāo)準(zhǔn)RNN梯度消失和梯度爆炸等問題，具體結(jié)構(gòu)見圖3。

圖3 LSTM結(jié)構(gòu)圖Fig.3 Schematic of LSTM

ft=σ(Wf[ht-1,xt]+bf)

(1)

it=σ(Wi[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo[ht-1,xt]+bo)

(5)

ht=ottanh(Ct)

(6)

式中σ——Sigmod函數(shù)

tanh——雙曲正切函數(shù)

Wf、Wi、WC、Wo——遺忘門、輸入門、細(xì)胞狀態(tài)及輸出門權(quán)重矩陣

bf、bi、bC、bo——遺忘門、輸入門、細(xì)胞狀態(tài)及輸出門偏置

在中文文本中，詞語的前后組合順序會直接影響文本語義。為了更全面地提取文本特征，深入挖掘詞語相關(guān)聯(lián)的上下文信息，利用BiLSTM模型提取文本的特征，解決了LSTM單向傳輸問題。BiLSTM由前向LSTML和后向LSTMR組成，雙向LSTM共享權(quán)值，所有神經(jīng)元內(nèi)的權(quán)重參數(shù)均相同，具體結(jié)構(gòu)如圖4所示。

圖4 BiLSTM結(jié)構(gòu)圖Fig.4 Schematic of BiLSTM

當(dāng)輸入文本詞向量為{x0,x1,x2,x3}時(shí)，LSTML訓(xùn)練得到向量{hL0,hL1,hL2,hL3}，LSTMR訓(xùn)練得到向量{hR0,hR1,hR2,hR3}，最后將生成的向量拼接得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],[hL3,hR3]}。在計(jì)算文本相似度任務(wù)中，由于[hL3,hR3]包括了前向與后向的所有特征信息，一般將其作為文本的特征表示。

(3)CNN模型文本特征提取

由于在文本預(yù)處理階段選擇了文本詞語共現(xiàn)關(guān)系作為文本的特征，原文本已由分詞結(jié)果表示更改為詞語共現(xiàn)對表示，改變了原來的文本語序特征，因此CNN模型更適合提取以詞語共現(xiàn)對表示文本的語義特征。CNN模型主要由卷積層和池化層組成，卷積層按照設(shè)定尺寸的卷積核對文本向量進(jìn)行卷積計(jì)算得到更高級的特征表示。

池化層包括平均池化和最大池化兩類，可將卷積層得到的高階特征進(jìn)行稀疏處理以及下采樣，在降低維度的同時(shí)，保留了關(guān)鍵的特征信息，舍棄了不顯著的信息，有效減少了模型參數(shù)及數(shù)據(jù)計(jì)算量，降低了模型過擬合。為了遴選辨識度更高的特征，本文選擇最大池化方法，即在每個池化窗口內(nèi)，取每一維的最大特征。

(4)DNN模型文本特征提取

根據(jù)統(tǒng)計(jì)的文本詞語共現(xiàn)情況，本文構(gòu)建了詞語共現(xiàn)網(wǎng)絡(luò)，網(wǎng)絡(luò)中的點(diǎn)是數(shù)據(jù)集中詞頻數(shù)大于3的詞語，網(wǎng)絡(luò)中的邊是詞語和詞語之間的共現(xiàn)關(guān)系，邊的權(quán)重計(jì)算公式為

(7)

式中fi,j——詞語共現(xiàn)對〈i,j〉邊的權(quán)重

ni,j——詞語共現(xiàn)對〈i,j〉的詞頻

k——與詞語i組成詞語共現(xiàn)對的詞語數(shù)量

ni,k——詞語共現(xiàn)對〈i,k〉的詞頻

為了進(jìn)一步豐富文本特征，使模型更好地適應(yīng)小規(guī)模數(shù)據(jù)集，本文將2個問句詞語共現(xiàn)對的最大匹配度和權(quán)重作為文本特征。文本特征表示為{l1,l2,g,w}，其中l(wèi)1和l2表示2個問句包含的詞語共現(xiàn)對數(shù)量，g表示2個問句的詞語共現(xiàn)對最大匹配度，w表示詞語共現(xiàn)對的權(quán)重之和。將文本特征輸入到DNN網(wǎng)絡(luò)模型中，映射成新空間向量。

2 試驗(yàn)與結(jié)果分析

2.1 試驗(yàn)數(shù)據(jù)

試驗(yàn)數(shù)據(jù)來源于“中國農(nóng)技推廣APP”中的問答社區(qū)，共有20 000對問題組合，并通過人工標(biāo)記的方法，標(biāo)注了問題組合對中2個問句是否相似。表1中為部分樣例試驗(yàn)數(shù)據(jù)，語義相同的2個問句，其標(biāo)簽值為1，共有9 233個，占46.2%；語義不同的，標(biāo)簽值為0，共10 767個，占53.8%。

表1 試驗(yàn)數(shù)據(jù)樣例Tab.1 Sample of test data

試驗(yàn)數(shù)據(jù)隨機(jī)劃分為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測試數(shù)據(jù)3部分，其中訓(xùn)練數(shù)據(jù)占試驗(yàn)數(shù)據(jù)量的80%，用于學(xué)習(xí)文本特征；驗(yàn)證數(shù)據(jù)占10%，用于調(diào)整模型的超參數(shù)，用于對模型的能力進(jìn)行初步評估；測試數(shù)據(jù)占10%，用于評估最終模型的泛化能力。

2.2 評價(jià)指標(biāo)

試驗(yàn)選擇精確率、召回率、F1值、正確率以及時(shí)間復(fù)雜度作為評價(jià)指標(biāo)，全面衡量模型性能。精確率、召回率、F1值以及正確率是統(tǒng)計(jì)學(xué)以及信息檢索相似性判斷領(lǐng)域的標(biāo)準(zhǔn)指標(biāo)。精確率計(jì)算的是模型判斷相似且實(shí)際也相似的句子數(shù)量，即正樣本與數(shù)據(jù)集中全部句子數(shù)量的比值，代表著模型對正樣本結(jié)果的查準(zhǔn)程度。召回率計(jì)算的是正樣本與數(shù)據(jù)集中全部相似句子總數(shù)的比值，代表著模型對正樣本的查全程度。F1值同時(shí)考慮精確率和召回率，讓兩者同時(shí)達(dá)到最高并取得平衡。正確率表示預(yù)測正確的結(jié)果占全部句子數(shù)量的比例。時(shí)間復(fù)雜度包括對訓(xùn)練時(shí)間和測試時(shí)間的統(tǒng)計(jì)，用于衡量模型的效率，取10次試驗(yàn)耗時(shí)的平均值作為試驗(yàn)結(jié)果。

2.3 參數(shù)設(shè)置

問句中包含的有效詞語使用128維的詞向量表示，包含詞語數(shù)量最大為30個，包含詞語共現(xiàn)對數(shù)量最大為50個。BiLSTM模型輸出特征維度是128維，CNN模型卷積核數(shù)量是128，孿生神經(jīng)網(wǎng)絡(luò)的2個子網(wǎng)絡(luò)共享參數(shù)。為了避免過擬合，模型使用dropout函數(shù)，隨機(jī)讓一些神經(jīng)元失活，失活率設(shè)定為0.5。

2.4 對比模型

本文模型與近年在文本相似度計(jì)算領(lǐng)域常用的4種深度學(xué)習(xí)模型進(jìn)行比較，對比模型包括基于孿生網(wǎng)絡(luò)的MaLSTM[34]、ESIM[35]、ABCNN[36]、CDNN[37]，其中MaLSTM模型利用2個共享權(quán)重的LSTM提取文本特征，使用Word2vec方法將長度不同的句子轉(zhuǎn)換為長度相同的向量，運(yùn)用曼哈頓距離計(jì)算文本相似度；ESIM利用BiLSTM提取2個句子的文本特征，計(jì)算2個句子的相似性矩陣，對文本特征進(jìn)行加權(quán)，得到新的文本特征表示向量，最后利用全連接層預(yù)測文本是否相似；ABCNN在CNN基礎(chǔ)上，分別在卷積計(jì)算前和池化計(jì)算前引入了注意力機(jī)制，判斷文本相似情況；CDNN利用CNN提取文本特征，利用文本特征相似度矩陣對2個句子特征進(jìn)行加權(quán)計(jì)算后，判斷文本相似性。

2.5 結(jié)果分析

表2展示了5種試驗(yàn)?zāi)Ｐ歪槍r(nóng)業(yè)問答短文本數(shù)據(jù)集的試驗(yàn)結(jié)果。本文提出的Co_BiLSTM_CNN模型的正確率、精確率、召回率及F1值均超過了94%，較對比模型均有大幅提高。在對比模型中，MaLSTM模型的4項(xiàng)指標(biāo)均接近90%。對比正確率和F1值可知，Co_BiLSTM_CNN模型相對于其他模型提高了近5個百分點(diǎn)，說明該模型能夠較為全面地提取文本特征，模型在相似性計(jì)算方面的總體性能較好。此外，以LSTM模型框架為基礎(chǔ)的MaLSTM和ESIM的評價(jià)指標(biāo)明顯高于以CNN模型為基礎(chǔ)的CDNN和ABCNN。對比精確率可知，Co_BiLSTM_CNN仍為最優(yōu)，說明該模型對于相似性文本的判斷比較準(zhǔn)確，MaLSTM和ESIM在預(yù)測文本為相似文本的表現(xiàn)明顯優(yōu)于CDNN和ABCNN。對比召回率可知，4種對比試驗(yàn)?zāi)Ｐ捅憩F(xiàn)較為接近，均超過了89%，ESIM召回率達(dá)到91%，但是與Co_BiLSTM_CNN模型仍有較大的差距。

表2 5種試驗(yàn)?zāi)Ｐ偷脑囼?yàn)結(jié)果對比Tab.2 Comparison of five models %

為了進(jìn)一步驗(yàn)證詞語共現(xiàn)特征對于本文相似性計(jì)算的有效性，將4種對比模型進(jìn)行改進(jìn)，融合了文本詞語共現(xiàn)特征。圖5展示了4種對比試驗(yàn)?zāi)Ｐ驮Ｐ团c融合了詞語共現(xiàn)特征模型在相似性計(jì)算正確率方面的對比結(jié)果。如圖5所示，針對農(nóng)業(yè)短文本數(shù)據(jù)集，本文提出的融合詞語共現(xiàn)特征的文本表示方式在4種試驗(yàn)?zāi)Ｐ偷南嗨菩杂?jì)算正確率明顯高于原模型，其中MaLSTM正確率最高，達(dá)92.4%。特別對于以CNN為基礎(chǔ)的試驗(yàn)?zāi)Ｐ停_率提升效果更加明顯，最高增幅達(dá)到10.2個百分點(diǎn)。4種對比模型在融合了詞語共現(xiàn)特征后，正確率雖明顯提高，但仍低于本文提出的Co_BiLSTM_CNN模型。

圖5 不同模型文本相似性計(jì)算正確率對比Fig.5 Comparison of accuracy by different models

為了驗(yàn)證試驗(yàn)?zāi)Ｐ蛯Σ煌?guī)模數(shù)據(jù)集的適用性，本文將Co_BiLSTM_CNN與MaLSTM、CDNN，以及對應(yīng)的融入詞語共現(xiàn)特征的CO_MaLSTM和CO_CDNN模型，分別在10 000、15 000、20 000組問句對數(shù)據(jù)集中進(jìn)行試驗(yàn)。圖6展示了5種試驗(yàn)方法在不同規(guī)模數(shù)據(jù)集下的相似度計(jì)算正確率。由圖6可知，全部試驗(yàn)?zāi)Ｐ驮谳^大規(guī)模數(shù)據(jù)集中取得的試驗(yàn)結(jié)果均優(yōu)于小規(guī)模數(shù)據(jù)集，Co_BiLSTM_CNN在不同的規(guī)模數(shù)據(jù)集中均取得了最優(yōu)的試驗(yàn)結(jié)果，特別在小規(guī)模數(shù)據(jù)集中，Co_BiLSTM_CNN優(yōu)勢更為突出，體現(xiàn)了該模型具有較強(qiáng)的魯棒性。融合了詞語共現(xiàn)特征的3個試驗(yàn)?zāi)Ｐ驮谛∫?guī)模數(shù)據(jù)集中的正確率仍在90%左右，明顯高于未融合詞語共現(xiàn)特征的MaLSTM和CDNN。

圖6 不同數(shù)據(jù)集的文本匹配正確率Fig.6 Text matching accuracy for different datasets

表3展示了5種試驗(yàn)?zāi)Ｐ驮?0 000組問答對數(shù)據(jù)集中的訓(xùn)練和測試所用時(shí)間。CDNN和Co_CDNN在訓(xùn)練時(shí)間上優(yōu)勢明顯，MaLSTM、Co_MaLSTM訓(xùn)練時(shí)間較長，融合了 CNN、BiLSTM和DNN多種模型的Co_BiLSTM_CNN由于結(jié)構(gòu)組成復(fù)雜，導(dǎo)致其訓(xùn)練時(shí)間最長。在實(shí)際應(yīng)用中，由于文本匹配模型的訓(xùn)練一般采取離線方式運(yùn)行，因此模型對時(shí)間復(fù)雜度要求不高，更注重相似性判斷的正確率及結(jié)果反饋時(shí)間。此外，融合了詞語共現(xiàn)特征的Co_CDNN和Co_MaLSTM的訓(xùn)練時(shí)間與基礎(chǔ)CDNN、MaLSTM訓(xùn)練時(shí)間基本相同，可見在文本相似性判斷任務(wù)中，融合詞共現(xiàn)特征對模型時(shí)間復(fù)雜度影響較小。

表3 各試驗(yàn)?zāi)Ｐ偷碾x線訓(xùn)練時(shí)間Tab.3 Offline training time comparison of models

3 結(jié)論

(1)Co_BiLSTM_CNN模型滿足問句相似性判斷實(shí)際需要。Co_BiLSTM_CNN能夠多角度提取文本特征，在農(nóng)業(yè)問答問句判斷方面具有良好的試驗(yàn)效果，相似性判斷正確率明顯提高，正確率達(dá)到94.15%，并且在小規(guī)模數(shù)據(jù)集上的表現(xiàn)仍然良好。

(2)利用文本詞語共現(xiàn)關(guān)系增強(qiáng)文本特征，可在保證時(shí)間效率的基礎(chǔ)上，有效提高相似性判斷的正確率，有效解決特征稀疏文本相似性判斷難的問題。該方法在多個試驗(yàn)?zāi)Ｐ椭嗅槍Σ煌?guī)模的數(shù)據(jù)均取得了最優(yōu)的試驗(yàn)效果，具有廣泛的適用性。