999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度預訓練模型的農業問句分類技術研究

2022-06-28 02:55:58胥建杰董莉霞鄧曉壘
軟件導刊 2022年6期
關鍵詞:分類深度農業

胥建杰,董莉霞,鄧曉壘

(甘肅農業大學信息科學技術學院,甘肅蘭州 730070)

0 引言

隨著互聯網的高速發展,在各類農業問答APP、農技論壇等平臺上,用戶提交的問題數量增長迅速,但許多平臺仍在使用人工篩選特征和淺層學習模型對提問數據進行分類,效率降低。為快速精準地為用戶提供所需信息,利用自然語言處理技術[1-2]構建智能問答系統,可以對農戶在種植生產過程中遇到的問題進行分析并給出相關解答。農業智能問答系統的核心模塊之一為農業問句分類[3],其直接影響系統的檢索效率[4-5]。

目前,國內眾多學者利用機器學習和深度學習等人工智能方法在農業文本分類方面進行了相關研究。例如,陳鵬等[6]、趙燕等[7]使用樸素貝葉斯分類器這一傳統機器學習方法對農業新聞文本信息進行了自動分類研究;馮帥等[8]運用深度卷積神經網絡實現了水稻知識文本的自動分類;趙明等[9]提出基于雙向門控循環單元的短文本分類模型,在番茄病蟲害細分領域進行了問句分類。目前,基于傳統機器學習和典型深度學習方法的文本分類技術已經相當成熟,但基于深度預訓練模型[10]的農業問句分類研究較少。針對農業問句特征稀疏、提問不規范、數據量龐大、分類繁多等特點[11-12],構建一種基于深度預訓練的農業問句分類模型,以實現農業問句更加精準的自動分類。

1 數據來源

采集農業科技網絡書屋專家在線系統[13](http://zjzx.cnki.net/)中的農業問句形成訓練所需數據集。整理5種類別問句作為原始訓練數據,分別為農作物、園藝、養殖技術、水產漁業、農業工程,均以分類標簽和文本內容的形式存儲。通過數據收集、清洗、整理后最終得到12.5 萬條數據,用于建立訓練模型的農業問句語料庫。按照8∶1∶1 的比例分配數據集,其中訓練集為80%,驗證集和測試集分別為10%。測試集、訓練集和驗證集均無重復交叉,因此測試數據集的試驗結果可作為模型分類效果的評價指標[14]。

2 深度預訓練語言模型

深度預訓練語言模型在自然語言處理任務中表現優異,可移植性強[15]。其中,BERT(Bidirectional Encoder Representations from Transformers)模型[16-17]和ERNIE(En?hanced Language Representation with Informative Entities)模型[18-20]利用注意力機制對數據進行建模處理,與典型的卷積神經網絡(Convolutional Neural Networks,CNN)[21]和循環神經網絡(Recurrent Neural Network,RNN)[22-23]有很大區別。注意力機制多與RNN 配合使用,以解決數據建模中的遺忘等問題。基于神經網絡的機器翻譯采用Seq2seq架構[24],其編碼器和解碼器均是基于RNN 構建的。

ERNIE 模型是百度公司提出的基于知識增強的預訓練模型,是對BERT模型的改進,其通過建模海量數據中的實體概念等先驗語義知識學習真實世界的語義關系。ER?NIE 模型采用了BERT 模型的基本架構,同樣使用雙向Transformer 編碼器進行編碼,結構如圖1 所示,其中E1、E2...En表示字的文本輸入,經過雙向Transformer 編碼器得到文本的向量化表示[25]。

Transformer 是一個基于自注意力機制(Self-atten?tion)[26]的Seq2seq 模型[27]。Seq2seq 模型為編碼器——解碼器(Encoder-Decoder)結構,即輸入和輸出是同樣的序列,編碼器將一個可變長度的輸入序列變化為固定長度的向量,編碼器再將固定長度的向量解碼為可變長度的輸出序列。該模型結構如圖2所示。

解決序列問題的編碼器——解碼器結構的核心為RNN,但由于RNN 不能進行并行計算,Transformer 采用Self-at?tention 替代RNN。ERNIE 模型中Transformer 的編碼器結構[28]如圖3所示。

Fig.1 Structure of ERNIE model圖1 ERNIE模型結構

Fig.2 Structure of Seq2seq model圖2 Seq2seq模型結構

Fig.3 Structure of Transformer encoder圖3 Transformer 編碼器結構

編碼器以一個句子的字嵌入表示[26],再加上這個句子中每一個字的位置信息,經過Self-attention 層,在每個字通過編碼器進行編碼時還可以看到這個字的前后信息。然后,編碼器的輸出會再次經過Add&Norm 層,將輸出與輸入相加,進行一次規范化,再將規范化的向量傳入Feed Forward 層,Feed Forward 層同樣會進行Add&Norm 處理,獲取輸出的規范化向量信息。ERINE 模型會對Self-attention層進行N 次堆疊[29],其中Self-attention 的核心思想是計算每個詞與整個句子其他詞之間的相互關系,關注的是詞與詞之間的語義關系,弱化不相關的詞,建立一個更加全局化的表達式,從而提高分類效果。假設Self-attention 的輸入用矩陣X 表示,該矩陣為輸入句子中每個詞的嵌入向量。使用線性變換矩陣WQ、WK、WV 計算出矩陣X 的Query、Key、Value 向量,其中X、Query、Key、Value 的每一行也都表示一個字的向量,則Attention的計算方法[30]表示為:

式中計算了矩陣Q和K每一行向量的內積,為防止內積過大,右端式中除以dk的平方根[31]。Q乘以K的轉置后得到的矩陣行列數均為n,n 為句子單詞數,該矩陣可以表示單詞之間的Attention 強度[32]。Softmax 是指將矩陣中每一行的和都變為1[33]。使用Softmax 計算每個單詞對于其他單詞的Attention 系數,最終得到已融合其他位置字的向量信息,是一個全新的向量表示。

基于深度預訓練模型的農業問句分類結構如圖4 所示。在模型的輸入層中將農業問句作為輸入,在輸入層后接入BERT 或ERNIE 模型,再加入全連接層,最后使用Softmax 層計算每種類別的概率分布情況[34-35]。

Fig.4 Agricultural question classification structure based on deep pretraining model圖4 基于深度預訓練模型的農業問句分類結構

3 實驗方法與結果分析

3.1 實驗設計

根據農業問句數量設計3 組實驗,分別為實驗A(50 000)、實驗B(100 000)、實驗C(125 000),并分別按照8∶1∶1 的比例生成訓練集、驗證集和測試集。各類別實驗數據如表1所示,各數據集數據分布如表2所示。

Table 1 Setting of experimental data表1 實驗數據設置

Table 2 Experimental data distribution表2 實驗數據分布

3.2 實驗環境

具體實驗環境參數配置如表3所示。

Table 3 Experimental environment parameters configuration表3 實驗環境參數配置

3.3 評價指標

本文使用的模型評價指標為精確率(Precision)、召回率(Recall)和F1值,計算方式分別為:

3.4 結果分析

采用精確率、召回率和F1 值評價比較TextRNN-Atten?tion 模型、Transformer 模型、BERT 模型、ERNIE 模型的分類性能,整體數據如表4所示。

Table 4 Comparison of classification effect evaluation indexes of dif?ferent models表4 不同模型分類效果評價指標比較

續表

由圖5 可以看出,隨著數據集中數據量的增加,4 個模型的F1 值均有所提高,且深度預訓練模型BERT 和ERNIE的F1 值一直優于深度學習模型TextRNN-Attention 和Transformer。在3 組實驗中,ERNIE 模型的F1 值均為最高,表明增加了實體級掩蓋和短語級掩蓋的預訓練分類模型性能明顯提升。

Fig.5 Comparison of F1 values in different experiment group圖5 不同實驗組別下各模型F1值比較

圖6 為3 組實驗中4 個模型對5 種類別農業問句分類的F1 值比較,可以看出養殖技術和水產漁業問句的分類精確率較高,這是由于這兩類數據文本特征明顯,有更多的類別區分詞,便于模型學習。此外,無論是何種類別的農業問句,ERNIE 模型的分類準確率均最高。

Fig.6 Classification effect of different kinds of data of each model圖6 各模型不同類別文本分類效果

4 結語

本文使用預訓練模型替代深度學習模型對農業問句進行分類,在農業問句數量不足、數據噪音大以及特征不明顯的數據集上,測試集的F1 值最高達到94.76%,且ER?NIE 模型的分類性能優于BERT 模型,可有效實現農業問句的自動分類。后續將會提高農業問句類別的覆蓋率和細粒度,并探索如何降低模型訓練成本,以及結合其他優質分類模型進一步提高農業問句分類的準確性。

猜你喜歡
分類深度農業
國內農業
今日農業(2022年1期)2022-11-16 21:20:05
國內農業
今日農業(2022年3期)2022-11-16 13:13:50
國內農業
今日農業(2022年2期)2022-11-16 12:29:47
擦亮“國”字招牌 發揮農業領跑作用
今日農業(2021年14期)2021-11-25 23:57:29
分類算一算
深度理解一元一次方程
分類討論求坐標
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 欧美成人免费午夜全| a天堂视频在线| 欧美激情视频一区| 国产视频 第一页| 欧美日韩中文国产va另类| 亚洲三级色| 在线精品欧美日韩| 日韩欧美91| 97国产在线播放| 亚洲男人天堂网址| 19国产精品麻豆免费观看| 亚洲精品制服丝袜二区| 国产91丝袜在线观看| 亚洲天堂2014| 久久国产精品嫖妓| 国产91视频免费观看| 久久综合九色综合97婷婷| 欧美成人A视频| 免费99精品国产自在现线| 久久精品人人做人人综合试看| 亚洲h视频在线| 中文字幕 91| 97人人做人人爽香蕉精品| 美女被狂躁www在线观看| 成人精品视频一区二区在线| 波多野结衣久久高清免费| 在线视频精品一区| 精品伊人久久久香线蕉 | 久久夜色精品| 欧美中文字幕一区二区三区| 青青网在线国产| 丰满人妻中出白浆| 日韩午夜伦| 国产视频久久久久| 久久久无码人妻精品无码| 日韩无码真实干出血视频| 欧美在线黄| 欧洲日本亚洲中文字幕| 91久久国产综合精品女同我| 成人综合久久综合| 欧美精品高清| 欧美成在线视频| 成人va亚洲va欧美天堂| 男女精品视频| 国产成人乱无码视频| 素人激情视频福利| 免费大黄网站在线观看| 亚洲国模精品一区| 国产精品一区在线麻豆| 日韩av无码精品专区| 99热这里只有精品国产99| 免费观看男人免费桶女人视频| 欧美成人看片一区二区三区| 久久这里只有精品国产99| 国产一在线| 波多野结衣无码中文字幕在线观看一区二区| 91香蕉国产亚洲一二三区| 亚洲AV无码乱码在线观看裸奔 | 欧美不卡二区| 日韩在线永久免费播放| 114级毛片免费观看| 无码人中文字幕| 五月天久久综合| 午夜精品福利影院| 国产无码高清视频不卡| 国产成人精品一区二区三区| 四虎永久免费在线| 亚洲资源在线视频| 国产亚洲一区二区三区在线| 国内熟女少妇一线天| 国产区在线观看视频| 97se亚洲综合在线韩国专区福利| 青青热久麻豆精品视频在线观看| 熟妇丰满人妻av无码区| 欧美成人在线免费| 青青草a国产免费观看| 国内嫩模私拍精品视频| 国产精品亚洲欧美日韩久久| 国产高清不卡| 亚洲香蕉伊综合在人在线| 美女扒开下面流白浆在线试听 | 国产成人毛片|