基于詞向量+BiLSTM+CRF的農(nóng)業(yè)技術(shù)需求文本實(shí)體提取

2021-04-22 16:11:31宋林鵬劉世洪王翠

江蘇農(nóng)業(yè)科學(xué) 2021年5期

宋林鵬劉世洪王翠

摘要：農(nóng)業(yè)技術(shù)需求文本實(shí)體提取是農(nóng)業(yè)技術(shù)轉(zhuǎn)移工作中需求分析能夠量化、特征化的關(guān)鍵技術(shù)。基于主流農(nóng)業(yè)技術(shù)轉(zhuǎn)移網(wǎng)站上的農(nóng)業(yè)技術(shù)需求文本進(jìn)行分析，提出農(nóng)業(yè)技術(shù)需求文本中需求主體對(duì)象、需求意圖、需求程度3種關(guān)鍵實(shí)體成分;分別使用傳統(tǒng)的CRF和基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF 2種模型對(duì)關(guān)鍵實(shí)體進(jìn)行識(shí)別提取。試驗(yàn)結(jié)果表明，詞向量+BiLSTM+CRF在正確率、召回率指標(biāo)上分別能達(dá)到88.51%和82.28%以上，均優(yōu)于CRF模型。

關(guān)鍵詞：農(nóng)業(yè)技術(shù)需求挖掘;命名實(shí)體識(shí)別;條件隨機(jī)場(chǎng);雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

中圖分類號(hào)： S126文獻(xiàn)標(biāo)志碼： A

文章編號(hào)：1002-1302（2021）05-0186-08

農(nóng)業(yè)創(chuàng)新鏈?zhǔn)且粋€(gè)以農(nóng)業(yè)研發(fā)活動(dòng)為基礎(chǔ)，以農(nóng)業(yè)科技成果轉(zhuǎn)化為渠道，以實(shí)現(xiàn)農(nóng)業(yè)科技成果產(chǎn)業(yè)化應(yīng)用、市場(chǎng)化推廣為目的的產(chǎn)業(yè)鏈[1]。在這個(gè)產(chǎn)業(yè)鏈中，農(nóng)業(yè)科技成果轉(zhuǎn)化起到了樞紐的作用，其上游是農(nóng)業(yè)研發(fā)活動(dòng)的主體，包括各大高校和科研院所，下游是進(jìn)行直接農(nóng)業(yè)生產(chǎn)的農(nóng)民或農(nóng)業(yè)企業(yè)，他們希望應(yīng)用農(nóng)業(yè)技術(shù)來改進(jìn)生產(chǎn)活動(dòng)，提高生產(chǎn)效益，但由于經(jīng)濟(jì)等方面的限制，只能借助于上游研發(fā)機(jī)構(gòu)的成果，而農(nóng)業(yè)科技成果轉(zhuǎn)化正是起到了“中間人”的作用，其效果發(fā)揮的質(zhì)量影響著整個(gè)產(chǎn)業(yè)鏈的通達(dá)程度。農(nóng)業(yè)科技轉(zhuǎn)移平臺(tái)正是農(nóng)業(yè)科技成果轉(zhuǎn)化的承載實(shí)體，完善農(nóng)業(yè)科技轉(zhuǎn)移平臺(tái)建設(shè)是破解農(nóng)業(yè)科技成果轉(zhuǎn)化難的關(guān)鍵。

當(dāng)前，我國(guó)農(nóng)業(yè)技術(shù)轉(zhuǎn)移主要依賴政府主導(dǎo)，農(nóng)機(jī)推廣人員作為技術(shù)供需雙方的中間人，進(jìn)行線下推廣。這種方式存在成本高、效率低、時(shí)效性差等問題。一方面，農(nóng)民或農(nóng)企（特別是中小農(nóng)企）對(duì)農(nóng)業(yè)技術(shù)獲取渠道、技術(shù)應(yīng)用狀況、收益等方面的信息掌握十分薄弱，許多農(nóng)企當(dāng)前依然依靠傳統(tǒng)技術(shù)甚至過度的人力資源投入進(jìn)行生產(chǎn)經(jīng)營(yíng)，導(dǎo)致農(nóng)業(yè)生產(chǎn)過程成本高昂、效益低下;另一方面，許多高校和科研機(jī)構(gòu)的成果應(yīng)用不到實(shí)際的生產(chǎn)上，形成了技術(shù)擁有者和技術(shù)需求者脫節(jié)的現(xiàn)象。農(nóng)業(yè)技術(shù)本質(zhì)上也是商品，會(huì)受到市場(chǎng)規(guī)律的影響，市場(chǎng)的需求是主導(dǎo)市場(chǎng)資源配置和生產(chǎn)的主導(dǎo)力量，農(nóng)業(yè)技術(shù)的市場(chǎng)需求同樣也是農(nóng)業(yè)技術(shù)轉(zhuǎn)移市場(chǎng)的主導(dǎo)因素。許多學(xué)者也對(duì)當(dāng)前農(nóng)業(yè)技術(shù)轉(zhuǎn)移機(jī)制脫離市場(chǎng)需求的問題進(jìn)行了深入研究，并給出了相應(yīng)的對(duì)策，但這些研究大多是從政策、理論方面給出建議，很少有在具體技術(shù)層面提出優(yōu)化農(nóng)業(yè)技術(shù)需求信息挖掘的。

隨著線上商品交易模式的日益成熟，我國(guó)政府和非政府機(jī)構(gòu)也建立了各種形式的線上農(nóng)業(yè)技術(shù)交易平臺(tái)，這些平臺(tái)積累了很多技術(shù)相關(guān)數(shù)據(jù)，其中技術(shù)需求描述文本是技術(shù)需求方對(duì)自身需求的簡(jiǎn)要描述，這些文本數(shù)據(jù)多是非結(jié)構(gòu)化的，對(duì)需求文本中命名實(shí)體的提取是精準(zhǔn)獲取需求信息的基礎(chǔ)環(huán)節(jié)，是技術(shù)轉(zhuǎn)移系統(tǒng)構(gòu)建技術(shù)推薦、技術(shù)供需匹配、企業(yè)需求畫像等工作的關(guān)鍵技術(shù)。

1 相關(guān)技術(shù)

1.1 序列標(biāo)注任務(wù)

序列標(biāo)注是對(duì)1個(gè)給定的序列中的每個(gè)元素進(jìn)行標(biāo)記，或者說給每個(gè)元素打1個(gè)標(biāo)簽，標(biāo)簽的具體形式取決于不同的任務(wù)，常見的系列標(biāo)注任務(wù)包括分詞、詞性標(biāo)注、關(guān)鍵詞抽取、命名實(shí)體識(shí)別[5]、詞義角色標(biāo)注等。在做序列標(biāo)注時(shí)只要針對(duì)特定給定的標(biāo)簽集合，就可以進(jìn)行特定的序列標(biāo)注任務(wù)。

序列標(biāo)注任務(wù)的一般形式：對(duì)于待標(biāo)注的一段序列X={x1，x2，…，xn}，需要給每個(gè)預(yù)測(cè)一個(gè)標(biāo)注，先定義Tag集合是T={t1，t2，…，tn}，比如，分詞的標(biāo)注可以定義為{Begin，Middle，End，Single}，命名實(shí)體識(shí)別的標(biāo)注可以定義為{形容詞，名詞，動(dòng)詞，…}，假設(shè)預(yù)測(cè)序列是Y={y1，y2，…，yn}，要計(jì)算P（Y|X）從而得到序列Y，再定義對(duì)應(yīng)的真實(shí)標(biāo)簽序列是 L={l1，l2，…，ln}，那就對(duì)Y和L使用交叉熵計(jì)算損失函數(shù)，通過梯度下降來求解參數(shù)。和普通分類不一樣的是，這些預(yù)測(cè)的標(biāo)注之間可能是有關(guān)聯(lián)的，可能須要通過上一個(gè)標(biāo)注的信息去預(yù)測(cè)下一個(gè)標(biāo)注。

在深度學(xué)習(xí)被廣泛應(yīng)用之前，序列標(biāo)注問題的解決方案大多借助于隱馬爾科夫模型（HMM）、最大熵模型（ME）、條件隨機(jī)場(chǎng)模型（CRF）等。尤其是CRF，是解決序列標(biāo)注問題的主流方法，但是這些方法依賴于人工定義大量的特征，工作量大，但模型的可解釋性好。隨著深度學(xué)習(xí)的發(fā)展，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在序列標(biāo)注問題中取得了很大的進(jìn)步，且隨著RNN里門控機(jī)制、注意力機(jī)制的成功應(yīng)用，在系列學(xué)習(xí)里能捕獲到更關(guān)鍵、更寬泛的上下文信息，大幅提升了系列標(biāo)注的應(yīng)用效果[6]。而且深度學(xué)習(xí)中的端到端學(xué)習(xí)（end-to-end），也讓序列標(biāo)注問題變得更簡(jiǎn)單了。

1.2 詞嵌入

文本是一種非結(jié)構(gòu)化的數(shù)據(jù)信息，是不可以直接被計(jì)算的，文本表示的作用就是將這些非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息，這樣就可以針對(duì)文本信息作計(jì)算，來完成日常所能見到的文本分類，情感判斷等任務(wù)。詞嵌入（word embedding）是文本表示的一類方法，簡(jiǎn)單的說是將高維空間（空間的維度通常是詞典的大小）中表示詞的高維向量（比如獨(dú)熱one-hot表示）映射到低維連續(xù)空間中的向量，映射后的向量稱為詞向量，在低維的詞向量有更好的語義信息。詞向量可以作為最終結(jié)果來使用，也可以作為神經(jīng)網(wǎng)絡(luò)層的輸入來進(jìn)一步學(xué)習(xí)有用信息。

Word2vec是由Google提出的一種詞嵌入方法和工具，是基于統(tǒng)計(jì)方法來獲得詞向量，這種算法有2種訓(xùn)練模式：（1）通過上下文來預(yù)測(cè)當(dāng)前詞，即CBOW（Continuous Bag-of-Words Model）;（2）通過當(dāng)前詞來預(yù)測(cè)上下文，即Skip-gram （Continuous Skip-gram Model）。

在基于神經(jīng)網(wǎng)絡(luò)命名實(shí)體標(biāo)記中，使用Word2vec對(duì)詞級(jí)別或者字級(jí)別進(jìn)行向量表達(dá)時(shí)，每個(gè)詞向量會(huì)帶上一定的語義關(guān)系，比如臨近關(guān)系。把這些帶有語義關(guān)系的向量作為模型的輸入，能有效優(yōu)化模型效果。

1.3 長(zhǎng)短時(shí)記憶模型

長(zhǎng)短時(shí)記憶模型（LSTM）[7]是一種特殊類型的RNN，是為了解決傳統(tǒng)RNN中梯度消失和難于學(xué)習(xí)長(zhǎng)距離的依賴信息的問題。如圖1是傳統(tǒng)RNN和LSTM概覽結(jié)構(gòu)，RNN輸入只有1個(gè)隱藏狀態(tài)（hidden state，h），LSTM有隱藏狀態(tài)和細(xì)胞狀態(tài)（c）2個(gè)傳輸狀態(tài)，y是模型最終的輸出單元。c是LSTM的核心，細(xì)胞狀態(tài)就像一條傳送帶，會(huì)沿著模型鏈一直傳遞，且只有一些少量的線性交互，信息在上面流傳保持不變會(huì)很容易，易于長(zhǎng)距離依賴狀態(tài)的保存和更新。

LSTM 通過一種名為門（gate）的結(jié)構(gòu)控制cell的狀態(tài)，并向其中刪減或增加信息。1個(gè)LSTM有3個(gè)這樣的門：遺忘門、輸入門和輸出門。以語言翻譯任務(wù)來舉例：cell狀態(tài)可能會(huì)需要考慮主語的性別，這樣才能找到正確的代詞。筆者設(shè)定如果看到1個(gè)新的主語，遺忘門就用來忘記舊的主語所代表的性別，然后利用輸入門將新主語的性別信息加入細(xì)胞狀態(tài)中，以替換要忘記的舊信息。最后，須要確定輸出的內(nèi)容，當(dāng)它只看到1個(gè)主語時(shí)，就可能會(huì)輸出與動(dòng)詞相關(guān)的信息，比如它會(huì)輸出主語是單數(shù)

還是復(fù)數(shù)，這樣的話，如果后面真的出現(xiàn)了動(dòng)詞，就可以確定它的形式。LSTM模型的詳細(xì)結(jié)構(gòu)和計(jì)算過程見圖2、式（1）。

it=σ（Wxixt+Whiht-1+Wcict-1+bi）

ft=σ（Wxfxt+Whfht-1+Wcfct-1+bf）

ot=σ（Wxoxt+Whoht-1+Wcoct-1+bo）

Ct=ftCt-1+ittanh（Wxcxt+Whcht-1+bc）

ht=ottanh（Ct）。（1）

式中：σ即激勵(lì)函數(shù)Sigmoid函數(shù);xt是模型在t時(shí)刻的輸入;it、ft、ot、Ct、ht分別是t時(shí)刻輸入門、遺忘門、輸出門、記憶細(xì)胞、隱藏門的激活向量;W、b是模型學(xué)到的參數(shù)權(quán)重和偏置。

LSTM中信息是單向流動(dòng)的，如果能像訪問過去的上下文信息一樣，訪問未來的上下文，這樣對(duì)于許多序列標(biāo)注任務(wù)是非常有益的。例如，在序列標(biāo)注的時(shí)候，如果能像知道這個(gè)詞之前的詞一樣，知道將要來的詞，這將非常有幫助。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)（Bi-LSTM）的基本思想是提出每一個(gè)訓(xùn)練序列向前和向后共是2個(gè)LSTM，而且這2個(gè)都連接著1個(gè)輸出層。這個(gè)結(jié)構(gòu)提供給輸出層輸入序列中每一個(gè)點(diǎn)完整的過去和未來的上下文信息。

1.4 條件隨機(jī)場(chǎng)

條件隨機(jī)場(chǎng)模型（CRF）是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型，其本質(zhì)是一個(gè)條件序列無向圖模型[8]，在給定觀察序列的條件下，CRF會(huì)計(jì)算整個(gè)觀察系列對(duì)應(yīng)標(biāo)記序列的聯(lián)合概率分布，而不是像HMM那樣在給定當(dāng)前狀態(tài)條件下，標(biāo)記下一個(gè)狀態(tài)的分布。CRF綜合了HMM和最大熵模型的優(yōu)點(diǎn)，對(duì)于觀測(cè)序列并沒有做馬爾科夫獨(dú)立性假設(shè)，這使得CRF能更好地?cái)M合標(biāo)記序列相互作用的特征信息。CRF雖然改善了臨近相互作用的特征信息，但對(duì)于長(zhǎng)距離的依賴信息并不能利用，且CRF的應(yīng)用效果依賴于人工對(duì)特征的選取，不能很好地進(jìn)行端到端進(jìn)行學(xué)習(xí)。CRF的參數(shù)化定義如下：

P（y|x）=expi，kλktk（yt-1，yi，x，i）+∑i，lulsl（yi，x， i）〗Z（x）;（2）

Z（x）=∑yexpi，kλktk（yt-1，yi，x，i）+∑i，lulsl（yi，x，i）〗。（3）

式中：Z（x）為規(guī)范化因子;P（y|x）為在給定隨機(jī)變量序列x的條件下，隨機(jī)變量序列y的條件概率分布;tk（yt-1，yi，x，i）是轉(zhuǎn)移特征函數(shù)，表示在給定觀測(cè)x的情況下從上個(gè)節(jié)點(diǎn)yt-1轉(zhuǎn)移到這個(gè)節(jié)點(diǎn)yi的情況;sl（yi，x，i）是狀態(tài)特征函數(shù)，表示當(dāng)前節(jié)點(diǎn)yi是不是標(biāo)記x的情況;λk和ul是特征函數(shù)分別對(duì)應(yīng)的權(quán)值;Z（x）為規(guī)范化因子，求和時(shí)在所有可能的輸出序列上進(jìn)行的。

CRF的精準(zhǔn)使用正是依賴于對(duì)特征的使用以及特征函數(shù)的定義和學(xué)習(xí)，在某個(gè)具體領(lǐng)域使用CRF有時(shí)候需要在大量的語料里總結(jié)結(jié)構(gòu)特征，并轉(zhuǎn)化為CRF的特征函數(shù)，比如CRF用于詞性標(biāo)注時(shí)，對(duì)標(biāo)注系列2個(gè)動(dòng)詞不同緊鄰出現(xiàn)這一特征可以給予正向打分。CRF對(duì)最終系列的判定就是基于所有特征函數(shù)對(duì)潛在系列的所有單詞的打分值。

注意在CRF的定義中，并沒有要求X和Y有相同的結(jié)構(gòu)。而實(shí)現(xiàn)中，一般都假設(shè)X和Y有相同的結(jié)構(gòu)，CRF就構(gòu)成了線性鏈條件隨機(jī)場(chǎng)（linear chain conditional random fields，簡(jiǎn)稱linear-CRF），其結(jié)構(gòu)見圖3。

1.5 基于詞嵌入+BiLSTM+CRF模型的命名實(shí)體識(shí)別

相對(duì)于CRF，BiLSTM能利用更遠(yuǎn)距離的上下文信息，目前在系列標(biāo)注任務(wù)里基本都是以神經(jīng)網(wǎng)絡(luò)的形式進(jìn)行，但是某些任務(wù)中，一些強(qiáng)限制特征，BiLSTM并沒有好的機(jī)制進(jìn)行保障，而CRF可以以特征函數(shù)的形式來利用這部分信息，比如在詞性標(biāo)注任務(wù)中，2個(gè)動(dòng)詞不可能緊鄰出現(xiàn)這一強(qiáng)限制特征。而使用詞向量來代替?zhèn)鹘y(tǒng)one-hot（獨(dú)熱編碼）稀疏表示，也能有效提升輸入的語義關(guān)系，因此，在系列標(biāo)注任務(wù)中常結(jié)合詞向量、BiLSTM和CRF進(jìn)行建模，其模型結(jié)構(gòu)見圖4。

2 結(jié)果與分析

2.1 數(shù)據(jù)集

試驗(yàn)采集技E網(wǎng)（https：//www.ctex.cn/）、三泰百科（http：//www.3tbest.com/）、中國(guó)科學(xué)院北京國(guó)家技術(shù)轉(zhuǎn)移中心（http：//www.nttc.ac.cn/）等農(nóng)業(yè)技術(shù)交易網(wǎng)站的共2500條技術(shù)需求描述文本，原始數(shù)據(jù)例子見表1。

使用jieba分詞系統(tǒng)解析出文本的詞語特征和詞性特征，以胖姜下腳料高效利用加工技術(shù)研究為例，結(jié)果見表2。

2.2 標(biāo)注

2.2.1 實(shí)體分析

目前存在諸多農(nóng)業(yè)技術(shù)交易網(wǎng)站，用戶可以在網(wǎng)站發(fā)布自己的技術(shù)需求，通常只是一段話的形式，為了對(duì)用戶技術(shù)需求進(jìn)行深層次分析，必須得從這段技術(shù)需求描述里挖掘出定性定量的特征實(shí)體。經(jīng)分析，一段農(nóng)業(yè)技術(shù)需求描述通常會(huì)包括3個(gè)特征：需求主體對(duì)象、需求意圖、需求程度，具體含義如下：

以尋找一種農(nóng)藥殘留的秒級(jí)檢測(cè)方法為例，特征實(shí)體見圖5。

2.2.2 標(biāo)注集選擇

試驗(yàn)使用CRF++工具進(jìn)行CRF模型訓(xùn)練測(cè)試，CRF++有2種標(biāo)注模式，BIO標(biāo)注模式見表4，BIOES標(biāo)注模式見表5。

因?yàn)檗r(nóng)業(yè)技術(shù)需求描述文檔所要識(shí)別的特征均有比較明顯的結(jié)束特征（如很多技術(shù)需求描述文檔均以技術(shù)結(jié)尾）識(shí)別，所以選擇BIOES標(biāo)注模式。對(duì)需求主體對(duì)象、需求意圖、需求程度 2個(gè)特征標(biāo)注就共需要3×4+1=13個(gè)標(biāo)注方式，詳見表6。

2.2.3 標(biāo)注結(jié)果

詞語料詞級(jí)別標(biāo)注例子見表7。詞語級(jí)別語料主要用來進(jìn)行CRF模型訓(xùn)練，在CRF模型中，對(duì)特定領(lǐng)域?qū)嶓w識(shí)別，詞語級(jí)別進(jìn)行建模相較于字符級(jí)別精度更高。語料字符級(jí)別標(biāo)注例子見表8。字符級(jí)別語料主要用于BiLSTM+CRF模型訓(xùn)練。

2.3 訓(xùn)練環(huán)境

試驗(yàn)使用CRF和詞向量+BiLSTM+CRF 2種模型分別進(jìn)行訓(xùn)練測(cè)試，并對(duì)比2種模型的效果。

用CRF++工具進(jìn)行試驗(yàn)，CRF++是由谷歌工程師研發(fā)開源，是目前綜合性能最佳的CRF工具。詞向

其中CRF模型使用了詞匯和詞性2個(gè)標(biāo)注特征，使量+BiLSTM+CRF模型是基于Python環(huán)境的Gensim和TensorFlow（TF）工具包搭建，使用gensim的word2vec對(duì)象構(gòu)建字符向量，TF搭建BiLSTM和CRF層。

2.4 評(píng)價(jià)指標(biāo)

正確率、召回率和F值是評(píng)測(cè)中文命名實(shí)體識(shí)別系統(tǒng)性能的指標(biāo)，也是本研究采取的評(píng)測(cè)指標(biāo)，定義如下：

P=系統(tǒng)識(shí)別出且正確的命名實(shí)體個(gè)數(shù)系統(tǒng)識(shí)別出的命名實(shí)體個(gè)數(shù)×100%;

（4）

R=系統(tǒng)識(shí)別出且正確的命名實(shí)體個(gè)數(shù)測(cè)試集中所有的命名實(shí)體個(gè)數(shù)×100%;

（5）

F值（綜合標(biāo)準(zhǔn)）=2×R×PR+P×100%。（6）

式中：P表示正確率;R表示召回率。試驗(yàn)判別正確識(shí)別命名個(gè)體的標(biāo)準(zhǔn)是基于整個(gè)實(shí)體粒度，而不是字符粒度。

2.5 結(jié)果

試驗(yàn)將2 500條標(biāo)注按照8 ∶2的比率分為訓(xùn)練集和試驗(yàn)集，表10是使用CRF和詞向量+BiLSTM+CRF 2個(gè)模型識(shí)別效果得出的評(píng)估結(jié)論：

各選取3條測(cè)試數(shù)據(jù)實(shí)體識(shí)別結(jié)果見表11。

3 討論與結(jié)論

本研究闡明了中文命名實(shí)體提取相關(guān)技術(shù)在農(nóng)業(yè)技術(shù)需求挖掘中的作用，收集了主流農(nóng)業(yè)技術(shù)轉(zhuǎn)移網(wǎng)站中2 500條技術(shù)需求描述文本，并分析了農(nóng)業(yè)技術(shù)需求描述文本中3種關(guān)鍵實(shí)體（技術(shù)需求實(shí)體對(duì)象、技術(shù)需求意圖、意圖程度），使用傳統(tǒng)的CRF模型和基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF模型分別對(duì)這3種實(shí)體對(duì)象進(jìn)行提取。試驗(yàn)結(jié)果表明，詞向量+BiLSTM+CRF模型在實(shí)體提取上有著更好的效果，其正確率和召回率均優(yōu)于CRF模型，從試驗(yàn)結(jié)果分析來看，CRF模型對(duì)一些訓(xùn)練語料中未出現(xiàn)的實(shí)體識(shí)別效果不佳，難于做到神經(jīng)網(wǎng)絡(luò)對(duì)特征高度抽象的效果。當(dāng)然，本試驗(yàn)僅使用詞匯和詞性2個(gè)特征，CRF模型往往依賴于較大量級(jí)的人工特征定義，這也限制了CRF模型的實(shí)用性。而詞向量+BiLSTM+CRF模型end-to-end的訓(xùn)練方法減少了模型對(duì)于人工特征定義的依賴，并且神經(jīng)網(wǎng)絡(luò)有很好的特征抽象能力，因此對(duì)一些語料中未出現(xiàn)的實(shí)體對(duì)象也有較好的識(shí)別作用，但模型需要更多的數(shù)據(jù)才能最大化發(fā)揮其效果。因此人工特征數(shù)據(jù)的增加都是繼續(xù)優(yōu)化農(nóng)業(yè)技術(shù)需求命名實(shí)體提取任務(wù)的方向，接下來也會(huì)朝這個(gè)方向進(jìn)一步試驗(yàn)。

Word2Vec的使用，雖然在一定程度上解決了詞語上下文關(guān)系的問題，但Word2Vec本身是一種淺層結(jié)構(gòu)價(jià)值訓(xùn)練的詞向量，所學(xué)習(xí)到的語義信息受制于窗口大小，不能解決詞語在不同語境下具有不同含義這個(gè)多義詞問題。BERT（bidirectional encoder representation from transformers）是一個(gè)基于Transformers的預(yù)訓(xùn)練模型，通過前期大量語料的無監(jiān)督訓(xùn)練，為下游任務(wù)學(xué)習(xí)大量先驗(yàn)的語言、句法、詞義等信息，使用BERT替代Word2Vec作為BiLSTM輸入層語言特征提取與表示方法，能獲取到訓(xùn)練文本豐富的語法、語義特征。當(dāng)前，許多學(xué)者研究了基于BERT+BiLSTM+CRF模型來優(yōu)化系列標(biāo)注任務(wù)的性能，并取得不錯(cuò)的收益。本研究嘗試把BERT用于農(nóng)業(yè)技術(shù)需求文本命名實(shí)體任務(wù)，也是接下來一個(gè)優(yōu)化的方向。

試驗(yàn)收集了諸多線上農(nóng)業(yè)技術(shù)轉(zhuǎn)移平臺(tái)的技術(shù)需求描述文本，但這些文本都還是冰山一角，目前我國(guó)農(nóng)業(yè)從業(yè)者整體還是以教育背景較低的傳統(tǒng)農(nóng)民為主，這些農(nóng)民對(duì)技術(shù)需求大部分只能以很口語化的形式進(jìn)行描述，收集這些口語化的數(shù)據(jù)，對(duì)其實(shí)體特征進(jìn)行提取也是試驗(yàn)的一個(gè)發(fā)展方向。

農(nóng)業(yè)現(xiàn)代化關(guān)鍵在科技進(jìn)步和創(chuàng)新，而技術(shù)轉(zhuǎn)移是給農(nóng)業(yè)插上科技的翅膀。構(gòu)建以需求為導(dǎo)向的轉(zhuǎn)移機(jī)制能有效縮小技術(shù)需求者與技術(shù)生產(chǎn)者之間的信息鴻溝，加速技術(shù)轉(zhuǎn)移速度，提升農(nóng)業(yè)領(lǐng)域技術(shù)成果轉(zhuǎn)化率，對(duì)促進(jìn)國(guó)家現(xiàn)代化農(nóng)業(yè)發(fā)展具有重要的意義。目前，建立的諸多農(nóng)業(yè)技術(shù)轉(zhuǎn)移線上平臺(tái)積累了大量的技術(shù)需求描述文本，使用命名實(shí)體相關(guān)技術(shù)對(duì)文本進(jìn)行實(shí)體提取，使農(nóng)業(yè)技術(shù)需求分析能特征化、量化，是進(jìn)一步進(jìn)行農(nóng)業(yè)技術(shù)供需匹配、個(gè)性化推薦以及企業(yè)需求畫像等工作的關(guān)鍵技術(shù)，對(duì)國(guó)家農(nóng)業(yè)技術(shù)轉(zhuǎn)移工作具有重要意義，這是一項(xiàng)艱巨，但也很值得去做的工作。

參考文獻(xiàn)：

[1]朱晴晴，胡春陽(yáng). 基于創(chuàng)新鏈視角的農(nóng)業(yè)科技成果轉(zhuǎn)化機(jī)制研究. 衡水學(xué)院學(xué)報(bào)，2016，18（1）：40-44.

[2]李響. 構(gòu)建市場(chǎng)主導(dǎo)型的農(nóng)業(yè)科技推廣體制. 鄉(xiāng)村科技，2019（26）：16-17.

[3]焦源. 需求導(dǎo)向型農(nóng)技推廣機(jī)制研究. 青島：中國(guó)海洋大學(xué)，2014.

[4]倪向東，費(fèi)紅琳，嚴(yán)艷紅. 企業(yè)技術(shù)需求的挖掘、評(píng)價(jià)與對(duì)接研究. 江蘇科技信息，2017（20）：39-42.

[5]Chinchor N. MUC-6 named entity task definition （version 2.1） . Columbia：Proceedings of the 6th Conference on Message Understanding，1995.

[6]Li J，Sun A，Han J，et al. A survey on deep learning for named entity recognition. （2020-03-22）. https：//arxiv.org/pdf/1812.09449.pdf.

[7]Gers F. Long short-term memory in recurrent neural networks. Lausann：Swiss federal Institute of Technology in Lausanne，2001.

[8]Wallach H M. Conditional random fields：an introduction. （2004-02-24）. http：//citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1C65BB8417A63996952E1A 5388208760？doi=10.1.1.64.436&rep=rep1&type=pdf.

[9]翟社平，段宏宇，李兆兆. 基于BILSTM_CRF的知識(shí)圖譜實(shí)體抽取方法. 計(jì)算機(jī)應(yīng)用與軟件，2019，36（5）：269-274，280.

[10]李德玉，王佳，王素格. 基于cw2vec-BiLSTM-CRF的汽車名稱和屬性識(shí)別方法. 山西大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，43（2）：267-272.

[11]Lin B Y，Xu F F，Luo Z，et al. Multi-channel bilstm-crf model for emerging named entity recognition in social media. Copenhagen：Proceedings of the 3rd Workshop on Noisy User-generated Text，2017.

[12]Devlin J，Chang M W，Lee K，et al. Bert：pre-training of deep bidirectional transformers for language understanding. （2019-05-24）. https：//arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ.

[13]Yang H. BERT meets chinese word segmentation. （2019-09-20）. https：//arxiv.org/pdf/1909.09292.pdf.

[14]Dai Z J，Wang X T，Ni P，et al. Named entity recognition using BERT BILSTM CRF for Chinese electronic health records. Suzhou：12th International Congress on Image and Signal Processing，Biomedical Engineering and Informatics （CISP-BMEI），2019.

[15]王子牛，姜猛，高建瓴，等. 基于BERT的中文命名實(shí)體識(shí)別方法. 計(jì)算機(jī)科學(xué)，2019，46（增刊2）：138-142.

江蘇農(nóng)業(yè)科學(xué)2021年5期

江蘇農(nóng)業(yè)科學(xué)的其它文章: 中國(guó)河蟹產(chǎn)業(yè)70年回顧與展望; 農(nóng)村水污染治理長(zhǎng)效參與機(jī)制——以南京市郊區(qū)為例; 雞糞生物炭對(duì)蔬菜土壤中沙門氏菌遷移和滯留存活的影響; 環(huán)境約束下江西省城鎮(zhèn)建設(shè)用地利用效率時(shí)空演化; 貴州省主要蜜源植物及泌蜜習(xí)性的調(diào)查研究; 南方典型水稻種植區(qū)氮、磷排放及遷移規(guī)律研究