宋林鵬 劉世洪 王翠



摘要:農(nóng)業(yè)技術(shù)需求文本實(shí)體提取是農(nóng)業(yè)技術(shù)轉(zhuǎn)移工作中需求分析能夠量化、特征化的關(guān)鍵技術(shù)。基于主流農(nóng)業(yè)技術(shù)轉(zhuǎn)移網(wǎng)站上的農(nóng)業(yè)技術(shù)需求文本進(jìn)行分析,提出農(nóng)業(yè)技術(shù)需求文本中需求主體對(duì)象、需求意圖、需求程度3種關(guān)鍵實(shí)體成分;分別使用傳統(tǒng)的CRF和基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF 2種模型對(duì)關(guān)鍵實(shí)體進(jìn)行識(shí)別提取。試驗(yàn)結(jié)果表明,詞向量+BiLSTM+CRF在正確率、召回率指標(biāo)上分別能達(dá)到88.51%和82.28%以上,均優(yōu)于CRF模型。
關(guān)鍵詞:農(nóng)業(yè)技術(shù)需求挖掘;命名實(shí)體識(shí)別;條件隨機(jī)場(chǎng);雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
中圖分類號(hào): S126文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2021)05-0186-08
農(nóng)業(yè)創(chuàng)新鏈?zhǔn)且粋€(gè)以農(nóng)業(yè)研發(fā)活動(dòng)為基礎(chǔ),以農(nóng)業(yè)科技成果轉(zhuǎn)化為渠道,以實(shí)現(xiàn)農(nóng)業(yè)科技成果產(chǎn)業(yè)化應(yīng)用、市場(chǎng)化推廣為目的的產(chǎn)業(yè)鏈[1]。在這個(gè)產(chǎn)業(yè)鏈中,農(nóng)業(yè)科技成果轉(zhuǎn)化起到了樞紐的作用,其上游是農(nóng)業(yè)研發(fā)活動(dòng)的主體,包括各大高校和科研院所,下游是進(jìn)行直接農(nóng)業(yè)生產(chǎn)的農(nóng)民或農(nóng)業(yè)企業(yè),他們希望應(yīng)用農(nóng)業(yè)技術(shù)來改進(jìn)生產(chǎn)活動(dòng),提高生產(chǎn)效益,但由于經(jīng)濟(jì)等方面的限制,只能借助于上游研發(fā)機(jī)構(gòu)的成果,而農(nóng)業(yè)科技成果轉(zhuǎn)化正是起到了“中間人”的作用,其效果發(fā)揮的質(zhì)量影響著整個(gè)產(chǎn)業(yè)鏈的通達(dá)程度。農(nóng)業(yè)科技轉(zhuǎn)移平臺(tái)正是農(nóng)業(yè)科技成果轉(zhuǎn)化的承載實(shí)體,完善農(nóng)業(yè)科技轉(zhuǎn)移平臺(tái)建設(shè)是破解農(nóng)業(yè)科技成果轉(zhuǎn)化難的關(guān)鍵。
當(dāng)前,我國(guó)農(nóng)業(yè)技術(shù)轉(zhuǎn)移主要依賴政府主導(dǎo),農(nóng)機(jī)推廣人員作為技術(shù)供需雙方的中間人,進(jìn)行線下推廣。這種方式存在成本高、效率低、時(shí)效性差等問題。一方面,農(nóng)民或農(nóng)企(特別是中小農(nóng)企)對(duì)農(nóng)業(yè)技術(shù)獲取渠道、技術(shù)應(yīng)用狀況、收益等方面的信息掌握十分薄弱,許多農(nóng)企當(dāng)前依然依靠傳統(tǒng)技術(shù)甚至過度的人力資源投入進(jìn)行生產(chǎn)經(jīng)營(yíng),導(dǎo)致農(nóng)業(yè)生產(chǎn)過程成本高昂、效益低下;另一方面,許多高校和科研機(jī)構(gòu)的成果應(yīng)用不到實(shí)際的生產(chǎn)上,形成了技術(shù)擁有者和技術(shù)需求者脫節(jié)的現(xiàn)象。農(nóng)業(yè)技術(shù)本質(zhì)上也是商品,會(huì)受到市場(chǎng)規(guī)律的影響,市場(chǎng)的需求是主導(dǎo)市場(chǎng)資源配置和生產(chǎn)的主導(dǎo)力量,農(nóng)業(yè)技術(shù)的市場(chǎng)需求同樣也是農(nóng)業(yè)技術(shù)轉(zhuǎn)移市場(chǎng)的主導(dǎo)因素。許多學(xué)者也對(duì)當(dāng)前農(nóng)業(yè)技術(shù)轉(zhuǎn)移機(jī)制脫離市場(chǎng)需求的問題進(jìn)行了深入研究,并給出了相應(yīng)的對(duì)策,但這些研究大多是從政策、理論方面給出建議,很少有在具體技術(shù)層面提出優(yōu)化農(nóng)業(yè)技術(shù)需求信息挖掘的。
隨著線上商品交易模式的日益成熟,我國(guó)政府和非政府機(jī)構(gòu)也建立了各種形式的線上農(nóng)業(yè)技術(shù)交易平臺(tái),這些平臺(tái)積累了很多技術(shù)相關(guān)數(shù)據(jù),其中技術(shù)需求描述文本是技術(shù)需求方對(duì)自身需求的簡(jiǎn)要描述,這些文本數(shù)據(jù)多是非結(jié)構(gòu)化的,對(duì)需求文本中命名實(shí)體的提取是精準(zhǔn)獲取需求信息的基礎(chǔ)環(huán)節(jié),是技術(shù)轉(zhuǎn)移系統(tǒng)構(gòu)建技術(shù)推薦、技術(shù)供需匹配、企業(yè)需求畫像等工作的關(guān)鍵技術(shù)。
1 相關(guān)技術(shù)
1.1 序列標(biāo)注任務(wù)
序列標(biāo)注是對(duì)1個(gè)給定的序列中的每個(gè)元素進(jìn)行標(biāo)記,或者說給每個(gè)元素打1個(gè)標(biāo)簽,標(biāo)簽的具體形式取決于不同的任務(wù),常見的系列標(biāo)注任務(wù)包括分詞、詞性標(biāo)注、關(guān)鍵詞抽取、命名實(shí)體識(shí)別[5]、詞義角色標(biāo)注等。在做序列標(biāo)注時(shí)只要針對(duì)特定給定的標(biāo)簽集合,就可以進(jìn)行特定的序列標(biāo)注任務(wù)。
序列標(biāo)注任務(wù)的一般形式:對(duì)于待標(biāo)注的一段序列X={x1,x2,…,xn},需要給每個(gè)預(yù)測(cè)一個(gè)標(biāo)注,先定義Tag集合是T={t1,t2,…,tn},比如,分詞的標(biāo)注可以定義為{Begin,Middle,End,Single},命名實(shí)體識(shí)別的標(biāo)注可以定義為{形容詞,名詞,動(dòng)詞,…},假設(shè)預(yù)測(cè)序列是Y={y1,y2,…,yn},要計(jì)算P(Y|X)從而得到序列Y,再定義對(duì)應(yīng)的真實(shí)標(biāo)簽序列是 L={l1,l2,…,ln},那就對(duì)Y和L使用交叉熵計(jì)算損失函數(shù),通過梯度下降來求解參數(shù)。和普通分類不一樣的是,這些預(yù)測(cè)的標(biāo)注之間可能是有關(guān)聯(lián)的,可能須要通過上一個(gè)標(biāo)注的信息去預(yù)測(cè)下一個(gè)標(biāo)注。
在深度學(xué)習(xí)被廣泛應(yīng)用之前,序列標(biāo)注問題的解決方案大多借助于隱馬爾科夫模型(HMM)、最大熵模型(ME)、條件隨機(jī)場(chǎng)模型(CRF)等。尤其是CRF,是解決序列標(biāo)注問題的主流方法,但是這些方法依賴于人工定義大量的特征,工作量大,但模型的可解釋性好。隨著深度學(xué)習(xí)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在序列標(biāo)注問題中取得了很大的進(jìn)步,且隨著RNN里門控機(jī)制、注意力機(jī)制的成功應(yīng)用,在系列學(xué)習(xí)里能捕獲到更關(guān)鍵、更寬泛的上下文信息,大幅提升了系列標(biāo)注的應(yīng)用效果[6]。而且深度學(xué)習(xí)中的端到端學(xué)習(xí)(end-to-end),也讓序列標(biāo)注問題變得更簡(jiǎn)單了。
1.2 詞嵌入
文本是一種非結(jié)構(gòu)化的數(shù)據(jù)信息,是不可以直接被計(jì)算的,文本表示的作用就是將這些非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息,這樣就可以針對(duì)文本信息作計(jì)算,來完成日常所能見到的文本分類,情感判斷等任務(wù)。詞嵌入(word embedding)是文本表示的一類方法,簡(jiǎn)單的說是將高維空間(空間的維度通常是詞典的大小)中表示詞的高維向量(比如獨(dú)熱one-hot表示)映射到低維連續(xù)空間中的向量,映射后的向量稱為詞向量,在低維的詞向量有更好的語義信息。詞向量可以作為最終結(jié)果來使用,也可以作為神經(jīng)網(wǎng)絡(luò)層的輸入來進(jìn)一步學(xué)習(xí)有用信息。
Word2vec是由Google提出的一種詞嵌入方法和工具,是基于統(tǒng)計(jì)方法來獲得詞向量,這種算法有2種訓(xùn)練模式:(1)通過上下文來預(yù)測(cè)當(dāng)前詞,即CBOW(Continuous Bag-of-Words Model);(2)通過當(dāng)前詞來預(yù)測(cè)上下文,即Skip-gram (Continuous Skip-gram Model)。
在基于神經(jīng)網(wǎng)絡(luò)命名實(shí)體標(biāo)記中,使用Word2vec對(duì)詞級(jí)別或者字級(jí)別進(jìn)行向量表達(dá)時(shí),每個(gè)詞向量會(huì)帶上一定的語義關(guān)系,比如臨近關(guān)系。把這些帶有語義關(guān)系的向量作為模型的輸入,能有效優(yōu)化模型效果。
1.3 長(zhǎng)短時(shí)記憶模型
長(zhǎng)短時(shí)記憶模型(LSTM)[7]是一種特殊類型的RNN,是為了解決傳統(tǒng)RNN中梯度消失和難于學(xué)習(xí)長(zhǎng)距離的依賴信息的問題。如圖1是傳統(tǒng)RNN和LSTM概覽結(jié)構(gòu),RNN輸入只有1個(gè)隱藏狀態(tài)(hidden state,h),LSTM有隱藏狀態(tài)和細(xì)胞狀態(tài)(c)2個(gè)傳輸狀態(tài),y是模型最終的輸出單元。c是LSTM的核心,細(xì)胞狀態(tài)就像一條傳送帶,會(huì)沿著模型鏈一直傳遞,且只有一些少量的線性交互,信息在上面流傳保持不變會(huì)很容易,易于長(zhǎng)距離依賴狀態(tài)的保存和更新。
LSTM 通過一種名為門(gate)的結(jié)構(gòu)控制cell的狀態(tài),并向其中刪減或增加信息。1個(gè)LSTM有3個(gè)這樣的門:遺忘門、輸入門和輸出門。以語言翻譯任務(wù)來舉例:cell狀態(tài)可能會(huì)需要考慮主語的性別,這樣才能找到正確的代詞。筆者設(shè)定如果看到1個(gè)新的主語,遺忘門就用來忘記舊的主語所代表的性別,然后利用輸入門將新主語的性別信息加入細(xì)胞狀態(tài)中,以替換要忘記的舊信息。最后,須要確定輸出的內(nèi)容,當(dāng)它只看到1個(gè)主語時(shí),就可能會(huì)輸出與動(dòng)詞相關(guān)的信息,比如它會(huì)輸出主語是單數(shù)
還是復(fù)數(shù),這樣的話,如果后面真的出現(xiàn)了動(dòng)詞,就可以確定它的形式。LSTM模型的詳細(xì)結(jié)構(gòu)和計(jì)算過程見圖2、式(1)。
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
Ct=ftCt-1+ittanh(Wxcxt+Whcht-1+bc)
ht=ottanh(Ct)。(1)
式中:σ即激勵(lì)函數(shù)Sigmoid函數(shù);xt是模型在t時(shí)刻的輸入;it、ft、ot、Ct、ht分別是t時(shí)刻輸入門、遺忘門、輸出門、記憶細(xì)胞、隱藏門的激活向量;W、b是模型學(xué)到的參數(shù)權(quán)重和偏置。
LSTM中信息是單向流動(dòng)的,如果能像訪問過去的上下文信息一樣,訪問未來的上下文,這樣對(duì)于許多序列標(biāo)注任務(wù)是非常有益的。例如,在序列標(biāo)注的時(shí)候,如果能像知道這個(gè)詞之前的詞一樣,知道將要來的詞,這將非常有幫助。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)的基本思想是提出每一個(gè)訓(xùn)練序列向前和向后共是2個(gè)LSTM,而且這2個(gè)都連接著1個(gè)輸出層。這個(gè)結(jié)構(gòu)提供給輸出層輸入序列中每一個(gè)點(diǎn)完整的過去和未來的上下文信息。
1.4 條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)模型(CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,其本質(zhì)是一個(gè)條件序列無向圖模型[8],在給定觀察序列的條件下,CRF會(huì)計(jì)算整個(gè)觀察系列對(duì)應(yīng)標(biāo)記序列的聯(lián)合概率分布,而不是像HMM那樣在給定當(dāng)前狀態(tài)條件下,標(biāo)記下一個(gè)狀態(tài)的分布。CRF綜合了HMM和最大熵模型的優(yōu)點(diǎn),對(duì)于觀測(cè)序列并沒有做馬爾科夫獨(dú)立性假設(shè),這使得CRF能更好地?cái)M合標(biāo)記序列相互作用的特征信息。CRF雖然改善了臨近相互作用的特征信息,但對(duì)于長(zhǎng)距離的依賴信息并不能利用,且CRF的應(yīng)用效果依賴于人工對(duì)特征的選取,不能很好地進(jìn)行端到端進(jìn)行學(xué)習(xí)。CRF的參數(shù)化定義如下:
P(y|x)=expi,kλktk(yt-1,yi,x,i)+∑i,lulsl(yi,x, i)〗Z(x);(2)
Z(x)=∑yexpi,kλktk(yt-1,yi,x,i)+∑i,lulsl(yi,x,i)〗。(3)
式中:Z(x)為規(guī)范化因子;P(y|x)為在給定隨機(jī)變量序列x的條件下,隨機(jī)變量序列y的條件概率分布;tk(yt-1,yi,x,i)是轉(zhuǎn)移特征函數(shù),表示在給定觀測(cè)x的情況下從上個(gè)節(jié)點(diǎn)yt-1轉(zhuǎn)移到這個(gè)節(jié)點(diǎn)yi的情況;sl(yi,x,i)是狀態(tài)特征函數(shù),表示當(dāng)前節(jié)點(diǎn)yi是不是標(biāo)記x的情況;λk和ul是特征函數(shù)分別對(duì)應(yīng)的權(quán)值;Z(x)為規(guī)范化因子,求和時(shí)在所有可能的輸出序列上進(jìn)行的。
CRF的精準(zhǔn)使用正是依賴于對(duì)特征的使用以及特征函數(shù)的定義和學(xué)習(xí),在某個(gè)具體領(lǐng)域使用CRF有時(shí)候需要在大量的語料里總結(jié)結(jié)構(gòu)特征,并轉(zhuǎn)化為CRF的特征函數(shù),比如CRF用于詞性標(biāo)注時(shí),對(duì)標(biāo)注系列2個(gè)動(dòng)詞不同緊鄰出現(xiàn)這一特征可以給予正向打分。CRF對(duì)最終系列的判定就是基于所有特征函數(shù)對(duì)潛在系列的所有單詞的打分值。
注意在CRF的定義中,并沒有要求X和Y有相同的結(jié)構(gòu)。而實(shí)現(xiàn)中,一般都假設(shè)X和Y有相同的結(jié)構(gòu),CRF就構(gòu)成了線性鏈條件隨機(jī)場(chǎng)(linear chain conditional random fields,簡(jiǎn)稱linear-CRF),其結(jié)構(gòu)見圖3。
1.5 基于詞嵌入+BiLSTM+CRF模型的命名實(shí)體識(shí)別
相對(duì)于CRF,BiLSTM能利用更遠(yuǎn)距離的上下文信息,目前在系列標(biāo)注任務(wù)里基本都是以神經(jīng)網(wǎng)絡(luò)的形式進(jìn)行,但是某些任務(wù)中,一些強(qiáng)限制特征,BiLSTM并沒有好的機(jī)制進(jìn)行保障,而CRF可以以特征函數(shù)的形式來利用這部分信息,比如在詞性標(biāo)注任務(wù)中,2個(gè)動(dòng)詞不可能緊鄰出現(xiàn)這一強(qiáng)限制特征。而使用詞向量來代替?zhèn)鹘y(tǒng)one-hot(獨(dú)熱編碼)稀疏表示,也能有效提升輸入的語義關(guān)系,因此,在系列標(biāo)注任務(wù)中常結(jié)合詞向量、BiLSTM和CRF進(jìn)行建模,其模型結(jié)構(gòu)見圖4。
2 結(jié)果與分析
2.1 數(shù)據(jù)集
試驗(yàn)采集技E網(wǎng)(https://www.ctex.cn/)、三泰百科(http://www.3tbest.com/)、中國(guó)科學(xué)院北京國(guó)家技術(shù)轉(zhuǎn)移中心(http://www.nttc.ac.cn/)等農(nóng)業(yè)技術(shù)交易網(wǎng)站的共2500條技術(shù)需求描述文本,原始數(shù)據(jù)例子見表1。
使用jieba分詞系統(tǒng)解析出文本的詞語特征和詞性特征,以胖姜下腳料高效利用加工技術(shù)研究為例,結(jié)果見表2。
2.2 標(biāo)注
2.2.1 實(shí)體分析
目前存在諸多農(nóng)業(yè)技術(shù)交易網(wǎng)站,用戶可以在網(wǎng)站發(fā)布自己的技術(shù)需求,通常只是一段話的形式,為了對(duì)用戶技術(shù)需求進(jìn)行深層次分析, 必須得從這段技術(shù)需求描述里挖掘出定性定量的特征實(shí)體。經(jīng)分析,一段農(nóng)業(yè)技術(shù)需求描述通常會(huì)包括3個(gè)特征:需求主體對(duì)象、需求意圖、需求程度,具體含義如下:
以尋找一種農(nóng)藥殘留的秒級(jí)檢測(cè)方法為例,特征實(shí)體見圖5。
2.2.2 標(biāo)注集選擇
試驗(yàn)使用CRF++工具進(jìn)行CRF模型訓(xùn)練測(cè)試,CRF++有2種標(biāo)注模式,BIO標(biāo)注模式見表4,BIOES標(biāo)注模式見表5。
因?yàn)檗r(nóng)業(yè)技術(shù)需求描述文檔所要識(shí)別的特征均有比較明顯的結(jié)束特征(如很多技術(shù)需求描述文檔均以技術(shù)結(jié)尾)識(shí)別,所以選擇BIOES標(biāo)注模式。對(duì)需求主體對(duì)象、需求意圖、需求程度 2個(gè)特征標(biāo)注就共需要3×4+1=13個(gè)標(biāo)注方式,詳見表6。
2.2.3 標(biāo)注結(jié)果
詞語料詞級(jí)別標(biāo)注例子見表7。詞語級(jí)別語料主要用來進(jìn)行CRF模型訓(xùn)練,在CRF模型中,對(duì)特定領(lǐng)域?qū)嶓w識(shí)別,詞語級(jí)別進(jìn)行建模相較于字符級(jí)別精度更高。語料字符級(jí)別標(biāo)注例子見表8。字符級(jí)別語料主要用于BiLSTM+CRF模型訓(xùn)練。
2.3 訓(xùn)練環(huán)境
試驗(yàn)使用CRF和詞向量+BiLSTM+CRF 2種模型分別進(jìn)行訓(xùn)練測(cè)試,并對(duì)比2種模型的效果。
用CRF++工具進(jìn)行試驗(yàn),CRF++是由谷歌工程師研發(fā)開源,是目前綜合性能最佳的CRF工具。詞向
其中CRF模型使用了詞匯和詞性2個(gè)標(biāo)注特征,使量+BiLSTM+CRF模型是基于Python環(huán)境的Gensim和TensorFlow(TF)工具包搭建,使用gensim的word2vec對(duì)象構(gòu)建字符向量,TF搭建BiLSTM和CRF層。
2.4 評(píng)價(jià)指標(biāo)
正確率、召回率和F值是評(píng)測(cè)中文命名實(shí)體識(shí)別系統(tǒng)性能的指標(biāo),也是本研究采取的評(píng)測(cè)指標(biāo),定義如下:
P=系統(tǒng)識(shí)別出且正確的命名實(shí)體個(gè)數(shù)系統(tǒng)識(shí)別出的命名實(shí)體個(gè)數(shù)×100%;
(4)
R=系統(tǒng)識(shí)別出且正確的命名實(shí)體個(gè)數(shù)測(cè)試集中所有的命名實(shí)體個(gè)數(shù)×100%;
(5)
F值(綜合標(biāo)準(zhǔn))=2×R×PR+P×100%。(6)
式中:P表示正確率;R表示召回率。試驗(yàn)判別正確識(shí)別命名個(gè)體的標(biāo)準(zhǔn)是基于整個(gè)實(shí)體粒度,而不是字符粒度。
2.5 結(jié)果
試驗(yàn)將2 500條標(biāo)注按照8 ∶2的比率分為訓(xùn)練集和試驗(yàn)集,表10是使用CRF和詞向量+BiLSTM+CRF 2個(gè)模型識(shí)別效果得出的評(píng)估結(jié)論:
各選取3條測(cè)試數(shù)據(jù)實(shí)體識(shí)別結(jié)果見表11。
3 討論與結(jié)論
本研究闡明了中文命名實(shí)體提取相關(guān)技術(shù)在農(nóng)業(yè)技術(shù)需求挖掘中的作用,收集了主流農(nóng)業(yè)技術(shù)轉(zhuǎn)移網(wǎng)站中2 500條技術(shù)需求描述文本,并分析了農(nóng)業(yè)技術(shù)需求描述文本中3種關(guān)鍵實(shí)體(技術(shù)需求實(shí)體對(duì)象、技術(shù)需求意圖、意圖程度),使用傳統(tǒng)的CRF模型和基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF模型分別對(duì)這3種實(shí)體對(duì)象進(jìn)行提取。試驗(yàn)結(jié)果表明,詞向量+BiLSTM+CRF模型在實(shí)體提取上有著更好的效果,其正確率和召回率均優(yōu)于CRF模型,從試驗(yàn)結(jié)果分析來看,CRF模型對(duì)一些訓(xùn)練語料中未出現(xiàn)的實(shí)體識(shí)別效果不佳,難于做到神經(jīng)網(wǎng)絡(luò)對(duì)特征高度抽象的效果。當(dāng)然,本試驗(yàn)僅使用詞匯和詞性2個(gè)特征,CRF模型往往依賴于較大量級(jí)的人工特征定義,這也限制了CRF模型的實(shí)用性。而詞向量+BiLSTM+CRF模型end-to-end的訓(xùn)練方法減少了模型對(duì)于人工特征定義的依賴,并且神經(jīng)網(wǎng)絡(luò)有很好的特征抽象能力,因此對(duì)一些語料中未出現(xiàn)的實(shí)體對(duì)象也有較好的識(shí)別作用,但模型需要更多的數(shù)據(jù)才能最大化發(fā)揮其效果。因此人工特征數(shù)據(jù)的增加都是繼續(xù)優(yōu)化農(nóng)業(yè)技術(shù)需求命名實(shí)體提取任務(wù)的方向,接下來也會(huì)朝這個(gè)方向進(jìn)一步試驗(yàn)。
Word2Vec的使用,雖然在一定程度上解決了詞語上下文關(guān)系的問題,但Word2Vec本身是一種淺層結(jié)構(gòu)價(jià)值訓(xùn)練的詞向量,所學(xué)習(xí)到的語義信息受制于窗口大小,不能解決詞語在不同語境下具有不同含義這個(gè)多義詞問題。BERT(bidirectional encoder representation from transformers)是一個(gè)基于Transformers的預(yù)訓(xùn)練模型,通過前期大量語料的無監(jiān)督訓(xùn)練,為下游任務(wù)學(xué)習(xí)大量先驗(yàn)的語言、句法、詞義等信息,使用BERT替代Word2Vec作為BiLSTM輸入層語言特征提取與表示方法,能獲取到訓(xùn)練文本豐富的語法、語義特征。當(dāng)前,許多學(xué)者研究了基于BERT+BiLSTM+CRF模型來優(yōu)化系列標(biāo)注任務(wù)的性能,并取得不錯(cuò)的收益。本研究嘗試把BERT用于農(nóng)業(yè)技術(shù)需求文本命名實(shí)體任務(wù),也是接下來一個(gè)優(yōu)化的方向。
試驗(yàn)收集了諸多線上農(nóng)業(yè)技術(shù)轉(zhuǎn)移平臺(tái)的技術(shù)需求描述文本,但這些文本都還是冰山一角,目前我國(guó)農(nóng)業(yè)從業(yè)者整體還是以教育背景較低的傳統(tǒng)農(nóng)民為主,這些農(nóng)民對(duì)技術(shù)需求大部分只能以很口語化的形式進(jìn)行描述,收集這些口語化的數(shù)據(jù),對(duì)其實(shí)體特征進(jìn)行提取也是試驗(yàn)的一個(gè)發(fā)展方向。
農(nóng)業(yè)現(xiàn)代化關(guān)鍵在科技進(jìn)步和創(chuàng)新,而技術(shù)轉(zhuǎn)移是給農(nóng)業(yè)插上科技的翅膀。構(gòu)建以需求為導(dǎo)向的轉(zhuǎn)移機(jī)制能有效縮小技術(shù)需求者與技術(shù)生產(chǎn)者之間的信息鴻溝,加速技術(shù)轉(zhuǎn)移速度,提升農(nóng)業(yè)領(lǐng)域技術(shù)成果轉(zhuǎn)化率,對(duì)促進(jìn)國(guó)家現(xiàn)代化農(nóng)業(yè)發(fā)展具有重要的意義。目前,建立的諸多農(nóng)業(yè)技術(shù)轉(zhuǎn)移線上平臺(tái)積累了大量的技術(shù)需求描述文本,使用命名實(shí)體相關(guān)技術(shù)對(duì)文本進(jìn)行實(shí)體提取,使農(nóng)業(yè)技術(shù)需求分析能特征化、量化,是進(jìn)一步進(jìn)行農(nóng)業(yè)技術(shù)供需匹配、個(gè)性化推薦以及企業(yè)需求畫像等工作的關(guān)鍵技術(shù),對(duì)國(guó)家農(nóng)業(yè)技術(shù)轉(zhuǎn)移工作具有重要意義,這是一項(xiàng)艱巨,但也很值得去做的工作。
參考文獻(xiàn):
[1]朱晴晴,胡春陽(yáng). 基于創(chuàng)新鏈視角的農(nóng)業(yè)科技成果轉(zhuǎn)化機(jī)制研究. 衡水學(xué)院學(xué)報(bào),2016,18(1):40-44.
[2]李 響. 構(gòu)建市場(chǎng)主導(dǎo)型的農(nóng)業(yè)科技推廣體制. 鄉(xiāng)村科技,2019(26):16-17.
[3]焦 源. 需求導(dǎo)向型農(nóng)技推廣機(jī)制研究. 青島:中國(guó)海洋大學(xué),2014.
[4]倪向東,費(fèi)紅琳,嚴(yán)艷紅. 企業(yè)技術(shù)需求的挖掘、評(píng)價(jià)與對(duì)接研究. 江蘇科技信息,2017(20):39-42.
[5]Chinchor N. MUC-6 named entity task definition (version 2.1) . Columbia:Proceedings of the 6th Conference on Message Understanding,1995.
[6]Li J,Sun A,Han J,et al. A survey on deep learning for named entity recognition. (2020-03-22). https://arxiv.org/pdf/1812.09449.pdf.
[7]Gers F. Long short-term memory in recurrent neural networks. Lausann:Swiss federal Institute of Technology in Lausanne,2001.
[8]Wallach H M. Conditional random fields:an introduction. (2004-02-24). http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1C65BB8417A63996952E1A 5388208760?doi=10.1.1.64.436&rep=rep1&type=pdf.
[9]翟社平,段宏宇,李兆兆. 基于BILSTM_CRF的知識(shí)圖譜實(shí)體抽取方法. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(5):269-274,280.
[10]李德玉,王 佳,王素格. 基于cw2vec-BiLSTM-CRF的汽車名稱和屬性識(shí)別方法. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,43(2):267-272.
[11]Lin B Y,Xu F F,Luo Z,et al. Multi-channel bilstm-crf model for emerging named entity recognition in social media. Copenhagen:Proceedings of the 3rd Workshop on Noisy User-generated Text,2017.
[12]Devlin J,Chang M W,Lee K,et al. Bert:pre-training of deep bidirectional transformers for language understanding. (2019-05-24). https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ.
[13]Yang H. BERT meets chinese word segmentation. (2019-09-20). https://arxiv.org/pdf/1909.09292.pdf.
[14]Dai Z J,Wang X T,Ni P,et al. Named entity recognition using BERT BILSTM CRF for Chinese electronic health records. Suzhou:12th International Congress on Image and Signal Processing,Biomedical Engineering and Informatics (CISP-BMEI),2019.
[15]王子牛,姜 猛,高建瓴,等. 基于BERT的中文命名實(shí)體識(shí)別方法. 計(jì)算機(jī)科學(xué),2019,46(增刊2):138-142.