999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制和深度學習模型的外來海洋生物命名實體識別

2021-06-21 09:03:00賀琳張雨巴韓飛
大連海洋大學學報 2021年3期
關鍵詞:特征文本模型

賀琳,張雨,巴韓飛

(大連海事大學 航運經濟與管理學院,遼寧 大連 116026)

外來海洋生物入侵是全球生物多樣性喪失的主要原因之一。中國海岸線綿長,整個海域跨越溫帶、亞熱帶和熱帶3個氣候帶,生態系統類型較多,這些自然特征使中國更易受到外來海洋生物入侵的危害[1]。目前,針對外來海洋生物數據還未有一個完善的數據庫可供使用和研究,因此,無法對外來海洋生物的來源地、現存地、生存環境和物種特性等進行深入研究分析。互聯網中存在大量的外來海洋生物的文本信息,但其較為分散且大多都是非結構化的,而知識圖譜作為顯示科學知識發展進程與結構關系的可視化工具可以較好地解決這一問題。面對目前已有的分散雜亂的外來海洋生物文本信息,通過實體識別、關系識別、實體對齊等知識圖譜構建流程,整合互聯網上的文本信息,構建外來海洋生物知識圖譜并將其可視化,有利于外來海洋生物信息的檢索和獲取;通過對知識圖譜的深入分析,還可以充分發掘外來海洋生物之間的關聯信息,有利于海關相關管理部門及研究機構對外來海洋生物進行統一的風險識別及監督管理。命名實體識別屬于知識圖譜的構建流程中最關鍵的部分,外來海洋生物命名實體識別的質量直接決定了知識圖譜的優劣。因此,對互聯網上的外來海洋生物信息進行命名實體識別研究具有重要的意義。

命名實體識別研究目前主要集中在兩個方面,即通用領域文本識別和特定領域文本識別。通用領域文本識別的方法主要包括基于規則的實體識別方法、基于條件隨機場的識別方法和基于深度學習的方法。何炎祥等[2]提出使用條件隨機場(conditional random field,CRF)和規則相結合的方法進行地理命名實體識別,最終的地名實體識別結果的F1值達到了91.61%。王世昆等[3]從命名實體識別的方法出發,對比了CRF與支持向量機、最大熵模型等常見的命名實體識別方法,指出了CRF在該任務上的有效性。隨著深度學習技術的發展,該技術已經廣泛應用于命名實體識別中,Chen等[4]提出使用循環神經網絡(recurrent neural network,RNN)作為文本建模工具,首次將雙向長短時記憶神經網絡模型(bidirectional long short-term memory neural network,BiLSTM)結合CRF網絡模型用于命名實體識別任務中。面對海量互聯網文本數據,長短時記憶神經網絡的實體識別效果較傳統方法有了較大提升,但是其網絡模型結構復雜,存在運行時間較長等問題。基于此,相關學者提出門控神經網絡概念并應用于文本識別中,李一斌等[5]提出使用雙向門控循環單元網絡與條件隨機場算法相結合進行中文包裝產品的命名實體識別,識別結果的F1值較BiLSTM+CRF網絡模型識別結果的F1值提高了6%。通用領域實體相對簡單,且大多有可以參考的領域數據庫或已標注文本數據,因此,往往不需要對文本特征進行深層次挖掘就能取得較好的效果,目前,通用領域命名實體識別的主流識別方法為門控循環神經單元(gated recurrent unit,GRU)網絡和條件隨機場相結合進行實體的識別,實體識別的效果較好。相比于通用領域文本實體識別,特定領域具有實體結構更為復雜且實體識別中可供使用的標注語料和資源較少等特點,因此,僅依靠構造詞向量進行特定領域實體識別往往效果不佳,需要充分挖掘文本中的特征才能有效提高實體抽取的準確率。仇瑜等[6]根據財經領域的實體特征,使用一種基于字、詞特征相結合的深度神經網絡模型進行實體識別,最終證明較傳統方法命名實體識別效果有顯著提升。馬建紅等[7]面向新能源汽車專利領域文本提出了一種基于注意力(attention)機制的雙向長短時記憶神經網絡(BiLSTM)與CRF相結合的領域術語抽取網絡模型,利用BiLSTM網絡模型,可以解決目前機器學習中過度依賴領域知識及人工定義特征問題,實現了端到端的命名實體識別模式。顧溢[8]在進行復雜中文命名實體識別的過程中,使用改進的中文字符級特征表示替代基礎Word2vec訓練出的字向量,網絡模型的識別效果有顯著提升。通過添加人工特征的方法能在一定程度上提高特定領域命名實體識別的準確率,但是網絡模型實現比較復雜,消耗成本較多,而大多數難以達到滿意的效果,因此,目前并沒有一種通用的適合于特定領域的命名實體識別網絡模型。

外來海洋生物領域命名實體識別屬于特定領域的命名實體識別問題,具有如下特點:

1) 實體名稱長且復雜。外來海洋生物名稱有多個獨立詞組合而成,而且生僻字詞較多。例如,“細鱗大麻哈魚”由“細”“鱗”“大”“馬哈魚”多個字詞組合形成,在實體識別的過程中如果僅僅使用構造字向量作為門控神經網絡的輸入,較難準確識別出其中的實體,甚至出現錯誤識別。

2) 實體名稱相互嵌套。即一個實體中包含另外一個實體的現象,如外來海洋生物文本中的“南非毛皮海獅 ”這一單個生物實體就包含“南非”和“毛皮海獅”兩個實體,所以在實體識別過程中極易誤檢。

外來海洋生物文本數據實體復雜且實體識別過程中無相關的語料庫可供參考,因此,在實體識別過程中網絡模型需要強化文本的特征提取。雙向門控循環單元網絡(bidirectional gated cyclic neural unit network,BiGRU)能夠對文本句子層級的信息進行學習和表示,能夠較好地考慮文本的上下文信息,但是無法解決外來海洋生物文本中出現的長距離依賴問題,其對細粒度的字詞特征抽取也較差[9]。使用注意力機制在提取特征時可以強化與外來海洋生物實體相關的語義特征權重,進而提升特征提取的效果。卷積神經網絡能夠充分利用多層感知器的結構,具備較好的學習復雜、高維和非線性映射關系的能力,因此,逐漸被應用到自然語言處理領域。Denil等[10]提出把CNN應用于自然語言處理,并設計了一個動態卷積神經網絡模型,以處理不同長度的文本。在命名實體識別過程中,卷積神經網絡能夠較好地提取出文本中較細粒度的字詞的前后綴特征,對文本的字詞層級的信息進行學習和表示。為此,本研究中,提出了基于CNN-BiGRU-CRF網絡模型,用于外來海洋生物命名實體識別,旨在為提高外來海洋生物領域命名實體識別的效果。

1 CNN-BiGRU-CRF網絡模型構建

針對外來海洋生物領域實體文本結構的數據特點,本研究中提出融合多特征向量的CNN-BiGRU-CRF網絡模型,該網絡模型首先將外來海洋生物文本數據進行分詞、人工標注等處理工作,然后將詞向量、詞性、詞長等特征向量與卷積神經網絡獲取的字的前后綴特征向量進行拼接,將組合向量輸入到BiGRU層提取文本中的上下文特征,再將BiGRU層獲取的特征向量輸入注意力機制層分配不同的注意力權重,最終通過條件隨機場解碼,獲取外來海洋生物的預測標簽序列。本文中提出的命名實體識別網絡模型流程如圖1所示,輸入層的文本數據如“巨藻生長于美國”,經數據預處理、CNN層后獲得該文本聯合特征向量,特征向量經過BiGRU層獲取文本的上下文特征,然后通過注意力機制層進行注意力權重的分配,最終通過CRF層解碼獲得該文本的預測標簽序列。

圖1 CNN-BiGRU-CRF網絡模型實體識別流程

1.1 卷積神經網絡

卷積神經網絡(CNN)主要由卷積層、池化層和激活層等組成,通過對網絡模型的輸入進行加工、變化,最終在連接層實現輸入與輸出間的映射,卷積神經網絡用于識別較細粒度的特征,目前主要應用于圖像識別領域[11]。卷積神經網絡的結構如圖1所示,其主要過程包括字向量生成、卷積、池化和字符特征向量獲取。在數據的預處理中使用Word2vec將文本中的每個字都轉化為字向量,然后通過卷積層中的濾波器對句子進行卷積操作,提取句子的局部特征,由于卷積核存在權值共享的特點,所以CNN一般會使用多核卷積,每個卷積核都能學習到不同的特征,以此完善特征提取效果。對卷積操作得到的局部特征采用最大池化的方法提取值最大的特征以代替整個局部特征,通過池化操作可以大幅降低特征向量的大小。最終將池化得到的所有特征在全連接層進行組合輸出字符特征向量。輸出的字符特征向量通過輸入softmax分類器進行分類,卷積神經網絡通過分類的標簽使用反向傳播算法進行參數的優化。目前,在自然語言處理領域,卷積神經網絡已有較多的應用。

1.2 門控循環單元網絡

門控循環單元(GRU)是一種常用的門控循環神經網絡,能夠更好地捕捉序列中時間步距離較大的依賴關系,其簡化了長短時記憶神經網絡(LSTM)的結構,使運算加快,同時也能實現長期記憶[12]。門控循環單元網絡通過使用重置門和更新門兩個門結構控制記憶存儲器,GRU的結構如圖2所示,其中,zt為更新門,用來控制當前狀態中前序記憶與候選記憶所占的比例,而rt為重置門,用以控制當前內容是否被記憶。GRU中的門控單元能夠通過偏置和相關參數來實時靈活的調整激活函數的輸入,從而控制門的開啟和關閉,保存和更新有用信息,因此,門控神經網絡與一般神經網絡相比,收斂速度快且不易發生梯度消失的情況,使得門控神經網絡具有高效的性能。

圖2 門控循環單元結構

GRU網絡前向傳播權重參數更新公式為

從圖1數據可得出,48.84%的學生是進校學習一段時間后才發現自己不適合這個專業想轉專業,這從側面也反映出了學生對專業本身不了解,因此高校需要做的是如何在學生填報志愿前讓學生真正了解這個專業。竟然有半數的學生是在收到錄取通知書以及剛進校時產生了轉專業的念頭,出乎意料,但仔細研究可能還是專業的問題,有可能是被調劑的專業,有可能是看到的專業與實際的差距等。

zt=σ(wxzxt+whzht-1+bz),

(1)

rt=σ(wxrxt+whrht-1+br),

(2)

(3)

(4)

在句子中命名實體識別過程中,實體的上下文對預測標簽都很重要,如果能夠獲取文本中過去和將來的上下文信息,對命名實體識別任務很有幫助。然而GRU的隱藏狀態ht僅從過去獲取信息,不能獲取未來的信息,因此,命名實體識別采用雙向門控循環單元網絡(BiGRU)進行。在雙向門控循環單元網絡中,輸入會同時提供給兩個方向相反的 GRU,而輸出則由這兩個單向 GRU 共同決定。使用雙向的門控神經網絡不僅能通過正向的GRU考慮文本的前序信息,還可通過反向的GRU同時提取到文本中后續信息的特征,有效提高命名實體識別的效果。

1.3 注意力機制

注意力機制(attention mechanism)是一種受人類視覺神經系統啟發的信息處理機制。注意力最早出現在計算機視覺領域,其主要原理是將有限的注意力選擇性地分配給更重要的信息,近年來,注意力機制已經廣泛應用于命名實體識別、關系抽取、文本分類等自然語言處理任務中[13]。注意力機制在實體識別中作為組件,主要用于文本關鍵信息的篩選,從輸入信息中選取相關的信息。通過使用注意力機制可以動態地生成不同連接的權重,并將輸出序列進行加權計算后得到標注分數值,從而強化與外來海洋生物實體有關的語義特征權重,獲取文本的整體特征。

注意力機制的計算步驟如下[14]:定義{x1,x2,…,xM}為BiGRU網絡輸入的聯合特征向量序列,S={s1,s2,…,sw}為BiGRU神經網絡輸出的聯合向量序列,αmw為歸一化的權重,βmj為注意力貢獻矩陣,即注意力機制給特征向量賦予的權重,且

(5)

(6)

其中:c、w、u為權重矩陣;vm-1為上一時刻注意力機制的狀態。

注意力機制最后的輸出狀態為

(7)

1.4 條件隨機場

條件隨機場(CRF)是在一組輸入隨機變量給定的條件下輸出另外一組隨機變量的條件概率分布網絡模型[15]。條件隨機場是一種判別式的概率無向圖網絡模型,常用在自然語言處理和圖像處理領域,在自然語言處理中,CRF是用于標注和劃分序列數據的概率化網絡模型,相對序列就是給定觀測序列X和輸出序列Y,通過定義條件概率P(Y|X)來描述網絡模型。目前,常見的條件隨機場網絡模型是指定義在線性鏈上的特殊的條件隨機場,被稱為線性鏈條件隨機場[16]。

2 外來海洋生物領域命名實體識別試驗

2.1 試驗數據、字詞特征和評價指標

2.1.1 數據預處理 本研究中,將從百度百科、知網、海洋生物學網站等爬取的1 500條外來海洋生物相關文本數據作為試驗的數據集,獲取的數據集包含字數共計12萬字符。首先,對爬取的數據使用正則表達式進行格式轉換和數據清洗工作,去除文本中包含的空格、表情符號等無關的內容,將來源不同的數據轉化為統一的格式。然后收集海洋生物及地域海域實體信息,構建外來海洋生物名稱實體和地名實體識別分詞語料庫,該語料庫的構建可使得實體識別的分詞、詞性標注等過程更加準確。

2.1.2 特征提取 選取外來海洋生物文本的詞特征、詞性特征、詞長、詞的前后綴特征、上下文特征作為外來海洋生物文本的特征進行實體識別。

1) 詞特征。詞特征是自然語言處理領域最基礎的特征,它是指詞本身具有的特征,詞特征的表達形式是詞向量。本研究中詞向量使用Word2vec軟件進行訓練,詞向量使用矩陣形式表示。

2) 詞性特征。中文漢字的詞性包括動詞、名詞、介詞、形容詞、副詞、量詞、代詞等12類[17],如外來海洋生物文本中關于海洋生物實體和地名實體的相關文本中經常會出現“帶來”、“引進”等動詞,根據詞性特征可有效輔助外來海洋生物文本中海洋生物名稱實體和地名實體的識別。本研究中的詞性選擇使用jieba分詞后的詞性,詞性特征維度設置為12維,如名詞的詞性特征向量表示為[1,0,0,0,0,0,0,0,0,0,0,0]。

3) 詞的長度。外來海洋生物實體名稱長度較長,如“眼點擬微綠藻”就是由6個字組成,通過將詞長作為特征可較好區分外來海洋生物實體。本研究中將詞長作為特征進行實體識別,詞長特征維度設置為8維,如“眼點擬微綠藻”的詞長向量表示為[0,0,0,0,0,1,0,0]。

4) 詞的前后綴特征。在英文實體識別領域,應用詞的前后綴特征進行實體識別的案例較多,且識別效果較好,但在中文命名實體識別中應用較少,對特殊領域的實體而言,其實體的前后綴往往具有較明顯的特征,因此,特殊領域實體可以通過構建實體前后綴特征增強識別效果。外來海洋生物領域詞的前后綴特征主要指外來海洋生物實體和地名實體的前后綴特征,如生物實體的后綴往往包含藻、鮑、蝦等后綴詞,地名實體的后綴往往具有海、洲等后綴詞。CNN 對于每個詞將使用一個卷積層和一個池化層完成特征的抽取。根據 CNN 窗口的大小,每個詞會有不同個數的填充向量[18]。此處,CNN 的超參數包括窗口尺寸的大小和輸出向量的大小。本研究中使用隨機初始化值,設置維度為30。

5) 上下文特征。上下文特征是指文本的語境信息表示,本研究中使用BiGRU網絡進行文本中上下文特征的抽取,使用BiGRU能對句子中此詞之前及之后的信息進行特征的抽取。

在正式訓練網絡模型之前,首先對外來海洋生物文本數據進行實體類型標注,數據集采用BIO格式規范標注,得到的部分訓練結果如表1所示,其中B表示實體詞首,I表示實體詞中或詞尾,O表示外來海洋生物實體名、時間名、地名以外的其他詞。

表1 實體識別試驗數據集標注格式(部分)

對標注好的數據進行實體個數統計,結果如表2所示,本研究中共標注實體數目3 528個,其中,外來海洋生物名稱實體1 562個,時間實體個數879個,地名實體個數為1 087個。

表2 外來海洋生物文本標注實體數量統計

2.1.3 網絡模型評估指標及參數設置

1) 網絡模型的評估指標。網絡模型的評估指標使用識別結果的準確率、召回率和F1值進行評估,各指標的計算公式[19]為

準確率(P)=識別結果中正確的實體數量/識別出的總實體數量×100%,

(8)

召回率(R)=識別結果中正確的實體數量/實際總的實體數量×100%,

(9)

F1=2×P×R/(P+R)×100%。

(10)

2) 網絡模型的參數設置。對于已經預處理好的數據集,將70%的數據集作為訓練集,30%的數據集作為測試集,將處理好的數據導入 Tensorflow 庫。為了尋找網絡模型的最優參數設置,首先,通過固定一個參數而不斷修改其他參數的方法對數據集進行參數最優搜索。通過對訓練集上的數據進行參數訓練,從而得到網絡模型的最優參數,即詞向量維度為100,詞長特征向量維度為8,詞性特征向量維度為12,每層GPU維度為150,Drop Out值為0.5,一次網絡讀入的數據大小(Batch-size)為30,學習率為0.001,優化算法使用Adam算法。

2.2 網絡模型運行結果及討論

使用訓練集訓練好的參數作為驗證集數據的網絡模型參數,本研究中主要進行了以下兩個試驗:1) 對比CRF、BiLSTM -CRF、BiGRU-CRF等傳統命名實體識別方法與本研究中提出的CNN-BiGRU-Attention-CRF網絡模型在外來海洋生物文本數據上的識別結果; 2) 通過引入詞向量、詞性特征等特征模板與CNN處理過的字符向量結合,作為CNN-BiGRU-Attention-CRF網絡模型的輸入向量模型,對不同網絡模型下的訓練結果進行評估。各個網絡模型實體識別的準確率、召回率、F1值結果如表3、表4和表5所示。

本研究中提出的使用CNN-BiGRU-Attention-CRF網絡模型進行外來海洋生物命名實體識別的平均F1值達到了81.67%,識別結果較BiGRU-CRF網絡模型平均F1值提升了4.25%,準確率和召回率均具有較大提升(表3~表5),這證明在命名實體識別過程中引入CNN和注意力機制能夠較好地提取字符前后綴特征,解決文本的長距離依賴問題,從而提升了外來海洋生物命名實體識別的效果。

表3 各個網絡模型對外來海洋生物命名實體識別結果的準確率(P)

表4 各個網絡模型對外來海洋生物命名實體識別結果的召回率(R)

表5 各個網絡模型對外來海洋生物命名實體識別結果的F1值

各個網絡模型的命名實體識別結果中,外來海洋生物名稱實體識別的準確率相比時間實體和地名實體較低(表3),這是因為外來海洋生物名稱長度較長且結構復雜,且同一生物往往具有不同的表述名稱,在進行實體識別時較為復雜,因此,外來海洋生物名稱實體相比時間和地點實體識別結果的準確率和召回率偏低。

將文本中的詞長和詞性特征等特征向量加入CNN-BiGRU-Attention-CRF網絡模型中,多特征組合下的CNN-BiGRU-Attention-CRF網絡模型對各類實體識別結果中平均F1值達到了90.05%,相比單一CNN-BiGRU-Attention-CRF網絡模型的識別結果提高了8.38%,這表明通過引入人工構造特征模板可以有效提升實體識別的效果,尤其是對于外來海洋生物實體名稱這一較為復雜的實體而言,通過構造詞長、詞性等特征可以較好地解決外來海洋生物實體存在的復雜嵌套等問題,提升實體識別的準確率。

3 結論

1)面對外來海洋生物領域信息分散且透明度較低,外來海洋生物領域實體構造較長且存在嵌套等問題,本研究中提出使用多特征組合下的CNN-BiGRU-Attention-CRF網絡模型進行外來海洋生物文本的命名實體識別,網絡模型將文本中的詞性特征、詞長特征等特征向量與卷積神經網絡提取出的字的前后綴特征向量組合作為門控神經網絡的輸入,可以充分提取文本的全部特征,試驗證明在外來海洋生物數據集上的識別效果較好。

2)本研究中提出的融合多特征向量的CNN-BiGRU-Attention-CRF網絡模型構建較為煩瑣復雜,且需要人工構造特征模板,因此,在未來研究中可以就特定領域命名實體識別過程如何構建通用的特征模板,以及如何減少構建特征向量時的工作量進行深入研究。

3)本研究中提出的外來海洋生物命名實體識別網絡模型可為其他特定領域的命名實體識別提供借鑒和參考,網絡模型識別出的實體信息可以為外來海洋生物的分析研究提供有效的數據支撐。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久久免费看片| 国产呦精品一区二区三区下载| 亚洲伊人久久精品影院| 福利在线不卡一区| 日韩一区二区在线电影| 思思热在线视频精品| 日本成人一区| 91国语视频| 蜜桃臀无码内射一区二区三区 | 亚洲中文无码h在线观看| 91在线无码精品秘九色APP| 欧美精品亚洲精品日韩专区va| 免费日韩在线视频| 91精品国产自产在线老师啪l| 国产精品久久久久久久久久98| 自拍偷拍欧美日韩| 国产成人精品在线1区| 99re热精品视频中文字幕不卡| 丁香综合在线| 91尤物国产尤物福利在线| 日韩在线网址| 国产免费人成视频网| 99er这里只有精品| 最新国产成人剧情在线播放| 国产精品永久不卡免费视频| 亚洲成人免费在线| 亚洲人成网7777777国产| 久久久久亚洲AV成人人电影软件 | 色网站在线视频| 亚洲成a人片77777在线播放| 欧美成人在线免费| 日韩午夜片| 2021国产精品自拍| 在线综合亚洲欧美网站| 欧美成人aⅴ| 91福利国产成人精品导航| V一区无码内射国产| 重口调教一区二区视频| 欧美激情成人网| 高h视频在线| 九色91在线视频| 日韩精品亚洲人旧成在线| 国产亚洲第一页| 四虎影视库国产精品一区| 久久综合色天堂av| 伊人久久婷婷| 亚洲三级片在线看| 福利视频一区| 伊人查蕉在线观看国产精品| 午夜人性色福利无码视频在线观看| 一区二区三区国产| 国产成人综合日韩精品无码不卡| 狠狠操夜夜爽| 中文字幕调教一区二区视频| 欧美一区二区三区欧美日韩亚洲| 亚洲欧洲日产国产无码AV| 久久香蕉国产线看观看精品蕉| 丁香婷婷综合激情| 亚洲免费人成影院| 国产精品女在线观看| 国内精品91| 黄网站欧美内射| 亚洲日韩高清无码| 中文字幕自拍偷拍| 久久免费成人| 成人噜噜噜视频在线观看| 香蕉视频在线观看www| 无码福利日韩神码福利片| 亚洲精品卡2卡3卡4卡5卡区| 中文无码精品A∨在线观看不卡| 久久99精品久久久久纯品| 国产女人在线视频| 中文字幕欧美日韩| 91精品人妻互换| 欧美精品啪啪| 成人免费网站久久久| 日韩欧美国产另类| 国产黑丝视频在线观看| 国产精品精品视频| 午夜a视频| 三级国产在线观看| 美女被狂躁www在线观看|