999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的科研人才領域命名實體識別

2021-11-22 08:53:34王修來欒偉先
計算機技術與發展 2021年11期
關鍵詞:模型

王 俊,王修來,欒偉先,葉 帆

(1.南京信息工程大學 管理工程學院,江蘇 南京 210044;2.南京傳媒學院 傳媒技術學院,江蘇 南京 211172;3.中國人民解放軍31102部隊,江蘇 南京 210002)

0 引 言

命名實體識別(named entity recognition,NER)是自然語言處理技術(natural language processing,NLP)中的一個重要領域,也是信息抽取、句法分析、文本分類、機器翻譯和情感分析的關鍵[1],在自然語言處理中占有重要和基礎的地位。命名實體識別的核心內容是找出一套高效可用的模型或算法以實現對文本中人名、地名、時間等實體要素的準確識別與抽取[2]。對于英文來說,由于英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,此時任務的重點只需要確定實體的類別。然而和英語相比,中文命名實體識別任務更加復雜,而且相對于實體類別標注子任務,實體邊界的識別與分類更加困難。

命名實體識別的方法主要有基于詞典的方法、基于規則和統計的方法以及基于深度學習的方法。基于詞典的方法主要依賴于大量人工設定的字典數據,識別效果在特定的語料上具有較好的表現,但是其與識別的領域或文本緊密相關,當字典無法與識別主體匹配時,其識別效率低下,并且制定好的字典往往無法進行跨領域遷移[3]。基于規則和統計的方法從原理上來說就是一種序列化特征標注方法,對每個詞使用若干類候選標簽進行定義,并記錄每個詞的位置信息,采用HMM、條件隨機場(conditional random field,CRF)或者SVM等分類模型算法進行詞的分類與標注,從而確定實體類型[4]。近年來,基于機器學習和神經網絡的命名實體識別方法陸續被提出,通過使用不同類型神經網絡進行文本結構序列的特征提取,并結合CRF進行最優序列求解。該方法相較于以前的方法在識別性能和效果上有顯著提升[5]。最近,在NLP領域中使用預訓練語言模型方法取得了突破性進展,其中代表性的模型包括ELMo、OpenAI GPT和BERT[6-8]。在這三類代表性的預訓練模型中,BERT在多個文本識別指標上均達到目前最先進水平。

因此,文中基于BERT模型,結合BiLSTM對上下文關系的記憶能力和CRF對標注規則的學習能力,在對文本語義信息完整保留的基礎上,提升模型的上下文特征提取能力,有效解決中文命名實體的邊界劃分問題,提升模型對實體的識別準確率。此外,對科研人才領域命名實體進行了細化分類,在包含6 134條科研咨詢語料庫中進行了訓練和參數微調,并在實際爬取的科研數據上取得了較好的識別效果。

1 科研人才領域命名實體分類與標注

如今,學術類數據在互聯網上呈現出飛速的增長。截至2020年,全球網絡上已發表的科研論文總數已接近4億余篇,參與科學研究的學者數量也已達到了數千萬人,如何在海量的數據中客觀準確地刻畫出科研人才,并挖掘出科研人才的研究需求變得十分迫切。科研人才分析研究不僅有助于對科研人才的個人信息、科研興趣、水平評估等方面的情況進行掌握,同時也有助于科研人才間開展高效的科研轉換與對接、學術交流和推薦。隨著人工智能和大數據時代的到來,科研人才互相從以往的數據信息查詢方法和統計學方法逐步轉向了自然語言處理和機器學習等方向。而從科研人才數據分析角度來看,科研人才領域命名實體識別是解決準確識別與科研人才直接相關信息的關鍵。

近些年來,用戶畫像技術的研究發展十分迅速。但是,專門針對科研人才群體的命名實體識別與領域畫像構建仍然處在摸索與研究階段,通過對當前科研人才相關文獻的研究,發現主要存在以下不足:

(1)獲取到的數據屬性較為單一,對科研人才的數據獲取大多從網絡上進行爬取,網絡上的數據內容往往都以偏概全,缺乏全面的數據屬性。因此需要構建高效、可行的數據檢索與挖掘方法來進行多維度的數據獲取,這樣才能為科研人才的準確刻畫提供數據保障。

(2)在科研人才的實體識別過程中,以往的方法是采用大量的字典或元數據進行處理,沒有對數據信息進行有效的智能化識別與利用,因為命名實體通常淹沒在論文的文本中或大段的文字內,在缺乏自然語言處理技術的前提下,很難對內容中的命名實體進行提取,從而影響了對文本挖掘的效率。

(3)在對科研人才進行分析的主要思路還局限于統計分析,缺乏深層次的智能化算法應用。同時,在分析研究過程中利用分類與聚類等機器學習的研究較少,研判出的科研人才刻畫不夠準確也不夠全面,無法滿足相關科研機構對科研人才挖掘、利用和合作的迫切需求。

圖1 科研人才領域實體識別范圍

文中在科研人才領域命名實體識別主要針對科研人才的基本屬性和科研學術屬性進行識別。其中基本屬性信息包括:個人基本信息、學習經歷、職務職稱、科研成果、工作履歷等科研人才的一些基本信息,這一部分信息代表了科研人才的科研與學術成長經歷、攻關科研能力和研究興趣方向,是為人才進行精準服務的前提基礎。科研學術屬性主要是科研人才在網絡上公開發表的科技文獻信息,可以通過文獻計量方法準確識別出科研人才的研究興趣與科研水平,該部分的識別主要涵蓋了對各類期刊、學術會議等的實體識別。科研人才的基本屬性和科研學術屬性的實體識別范圍如圖1 所示。

命名實體(named entity,NE)是于1995年11月被作為一個明確的概念和研究對象提出的,通用領域的命名實體識別主要針對人名、機構名和地名三大類進行識別。隨著各個領域的數據挖掘和分類細化,結合科研人才領域命名實體識別的特點,文中面向科研人才的基礎屬性和科研屬性,對該領域命名實體進行了類別和標注符號的定義,形成了7大類共計19小類的命名實體[9-10]。具體如表1所示。

表1 命名實體類別和標注符號

由于目前通用NER主要是識別人名、地名和機構名,在表1中對科研人才領域的命名實體進行了擴充和細化,擴充之后的命名實體可以較好地滿足面向科研人才的數據挖掘,主要擴充的命名實體包括專業學術會議、科研期刊和科研項目。

2 BERT-BiLSTM-CRF模型

文中設計的模型主要有三個部分,分別是預訓練的BERT模型、BiLSTM層以及CRF層,具體如圖2所示。本模型首先通過BERT將句子中的單字進行向量化表示,而后將包含字向量序列輸入至BiLSTM中進一步感知上下文的語境,最后通過CRF層將最大概率的序列表達進行輸出。本模型相較于其他深度學習的命名實體識別模型最大的差異在于使用了Google在2018年提出的BERT預訓練模型,該模型在大量語料庫上進行了訓練,在實際使用過程中僅需要進行參數的微調。因此可以將關注點集中在BiLSTM和CRF的參數訓練上,大大減少對單字的語料訓練時間,提高了識別效率。

2.1 BERT預訓練模型

BERT是“Bidirectional Encoder Representation from Transformers”的簡稱[8],是一種基于微調的多層雙向 Transformer 編碼器,其中的 Transformer 與原始的 Transformer 是相同的,并且實現了兩個版本的 BERT 模型,即BERT Base和BERT Large,BERT 模型兩個版本的本質是一樣的;區別是參數的設置。BERT Base作為基線模型,在此基礎上優化模型,進而出現了BERT Large。BERT相較于Word2vec、ELMO和GPT等模型的主要不同之處在于其利用雙向語言模型進行預訓練,并通過fine-tuning模式進行參數微調從而解決具體的下游任務。BERT 模型對于給定句子中的字詞,其輸入表示包含了三部分向量求和組成,具體如圖3所示。

圖2 BERT-BiLSTM-CRF模型架構

圖3 BERT模型向量構成

其中:詞向量中的第一個單詞是CLS標志,用于之后的分類任務,對于非分類任務可以忽略;句向量用于區分不同句子,便于預訓練模型做句子級別的分類任務;位置向量是通過模型學習得到的序列位置。

BERT模型使用Masked LM 和 Next Sentence Prediction這兩個新的無監督預測任務對 BERT進行預訓練[11]。Masked LM (MLM)通過隨機遮擋部分字符(默認為全文中的15%字符),在這15%遮擋字符中80%被遮擋詞用符號masked token代替,10%被遮擋詞用隨機詞替換,10%被遮擋詞不變。Next Sentence Prediction用于對句子級別任務的學習,通過隨機將數據劃分為同等大小的兩部分:一部分數據中的兩個語句對是上下文連續的,另一部分數據中的兩個語句對是上下文不連續的,然后讓模型來識別這些語句對中,哪些語句對是連續的,哪些語句對不連續。BERT模型通過進一步增加詞向量模型泛化能力,充分描述了字符級、詞級、句子級甚至句間關系特征[12]。BERT 預訓練語言模型使用Transformer 特征抽取器,Transformer是目前自然語言處理領域流行的網絡結構,每個單元僅由自注意力機制(Self-attention)和前饋神經網絡(Feed Forward network)構成,單元可以連續堆疊。其結構如圖4所示。

圖4 Transform層次結構

在預訓練BERT模型中,其損失函數主要由兩部分組成,第一部分是來自 MaskLM 的單詞級別分類任務,另一部分是句子級別的分類任務。通過將這兩個任務進行聯合學習,即可將 BERT模型學習到的文字表征既包含有分詞級別的信息,同時也包含有句子級別的高層次語義信息。具體的損失函數形式如下:

L(θ,θ1,θ2)=L1(θ,θ1)+L2(θ,θ2)

(1)

其中,θ是BERT模型中編碼部分的參數,θ1是 MaskLM訓練任務中在編碼上所連接的輸出層中參數,θ2是句子級別預測中在編碼連接上的分類器參數。因此,在上述的損失函數表述中,如果被遮蓋的字詞集合為S,該問題的損失函數為:

(2)

在句子級別的預測任務中,該問題的損失函數為:

(3)

因此,將這兩個任務進行聯合后的損失函數形式是:

通過損失函數的迭代和機器學習訓練進一步提升了BERT模型的智能識別準確度,預訓練后的模型基本達到通用領域識別水平[13-14]。

2.2 BiLSTM模型

LSTM是循環神經網絡中的一種,其全稱為Long Short-Term Memory,即長短期記憶網絡。LSTM適合于處理和預測時間序列中間隔和延遲較長的問題,近年來在語音處理、行為識別、視頻分析等領域得到了廣泛應用。BiLSTM在LSTM基礎之上將前向LSTM與后向LSTM進行了組合,組合后的模型在自然語言處理任務中都常被用來建模上下文信息。LSTM是為了解決循環神經網絡結構中存在的“梯度消失”問題而被提出來的。相比于傳統的循環神經網絡結構,LSTM主要增加了三個控制門:輸入門、輸出門和遺忘門。其中,輸入門主要是學習何時讓激活傳入存儲單元,而輸出門主要是學習何時讓激活傳出存儲單元,遺忘門主要是學習何時讓上一個時刻的存儲單元傳入下一個時刻的存儲單元。假如去掉三個控制門(亦或者將三個控制門的值設定為常數1),那么LSTM即可退化為簡單的循環神經網絡結[15-17]。LSTM的隱藏層結構如圖5所示。

圖5 LSTM的隱藏層結構

LSTM隱藏層的結構中主要包括下面幾個要素:

(1)t時刻的輸入詞xt;

(2)細胞的狀態ct;

(4)隱層的狀態ht;

(5)遺忘門ft;

(6)記憶門it;

(7)輸出門ot。

LSTM中的無用信息將被丟棄,并且在每個時間點都將會輸出隱層的狀態ht,其中遺忘、記憶與輸出由當前輸入xt與通過上個時間點的隱層狀態ht-1計算出的遺忘門ft,記憶門it和輸出門ot來控制。具體來說,LSTM網絡結構可以形式化表示為:

ft=σ(Wf·[ht-1,xt]+bf)

(5)

it=σ(Wi·[ht-1,xt]+bi)

(6)

Gt=tanh(Wc·[ht-1,xt]+bc)

(7)

Ct=ft·Ct-1+it·Gt

(8)

ot=σ(Wo·[ht-1,xt]+bo)

(9)

ht=ot·tanh(Ct)

(10)

2.3 CRF算法

條件隨機場(CRF)是一種判別式概率模型,是馬爾可夫隨機場中的一種。CRF可以對有重疊性、復雜且非獨立的特征進行推理和訓練學習,既能夠將上下文的信息作為特征進行充分的利用,也可以將外部特征進行添加。假設輸入的觀測序列為x,輸出的觀測序列為y,則CRF 模型的條件概率為:

其中,相鄰輸出標記之間的轉移特征函數為trj(yi+1,yi,xi);狀態特征函數為sk(yi,xi);規范化函數為Z;超參數為λj和uk。通過維特比算法可獲得條件概率分布,并能生成觀測序列對應的標注序列,從而完成命名實體識別以序列為核心的自然語言處理任務。

3 實驗過程與分析

3.1 實驗環境

文中所有實驗的軟件環境如表2所示。

表2 實驗軟件環境

3.2 實驗過程

BERT-BiLSTM-CRF模型在訓練時采用固定的BERT參數配置,只是微調了BiLSTM-CRF參數的特征提取參數和方法。為了驗證該模型的效果,分別對比了基于CRF、BiLSTM 、BiLSTM-CRF以及CNN-BiLSTM-CRF的四種命名實體識別方法。在實驗前,搜集了包含6 134條科研咨詢語料庫,語料庫中包含有科研人員姓名、科研履歷、科研學術及成果情況等。對于語料數據的劃分,80%用于訓練模型,10%用于驗證集,10%用于測試集。訓練集共包含4 900個句子約1.6萬個命名實體,測試集和測試集包括2 234個句子約0.5萬個命名實體。為了避免單一類別語料造成的訓練偏差,在資訊選擇上盡量進行了均衡選取,語料庫中各類別命名實體對象的占比如圖6所示。

圖6 語料庫不同實體類數量

采用的BERT模型為Google在網絡上提供下載并開源的中文版BERT預訓練模型BERT-Chinese,具體參數如下:層數共有12 層, 隱藏層共有768維,模型采用12頭模式,共計包含約1.1億個可調參數。BERT訓練時,其采用的最大序列長度為512, 訓練的batch尺寸為64,模型中的學習率和Dropout 過程概率參數均使用默認值。BiLSTM中隱藏層的維數為256,訓練采用Adam的優化方式,訓練數據片為32個字,學習率為0.001,Dropout過程概率為0.6。CRF 層均采用其默認的參數設置,其鏈長設定為256。

3.3 評判指標

目前命名實體識別的主流標注策略有三類,分別是BIO模式、BIOE模式和BIOES模式。文中采用的是BIO的標注模式,在該模式中使用 “B”來表示實體的開始,“I”表示實體的非開始部分,“O”表示非實體的部分[18-21]。結合表1中的19小類實體,帶識別的小類標簽共用39個。例如:“B_ADR_DM”、“I_ADR_DM”、“B_ADR_QY”、“I_ADR_QY”、“B_ADR_ZB”、“I_ADR_ZB”等。在測試過程中,只出現實體邊界與實體類型出現完全匹配時,即可判斷該實體預測為正確。

對命名實體識別的評價指標主要有精確率(P)、召回率(R)和F1值。其中,TP為模型正確識別的實體數量,FP為模型識別出的非相關實體數量,FN為模型未檢測出的相關實體數量,具體計算公式如下:

(12)

(13)

(14)

在對5類模型測試結果搜集和計算分析的基礎上,得出每一類模型的精確率、召回率和F1值,具體如表3所示。

表3 實驗結果分析

從表3可以看到,BiLSTM-CRF雖然將BiLSTM和CRF進行了組合使用,但是在有的單項指標上沒有得到提升,這主要是由于科研語料庫的規模還欠缺,在科研咨詢語料庫中的無關文本較多,模型在學習過程中的參數優化調整未能達到最優。在增加了CNN和BERT之后,模型在精確率、召回率和F1值的分數上都有了較大的提升,這也表明了循環神經網絡對于文本識別效果較好,使用BERT進行向量化之后,對于句子中的字、詞的表達更為準確,且包含了上下文的語境,使得其語義信息表達也更為豐富[22-23]。7類實體在不同算法模型精確率如圖7所示。

圖7 7類命名實體識別精確率

4 結束語

針對科研領域人才挖掘和分析的現實需求,文中根據科研人才相關領域中的命名實體特點,確定了7大類需識別的科研人才領域相關命名實體。為了提升科研人才領域命名實體的識別效果,采用了基于BERT模型的識別方法,同時結合BiLSTM、CRF進一步擴展識別效果。實驗結果表明:在科研資訊語料的訓練和測試中,其準確率達到0.9,召回率達到0.92,取得了較好的識別效果。但是,由于目前對于科研人才相關資訊的搜集還不夠全面,導致模型在學習過程中參數優化程度還不夠,部分參數和語料還需要進行手工標注和微調,存在一定的工作量,這也制約了對科技人才領域命名實體識別方面的研究。同時,隨著目前科研領域的發展,新的科研名詞層出不窮,這就需要實時搜集大量包含科技資訊的訓練語料。因此,在以后的工作中,一方面需要加強語料庫的搜集和更新,另一方面也需要研究在小規模數據集和極小標注數據下的科研人才領域命名實體識別。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲第一国产综合| 99精品免费欧美成人小视频 | 看看一级毛片| 国内精品久久人妻无码大片高| 亚洲中文字幕在线精品一区| 日韩一二三区视频精品| 亚瑟天堂久久一区二区影院| 国产主播福利在线观看 | 免费一级全黄少妇性色生活片| 国产欧美中文字幕| 亚洲色成人www在线观看| 香蕉eeww99国产精选播放| 综合色88| 国产视频一区二区在线观看| 国产精品无码久久久久AV| JIZZ亚洲国产| 婷婷激情亚洲| 国产成人一区| 91麻豆精品视频| 91精品国产91久久久久久三级| 欧美成人看片一区二区三区| 全部免费毛片免费播放| 久久香蕉国产线看观看亚洲片| 精品三级网站| 40岁成熟女人牲交片免费| 精品久久人人爽人人玩人人妻| 欧美区一区| 国产视频自拍一区| 午夜a视频| 亚洲综合欧美在线一区在线播放| 免费看a级毛片| 亚洲欧美另类日本| 日韩视频精品在线| 亚洲一级毛片| 91视频99| 极品性荡少妇一区二区色欲| 中文字幕精品一区二区三区视频| 免费人成网站在线观看欧美| 国产 在线视频无码| 久久精品视频亚洲| 成人免费视频一区| 在线观看视频99| 国产精品久久久久久久伊一| 国产尹人香蕉综合在线电影| 欧美成人aⅴ| 国产欧美中文字幕| 欧美日本在线播放| 久久黄色免费电影| 欧美区在线播放| 亚洲欧美人成电影在线观看| 视频在线观看一区二区| 亚洲二三区| 亚洲国产精品日韩欧美一区| 免费无码一区二区| 国产一在线| 亚洲综合激情另类专区| 亚洲中字无码AV电影在线观看| 91热爆在线| 伊人精品成人久久综合| 色综合天天视频在线观看| 欧美激情视频二区| 亚洲妓女综合网995久久 | 91成人免费观看| 一级毛片中文字幕| 麻豆精品在线视频| 2021精品国产自在现线看| 国产精品久久久久久搜索| 国产成人午夜福利免费无码r| 伊人国产无码高清视频| 国产精品无码AⅤ在线观看播放| 婷婷色丁香综合激情| 亚洲全网成人资源在线观看| 国产在线小视频| 中文无码日韩精品| 精品久久久久成人码免费动漫 | 欧美日韩免费观看| 久久久久久午夜精品| 精品精品国产高清A毛片| 情侣午夜国产在线一区无码| 色天堂无毒不卡| 免费看的一级毛片| 欧美福利在线观看|