999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線中文命名實體識別平臺研究

2020-07-20 07:02:18宋汝良杜國寧
江蘇科技信息 2020年15期
關鍵詞:模型

宋汝良,杜國寧

(上海夢創雙楊數據科技股份有限公司,上海 200333)

0 引言

命名實體識別(Named Entity Recognition,NER),又稱實體識別、實體分塊和實體提取等,是信息提取任務的一個子任務。命名實體識別旨在定位文本中具有特殊意義的實體并分類為預先定義的類別,如人員、組織、位置等。命名實體識別是自然語言處理領域中的基本任務之一,在信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術中具有重要意義。在自然語言處理中,命名實體識別可以看作一種在詞法分析中對未收錄詞的識別,并且是未收錄詞數量最多、識別難度最大、對分詞效果影響最大的問題。根據SIGHAN Bakeoff數據評測結果[1],未登錄詞造成的分詞精度損失至少比歧義大5倍以上,這證明了命名實體的重要性。

1 項目背景

本項目中,研究員針對中文命名實體識別問題,首先調研了命名實體識別的通用技術及其發展,其次使用PyTorch框架構建了兩種用于完成命名實體識別任務的模型,搭建了中文命名實體識別平臺,最后在人民日報數據集中,對比評估了不同模型的效果。

國外對于英文命名實體識別的研究開始比較早。1991年Rau[2]在第7屆IEEE人工智能應用會議上發表了“抽取和識別公司名稱”的有關研究文章,首次描述了抽取和識別公司名稱的系統,該系統主要采用啟發式算法和手工編寫規則的方法。1996年,命名實體評測作為信息抽取的一個子任務被引入MUC-6,在其后的MUC-7、MET-2、IEER-99、CoNLL-2002、CoNLL-2003、IREX、LREC等一系列國際會議中,命名實體識別都被作為其中的一項指定任務。

和英語相比,漢語命名實體識別任務更加復雜,由于分詞等因素的影響難度較大,其難點主要表現在如下幾個方面:

(1)命名實體類型多樣,數量眾多,不斷有新的命名實體涌現,如新的人名、地名等,難以建立大而全的姓氏庫、名字庫、地址庫等數據庫。

(2)命名實體構成結構比較復雜,并且某些類型的命名實體詞的長度沒有一定的限制,不同的實體有不同的結構,比如組織名存在大量的嵌套、別名、縮略詞等問題,沒有嚴格的規律可以遵循;人名中也存在比較長的少數民族人名或翻譯過來的外國人名,沒有統一的構詞規范。因此,對這類命名實體識別的召回率相對偏低。

(3)在不同領域、場景下,命名實體的外延有差異,存在分類模糊的問題。不同命名實體之間界限不清晰,人名也經常出現在地名和組織名稱中,存在大量的交叉和互相包含現象,而且部分命名實體常常容易與普通詞混淆,影響識別效率。在個體戶等商戶中,組織名稱中也存在大量的人名、地名、數字的現象,要正確標注這些命名實體類型,常常要涉及上下文語義層面的分析,這些都給命名實體的識別帶來困難。

(4)在不同的文化、領域、背景下,命名實體的外延有差異。目前對命名實體的定界和類型確定還沒有形成共同遵循的、嚴格的命名規范。本項目基于上述背景展開。

2 相關工作介紹

目前,研究人員已經提出了許多用于命名實體識別任務的方法。命名實體識別的早期研究經常利用支持向量機(Support Vector Machine,SVM)[3]、隱馬爾科夫模型(Hidden Markov Model,HMM)[4]和條件隨機場(Conditional Random Field,CRF)方法,這在很大程度上依賴于特征工程。近年來,神經網絡模型已經被引入命名實體識別任務中。Huang等[5]的研究利用雙向長短時記憶(Bi-directional Long Short-Term Memory Network,BiLSTM)網絡提取特征并將其饋入CRF解碼器。之后的研究通常將BiLSTM-CRF模型用作基準模型。Peng等[6]于2016年提出了針對中文命名實體識別的聯合模型,該模型是通過中文詞語分割(Chinese Word Segmentation,CWS)任務共同訓練的。但是,CWS任務帶來的某些特征會降低中文命名實體識別任務的性能。此外,Wang等[7]于2017年提出了針對中文命名實體識別的門控卷積神經網絡(Gated Convolutional Neural Networks,GCNN)模型。

目前較為成熟的解決方案是應用BiLSTM-CRF模型完成命名實體識別任務。BiLSTM模型可以學到記憶哪些信息和遺忘哪些信息,并且能夠捕捉雙向的語義依賴,具有良好的語義建模能力。條件隨機場(Conditional Random Field,CRF)是一類統計建模方法,通常應用于模式識別和機器學習中,并用于結構化預測。它能夠在預測時考慮上下文的聯系,可以在預測中實現順序依賴性。BiLSTM和CRF的優點使得它們在命名實體識別任務中大放異彩。

BERT模型[8]出現于Google AI語言研究人員發表的最新論文中。通過在各種NLP任務中展示最新結果,在機器學習社區引起了轟動。BERT的主要技術創新是將注意力模型Transformer的雙向培訓應用于語言建模。現在,研究人員可以在BERT模型的基礎上進行微調,以獲取針對特定任務的模型。

3 項目成果

在本次項目中,研究員結合對中文命名實體識別的探索,選擇了使用Embedding-BiLSTM-CRF這一成熟的架構作為基本模型。除此之外,研究員還嘗試將BERT模型與基本模型結合,通過預訓練BERT模型替換原有的嵌入層,通過微調對模型進行更新,并將這一模型稱為進階模型。

基礎模型的輸入是一個序列,序列中的元素對應句子中每個字id。模型的Embedding層將字的id轉為該字對應的向量,BiLSTM層對該向量進行編碼和解碼,輸入CRF層。CRF層對輸入的序列進行路徑計算,最終獲取每個字對應的標簽id。

進階模型與基礎模型類似,區別在于使用預訓練的BERT模型替換了Embedding層,模型的輸入為字序列。BERT模型將字序列轉為對應的序列向量,之后的過程與基礎模型相同。

3.1 命名實體識別模型

在本次項目中,研究員結合對中文命名實體識別的探索,選擇了使用Embedding-BiLSTMCRF這一成熟的架構作為基本模型。除此之外,研究員還嘗試將BERT模型與基本模型結合,通過預訓練BERT模型替換原有的嵌入層,通過微調對模型進行更新,將這一模型稱為進階模型。

基礎模型的輸入是一個序列,序列中的元素對應句子中每個字id。模型的Embedding層將字的id轉為該字對應的向量,BiLSTM層對該向量進行編碼和解碼,輸入CRF層。CRF層對輸入的序列進行路徑計算,最終獲取每個字對應的標簽id。

進階模型與基礎模型類似,區別在于使用預訓練的BERT模型替換了Embedding層,模型的輸入為字序列。BERT模型將字序列轉為對應的序列向量,之后的過程與基礎模型相同。

3.2 在線中文命名實體識別平臺

研究員為中文命名實體識別任務開發了一個網頁平臺,方便用戶快速從文本中提取人名、地點和組織。該平臺以Python為后端,前端則以Bootstrap框架開發,應用的初始界面如圖1所示。

在輸入框中輸入一個句子,點擊“識別”按鈕,該句子將通過Ajax方式發送至后端。后端將加載訓練好的模型,對接收到的句子進行預測,并將預測結果以Json文件形式返回前端。前端接收到返回結果后,將對網頁進行部分刷新,以展示預測結果。除了單個句子的預測,平臺也支持對多個句子同時預測,一個示例如圖2所示。

4 實驗與結果

為了驗證命名實體識別模型的識別效果,研究員設計并進行了實驗,使用公開數據集對模型的識別能力進行了驗證。

實驗所采用的數據集為人民日報數據集,是中文命名實體識別任務最常用的數據集之一。數據集中包含有LOC(地名)、ORG(機構名)、PER(人名)3種標簽,使用BIO標注策略對數據進行標注。

圖1 在線中文命名實體識別平臺初始界面

圖2 識別結果示例

為了比較基礎模型和進階模型的效果,研究員設置了多組參數,分別構建了兩類模型進行訓練,并在測試集中對模型效果進行驗證。驗證選取的評估指標為查準率、召回率和f1-score。對于每個預測結果,當且僅當預測出的命名實體的起始坐標、終止坐標與golden tag都相同時,認為該次預測是正確的。實驗所采用的評價指標為查準率、查全率和F1分數,結果如表1所示。

表1 模型在人民日報數據集中的實驗結果

從實驗結果可以看出,引入預訓練的BERT模型作為嵌入層后,模型的整體效果被很輕易地大幅提升了。

5 結語

本項目針對中文命名實體識別任務展開了探索,并選取了目前應用最廣泛的Bi-LSTM+CRF模型作為基礎模型,完成了中文命名實體識別任務。此外,本項目還引進了BERT模型,對基礎模型進行改進,即使用預訓練的BERT模型替換基礎模型中的嵌入層。研究員使用人民日報數據集進行實驗,訓練和評估了基礎模型和進階模型,實驗結果表明進階模型能夠大幅提升模型預測效果。另外,本項目還為中文命名實體識別任務開發了對應的平臺,方便用戶使用訓練后的模型對中文語句進行預測。

本項目實現的進階模型具有識別效果好、訓練簡單、規模較小等優點。此外,使用這一模型完成命名實體識別任務時,并不需要對語句進行額外的數據預處理操作。同時,本項目所構建的在線中文命名實體識別平臺為用戶完成中文命名實體識別任務提供了便利。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲VA中文字幕| 国产精品视频免费网站| 成人免费视频一区| 久久免费精品琪琪| 99热精品久久| 亚洲第一成网站| 日韩无码视频专区| 国产高清在线丝袜精品一区| 蜜芽一区二区国产精品| 婷婷色一二三区波多野衣| 福利视频久久| 老色鬼欧美精品| 国模视频一区二区| 五月综合色婷婷| 成人福利一区二区视频在线| 国产小视频a在线观看| 人妻丰满熟妇AV无码区| 欧美一级色视频| 亚洲va在线观看| 中文字幕在线一区二区在线| 亚洲最新在线| 国产精品私拍在线爆乳| 国产亚洲视频免费播放| 欧美翘臀一区二区三区| 国产精品19p| 国产免费人成视频网| 青青青草国产| 日韩精品免费一线在线观看| 2020极品精品国产| 久久鸭综合久久国产| 在线欧美日韩| 亚洲精品视频免费看| 国产精品太粉嫩高中在线观看| 国产乱人视频免费观看| 无码电影在线观看| 欧美在线黄| 免费视频在线2021入口| 国产视频一区二区在线观看| 精品亚洲国产成人AV| 国产精品无码影视久久久久久久| 成人av手机在线观看| 91娇喘视频| 有专无码视频| 欧美午夜精品| 午夜色综合| 亚洲精品国偷自产在线91正片| 欧美色图久久| 亚洲成a人片| AV片亚洲国产男人的天堂| 国产91丝袜| 精品国产成人a在线观看| 久久综合亚洲鲁鲁九月天| 国产欧美日韩精品综合在线| 国产小视频网站| 国产精品手机视频一区二区| 国内老司机精品视频在线播出| 成人午夜久久| 九九热精品视频在线| 热re99久久精品国99热| 欧美亚洲日韩中文| 深爱婷婷激情网| 草草线在成年免费视频2| 成人综合在线观看| 四虎AV麻豆| a在线观看免费| 国产日本欧美亚洲精品视| 曰韩人妻一区二区三区| vvvv98国产成人综合青青| 女人18毛片一级毛片在线 | 亚洲美女一区| 国产精鲁鲁网在线视频| 青草免费在线观看| 久久夜色精品国产嚕嚕亚洲av| 日韩天堂视频| 国产人前露出系列视频| 国产丝袜91| 久久精品丝袜| 精品国产香蕉在线播出| 国内精品视频| 亚洲免费人成影院| 国产99久久亚洲综合精品西瓜tv| 精品福利视频网|