999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多任務環境下融合遷移學習的新冠疫情新聞要素識別研究

2021-04-06 03:24:44趙梓博王昊劉友華張衛孟鎮
知識管理論壇 2021年1期

趙梓博 王昊 劉友華 張衛 孟鎮

摘要:[目的/意義]在新冠疫情背景下,提出多任務環境下融合遷移學習的疫情新聞要素識別方法,向公眾提供面向應急事件的知識服務。[方法/過程]首先,通過多任務識別新聞要素:基于規則識別時間要素;并融合模型遷移與深度學習方法,構建跨領域的要素識別模型。在此基礎上,構建疫情新聞要素的關聯數據,以知識圖譜的方式展示各要素之間的關聯關系。[結果/結論]實驗結果表明,除藥物外的新聞要素的識別F1值均在80%以上,說明融合遷移學習的模型能夠取得較優的識別效果;并且,關聯數據知識圖譜能夠直觀顯示新聞的重點要素及新聞的主要內容。綜上所述,提出的方法能夠有效識別新冠疫情新聞要素,從而幫助新聞讀者準確、高效地獲取新聞中的重要信息。

關鍵詞:多任務? ?遷移學習? ?新冠? ?新聞要素識別? ?命名實體識別? ?冷啟動

分類號:TP391.1; TP181; G202

DOI:10.13266/j.issn.2095-5472.2021.001

引用格式:趙梓博, 王昊, 劉友華, 等. 多任務環境下融合遷移學習的新冠疫情新聞要素識別研究[J/OL]. 知識管理論壇, 2021, 6(1): 2-13[引用日期]. http://www.kmf.ac.cn/p/235/.

1? 引言

自2020年初,官方正式通報新型冠狀肺炎(以下簡稱“新冠”)存在“人傳人”現象以來,社會公眾愈發關注新冠疫情的相關新聞動態。新冠疫情新聞對于幫助公眾了解疫情動態、防疫方法等知識具有重要意義。然而,數量呈爆炸式增長的新聞報道給公眾帶來了一定程度的心理壓力和閱讀負擔。因此,有必要快速、準確地提取新聞報道中的關鍵要素,幫助公眾獲取并理解新聞的主要內容,并為進一步構建疫情新聞知識圖譜[1]提供數據支撐,為自動生成疫情新聞關鍵詞[2]、自發推送疫情新聞[3]等工作奠定基礎。

新聞要素通常包括時間、人物、地點、機構4類基本要素,而新冠疫情新聞在此基礎上還涉及疾病名稱、發病癥狀、藥物名稱、診斷或治療方法等醫學要素,因此新冠疫情新聞要素識別需要對跨領域的多個類別的要素進行識別,這就涉及到多任務、多過程的要素識別。時間要素的表述形式具有較強的規律性,基于規則模板能夠較準確地對其進行識別[4-5],因此筆者采取基于規則的要素識別方法識別時間要素;而對于人名、地名、機構名3類基本要素以及疾病、癥狀、藥物、方法4類醫學要素,利用基于現有深度學習模型的命名實體識別(Named Entity Recognition, NER)方法進行識別,但是,疫情新聞作為一類新型應急信息資源,目前該領域尚存在缺乏供NER模型訓練的標注數據這一數據冷啟動問題,為此,筆者引入遷移學習思想,設計了跨領域遷移的實體識別模型。

筆者基于NER領域較為成熟的BERT-BiLSTM-CRF三層結構模型,分別利用MSRA數據集和醫學領域數據集訓練可遷移的NER模型,并將該模型應用于新冠疫情新聞領域的要素識別。最后,通過構建基于共現頻次的要素關聯數據,以知識圖譜的方式可視化地展現疫情新聞要素間的關聯關系,從而清晰、直觀地揭示疫情新聞的主要內容。

2? 近期相關研究

新聞文本要素的識別與提取是信息抽取領域的研究熱點之一,在以往的實踐中大多采用基于詞典[6-7]、基于規則[8-9]或基于統計機器學習[10-12]的方法進行。近年來,隨著深度學習研究的逐漸成熟,基于深度神經網絡的命名實體識別也成為新聞要素識別的重要支撐技術[13-15]。相比傳統機器學習算法,深度學習模型具有網絡層數更深、學習特征更加復雜且無需人工構建特征等優勢[16]。近年來提出的雙向長短時記憶網絡(Bidirectional Long Short-Term Memory, BiLSTM)[17]通過疊加句子在順序和逆序方向的隱層表示,能夠極大程度地揭示句中實體的依賴關系,因此被廣泛應用于NER任務。研究表明,將BiLSTM與條件隨機場(Conditional Random Field, CRF)相結合能夠有效提高模型效果[18]。由谷歌AI團隊于2018年發布的字表示模型BERT[19],刷新了11項自然語言處理任務的記錄。將BERT中文預訓練模型(BERT-Base, Chinese)與識別效果較好的BiLSTM-CRF模型結合,被多項研究證實能夠取得中文NER的最優效果[20-22]。

深度學習模型由于學習能力極強,易出現過擬合問題,因此需要龐大規模的標注數據作為訓練集,而部分領域由于缺乏足夠的訓練數據而存在數據冷啟動問題。為了解決這一問題,遷移學習(Transfer Learning)[23]的概念應運而生,其將在源領域學習到的知識應用于與源領域不同但相關的目標領域的任務中,利用源領域的標注數據訓練可供目標領域應用的模型。遷移學習主要包括基于實例、基于特征和基于模型的遷移學習,基于實例的遷移學習的原理是將與目標領域實例相似的源領域樣本加入訓練集,以擴充數據量[24-25];基于特征的遷移學習是指通過一定的方法,獲取并利用源領域與目標領域之間共同的特征表示,從而實現表示層面的遷移[26-27];基于模型的遷移學習是將基于源領域數據訓練的模型及參數遷移至目標領域[28-29]。模型遷移學習基于大量源領域數據訓練得到具有較強泛化能力的預訓練模型,能夠較好地適應目標領域的數據分布,從而取得較優的遷移效果,因此被廣泛應用于NER領域。M. Al-Smadi等構建了基于遷移學習的多語言通用語句編碼器,并將其應用于復雜阿拉伯語語境下的實體識別任務[30];劉宇飛等將公共領域源知識遷移至科學領域,進而對專利文獻中的科學術語進行識別[31];孔祥鵬等提出基于遷移學習的聯合深度模型,通過共享網絡隱藏層以及BP算法微調參數的方法訓練跨語言遷移模型,有效提升了維吾爾語NER任務的成績[32]。

上述研究構建的遷移學習模型均取得了較好的實體識別效果,但是尚未考察以醫學論文語料作為源領域訓練數據的模型效果。考慮到新冠疫情新聞是一種面向當下應急事件的即時信息資源,領域內尚缺乏大規模的標注語料,筆者融合模型遷移與深度學習方法,以醫學論文文本作為源領域數據集,基于學習效果較優的BERT-BiLSTM-CRF三層結構模型,訓練實體識別模型,并將模型應用于疫情新聞要素的識別。

3? 數據與方法

3.1? 數據來源及預處理

筆者選取澎湃新聞發布的新冠疫情專題系列報道作為新冠疫情新聞文本的數據來源。由于澎湃新聞在我國新聞媒體網站排行榜排名居于前列[33],其文章質量較高,用詞和句法較為規范和標準,因此適用于新聞要素抽取。基于模型遷移學習的思想,筆者確定以下兩個源領域訓練數據集:①微軟亞洲研究院(MSRA)數據集,是中文NER任務的常用數據集,其語料含27 000余個句子,在本研究中將其用于識別人名、地名、機構名3類基本要素的基本要素識別模型的訓練;②醫學文本數據集,來源為中國知網平臺新冠相關主題的中文醫學論文題錄數據,通過對論文題錄數據進行處理后獲得,其語料含12 000余個句子,用于識別疾病、癥狀、藥物、方法4類醫學要素的醫學要素識別模型的訓練。源領域數據集采用IOB格式進行實體標注,B表示對應類別實體的起始字符,I表示實體中的其他字符,O表示非實體字符,如B-PER表示人名實體的起始字符,I-METHOD表示方法實體中的非起始字符等。

筆者采用半監督的處理方法獲得帶標簽的醫學文本數據集,具體處理過程如下:①以“SU=新冠 + ‘新型冠狀病毒 + ‘武漢肺炎 + ‘2019-ncov +covid-19”作為檢索式,使用中國知網專業檢索功能,搜索醫藥衛生科技分類下發表時間在“2020-02-01”后的中文論文,將檢索結果顯示的6 000條論文題錄數據批量下載并保存;②提取題錄數據中的關鍵詞字段,人工對關鍵詞進行實體類別標注,共得到530個標注后的關鍵詞數據;③使用知網(Hownet)近義詞詞典,結合人工補充的方式,將原詞的近義詞標注為與原詞相同的類別并補充入關鍵詞集,擴充后的關鍵詞集包含607個關鍵詞;④提取題錄數據中的全部摘要字段,通過最大匹配算法,使用標注關鍵詞集匹配摘要文本中的句子,從而生成包含12 000余個含醫學實體句子的醫學文本語料。應用這種處理方法,只需要人工標注少量關鍵詞,便能夠匹配獲得大量包含實體的句子,大大減少了人工標注的時間開銷。

3.2? 研究框架

為實現新冠疫情新聞要素的自動化識別及抽取,筆者設計了研究框架,見圖1。①首先,進行數據集的準備和預處理工作。分別收集MSRA數據集、醫學論文題錄數據以及新冠疫情新聞文本數據,然后人工標注醫學論文題錄數據中關鍵詞的實體類別,并拓展關鍵詞數量,隨后利用拓展后的關鍵詞集匹配論文摘要集中的句子,得到帶有訓練標簽的醫學文本數據集。②基于源領域數據集訓練遷移要素識別模型。使用BERT-BiLSTM-CRF三層結構模型,分別基于MSRA數據集和醫學文本數據集訓練得到能夠識別人物、地點、機構要素的基本要素識別模型COV19News-Base和能夠識別疾病、癥狀、藥物、方法要素的醫學要素識別模型COV19News-Med,并抽取原數據集中一定比例的樣本作為測試集,以檢驗模型的識別效果。③將要素識別模型應用于新冠疫情新聞文本領域的要素識別。人工標注新冠疫情新聞文本中的部分句子作為目標領域測試集,分別檢驗將模型COV19News-Base和模型COV19News-Med應用于新冠疫情新聞要素識別的遷移效果。④最后,基于新聞要素構建要素關聯圖譜。使用COV19News-Base和COV19News-Med的模型組合抽取大量疫情新聞文本要素,結合基于規則抽取的新聞時間要素,構建新冠疫情新聞要素關聯數據,并以知識圖譜的形式展現各要素之間的關聯關系,以達到直觀揭示新聞主要內容的目的。

基于此,筆者將主要解決以下3個重要問題:

(1)多類別要素的識別問題。將劃分多個要素識別任務,基于命名實體識別和規則識別方法,分別對新冠疫情新聞中的基本要素、醫學要素與時間要素進行識別。

(2)數據冷啟動問題。引入模型遷移學習,利用源領域充足的標注數據訓練可遷移的NER模型,并將其應用于疫情新聞領域的要素識別,從而解決了目標領域標注數據不充足的問題。

(3)疫情新聞要素的利用問題。將提出的要素識別方法應用于大量無標簽的疫情新聞文本,并將識別的要素及要素間的共現關系以疫情新聞要素關聯數據的形式存儲。基于此,進一步以要素關聯圖譜的形式可視化展現要素間的關聯關系,從而揭示疫情新聞的主要內容。

3.3? 新冠疫情新聞要素分類

筆者試圖實現8類疫情新聞要素的自動識別和抽取,8類要素的名稱及示例見表1。其中,時間、人物、地點、機構4類要素是描述新聞內容的基本要素。此外,新冠疫情主題的新聞文本往往還包含疾病名稱、發病癥狀、藥物名稱、診斷或治療方法的名稱等醫學要素。對于具體識別哪些類別的醫學要素,可借鑒前人研究的經驗。在2019年全國知識圖譜與語義計算大會(CCKS)醫療命名實體識別任務中,醫療命名實體被劃分為6類:疾病和診斷、檢查、檢驗、手術、藥物、解剖部位[20];2017年CCKS定義了4類醫學實體:身體部位、癥狀和體征、檢查和檢驗、疾病和診斷[34];趙青等、夏光輝等將醫療實體劃分為疾病、癥狀、檢查、治療4類[35-36]。由上述研究總結,醫學實體總共包括5類:疾病名稱、癥狀體征、藥物、檢查和治療方法以及身體部位。但身體部位實體在新聞領域語境下往往具有除患病部位以外的含義,如“握手言和”中的“手”“嘴上說說”中的“嘴”等并非指代患病部位,不屬于描述新聞內容的關鍵要素,因此識別身體部位實體對提取新聞要點的意義不大。綜上所述,筆者最終確定將疾病、癥狀、藥物、方法4類要素作為待識別的醫學要素。

筆者通過多個任務識別各類疫情新聞要素。對于除時間要素以外的7類要素,采取命名實體識別方法對其進行識別,基于BERT-BiLSTM-CRF模型分別訓練基本要素識別模型和醫學要素識別模型;對于時間要素,采取基于規則的識別方法,通過構建正則表達式,匹配并獲取新聞文本中的時間要素。匹配時間要素的正則表達式模板如公式(1)所示:

3.4? 基于遷移學習的COV19News模型訓練

由于疫情新聞領域尚缺乏可供NER模型訓練的標注數據,筆者采用融合遷移學習的模型訓練方法,分別基于MSRA數據集和醫學文本數據集訓練模型COV19News-Base和模型COV19News-Med,并將上述模型應用于疫情新聞文本中各類要素的識別。為了檢驗不同模型的識別效果,分別對MSRA數據集和醫學文本數據集進行訓練集、測試集的劃分,以供模型COV19News-Base和模型COV19News-Med在源領域的訓練和檢驗;并從新聞文本中分別抽取并標注100個包含基本要素和醫學要素的句子,作為模型的目標域測試集。

在進行模型訓練前,對源領域訓練集、源領域測試集和目標領域測試集中的實體數量進行統計,統計結果見表2,其中模型COV19News-Base的源領域數據集為MSRA數據集,模型COV19News-Med的源領域數據集為醫學文本數據集,兩模型的目標領域測試集均為新聞文本中抽取的句子。從表2中可以發現,源領域數據集存在不同程度的實體分布不均衡現象,MSRA數據集中地名實體明顯多于人名和機構名實體,而醫學文本數據集中疾病實體更遠多于其他3類實體,這是由于來自醫學論文的標注關鍵詞集中大部分關鍵詞屬于疾病實體,主要包括新冠的大量別稱,因此造成了匹配實體數量分布不均勻的問題。從目標領域測試集實體分布的角度看,人名、地名、機構名3類實體分布較為均勻,而醫學實體中疾病實體仍然是出現頻率最高的實體,這與新冠疫情新聞的特點有關(報道中包含較多新冠的指代與別稱)。實體分布的不均衡是否會影響模型效果有待實驗考證。此外,醫學文本數據集的規模相對MSRA數據集較小,因此可供訓練的實體數量相對較少,可能會對模型效果造成影響,具體有待后續探究。

基于BERT-BiLSTM-CRF模型,使用上述訓練數據分別訓練模型COV19News-Base和模型COV19News-Med。BERT采用多層的雙向Transformer[37]編碼器結構,能夠捕捉長距離上下文的語義特征,從而得到較為精確的文本向量;BiLSTM采用二重逆序的LSTM網絡,能夠充分學習向量間雙向的語義關系;CRF則能夠依照序列標簽的約束規則,輸出全局最優的標記序列。因此,采用BERT-BiLSTM-CRF模型進行模型訓練,在模型表示層、網絡層和輸出層均能取得較優的學習效果,適用于COV19News模型的訓練。模型訓練完畢后,分別基于源領域和目標領域測試集對模型效果進行檢驗,檢驗結果見實驗結果與分析部分。

3.5? 疫情新聞要素的知識圖譜構建

在利用上述模型實現對疫情新聞要素的識別和提取后,進一步構建疫情新聞要素的知識圖譜,可視化展現要素間的關聯關系。

考慮到疫情新聞要素之間存在關聯關系,并且要素間的關聯能夠揭示新聞的主體事件,因此對新聞要素關聯關系的挖掘有助于推斷疫情新聞的主要內容,對讀者理解新聞內容具有重要的意義。首先將整篇新聞文本劃分為句子的集合,然后將在同一句子中出現的要素記為共現一次,由此計算兩兩要素的共現頻次,以“要素A-要素B-共現頻次”的格式保存為數據文件,作為疫情新聞要素的關聯數據。疫情新聞要素關聯數據描述了要素間的關聯關系以及關聯關系的強度,為疫情新聞要素知識圖譜的構建提供了數據支撐。

疫情新聞要素知識圖譜能夠清晰、直觀地展現要素關聯及其強度,有助于讀者定位新聞中的關鍵要素,進而推斷新聞的主要內容。因此,基于新聞要素關聯數據,以要素作為節點,兩要素的共現頻次作為兩節點連線的權重,進一步構建疫情新聞要素的關聯數據知識圖譜。筆者使用網絡分析軟件Gephi繪制疫情新聞要素關聯知識圖譜,見圖2。由圖2可知,新聞中與其他要素關聯較為緊密的關鍵要素得到了突出顯示,并且根據要素間的關聯關系,讀者能夠聯系各個要素,對新聞的主要內容進行推斷。

4? 結果與分析

4.1? 實驗環境及模型參數設置

模型的訓練、測試和遷移全部在裝載6GB顯存的NVDIA GeForce RTX 2060顯卡、內存16GB、操作系統為Windows10的個人計算機中進行,模型運行環境為Python3.5 + Tensorflow1.12GPU版,CUDA版本為10.2。BERT-BiLSTM-CRF模型的部分參數如表3所示:

4.2? 模型COV19News-Base的測試與遷移

筆者采用精確率(Precision, P)、召回率(Recall, R)以及二者的調和平均值(F1-measure, F1)評估模型的識別效果。對于通常包含多個單字的實體,當且僅當模型輸出的實體標簽序列與原標注序列完全相同時,記為正確識別實體,否則記為錯誤識別。在后續實驗中,OP、OR、OF1分別表示模型在源領域的P、R、F1值,TP、TR、TF1分別表示模型在目標領域的P、R、F1值。

基于MSRA數據集訓練模型COV19News-Base,源領域和目標領域的測試集表現如圖3所示。由圖可知:①由于同領域的訓練集和測試集的實體分布特征較為一致,因此模型在源領域測試集上表現出較優的識別效果,3類實體的F1值均在90%以上。②模型遷移至目標領域后,3類實體的識別效果均出現了不同程度的下降,但F1值仍能保持在80%以上。考慮到疫情新聞領域文本與MSRA數據集在實體分布上存在差異,遷移后模型識別效果的略微下滑符合預期。③對3類實體的識別效果進行相比,人物實體的識別效果最優,其次是地點實體,機構實體的識別效果最差。地點和機構實體的平均長度通常大于人物實體,其識別難度也相對更大,因此模型對不同實體的識別效果存在差異。④雖然地點實體在源數據集中的出現頻率高于其他兩類實體,但其識別效果并未更優,這說明訓練集中實體的不均衡分布并未影響模型效果。

4.3? 模型COV19News-Med的測試與遷移

復原模型的基礎參數,基于醫學文本數據集訓練模型COV19News-Base,源領域和目標領域的測試集表現如圖4所示。可以發現:? ? ? ? ①模型在源領域測試集的表現仍然較優,4類醫學實體的識別F1值均在90%以上,表明BERT-BiLSTM-CRF框架具有較強的表征和學習能力,對于不同領域的數據均能夠保持較好的擬合效果。②雖然醫學文本數據集相較MSRA數據集規模較小,但在源領域測試集的表現并未落后,說明在數據規模量級達標的前提下,投入相對少量的樣本也能使模型取得較好的訓練結果,不會影響模型效果。③將模型遷移至目標領域后,各類實體的識別效果出現了不同程度的下滑,但除藥物實體外,其他3類實體的F1值仍能保持在80%以上,較符合預期。識別效果下降是因為各類實體在目標領域測試集的召回率表現較差,可能因為醫學論文文本與疫情新聞文本中醫學實體的分布特征存在較大差異,導致模型遷移后的泛化效果不夠理想,使得一部分目標領域中存在但未能被模型學習的實體難以被識別。盡管如此,遷移后的模型依然能保證較高的識別精確率。④在源領域數據集中,疾病實體的數量遠超出其他3類實體,疾病實體在源領域和目標領域測試集的表現也最優,但在目標領域測試集的F1值與癥狀、方法兩類實體相比差距已不明顯。這表明,雖然極不均衡的實體分布可能會對某類實體在源領域的識別起積極作用,但是未必對該類實體在目標領域的表現產生較大影響,后者仍然與目標領域的實體分布特征有關。

上述實驗結果表明,基于遷移學習方法訓練得到的NER模型,對于目標領域疫情新聞要素的識別具有較好的效果。為展示所提出方法的識別效果,筆者在疫情新聞文本中隨機選取多個包含多類要素的句子,使用模型COV19News-Base和模型COV19News-Med對其中要素進行識別,并基于時間要素的表述規則構建正則表達式模板,匹配并識別句子中的時間要素,最后將多個任務的識別結果匯總,部分結果如表4所示:

4.4? 新冠疫情新聞要素知識圖譜的構建

基于上述疫情新聞要素的識別方法,提取新聞要素并構建要素關聯數據,進而構建新冠疫情新聞要素的關聯知識圖譜。以一篇標題為《家屬口述|一個“重癥肺炎”患者的最后12天》的新聞報道為例,構建其要素知識圖譜,如圖5所示:

由圖5可知,該篇新聞主要涉及時間、人物、地點、機構、疾病要素,其中“翁秋秋”“武漢”“肺炎”為重要要素。結合要素關聯情況推斷,該篇新聞的主要內容為黃岡市民翁秋秋身患新冠,并于黃岡市中醫院接受治療。可見,疫情新聞要素的關聯知識圖譜能夠有效幫助讀者確定新聞重點以及推斷新聞主要內容,因此有潛力成為面向新冠疫情突發事件的新型知識服務。

5? 結論

筆者提出了一種多任務環境下融合遷移學習與深度學習技術的疫情新聞要素識別方法,為應急事件下公民的信息獲取提供了可行的服務方案。首先,結合命名實體識別與規則識別方法,通過多個任務對多類別的新聞要素進行識別。同時,為解決疫情新聞領域數據冷啟動的問題,采用模型遷移的解決方案,從而得到識別效果較好的跨領域要素識別模型。最后,將識別方案應用于大量新冠疫情新聞文本,基于識別到的新聞要素構建要素關聯數據知識圖譜,從而幫助新聞讀者直觀、快速地發掘新聞關鍵要素及主要內容。

通過對模型測試和遷移的效果進行比較,得到以下結論:①BERT-BiLSTM-CRF三層結構模型適用于不同領域的命名實體識別任務,且源領域各類實體識別的F1值均在90%以上;②將模型由源領域遷移至目標領域后,模型的識別效果有下降趨勢,但尚保持在可接受的范圍內,大部分實體識別的F1值均在80%以上;③若源領域訓練數據中實體分布極不均衡,可能導致對某類實體的過度學習,在源領域中對該類實體的識別效果遠優于其他實體,但是否會影響目標領域實體的識別仍有待后續研究。

綜上所述,筆者提出的基于遷移學習的要素識別方法對于新冠疫情新聞要素具有較優的識別效果。但本研究尚存在部分類別實體識別率較低等問題。在后續研究中,將重點考慮將實例遷移與模型遷移相結合,使訓練域與目標域的實體分布更加接近,從而提升模型在目標領域的識別效果。

參考文獻:

[1] 王巖, 蒿興華, 薛鵬. 基于共詞分析和社會網絡分析的關聯數據知識圖譜構建分析[J]. 數字通信世界, 2020(6):148-150.

[2] 陶潔. 基于新聞文本的關鍵詞提取[D]. 武漢: 華中師范大學, 2019.

[3] 陶天一, 王清欽, 付聿煒, 等. 基于知識圖譜的金融新聞個性化推薦算法[J/OL]. 計算機工程, 2020: 1-10 [2020-09-12]. https://doi.org/10.19678/j.issn.1000-3428.0057446.

[4] 裴韜, 郭思慧, 袁燁城, 等. 面向公共安全事件的網絡文本大數據結構化研究[J]. 地球信息科學學報, 2019, 21(1):2-13.

[5] 吉雷靜. 面向網頁文本的地理信息變化語義檢測方法研究[D]. 南京: 南京師范大學, 2013.

[6] 伏愷. Web新聞文本信息抽取與可視化研究[D]. 濟南: 山東財經大學, 2017.

[7] KRSTEV C, OBRADOVIC I, UTVIC M, et al. A system for named entity recognition based on local grammars[J]. Journal of logic and computation, 2014, 24(2):473-489.

[8] 楊建林, 王文龍. 公共衛生類突發事件的抽取研究[J]. 情報理論與實踐, 2016, 39(4) :51-59.

[9] KUCUK D, YAZICI A. A hybrid named entity recognizer for Turkish[J]. Expert systems with applications, 2012, 39(3):2733-2742.

[10] SEKER G A, ERYIGIT G. Extending a CRF-based named entity recognition model for Turkish well formed text and user generated content[J]. Semantic Web, 2017, 8(5):625-642.

[11] 吳偉成. 基于恐怖襲擊事件語料庫的時間短語抽取研究[D]. 南京: 南京大學, 2016.

[12] CHASIN R, WOODWARD D, WITMER J, et al. Extracting and displaying temporal and geospatial entities from articles on historical events[J]. Computer journal, 2014,57(3):403-426.

[13] 李玉超. 新聞事件地名實體識別和地圖鏈接技術研究[D]. 成都: 電子科技大學, 2020.

[14] WICHMANN P, BRINTRUP A, BAKER S, et al. Extracting supply chain maps from news articles using deep neural networks[J]. International journal of production research, 2020, 58(17):5320-5336.

[15] XU J G, GUO L X, JIANG J, et al. A deep learning methodology for automatic extraction and discovery of technical intelligence[J]. Technological forecasting and social change, 2019, 146 :339-351.

[16] 王昊, 鄧三鴻, 朱立平, 等. 大數據環境下政務數據的情報價值及其利用研究——以海關報關商品歸類風險規避為例[J]. 科技情報研究, 2020, 2(4):74-89.

[17] DONG X S, CHOWDHURY S, QIAN L J, et al. Deep learning for named entity recognition on Chinese electronic medical records: combining deep transfer learning with multitask bi-directional LSTM RNN[J]. PLOS one, 2019, 14(5):1-15.

[18] 肖連杰, 孟濤, 王偉, 等. 基于深度學習的情報分析方法識別研究——以安全情報領域為例[J]. 數據分析與知識發現, 2019, 3(10):20-28.

[19] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL].[2020-09-12]. https://arxiv.org/abs/1810.04805.

[20] 李靈芳, 楊佳琦, 李寶山, 等. 基于BERT的中文電子病歷命名實體識別[J]. 內蒙古科技大學學報, 2020, 39(1):71-77.

[21] 吳俊, 程垚, 郝瀚, 等. 基于BERT嵌入BiLSTM-CRF模型的中文專業術語抽取研究[J]. 情報學報, 2020, 39(4):409-418.

[22] 劉忠寶, 黨建飛, 張志劍.《史記》歷史事件自動抽取與事理圖譜構建研究[J]. 圖書情報工作, 2020, 64(11):116-124.

[23] YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks? [EB/OL]. [2020-09-12]. https://arxiv.org/abs/1411.1792.

[24] 陳美杉, 夏晨曦. 肝癌患者在線提問的命名實體識別研究:一種基于遷移學習的方法[J]. 數據分析與知識發現, 2019, 3(12):61-69.

[25] 李號號. 基于實例的遷移學習技術研究及應用[D]. 武漢: 武漢大學, 2018.

[26] 陳文珺, 楊佳佳. 基于共享知識遷移學習的跨領域推薦研究[J]. 情報科學, 2020, 38(6):126-132.

[27] GLIGIC L, KORMILITZIN A, GOLDBERG P, et al. Named entity recognition in electronic health records using transfer learning bootstrapped neural networks[J]. Neural networks, 2020, 121 :132-139.

[28] KUNG H K, HSIEH C M, HO C Y, et al. Data-augmented hybrid named entity recognition for disaster management by transfer learning[J]. Applied sciences-basel, 2020, 10(12):1-17.

[29] 邵明銳, 馬登豪, 陳躍國, 等. 基于社區問答數據遷移學習的FAQ問答模型研究[J]. 華東師范大學學報(自然科學版), 2019(5):74-84.

[30] Al-SMADI M, Al-ZBOON S, JARARWEH Y, et al. Transfer learning for Arabic named entity recognition with deep neural networks[J]. IEEE access, 2020,8:37736-37745.

[31] 劉宇飛, 尹力, 張凱, 等. 基于深度遷移學習的技術術語識別——以數控系統領域為例[J]. 情報雜志, 2019, 38(10):168-175.

[32] 孔祥鵬, 吾守爾·斯拉木, 楊啟萌, 等. 基于遷移學習的維吾爾語命名實體識別[J]. 東北師大學報(自然科學版), 2020, 52(2):58-65.

[33] 站長之家. 新聞媒體網站排行榜[EB/OL]. [2020-09-30]. https://top.chinaz.com/hangye/index_news.html.

[34] 李飛, 朱艷輝, 王天吉, 等. 基于醫療類別的電子病歷命名實體識別研究[J]. 湖南工業大學學報, 2018, 32(4):61-66.

[35] 趙青, 王丹, 徐書世, 等. 一種基于RNN的弱監督中文醫療實體識別方法[J/OL]. 哈爾濱工程大學學報, 2020:1-10[2020-09-12]. http://kns.cnki.net/kcms/detail/23.1390.U.20200330.1522.002.html.

[36] 夏光輝, 李軍蓮, 邢寶坤, 等. 基于中文病例報告文獻的醫學診療命名實體識別研究[J]. 醫學信息學雜志, 2019, 40(6):54-59.

[37] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2020-09-12]. https://arxiv.org/abs/1706.03762.

作者貢獻說明:

趙梓博:負責完成實驗,撰寫論文初稿;

王昊:指導研究思路,核查論文內容并提出修改意見;

劉友華:負責整理實驗結果,審查異常數據指標并提出改進策略;

張衛:提供有關可視化方法、工具的指導建議,并參與修改終稿;

孟鎮:負責修改終稿。

主站蜘蛛池模板: 伊大人香蕉久久网欧美| 国产精品性| 久久青草免费91线频观看不卡| 欧美精品在线观看视频| 欧美福利在线播放| 国产乱码精品一区二区三区中文| 国产99在线观看| 国产午夜福利在线小视频| 亚洲成人免费在线| 亚洲国语自产一区第二页| 亚洲国产亚洲综合在线尤物| 亚洲伊人电影| 国产精品毛片在线直播完整版| 久久久噜噜噜| 久热中文字幕在线观看| 亚洲第一成网站| 露脸真实国语乱在线观看| 久久久久亚洲精品成人网| 亚洲无码一区在线观看| 欧美成人a∨视频免费观看 | 久久精品无码一区二区国产区| 国产精品任我爽爆在线播放6080| 久久人妻xunleige无码| 国产精品无码久久久久AV| 国内丰满少妇猛烈精品播| 日韩国产 在线| 久久频这里精品99香蕉久网址| 人妻精品久久久无码区色视| 久久综合色88| AV在线麻免费观看网站| 精品国产Av电影无码久久久| 国产男人的天堂| 美美女高清毛片视频免费观看| 日韩国产精品无码一区二区三区| 小13箩利洗澡无码视频免费网站| 欧美精品在线看| 精品免费在线视频| 91香蕉视频下载网站| 欧美性色综合网| 伊人精品视频免费在线| 不卡的在线视频免费观看| 亚洲欧美综合在线观看| 欧美激情综合| 国产日本视频91| 婷婷综合色| 欧美综合区自拍亚洲综合绿色 | 爽爽影院十八禁在线观看| 欧美三级不卡在线观看视频| 天天躁夜夜躁狠狠躁图片| 99热6这里只有精品| 91久久国产综合精品女同我| 大学生久久香蕉国产线观看| 国产肉感大码AV无码| 欧美日韩北条麻妃一区二区| 免费a在线观看播放| 亚洲精品天堂自在久久77| 91福利在线观看视频| 国产精品视频第一专区| 高潮毛片免费观看| 三级视频中文字幕| 全午夜免费一级毛片| av一区二区三区高清久久| 99视频国产精品| 这里只有精品国产| 成人毛片免费在线观看| 国产成熟女人性满足视频| 极品国产一区二区三区| 91国内视频在线观看| 国产一区亚洲一区| 免费在线看黄网址| 国产激爽爽爽大片在线观看| 成人国产精品视频频| a毛片在线播放| 国产精品永久在线| 99热这里只有精品久久免费| 午夜福利无码一区二区| 欧美特黄一级大黄录像| 国产99久久亚洲综合精品西瓜tv| 久久黄色一级视频| 一本一本大道香蕉久在线播放| 91精品人妻一区二区| 国外欧美一区另类中文字幕|