999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《黃帝內經》文本語料庫的構建與應用研究*

2022-12-16 09:22:50石玉敬劉偉葛曉舒胡為劉弋蓮易洋
計算機時代 2022年12期
關鍵詞:深度效果方法

石玉敬,劉偉,葛曉舒,胡為,劉弋蓮,易洋

(1.湖南中醫藥大學信息科學與工程學院,湖南 長沙 410208;2.湖南中醫藥大學中醫學院)

0 引言

中醫古籍是中醫藥學“傳承精華,守正創新”的根脈。《黃帝內經》作為中醫古籍的經典之作,在中醫研究者的中醫學習和臨床實踐中都起到十分重要的作用。然而,古代漢語中單字詞、一詞多義的現象很多,且不同時期的中醫古籍也存在差異,導致對中醫古籍進行分析和挖掘變得十分困難。目前在中醫自然語言處理領域缺乏一些高質量的中醫古籍語料庫,如何構建優質中醫古籍語料庫以及基于語料庫進行數據挖掘,是中醫自然語言處理中的重要研究課題。本文將構建《黃帝內經》專用分詞、詞性標注語料庫并對其進行自動分詞研究,探究更高效、穩定、快速的中醫古籍分詞方法。

1 實驗數據

1.1 語料庫的構建與來源

本文以《黃帝內經》為初始語料,在湖南中醫藥大學醫史文獻教研室《醫古文》、《內經選讀》等課程的多名主講教師指導下,采用八位中醫學專業高年級本科生人工標注的156,507 字的《黃帝內經》全文作為初始研究語料庫。本文構建的語料庫是國內首個人工標注的集詞性標注和分詞一體的《黃帝內經》中醫古文語料庫,能夠給后續中醫古文分詞、命名實體識別和大規模中醫古籍語料庫的構建等一系列中醫自然語言處理研究工作奠定基礎。

2 分詞方法和研究背景

2.1 分詞研究背景

分詞是中文自然語言處理研究的重要組成部分之一。目前分詞處理的方法有三類,分別是基于詞典和規則的分詞方法、基于統計的分詞方法和基于深度學習的分詞方法。

文獻[1,2]采用基于詞典和規則的分詞方法,雖然使用取得了良好的效果,但是模型的泛化能力較差。由此可見基于規則和詞典的分詞方法有一定效果但是局限性較大。文獻[3,4]采用基于統計的方法進行分詞實驗均取得不錯的效果,這說明基于統計的方法,在語料庫相對較小的情況下,分詞結果較為出色。隨著硬件更新和算法的突破,基于神經網絡[5-7]的分詞方法已經是大勢所趨。文獻[8-10]使用了深度學習的分詞方法,分詞效果與非深度學習的方法相比,效果有了質的飛躍。由此可見,深度學習用于分詞領域的效果與其他方法相比具有較大的優越性。

2.2 預訓練模型

預訓練模型是在一個原始任務上預先訓練一個初始模型,然后在目標任務上使用該模型,針對目標任務的特性,對該初始模型進行精調,從而達到提高目標任務的目的。Google 在2018 年提出預訓練模型BERT[11](Bidirectional Encoder Representation from Transformers),BERT 一經推出便打破了各項自然語言處理任務的榜單,并廣泛應用于各個自然語言處理研究之中,許多后續研究一般也以BERT 模型為基礎進行改進。其中RoBERTa-wwm[12]是最出色的改進模型之一,RoBERTa-wwm 與BERT 相比具有兩方面優勢,第一是RoBERTa預訓練模型具有更大的訓練集的優越性,第二是基于全詞掩碼的中文訓練方式,能夠有效提高自然語言處理任務的準確率。因此本文選擇RoBERTa-wwm 模型代替BERT 模型進行分詞研究。

2.3 BiLSTM-CRF

BiLSTM 層的輸出是一個概率矩陣,這個概率矩陣由BiLSTM 基于每個時刻上的最優結果得到,但是這樣輸出的標簽并沒有把前一個標簽對后一個標簽的影響考慮進去。例如,假如輸入序列中出現了“黃帝”一詞,其中“黃”為詞首,“帝”為詞尾,模型有可能將“黃”和“帝”都預測為詞首,而根據標注規則詞首之后只能出現詞中和詞尾,所以這明顯不符合分詞標注規則。針對這種情況,文獻[13]在BiLSTM 層后引入CRF(Conditional Random Field)層,CRF 層通過隨機變量作為輸入來輸出隨機變量的條件概率分布的一種算法。對于標簽分類問題,CRF 由于能夠充分考慮標簽與標簽之間的依賴關系,從而避免標注偏置問題。其整體結構如圖1所示。

圖1 BiLSTM-CRF模型結構圖

2.4 RoBERTa-wwm-BiLSTM-CRF

綜上所述,深度學習方法作為在分詞領域更好的方法,而預訓練模型在其他自然語言處理的應用都十分廣泛且效果更好,而使用預訓練模型進行分詞鮮有人研究,因此本文將相較BERT 模型表現更好的預訓練模型RoBERTa-wwm 與深度學習模型BiLSTMCRF(Bidirectional Long Short Term.Memory-Conditional Random Fields)結合,構建RoBERTawwm-BiLSTM-CRF 模型,創新性地將這一模型引入到分詞研究之中,并與當前主流分詞算法進行對比,探究更準確的中醫古籍分詞方法,從而驗證本文方法的優越性。

3 實驗與分析

3.1 評測標準

常用的用于評價分詞效果的性能統計參數包括真陽性(True Positive,TP),假陽性(False Positive,FP),真陰性(True Negatives,TN),假陽性(False Negative,FN),精確率(Precision,P=TP/(TP+FP))和召回率(Recall,R=TP/(TP+FN))以及F1值(F1-mesure,F1=2×P×R)/(P+R))。由于F1 值較為客觀全面地描述了分詞準確性,所以本文主要采用F1值作為模型性能的評判標準。

3.2 超參數設置

BERT模型為BERT-Base-Chinese版本,RoBERTawwm 版本為RoBERTa-wwm-ext-Chinese,實驗相關超參數設置如表1所示。

表1 實驗超參數取值表

3.3 分詞實驗設計

本文將《黃帝內經》語料庫中的80%作為訓練集,20%作為測試集。使用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF算法來進行對比實驗。此外,為了體現本文所構建的《黃帝內經》語料庫并基于此語料庫構建的分詞模型在中醫古籍分詞方面的優越性,同時與第三方古文分詞庫“甲言”進行實驗結果對比。各模型在《黃帝內經》語料庫上的識別效果如表2所示。

表2 分詞效果對比表

3.4 實驗結果分析

從表2可以看出,CRF的效果明顯優于HMM。因為CRF 通過計算全局最優輸出節點的條件概率來得到全局最優,而HMM 得到的可能是局部最優。CRF概率歸一化較為合理,HMM 可能會導致標簽偏置問題。綜上所述,CRF 的分詞效果明顯好于HMM。“甲言”利用HMM 算法進行分詞,由于其語料庫包含部分中醫古籍,所以分詞效果好于HMM 模型,但是不及CRF與深度學習模型。

而深度學習分詞準確率明顯高于傳統機器學習方法,這是因為BERT 和BiLSTM 對字符的特征的提取有著優秀的性能,能夠學習到更多的文本特征,故深度學習與機器學習方法相比優勢較為明顯。BERT-BiLSTM-CRF 的分詞效果優于BiLSTM-CRF。是由于BiLSTM 使用word2vec 訓練詞向量,該方法會受到未登錄詞的影響。針對于本文使用的領域特征明顯的中醫古籍,大部分中醫相關詞匯出現次數不多,導致了word2vec 模型進分詞的受影響程度較大,而BERT 使用基于字的編碼方式,細化了編碼單元,極大地避免了未登錄詞的影響,同時借助于大量無監督語料的訓練所以算法性能優于BILSTM。而RoBERTa-wwm-BiLSTM-CRF 模型效果最佳,這是由于RoBERTa-wwm 與BERT 相比,有更大的模型參數量、更大bacth size、更多的訓練數據,同時RoBERTa-wwm 模型將BERT字符級掩碼替換為詞級掩碼,可進一步提升分詞能力。所以RoBERTa-wwm-BiLSTM-CRF 明顯優于其他分詞模型,這也充分證明其優越性。

4 結束語

本文首先構建了國內首個《黃帝內經》人工標注的集命名實體、詞性標注和分詞一體的中醫古文語料庫,為后續構建大規模中醫古籍語料庫奠定基礎。此外,本文對《黃帝內經》進行系統性分詞研究,為今后《黃帝內經》的智能分析和知識提取研究提供參考。

在分詞研究方面,本文系統研究和比較了不同算法下《黃帝內經》中的分詞效果。實驗結果表明,RoBERTa-wwm-BiLSTM-CRF 分詞的效果最佳。與以往最佳研究相比,P 值、R 值和F1 值分別提高了1.54%、1.16%和1.35%。本文所提方法解決了中醫古籍分詞識別效果一般的現狀,但是由于古文中存在大量單字詞等問題,這導致中醫古籍分詞研究與現代文分詞研究相比還存在差距。同時,深度學習模型的好壞與標注語料庫大小密切相關,在后續研究中還將繼續增加人工標注的訓練語料,從而使得中醫古籍分詞效果更好。

中醫古籍語料庫的構建和中文分詞研究只是中醫自然語言處理的基礎性工作。后續將會基于分詞結果開展《黃帝內經》的命名實體識別研究和知識圖譜的構建研究,同時加強中醫古籍文本語料庫的建設,并構建中醫古籍專用分詞詞典和中醫古籍專用詞向量,深入挖掘和抽取蘊含在中醫古籍中的知識和經驗。

猜你喜歡
深度效果方法
按摩效果確有理論依據
深度理解一元一次方程
迅速制造慢門虛化效果
深度觀察
深度觀察
深度觀察
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 极品尤物av美乳在线观看| 国产区精品高清在线观看| 色悠久久综合| 亚洲日本中文字幕乱码中文| 亚洲一级无毛片无码在线免费视频| 久久国产乱子| 日韩一区二区三免费高清| 伊人成人在线| 91精品国产福利| 国产又色又爽又黄| 国产美女丝袜高潮| 国产乱子伦视频在线播放| 92精品国产自产在线观看 | 国产激爽大片高清在线观看| 国产女人在线| 亚洲成人77777| 国产精品第一区在线观看| 亚洲黄色视频在线观看一区| 日韩第九页| 国产经典在线观看一区| 亚洲视频在线网| 国产精品久久久精品三级| 欧美激情视频二区| 蝌蚪国产精品视频第一页| 国产打屁股免费区网站| 99热最新网址| 国产欧美在线观看精品一区污| 99re66精品视频在线观看| 午夜视频免费一区二区在线看| 日韩在线永久免费播放| 亚洲综合在线最大成人| 第一区免费在线观看| 国产丝袜91| 国产成人精品一区二区| 欧类av怡春院| 无码专区国产精品第一页| 国产成人无码AV在线播放动漫 | 喷潮白浆直流在线播放| 亚洲国产日韩一区| 久久久久亚洲精品成人网| 国产AV毛片| 毛片视频网址| 亚洲国产av无码综合原创国产| 伊在人亞洲香蕉精品區| 香蕉视频在线观看www| 亚洲视屏在线观看| 97亚洲色综久久精品| 亚洲成人播放| 亚洲av中文无码乱人伦在线r| 国产乱人伦偷精品视频AAA| 亚洲一区免费看| 亚洲精品无码不卡在线播放| 成人国产小视频| 国产精品亚洲片在线va| 久操线在视频在线观看| 午夜啪啪福利| 国产一在线| 亚洲大学生视频在线播放| 三区在线视频| 国产乱人伦精品一区二区| 国产在线91在线电影| 成年A级毛片| 日韩精品成人网页视频在线| 国产欧美日韩精品综合在线| 亚洲成人精品在线| 久久婷婷五月综合97色| 亚洲天堂网视频| 国产原创自拍不卡第一页| 波多野结衣中文字幕一区二区| 久久精品中文无码资源站| 区国产精品搜索视频| 国禁国产you女视频网站| 又大又硬又爽免费视频| 亚洲欧美不卡| 国产精品手机在线观看你懂的 | 日本三级欧美三级| 91精品国产无线乱码在线| 精品国产一二三区| 特级精品毛片免费观看| 国产精品久久久久久久久kt| 91高清在线视频| 凹凸国产熟女精品视频|