999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的中醫學派文本分類研究

2018-06-06 00:54:52
中華醫學圖書情報雜志 2018年12期
關鍵詞:分類文本方法

如何從巨大的數字化文本信息中提取有效的知識是大數據時代學術界研究的熱點內容[1-2]。隨著中醫數字化進程的不斷推進,眾多中醫古籍資料已完成數字化工作,如何運用大數據方法分析這些文本數據是一個值得探索的問題。

文本分類是自然語言處理領域中的一個重要研究方向,是運用計算機技術對文本數據按照一定的分類體系或標準進行自動分類標記的方法[3-4]。早期的文本分類技術主要適用于英文文本,具有使用價值的中文文本分類方法直到20世紀90年代末期才被提出,隨即在中文垃圾郵件分類、情感識別、意圖判別等領域成功應用,但針對中醫文本數據的分類研究較少[5-8]。本文通過自動提取不同中醫學派文獻資料的特征,采用LibSVM和LibLinear進行分類預測計算,探索一種基于純文本的中醫學派區分方法。

1 研究方法和平臺介紹

基于機器學習的文本分類通常包括特征提取、特征降維、分類器訓練3個步驟。在中文文本分類研究中,分類器的選擇較為重要,常用的分類器模型有貝葉斯[9]、邏輯回歸[10]、支持向量機[11]、決策樹[12]、神經網絡[13]等。近年來,支持向量機在文本分類中的應用取得了較為突出的進展。雖然其在大數據集訓練時會消耗大量時間和計算資源,但具有良好的泛化能力,在分類正確率和魯棒性上占有優勢。貝葉斯、邏輯回歸、決策樹等方法具有模型簡單、訓練及分類效率高等優點,但分類能力和魯棒性較弱,如果數據集的內容和分布不符合模型特點,模型的分類性能會顯著下降[14]。本文選擇Bigram分詞為數據預處理方法、TF-IDF為特征提取方法、Chi-square為特征降維方法、LibSVM和LibLinear為分類器。

1.1 Bigram方法

Bigram是N-Gram算法中的二元分詞方法,屬于馬爾科夫模型的一種。其原理是先根據用戶詞典對文本簡單匹配,找出所有的詞典詞,然后將文本內容切分為長度為2的字符串序列,每個字符串即為gram,對全部gram的出現頻度進行統計,并按照設定的閾值進行過濾,形成關鍵gram列表,即為該文本的分詞結果,具體語言模型如公式(1)所示[15]。

(1)

中文文本處理大多采用Bigram進行分詞,因為雙字詞出現概率較大,亦有采用三元Trigram或更高元方法進行分詞。由于高元模型訓練需要更龐大的語料,且數據稀疏嚴重,時間復雜度高,精度提高有限,故本文最終采用Bigram方法。

1.2 TF-IDF算法

詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)由TF和IDF兩部分組成,是常用的文本分類預處理基本步驟。當完成文本分詞后,通過TF-IDF算法和降維處理就可以使用各個文本的詞特征向量作為文本的特征進行文本分類。TF-IDF的主要思想是如果詞w在一篇文檔d中出現的頻率高,并且在其他文檔中很少出現,則認為詞w具有很好的區分能力,適合用來區分文檔d和其他文檔。該算法主要由公式(2)-(4)組成[16]。

tf(w,d)=count(w,d)/size(d)

(2)

(3)

tf-idf=tf(w,d)*idf

(4)

TF-IDF無法計算文本特征在文本數據中的上下文關系,特別是處理一些高頻特征時不考慮其在文中的作用,不能全面衡量某些特征的重要性,從而可能造成算法的正確率下降,但其具有處理速度快,算法模型易于實現且普適性較強等優勢,運行結果較符合實際情況。

1.3 Chi-square方法

通過Bigram和TF-IDF方法得到的原始特征向量具有極大的維度,需要進行降維處理,否則會帶來巨大的計算開銷并降低分類器的正確率。文本分類的降維方法主要分為基于特征選擇的降維和基于特征提取降維。由于本文使用TF-IDF算法,故首選基于特征選擇的降維方法。Chi-square是其中性能較好的算法之一,對于出現次數較少的特征更容易給出高分,尤其在特征數量較大的情況下,該算法的速度和正確率均較互信息法占優[17]。Chi-square最基本的思想是通過觀察實際值與理論值的偏差確定理論與實際的符合度,該方法認為最重要的特征向量是在A類(假設)樣本集合和非A類樣本集合中分布差異最大的,其數學本質即卡方分布[18]。

1.4 LibSVM和LibLinear方法

LibSVM[19]和LibLinear[20]是兩個流行的分類器模型,主要用于處理多分類問題和分布估計問題。LibSVM是基于完整的支持向量機模型,通過使用核函數訓練的非線性分類器,LibLinear是一種主要針對線性分類場景而設計的可顯著提高多分類問題處理效率的大規模數據集線性分類器。理論上,LibSVM具有更強的分類能力,應該能夠處理更復雜的問題,具有更高的正確率,但在處理大規模數據的性能上不如LibLinear。雖然LibSVM和LibLinear模型已經得到了諸多應用[21-23],但目前尚未發現在中醫藥領域的應用,故本文將同時觀察兩種模型,在中醫文本數據分類中的性能。

1.5 實驗平臺

本文的實驗平臺計算機配置為I7-6700K處理器,8GB內存配置,Windows 10 x64操作系統,搭建Java Platform Standard Edition 8環境,選用THUCTC_java_v1[24]作為運行環境。

2 實驗設計

2.1 研究思路與資料

中醫學派是由于學說師承不同而形成的群體和派別,是中醫發展中極為突出的醫學現象,但學派的區分方法目前尚未達成統一意見。

本文的主旨在于探索文本分類方法在中醫研究中的可行性。根據前期文獻調研的結果暫定以疾病和論述對象作為一種中醫學派的區分標準,以其代表性著作為主要研究資料,通過機器學習的文本分類方法加以區分。

根據以上思想,本文將構建一個文本分類模型,將納入的中醫文獻分為傷寒、外科、小兒、女科4類。納入的文獻均為純文本數字化文獻,均為已出版的中醫原文。具體類別及文獻目錄如表1、表2所示。

表1 納入文獻及類別

表2 預測文獻明細

2.2 實施步驟

首先構建中醫學派文本分類數據集。該數據集由表1中所列文獻的TXT文本文件組成,按照4個類別分別存放在4個不同的文件夾中,并共同放置在訓練文件夾下。第二步隨機選擇數據集中80%的數據作為訓練數據帶入Bigram算法進行分詞,分詞結果帶入TF-IDF算法提取特征,得到原始特征向量。第三步將原始特征向量降維,并將降維后的特征向量按降維時得到的權重從高到低排序,選取前5 000條特征納入LibSVM和LibLinear訓練分類器。 第四步將剩余20%的數據按照第二、第三步方法進行分詞、特征選擇和降維,把得到的結果放入訓練好的分類器中評估。設定評估正確率(Precision值)大于0.8時達到分類預測要求,若評估結果不理想則不斷調整參數進行優化。 第五步將表2中的文本數據依次放入模型中,從而得到相應的預測值。若某一分類的預測值大于0.6,則認定該分類為預測結果;若不能達到0.6,則認定為難以區分。

3 結果

3.1 模型訓練結果

納入數據集經過分詞和TF-IDF算法計算共提取97 357個特征詞,LibSVM訓練耗時0.125秒,LibLinear訓練耗時0.062秒,模型Precision值、Recall值和F值均達到0.8以上(表3)。

表3 分類器訓練結果

3.2 模型預測結果

經測算,除010號文獻的4種分類預測值出現偏差外,LibSVM與LibLinear預測趨勢高度一致,能夠明顯區分傷寒、外科、小兒、女科等不同流派的文本數據(表4)。

表4 基于機器學習的中醫學派文本分類結果

4 分析與討論

研究結果表明,本文使用的方法能夠在一定程度上理解中醫文獻的語義內涵,兩種分類器的正確率經訓練后均達到90%以上,具有一定的應用價值。LibSVM的正確率略高于LibLinear模型,與理論預計相符。由于本文納入訓練的數據量較少,很難對兩種模型的性能進行全面評價。

本次實驗測試數據主要選用了《古今圖書集成醫部全錄》中的部分內容,考慮到《古今圖書集成》的文獻涵蓋內容較廣且過于片段化,故又單獨選取整本《傷寒論》作為對比資料進行預測。根據文獻實際內容來看,分類器預測的正確率是可以接受的。編號1的文獻為單行本傷寒論,是后代傷寒學派的源頭。從預測值可以明顯看出,后代傷寒派文獻與《傷寒論》相關性極高,具有鮮明的特色;編號2的文獻內容主要涵蓋了內經相關書目及中醫基礎理論、中醫內科學相關的文獻,覆蓋面較廣,雜糅諸家內容,難以區分流派;編號3的文獻內容主要由外科、傷科文獻構成,內容較為單一,能夠提取出概率高的特征值,故分類結果明確而單一;編號4的文獻內容涵蓋了歷代醫家對婦女及孕婦的論著,理法方藥俱全,胎產及小兒相關內容間雜其中,故預測值偏低,但仍與其他學派有明顯不同;編號5的文獻內容主要涉及小兒胎產養護、生理病理特點和小兒各種疾病治療的內容,特征詞較為集中,故預測結果較為明確。

5 總結與展望

本文將基于機器學習的文本分類技術引入到中醫學派研究中,探索了基于古典文獻的中醫學派分類方法。該方法以計算機自動尋找文獻的特征詞匯入手,訓練并構建的中醫學術流派分類器能夠明顯提升研究效率,具有較高的正確率,可以較為準確地實現分類預測功能,對今后開展中醫藥大數據研究具有一定的借鑒意義。

猜你喜歡
分類文本方法
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 成·人免费午夜无码视频在线观看| 日韩精品无码免费专网站| AV老司机AV天堂| 日韩黄色在线| 欧美亚洲一区二区三区在线| 99re视频在线| 波多野结衣久久精品| 2021国产精品自拍| 成人韩免费网站| 欧亚日韩Av| 成人日韩视频| swag国产精品| 亚洲日本www| 国产成人精品2021欧美日韩| 国产综合日韩另类一区二区| 丝袜美女被出水视频一区| 国产全黄a一级毛片| 国产精品美女网站| 亚洲一区二区黄色| 国产农村妇女精品一二区| 99尹人香蕉国产免费天天拍| 中文字幕永久视频| 亚洲综合极品香蕉久久网| 精品视频福利| 国产午夜看片| 91久久性奴调教国产免费| 欧美在线导航| 在线日本国产成人免费的| 色噜噜综合网| 国产微拍精品| 九月婷婷亚洲综合在线| 国产精品自在线拍国产电影| 日韩精品亚洲一区中文字幕| 成年女人a毛片免费视频| 亚洲男人天堂2020| 久久99精品久久久久久不卡| 波多野结衣一区二区三区四区视频| 日本91在线| 国产色婷婷视频在线观看| 成人国产精品网站在线看| 亚洲欧洲自拍拍偷午夜色无码| 国产丰满成熟女性性满足视频| 日本人妻丰满熟妇区| 91毛片网| 亚洲精品不卡午夜精品| 国产欧美日本在线观看| 国产精品久久久久鬼色| 日韩欧美亚洲国产成人综合| 丰满人妻中出白浆| 五月六月伊人狠狠丁香网| 国产大片喷水在线在线视频| 国产精品久久久久鬼色| 凹凸精品免费精品视频| 999精品视频在线| 99久久免费精品特色大片| 激情无码字幕综合| 99精品福利视频| 亚洲九九视频| 高清色本在线www| 国产对白刺激真实精品91| 亚洲动漫h| 熟女视频91| 日韩高清无码免费| 午夜a级毛片| 2020国产精品视频| 中文成人在线视频| 曰AV在线无码| 国产丰满大乳无码免费播放| 国产91久久久久久| 日本精品影院| 91探花在线观看国产最新| 欧美不卡二区| 亚洲综合天堂网| 天天摸天天操免费播放小视频| 99性视频| 国产无码制服丝袜| 国产精女同一区二区三区久| 波多野结衣第一页| 看你懂的巨臀中文字幕一区二区 | 久久综合丝袜长腿丝袜| 午夜欧美理论2019理论| 女人18一级毛片免费观看|