劉偉 黃陽 姚家琦



摘要:該文統計分析人們每年對中醫藥文化的認可度、喜好程度的情感傾向。為中醫藥學者提供數據參考,分析現狀,反思歷史,明確目標以迎接中醫藥的美好未來。方法:(1)基于爬蟲技術,獲取微博用戶2015-2019年對中醫藥的評價,并進行數據收錄和相關整理,對不規范的數據進行統一編碼和刪除等,使用Jieba分詞輔助數據預處理。(2)獲取現有經典情感詞庫如HowNet等等,基于TF-IDF
計方法、Word2vec等方法擴增詞向量,構建中醫藥領域情感分析詞典。(3)采用情感極性詞典分類算法、Naive Ba-ces分類算法以及CNN模型分類算法對獲取的文本數據進行分類處理。結論:2015-2019年認同中醫藥文化的比率分別為:94.5%,95.0%,88.4%,95.4%,90.9%,可用NPL分析中醫藥認同度狀況。
關鍵詞:中醫藥;情感分析;微博;自然語言處理
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2019)33-0174-03
1概述
中醫藥文化博大精深,是我國傳承了幾千年的國粹瑰寶,中醫對中國人民的健康,甚至是人類的健康都有重大的貢獻。中醫它的治病方式和其良好的治療效果,廣泛傳播、應用于世界各地。但因西醫技術的引入、外來文化的沖擊,其影響能力和醫學價值受到了挑戰。本文針對問卷調查人們對中醫藥的接受程度,前期工作費時費力的問題,采用自然處理技術對網上文本進行情感分析,可以直接獲取評論者對中醫認同度的情感傾向,直觀快速反映出人們的態度。
2數據分析
隨著信息時代的進步與發展,人們在網絡上陳述自己觀點和情感的比例逐漸上升,使用微博的用戶規模猛增、月活躍數早已突破4億人次,微博已成為表達個人情感和觀點的重要媒體。結合微博短文本、數據易獲取、實時陸、信息來源多樣性等特點,人們的觀點可以一目了然具有代表性。因此以微博的評論對中醫藥進行情感喜好的分類研究十分有意義。
2.1數據來源
本文利用python及爬蟲技術爬取新浪微博的數據,通過設置“中醫”“態度”“觀點”等關鍵詞獲取網民2015年1月-2019年5月間發表的動態、文章、評論等內容。
從微博獲取的原數據共932774條,其中2015年60586條,2016年53920條,2017年54183條,2018年44513條、2019年719572條。由于互聯網文本數據中包含了大量噪聲,此類噪聲會影響文本正確分類結果,因此對數據預處理文本后的數據有873337條,其中2015年47335條,2016年45353條,2017年47865條,2018年41149條、2019年691635條。
結合Qiu等設計隋感詞庫:HowNet情感分析用詞集(beta版)、臺灣大學NTUSD簡體中文情感詞典以及網上大量的情感詞。通過人工刪除不符合本領域的情感詞。結合TF-IDF得出本領域較高頻次的詞但在詞典中得詞,利用Word2vec算法根據分完類的詞典求得本領域中的相似詞,挑選在領域中有意義的情感詞進行情感詞擴增。最終得到積極詞匯3960個,消極詞匯4046個,否定詞268個,程度副詞212個、轉折詞13個。
2.2數據預處理
本文規范數據標準如下:
(1)刪除微商賣中醫藥廣告信息、中醫藥用法介紹等客觀或無關的數據;
(2)刪除同一人發布多條相同內容的數據,僅保留一條;
(3)刪除文本字符過長的信息;
(4)刪除格式錯誤的信息。
去除文本中噪聲方式如下:
(1)刪除文本中經過轉換編碼仍不能識別的字符(格式:\uOOx)、回復消息(格式://@某人:)、超鏈接URL(格式:“http://t.ahjkl823”)、特殊表情和網頁標簽等;
(2)采用Jieba分詞技術,自定義停用詞、詞庫,對于中醫藥領域需要的單詞,增加本領域詞如“中醫黑”,刪除詞性標注中不能識別或不能使用的詞。
分詞及詞性標注見表1,自定義詞庫及停用詞分詞結果展示見表2。
2.3數據分類統計
本文的訓練數據由一人評判兩人審核的方法評判了認同、反對中醫藥傾向的數據各1500條,保證訓練與測試數據的準確性。中醫藥有關文本分類劃分原則如下:
(1)采用二分劃分,分為認同中醫藥傾向和不認同中醫藥傾向兩種態度;(2)選取文本中含有明顯有關中醫藥感情詞劃分為對中醫藥的認同度傾向;(3)對無感情詞但采用中醫藥治病或-轉發中醫藥的相關文章劃分認同等級;(4)舉行中醫藥活動達到宣傳作用劃分為認同傾向。
本文對二類劃分采用準確率、F1-score作為評價標準。計算公式如下所示:
其中TP為支持中醫藥,被正確劃分的文本;FP為支持中醫藥,被錯誤劃分的文本;FN為反對中醫藥,被正確劃分的文本;TN為反對中醫要,被錯誤劃分的文本。
3算法應用研究
3.1基于情感強度的詞典分類
基于詞典的方式本文采用的是基于句子級別的分析。根據中文的語法格式,提取本文的需要的句子語法格式是由積極、消極情感詞、否定詞及程度副詞等3種詞組成,并分別給三種詞匯設置不同的情感強度判定認可程度。此外句子中還包含連詞以及轉折詞,對于連詞的形式分數累乘,當出現轉折詞時,轉折詞前面分值計算方式不變,轉折詞后面情感分值加倍。句式劃分見表3。
圖1為基于詞典算法流程及流程圖的簡單介紹:
(1)輸入待分類的文本、載人各訶陸的詞典。
(2)對載人的文本分詞、停用詞及詞性標注,刪除冗余數據。
(3)修改的文本進行向量化詞組。
(4)用逆序組合文本方式,逐詞判別詞語詞性,符合句式計算其得分,反之繼續掃描。
(5)掃描到第一個詞向量時結束掃描,計算所有句式總分,由分值區間確定最終分類。
在基于詞典分類方式中,采用句子級別的分類中,經過數據清洗的準確率是0.593,除O分準確率為0.599;增加詞典和詞向量后的準確率是0.612,除0分后準確率為0.622。
3.2基于樸素貝葉斯分類
首先塊結合TF-IDF進行特征詞向量的提取,對于出現次數極少詞匯進行過濾剔除,避免占用存儲空間出現矩陣稀疏以及詞的向量過多產生維度災難等等問題。其次將標注好的數據進行隨機選取訓練數據及測試數據,并應用到自己的算法中,對數據進行預測。
樸素貝葉斯算法步驟具體實現流程及流程圖見圖2:
(1)輸入所有訓練文本數據,對出現的詞匯進行統計。
(2)刪除經常出現的無關詞匯,以及次數小于10次的詞匯。
(3)求解每個類別中各詞匯出現的頻率,計算條件概率。
(4)判斷測試文本中每個特征詞在兩個分類中的概率。
(5)對于每個文本取較大概率的分類為該文本的分類結果。
樸素貝葉斯分類結果為:經過數據清洗的F1-Score是0.457,準確率為0.470;增加詞典和詞向量后的F1-Score是0.530,準確率為0.625。
3.3基于卷積神經網絡分類
本文開發環境是基于Theano和keras深度學習庫。結合CNNt61及word2vec提取特征向量。設計了多組參數進行實驗尋找最合適的參數,見表4部分參數的實驗結果。
采用ReLu函數、10折交叉檢驗,第13組參數最優,準確率:0.808,F1-Score.-0.762。
4結束語
實驗結果表明上述三種計算文本分類的方式中,CNN算法的準確率明顯要高于其他兩種算法,故本文最終采用CNN模型對中醫藥領域的評論數據觀點進行分析。分類2015年到2019年度中醫藥評論的數據,得到各年度中醫藥的認可率見表5所示。
由表5可知,支持中醫藥的人數遠高于不支持中醫藥的人數。人們對中醫認可度仍然是很高的,但也有小部分人對中醫抱有抵制態度。對比近五年人們對中醫的認可度人數占比較為穩定,唯有2017年為88.4%,分析當年有關中醫藥事件,發現17年某中醫院發生重大醫療事故,影響了中醫的發展,同年中央發布了一系列宣傳發揚中醫的文件,及時阻止了這次中醫事態的余波,并且次年認同率達到了近五年巔峰。因此國家適當的調控中醫藥的宣傳建設,有助于中醫藥的發展。
在詞典和樸素貝葉斯分類方式中采用了領域內的自定義詞典后的數據準確率明顯提升。說明詞典、特征提取高質量的重要性。后期將完善全面覆蓋本領域的詞典,增加人工評判的數據。其中總樸素貝葉斯算法分類過程中時空開銷小,算法運算速度快,能夠快速地獲取數據的分類結果,可以實時判斷每條數據的情感傾向。詞典分類算法結合了情感詞的極性、詞間的詞性關系,但更加人性化,但是句子級別的分類方式忽略主從句式的關系,可以采用基于上下文語句的方式進行分析。CNN的Embedding為靜態形式,容易混淆積極、消極詞識別,但識別效果較高,后續可采用動態形式。最后希望我國繼續弘揚中醫國粹,傳播中醫文化。