999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習與中醫數據的多標簽分類算法

2019-06-06 04:21:26安偉濤薛安榮張宇
軟件導刊 2019年3期
關鍵詞:深度學習

安偉濤 薛安榮 張宇

摘 要:針對中醫八綱辨證診斷模型因人工設定參數不準確導致模型訓練時間過長、無法收斂和易忽略癥狀與證型間的一對多關系導致診斷結果存在證型遺漏的問題,提出利用深度置信網絡RBM機制,通過對輸入的樣本特征向量逐層進行擬合獲得模型最佳權重與閾值,從而解決參數設定問題;同時采用二元關聯多標簽分類算法解決一對多關系,提高診斷結果準確率。實驗表明,改進后的算法有效可行。

關鍵詞:中醫診斷;中醫八綱辨證;深度學習;多標簽學習;TensorFlow

DOI:10. 11907/rjdk. 182225

中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)003-0025-05

0 引言

在長期與疾病的斗爭中,中醫演化并形成了一套獨特、完整的理論體系[1],為人類健康作出了不可磨滅的貢獻。但傳統中醫診斷不確定性、經驗性和模糊性等特點嚴重制約了中醫發展[2],因此中醫辨證的科學化與智能化發展引起廣泛關注。

在不同歷史時期,歷代醫家根據不同的理論基礎提出了不同辨證方法,其中八綱辨證理論是各種辨證方法的指導綱領[3],成為中醫智能辨證研究的基礎。已有研究利用人工神經網絡技術與多層前向神經網絡構建中醫八綱辨證模型[4],該模型突破了傳統神經網絡神經元形式單一的特點,提高了對輸入數據的處理能力,同時模型具有一定的學習能力,辨證準確率達到70%以上,但該模型對病例樣本訓練的參數需要依靠人工設定,由于人工設定參數具有一定隨機性,可能導致網絡訓練時間過長和模型無法收斂。此外,該模型忽略癥狀與證型間存在的一對多關系,即忽略了同一個病人可能同時患有多種證型的情況,導致該模型診斷結果有遺漏。

深度置信網絡訓練機制是模擬人類大腦學習機制建立的,即深度信念網絡可以對簡單的特征進行組合、重構得到更加抽象的特征表達[5-6],該過程與人類大腦對外界信息的處理機制非常類似。在實際應用中,深度置信網絡可以通過自動對特征進行學習的機制[7],對樣本特征進行逐層擬合,獲取模型最佳參數。因此,本文提出利用深度置信網絡訓練病例樣本模型,從而解決人工設定參數的問題。針對癥狀與證型間存在的一對多關系,提出使用多標簽分類算法解決該該問題。由于二元關聯[8]分類算法思路簡單、效果出色,因此提出利用二元關聯多標簽分類算法和深度置信網絡對中醫診斷中的病例樣本進行模型訓練和預測,從而提高模型診斷準確率。

1 基于深度學習的多標簽分類算法

1.1 深度置信網絡

Geoffrey Hinton等[9]于2006年首次提出深度置信網絡(DBN)的概念,DBN是以受限的玻爾茲曼機RBM為基礎發展起來的模型。RBM[10]是一種生成模型,可建立測試數據與標簽之間的聯合概率分布,通過訓練相鄰兩層節點間的權重,讓整個網絡按照最大概率優化模型參數。

(1)受限的玻爾茲曼機。RBM是一種基礎神經網絡模型[11],其結構如圖1所示。RBM由可視層[v]和隱含層[h]組成,層內節點之間沒有連接,層與層之間的節點全連接,[w]為對應兩層神經元連接的強度參數。節點狀態分為激活狀態和未激活狀態,在計算中一般用二進制的0表示未激活狀態,1表示激活狀態。

(2)權值計算模型構建。RBM屬于能量模型[12]。利用公式(1)定義樣本輸入向量[v]和隱含層向量[h]之間的能量函數值,該能量函數描述模型狀態的測度,能量越小則系統狀態越穩定。

通過對最大似然函數進行求導運算,得到概率最大值,從而確定當概率最大時的權值。

1.2 多標簽學習

多標簽分類算法的實質是根據待預測實例(特征屬性和標簽屬性),在M種候選標簽集中選擇概率最大的標簽集合作為該待預測實例的標簽集合。

1.3 基于深度置信網絡的二元關聯分類模型

(2)基于深度置信網絡的二元關聯分類模型構建。基于深度置信網絡的二元關聯多標簽分類算法,首先利用深度置信網絡的RBM機制對中醫八綱病例樣本進行訓練,通過不斷擬合初始向量獲得模型最優參數,并保存模型;然后,利用二元關聯多標簽分類算法思想,將多標簽分類轉換成多個單標簽分類,針對每個標簽利用訓練好的深度置信網絡模型作為分類器,判斷每個標簽是否屬于待分類樣本,最終輸出所有結果并集。具體算法為:

步驟(1)-步驟(2)為訓練癥狀集的輸入和標準化處理;步驟(4)-步驟(6)初始化RBM的連接權重參數[w],可視層偏置量[a]和隱含層偏置量[b];步驟(7)-步驟(10)利用條件分布概率計算隱含層節點狀態;步驟(11)-步驟(14)利用條件分布概率公式計算可見層階段狀態;步驟(15)-步驟(23)對RBM權重參數、偏置量參數更新和保存;步驟(24)-步驟(28)為待測樣本的預測;步驟(29)返回待分類樣本x的標簽集合y。

1.4 算法分析

2 實驗與分析

2.1 實驗方案

為客觀評價本文算法的表現,選用平均預測精度(Avg-Precision)、覆蓋度(Coverage)、排名損失率(Ranking-loss)、漢明損失(Hamming-Loss)、1錯誤率(One-Error)為評價指標[16]。

實驗基于開源深度學習框架TensorFlow[17],利用TensorFlow搭建網絡模型,利用Tensor數據結構存儲和傳遞所有數據,利用SGD函數隨機梯度下降完成樣本訓練。同時為盡可能避免過擬合現象,利用dropput工具設置一個drop閾值,可以降低過擬合現象。在所有分類算法中,使用相同的訓練樣本和測試樣本集。為使實驗結果具有說服力,采用10倍交叉驗證的方法驗證實驗結果,任意一種評價指標都是數據集進行10次實驗結果的平均值。

2.2 實驗參數

(1)權重和偏置量初始化。權重矩陣、隱含層偏置量及可見層偏置量是在訓練中獲得的,但是模型在訓練之前需設定一個初始值,一般采用隨機賦值方式。本實驗權重向量采用正太分布N(0,0.01)的隨機數,通過破壞不同神經元間的對稱性,從而提高模型泛化能力。隱含層偏置量初始化為0,可見層偏置量按公式(8)初始化,有利于獲取正確的輸出邊緣統計。其中[ai]表示第i可見層偏置量參數,[pi]表示訓練樣本中第i個特征處于激活狀態的樣本所占比例。

(2)隱層單元數確定。隱層單元數的選擇非常重要,如果選擇過少,可能不足以訓練神經網絡;如果選擇過多,雖然可以提高精度,但也會使模型復雜化,導致訓練時間過長。因此選擇一個合理的隱層單元個數非常重要。本實驗通過設置隱含層個數分別為10、20、30、40、50、60、70、80、90、100,分別得到模型的召回率、準確率及F1值3個評價指標。如圖3所示,當隱層單元數在70左右時,模型召回率、準確率和F1值均可達到較高的值,因此本實驗選擇隱層單元為70。

(3)學習速率確定。學習速率是指模型在訓練過程中權值每次的變化量,一般將學習速率確定為[0.01,0.1]。如果學習速率過低會導致模型訓練緩慢,收斂時間長;如果學習速率設置過高則收斂快但不穩定,使系統無法得到最優權值。為獲得與最優權值更接近的權值參數,平衡矛盾,實驗增加動態學習速率(momentum),將本次訓練計算出的調整梯度與前次調整梯度結合,將前次調整梯度乘以一個動態學習速率。

2.3 實驗數據

(1)數據來源。數據集為文獻[18]的中醫八綱辨證數據以及通過網絡收集到的八綱病例,共500例。為使樣本更具有普遍性,針對中醫八綱每一類證型病例均選取相同數量的訓練數據集,每一類證型均選擇相同數量的測試集。

(2)數據擴充。由于深度置信網絡是深層次網絡結構,具有很強的學習能力,在模型訓練過程中可能會學習到樣本數據中的噪聲和異常數據,導致模型產生過擬合現象,模型過擬合會導致模型在后期對樣本進行預測時不能正確分類以及模型泛化能力太差的問題[19]。為了防止過擬合現象,需有大量訓練數據。在網絡上收集以及在文獻中使用的八綱辨證病例樣本數據有限,屬于小樣本,顯然不能滿足深度置信網絡對數據量的要求,因此需要對現有樣本數據進行擴充。

擴充樣本需要找到樣本分布規律,才能保證樣本擴充合理性。根據文獻[20]可知,針對每一個證型相關癥狀貢獻度的不同,有幾個癥狀貢獻度較大,大多數癥狀貢獻度很小,在閾值為0.015~0.02時,針對證型對應的癥狀數據符合冪律分布。為驗證八綱證型與對應癥狀數據符合冪律分布,對現有數據進行冪律分布檢驗。

假設樣本數據服從冪律分布,具體分布函數為:

因此驗證樣本數據服從冪律分布,只需對樣本數據庫[(x,y)]取對數,然后驗證是否為線性方程即可。對[(x,y)]取以10為底的對數,然后用Matlab對樣本數據進行擬合,擬合結果如圖4所示。

根據圖像可知,樣本分布比較符合冪律分布,根據樣本數據冪律分布規律,隨機生成數據擴充樣本數據,為深度置信網絡對數據量的要求,使用統計軟件生成80 000條病例數據,隨機抽取70%作為訓練樣本,30%作為測試樣本。

(3)數據預處理。在實驗中,選擇80 000例中醫八綱辨證病例樣本作為訓練樣本,每種證型病例訓練樣本為10 000例。將24 000例病例樣本作為實驗測試集,其中八類證型各占3 000例。為保證實驗順利進行,需對原始癥狀數據集進行標準化處理。

由于癥狀數據集的每個元素測量單位不同,不同屬性區別很大,因此需要對原始癥狀集數據進行標準化處理,采用min-max離差歸一化算法[21],將原始癥狀數據集映射到[0,1]區間。

由于病人患病癥狀分布不均勻,臨床癥狀數據集中存在部分癥狀缺失,本實驗采用NaN填充缺失值。對于可見層與隱含層之間的權重和偏置訓練,若使用每個樣本逐個訓練的方法會使運算效率過低,導致大數據和高維數據訓練時間過長。在實踐中,為充分利用CPU和矩陣計算的便捷性,往往將樣本分割成小片(mini-batchers),每次計算一個mini-batcher。為在計算多個mini-batchers,同時保證進行訓練時學習速率固定不變,參數更新時,梯度使用平均梯度。平均梯度計算公式為:

其中[Nbatch]為mini-batchers數據的長度,當[Nbatch=1]時,相當于單樣本學習。對于[Nbatch]的大小,總體上不宜過大,如果過大梯度敏感度下降,會使模型錯過最優值。為實驗計算方便,本實驗取10的整倍數,且同為標簽數量的整數倍,最終選取200。

2.4 實驗結果與分析

人工神經網絡和深度學習神經網絡最大的區別是包含不同的網絡隱層,所以對模型不同數量的網絡隱層進行實驗。本次實驗共有5個驗證指標,表1給出了每種算法在5種評價指標上的實驗結果。其中平均精度預測指標數值越大,表示算法表現越好;其它指標數值越低,表示算法性能越好。表中“↑”符號表示數值越大性能越好,“↓” 符號表示數值越小越好。“[±]”符號表示10次試驗的平均值[±]標準差。每個指標中的最佳結果在相應評價指標上用粗體顯示。

由表1數據清楚表明,基于DBN的二元關聯多標簽分類算法在一定范圍內,隨著網絡模型隱含層數目的增多,模型平均預測精度、覆蓋度、排名損失率、漢明損失和1錯誤5項指標性能均成遞增趨勢。其中隱含層值為1時,表示傳統人工神經網絡模型的各項性能指數,由此可見本文構建的深度置信網絡的二元關聯分類模型與傳統人工神經網絡模型相比,在各項性能上均有很大提升。

為充分說明本文設計的基于深度學習的多標簽分類算法有效性,在中醫數據下,與ML-KNN算法、BSVM算法、Rank-SVM等常用的多標簽分類算法在5種評價指標上進行比較,采用柱狀圖的形式將實驗結果進行展示,如圖5所示。從柱狀圖上可以清晰發現,基于DBN的多標簽學習算法的5種評價指標均表現優秀,而且各項指標比常用多標簽分類算法高5%~10%。因此本文設計的基于深度置信網絡的二元關聯分類算法是有效的。

3 結語

針對現有中醫八綱辨證模型因人工設定參數不準確導致模型訓練時間過長和無法收斂問題,提出利用深度學習的RBM機制對病例樣本進行逐層擬合,獲得模型最佳權重與閾值,從而解決參數設定問題。此外針對現有診斷模型忽略癥狀與證型間一對多關系,提出采用二元關聯分類算法解決一對多關系問題,并利用開源深度學習框架TensorFlow和經過擴充后的中醫八綱辨證數據對模型進行實驗驗證。實驗結果表明本文設計的中醫“八綱辨證”模型相比現有模型能更好地表示中醫證型和癥狀之間的關系,提高了中醫八綱辨證診斷準確率。該研究思路可應用于中醫智能辨證體系中,為病證規范化及辨證智能化提供參考。

參考文獻:

[1] 顧漫. 中醫學的起源與上古四方醫學知識的匯集[C]. 第二屆學術年會暨中醫藥傳統知識保護國際學術大會,2014:20-25.

[2] 韋堂軍,程銀. 略論傳統中醫的腫瘤辨治觀[J]. 世界科學技術-中醫藥現代化,2015,17(4):891-896.

[3] 溫維,張梅奎. 中醫發展困境及對策探討[J]. 醫學與社會,2014,27(2):65-67.

[4] 吳蕓,周昌樂,張志楓. 中醫舌診八綱辨證神經網絡知識庫構建[J]. 計算機應用研究,2006,15(5):188-189.

[5] ZHAO B,FENG J S,WU X. A survey on deep learning-based fine-grained object classification and semantic segmentation[J]. International Journal of Automation and Computing,2017,14(2):119-135.

[6] SONG X D,ZHANG G L. Modeling spatio-temporal distribution of soil moisture by deep learning-based cellular automata model[J]. Journal of Arid Land,2016,8(5):734-748.

[7] 曾明星,李桂平,周清平,等. 從MOOC到SPOC:一種深度學習模式建構[J]. 中國電化教育,2015,4 (11):28-34.

[8] CHARTE F,ANTONIO J. Dealing with difficult minority labels in imbalanced multi-label data sets[J]. ?Neurocomputing, 2016,11(10):110-123.

[9] GOODFELLOW I J,ERHAN D,LUC CARRIER P,et al. Challenges in representation learning: a report on three machine learning contests[J]. Neural Networks,2015,41(9):64-71.

[10] 麥超,鄒維寶. 稀疏受限玻爾茲曼機研究綜述[J]. 計算機工程與科學,2017,39(7):1379-1384.

[11] 酆勇,熊慶宇,石為人,等. 一種基于受限玻爾茲曼機的說話人特征提取算法[J]. 儀器儀表學報,2016,37(2):256-262.

[12] 張春霞,姬楠楠,王冠偉. 受限波爾茲曼機[J]. 工程數學學報,2015,36(2):159-173.

[13] 李思男,李寧,李戰懷. 多標簽數據挖掘技術:研究綜述[J]. 計算機科學,2013,40(4):14-21.

[14] 秦鋒,黃俊,程澤凱,等. 多標簽分類器準確性評估方法的研究[J]. 計算機技術與發展,2010,20 (2):46-49.

[15] CHARTE F,RIVERA A J, JESUS M J, et al. Dealing with difficult minority labels in imbalanced? multi-label data sets[J].? Neurocomputing,2016,40(3):45-78.

[16] 劉方園,王水花,張煜東. 深度置信網絡模型及應用研究綜述[J]. 計算機工程與應用,2018,54(1):11-18+47.

[17] 吳蕓,周昌樂. 中醫八綱辨證神經網絡構造技術研究[J]. 計算機工程與應用,2008,12(11):243-245+248.

[18] HOUBORG R,MCCABE M F. A hybrid training approach for leaf area index estimation via cubist and random forests machine-learning[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2018,67(8):135-138.

[19] 劉建偉,劉媛,羅雄麟. 深度學習研究進展[J]. 計算機應用研究,2014,31(7):1921-1930+1942.

[20] 鐘濤. 基于復雜系統方法的慢性胃炎中醫問診證候建模研究[D]. 上海:華東理工大學,2014.

[21] DATTA S N. Min-max and max-min principles for the solution of 2 + 1 Dirac fermion in magnetic field, graphene lattice and layered diatomic materials[J].? Chemical Physics Letters,2018,7(9):692.

(責任編輯:江 艷)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 亚洲—日韩aV在线| 中文字幕久久亚洲一区| 四虎成人免费毛片| 午夜精品久久久久久久无码软件| 亚洲男人的天堂在线| 欧美成人午夜影院| 波多野结衣久久高清免费| 欧美全免费aaaaaa特黄在线| 婷婷综合色| 夜夜操天天摸| 97精品伊人久久大香线蕉| 青青草综合网| 一级毛片免费观看不卡视频| 99久久精品免费看国产免费软件| 国产欧美日韩18| 亚洲高清在线天堂精品| 精品国产自在在线在线观看| 亚洲日本精品一区二区| 久久婷婷国产综合尤物精品| 日韩精品亚洲人旧成在线| 五月综合色婷婷| 亚洲 欧美 中文 AⅤ在线视频| 精品国产成人高清在线| 亚洲中字无码AV电影在线观看| 中文无码毛片又爽又刺激| a毛片免费观看| 中文字幕免费播放| 亚洲人成网站18禁动漫无码| 乱人伦99久久| 激情無極限的亚洲一区免费| 亚洲精品图区| 亚洲色大成网站www国产| 国产成人无码AV在线播放动漫| 亚洲国产成人久久77| 婷婷六月色| 亚洲swag精品自拍一区| 日本一本正道综合久久dvd| 国产精品护士| 亚洲高清中文字幕| 欧美成人精品高清在线下载| 国产精品极品美女自在线网站| 久久网欧美| 福利在线免费视频| 国产福利在线免费观看| 999精品免费视频| 亚洲天堂视频在线观看免费| 亚洲一区二区成人| 伊人久久婷婷| 丝袜高跟美脚国产1区| 国产白浆在线观看| 日韩在线播放欧美字幕| 成人久久精品一区二区三区| 精品国产乱码久久久久久一区二区 | 亚洲激情区| 亚洲Av激情网五月天| 69综合网| 久久a级片| 国产亚洲欧美在线视频| 免费中文字幕一级毛片| 亚洲天堂网在线播放| 一级毛片免费观看久| 2020极品精品国产| 成人福利在线视频| 思思热在线视频精品| 精品第一国产综合精品Aⅴ| 亚洲一级无毛片无码在线免费视频 | 亚洲精品无码专区在线观看| 小说区 亚洲 自拍 另类| 国产美女主播一级成人毛片| 国产精品13页| 丝袜美女被出水视频一区| 亚洲欧美日本国产综合在线 | 国产美女久久久久不卡| 91亚瑟视频| 美女国内精品自产拍在线播放| 国产精品九九视频| 欧美专区日韩专区| 孕妇高潮太爽了在线观看免费| 日韩精品亚洲一区中文字幕| 狠狠色香婷婷久久亚洲精品| 伊人色天堂| 色偷偷一区二区三区|