張嘉琪,張月琴,陳健
(太原理工大學信息與計算機學院,山西晉中 030600)
中醫是我國的傳統醫學,脈診是中醫理論中始創于公元前的獨特疾病診斷方法之一,李時珍所著的《瀕湖脈學》通過七言詩對脈象特征進行了簡潔、形象的描述。目前脈診多通過醫生的主觀觸感來實現,由于缺乏脈象識別的統一標準,同一個病人可能會被診斷出不同的脈象;而且醫生通常以自己的呼吸作為時間單位來計算病人的脈搏[1]。所以,如何用現代技術獲得脈象的特征,并依此特征客觀準確地診斷疾病成為受關注的研究課題。
最早記載脈診的是《史記》,敘述了春秋時期扁鵲善于望、聞、問、切而成為當時的名醫,其中“切”即切脈,也就是脈診[2]。除此之外,從春秋時期的《黃帝內經》《難經》等,到東漢時期的具有傳世意義的《傷寒雜病論》,再到之后的《脈經》《瀕湖脈學》等,中醫診脈在我國的歷史長河中已傳世兩千多年[3]。在古代,為了方便老百姓就醫看病,記載最多的方法就是“賜藥”。尤其是在宋元時期,“賜藥”的實例更多:如在南宋朝廷給京城臨安的居民送藥;宋高宗時期要求派出醫官為百姓看病巡診開方治病;宋孝宗時期要求大多數的醫官挨家挨戶巡診百姓并發放藥品。當時,受地理條件、交通能力的制約,能夠受此恩澤的百姓仍然有限。而今,雖然醫學有了更大的發展,但由于多種多樣的原因,看病難的問題依然存在。在互聯網高度發展的今天,人們已通過互聯網做到千里診病,其中最常見的就是電子病歷、遠程會診、遠程護理等新科技的產物[4]。對于脈診,也已出現通過脈象儀與人體的接觸,獲取脈象的信息進而繪制成脈象波形圖,之后通過這些信息和脈象波形圖并依據中醫脈診知識進行數據分析,推斷出具體的脈象進而診斷測試者的身體狀況。因此,脈診的準確率直接關系到診斷的準確率,既降低資源和時間的消耗,也有助于高效準確的科學脈診。
針對上述問題,本文提出了一種以脈象圖分析法為指導思想,以強化學習為框架,融和馬爾可夫決策和蒙特卡羅搜索(Monte Carlo Search,MCS)算法的脈象診斷方法,以達到減少訓練數據集和訓練學習時間,對整個診斷過程進行可視化的解釋說明并提高準確率的目標。
目前的脈象識別研究大多采用脈象信號、脈象波形圖以及脈象圖譜的特征參數作為研究數據,并采用深度學習的方法進行數據挖掘,最終對脈象進行識別判斷。脈象圖是脈象的重要描述工具,它形象地展現出心臟循環脈動對血管造成擠壓、變形及振動而形成實時的變化,通過具體的10 個特征參數用數字來精準描述脈象。同理脈象圖譜則是通過8 個不同的圖譜參數來反映脈象的實時特征。中醫脈象是一種受多種因素影響的不平穩的周期信號,脈象圖的變化常常會由未知原因在短時間內迅速發生變化,內含未知的模糊邊界,加之脈象的生成機制尚不完全明確,因此對脈象信號的分析研究仍不能對中醫脈診進行定性分析的研究[5]。中醫脈診要參照人手動脈的寸、關、尺等部位的脈搏信號進行全面分析診斷,而脈象信號圖缺乏對脈象典型特點的定性分析和脈位、脈數、脈形、脈勢的準確信息[5]。因此對脈位、脈數、脈形、脈勢等脈象特征進行定量并作為客觀、科學的脈象分析的重要參考特征成為研究的主要內容之一。
針對脈象波形圖的分析方法,目前有采用支持向量機、隨機森林等淺層機器學模型以及反向傳播神經網絡(Back Propagation Neural Network,BPNN)、卷積神經網絡(Convolutional Neural Network,CNN)、循環神經網絡(Recurrent Neural Network,RNN)以及概率神經網絡(Probabilistic Neural Network,PNN)等深度學習模型。郭紅霞等[6]將PNN 方法和脈象圖譜數據運用到了脈象識別,PNN 相較其他神經網絡模型學習過程簡單,訓練速度更快,適合分類,表現出較好的容錯性;利用相同的數據,李磊[7]使用三層BPNN 對脈象進行識別分析。陳星池等[8]利用脈搏波信號數據,將極限學習機(Extreme Learning Machine,ELM)、BPNN 和支持向量機進行脈象識別的對比;郭彥杰[9]、胡楊生[10]分別在eox 移動智能血氧監測儀器獲得脈搏波形數據集,使用RNN和CNN進行了脈象識別的研究,RNN 的時序性特征適用于通過脈搏波的變化過程對脈象進行分類識別;顏建軍等[11]使用了Z-BOXI型脈象數字化采集分析儀獲得的冠心病脈象數據,并利用遞歸圖、CNN對健康脈象和冠心病脈象進行了區分研究。
從現有脈象識別的研究來看,神經網絡類的方法都有效達到了良好的識別效果。神經網絡等深度學習算法存在一些可待改善的地方:1)神經網絡類算法需要進行數據訓練,這需要大量的標記數據;2)訓練過程缺乏可解釋性等問題,難以說明所以然的問題仍然存在;3)大量訓練導致的數據處理時間較長,開發框架相對復雜,對環境有較高的要求。因此,本文針對以上三個問題提出相應的解決方法:在中醫診脈的理論基礎上,結合強化學習的理論知識,根據數據特征和脈診過程選擇了強化學習方案。其中,馬爾可夫決策被用于描述脈象數據間的關系,蒙特卡羅搜索被用于強化學習的獎勵策略。強化學習,是一種通過交互的目標導向學習的方法,不斷探索與試錯,利用基于正/負獎勵的方式進行學習,而馬爾可夫決策過程則是用于模擬這個學習過程,蒙特卡羅搜索通過求解學習過程并獲得最優策略。該方法是一種自我學習過程,不需要大量訓練數據集,且識別過程可解釋,處理時間相對較少。
脈象識別相關研究多對訓練數據集有較高要求,不但數量要求多且質量要求高。因此,本文研究以中醫診斷中的脈象圖分析法為指導思想,選擇馬爾可夫決策過程(Markov Decision Process,MDP)和蒙特卡羅搜索相結合作為主要的研究方法。該方法可根據先驗知識,并根據每一種脈象的特征數據的取值范圍,對先驗知識數據進行標記。針對脈象診斷的行為過程和具體情況,特征選擇和路徑分類被用于縮短經驗軌跡、降低資源占用并提高準確率的目標。直接使用馬爾可夫決策過程和蒙特卡羅搜索,容易產生冗長的路徑,進而影響到識別結果的準確性。為解決此問題,本文提出了一種改進方法:首先,采用特征選擇方法,通過與正常脈象的對比,優先選出異常脈象的顯著特征;其次,以篩選出的顯著特征為基礎,分別建立脈位失常、脈率失常和脈型失常3 條路徑;最后,通過馬爾可夫決策過程和蒙特卡羅搜索對處理后的數據集進行分析處理,從而達到減少經歷不必要的狀態和行為,最終改善較長訓練時間和資源浪費等問題。除此之外,在模型不斷的訓練中,將形成經驗軌跡記憶庫,不斷地更新模型的轉移概率,達到脈象識別的目標。本文系統的框架如圖1所示。

圖1 本文系統框架Fig.1 Framework of proposed system
模型首先要通過學習先驗知識,獲得每種脈象所形成的經驗軌跡、狀態閾值,并作為實驗數據的識別依據,然后將每種脈象在狀態變化時的轉換概率進行記錄并用于模型的更新。在這之后將實驗數據根據專家結果分為單一脈象和相兼脈象。本文首先把單一脈象的識別作為研究對象,通過提案模型計算得到相應的狀態值,并與狀態閾值集的數據進行對比得出相應的模型識別結果。將模型識別結果和專家結果進行對比:如果結果一致說明識別正確;若結果不一致,則將經驗軌跡存入經驗軌跡記憶庫,并更新相應脈象的狀態閾值集,進一步更新模型的參數。
《瀕湖脈學》中對脈象的觸感給出了清晰的定義,而文獻[12]則采用現代儀器作為描述的方式,將各類異常脈象在脈象波形圖的特點進行了具體的數值定義。心臟在一次跳動之后,血管會受到壓力而發生變形,致使動脈的容積和血液流動發生一系列的變化。這些變化就被脈象儀捕捉到并繪制成波形圖,如圖2 所示是一個基本的脈象波形圖,并在圖中注明了重要參數。脈象圖分析法中給出的具體參數以及《瀕湖脈學》中對脈象特征定義的具體參數,將作為實驗所用的先驗知識,讓本文方法能判斷具體脈型需要哪些對應的行為參數。

圖2 脈象波形Fig.2 Pulse condition waveform
根據脈象儀所獲取的波形圖數據,可以獲取到波段常用的指標。
1)U 角:又稱上升角,為主波上升支與時間橫軸所形成的夾角,反映血管彈性、粘性。
2)P 波:即主波幅、主波峰頂的垂直距離,代表心臟收縮期動脈管壁所承受的壓力和容積。
3)P 角:主波的上升支和下降支之間所形成的夾角,反映血管彈性和血流情況。
4)t1:U→P 為流入時間,即到達主波頂的時間,與血液流入動脈所受阻力大小相關。
5)T波:重搏前波,T波的數值是脈象分類的重要指標。
6)V波:降中峽,其幅度反映了外周血管的特征。
7)D波:重搏波,反映血管彈性和血液流動狀態。
8)t:U→U'時間為脈波周期時間。
由此,脈搏波形圖從血管、血液等特征對脈象進行了狀態描述。
除此之外,文獻[12]根據脈象的典型特征將異常脈象分為脈率失常、脈位失常、脈型失常3 大類以及10 大特殊脈象。本文首先選擇3 大類的異常脈象作為研究對象。3 大異常脈象類型分別為:脈率異常、脈位異常、脈型異常,具體的分類在2.4 節中介紹。相關的識別數據除上述脈象圖指標外,脈率、脈位等脈象特征,也是該實驗的兩個重要數據項。實驗設計將依照中醫理論給出的具體思想和參數作為本文脈象分類的理論基礎。
強化學習是一套通用的學習框架,主要是在環境交互過程中,通過獎勵r、狀態s、動作a這3個信號實現學習和求解最優策略的過程。強化學習的數學基礎理論是基于馬爾可夫決策過程,并構建相應的數學表達,然后利用諸如動態規劃、蒙特卡羅、時間差分等數學方法對其進行求解,從而搭建一套自適應、自學習的強化學習決策體系[13]。針對馬爾可夫決策過程中抽象出的經驗軌跡集,本文采用蒙特卡羅搜索方法進行求解,并獲取最優策略。蒙特卡羅搜索需要完整的經驗軌跡,這一特點可用于對后期的脈象識別過程進行相應的解釋。將用馬爾可夫決策過程詳細地模擬脈象識別的強化學習的學習過程,以及蒙特卡羅搜索對強化學習的求解過程。
2.3.1 馬爾可夫決策過程
馬爾可夫決策過程(MDP)被用于強化學習,它要求系統的一個狀態與當前狀態有關,而與之前或者更早的狀態沒有關系,以及其序貫決策的特點與本文實驗所用數據中數據項無關聯的特征相符。馬爾可夫決策過程如下:
其中,S代表狀態集,且S={s1,s2,…,sn},si表示時間狀態i下的實時狀態。本文將脈診識別需要考察的15 個重要脈象特征和判斷學習過程是否“終止”作為狀態,則S的定義如下:
S={“脈位”,“節律”,“脈力”,“脈型”,“脈沖”,“脈率”,“脈搏”,“U 角”,“P 波”,“P 角”,“t1”,“T 波”,“D 波”,“V波”,“t”,“終止”}
Xi={xi,0,xi,1,…,xi,14}是本文實驗的數據,將作為馬爾可夫決策過程的輸入數據。p表示在狀態si執行動作ai之后,轉移到下一個狀態s'的概率,例如psa=P(s'|si,ai),初始的轉移概率都設為1,伴隨著模型的不斷學習轉移概率也會不斷更新。而A則為動作集,其表達式為A={a1,a2,…,an},其中,ai表示時間狀態i下所采取的動作,例如在狀態si=“脈力”時所采取的具體動作有“無力”及“有力”,分別記作:ai,0=“無力”和ai,1=“有力”,這里ai=ai,1=“有力”。相應的r作為獎勵,即在狀態si執行動作ai后轉移到狀態s'所獲得的獎勵ri,其中ri=R(si,ai)。最終生成一條由S、A、r組成的經驗軌跡序列,記為:{S,A,r}。
為使用本文的實驗數據,在未經數據選擇和路徑分類處理的情況下得到一條經歷全部狀態和行為的結脈的經驗軌跡,其具體步驟如下:
步驟1 當前所在的狀態s0(脈位),執行動作a0(脈位:中),狀態轉移到s1(節律),獲得獎勵為0。
步驟2 此時狀態為s1(節律),執行動作a1(節律:不齊),狀態轉移到s2(脈力),獲得獎勵為-1(節律:不齊時,相應的獎勵為-1;齊時,獎勵為0)。
步驟3 此時狀態處于s2(脈力),執行動作a2(脈力:有力),獲得獎勵為1(脈力分為:有力、中、無力、軟、不齊,相對應的獎勵值為1、0、-1、-2、-3),狀態轉移到s3(脈型)。
……
步驟15 此時狀態處于s14(t),執行動作a14(U→U'時間:0.67,在正常值范圍),獲得獎勵為0,狀態轉移到s15(終止)。
根據特征數據的正常值與異常值的差異程度,本文研究對獎勵給予相應的定義。當特征值優于正常值時,給予的獎勵為正的分值;當特征值劣于正常值時給予為負的分值。獎勵的分值依據特征的不同程度給予定義。例如對脈力有5 種程度的定義,分別為有力、中、無力、軟和不齊,其中:中為正常值,故定義脈力程度為中時,獎勵分值為0;脈力程度為有力時,其特征值優于脈力程度中,故定義其獎勵分值為1;脈力程度無力、軟和不齊均劣于脈力程度中,其中脈力程度軟和不齊更劣于脈力程度無力,故其分值分別定義為-1、-2和-3。
到這里,一個完整的馬爾可夫決策過程結束了,獲得一條經驗軌跡:s0(脈位),a0(中),r0,s1(節律),a1(不齊),r1,s2(脈力),a2(有力),r2,s3(脈型),…,s14(t),a14(0.67),r14,s15(終止),如圖3所示。
2.3.2 蒙特卡羅搜索
蒙特卡羅搜索(MCS)能夠處理免模型的任務,其無須依賴環境的完備知識,只需重復收集從環境中進行采樣得到的經驗軌跡(由馬爾可夫決策過程獲得),基于經驗軌跡級數據的計算,可獲得最終的累積獎勵。
利用蒙特卡羅搜索直接從環境中采集獲得經驗軌跡,并根據經驗軌跡的數據進行計算,最終獲得該策略下的累計獎勵。
在環境未知時,則根據策略π進行采樣,從起始狀態s0出發,執行該策略T步后達到一個終止狀態sT,從而獲得一條完整的經驗軌跡,如式(1)所示:

由2.3.1 節的介紹可得s0(脈位)、a0(中)、r0=0、s1(節律)、a1(不齊)、r1=-1、s2(脈力)、a2(有力)、r2=1、s3(脈型)、……、s14(t)、a14(0.67)、r14=0、s15(終止)。
對于m時刻狀態為sT,未來折扣累計獎勵如式(2)所示:

蒙特卡羅法利用經驗軌跡的平均未來折扣累計獎勵G作為狀態值的期望:

而強化學習的目標是求解最優策略π*,得到最優策略的一個常用方法是求解狀態值函數νπ(s)的期望:

根據本文研究的部分數據項具有取值范圍的限定這一特性,相應得到的結果也具有相應的范圍特性,故本文采用先驗知識中每種脈象的每項數據的最小值及最大值都進行模型計算,獲取相應的最小狀態值νmin以及最大狀態值νmax,從而得到相應脈象的狀態閾值集并記作νpulse?name,i。本文使用部分脈象的數據作說明如表1 所示,限于篇幅,給出了除P 角之外的其他14 個脈象特征,可見部分脈象特征為范圍特性,應用其最小值和最大值分別計算最小狀態值νmin以及最大狀態值νmax。因此,本文方法改用閾值狀態值作為判斷依據。將訓練過程中識別某個脈象時產生的策略及該策略下所獲得的狀態值νπ(s)不斷更新到狀態閾值集中,即:

表1 脈象閾值Tab.1 Pulse condition thresholds

在實驗前,根據每項特征數值可取的范圍對數據進行檢測,以察覺異常值,因此閾值會確定在有限范圍內,以保證每種識別策略的可信性。
因為部分數據項有限定值的情況導致結果出現雷同值;其次由于直接采用原始數據會產生冗長的經驗軌跡,導致準確率降低以及冗余的狀態和行為;為此本文提出了一種改方法:路徑分類和特征選擇。
對經驗軌跡進行分類改進,依照中醫脈象圖分析法,根據脈象的典型特征將脈象進行分類,分類依據如圖4 所示,并設置不同的經驗軌跡的初始狀態,如下:

圖4 脈象經驗軌跡初始狀態分類Fig.4 Initial state classification of pulse condition experience trajectories
S0={“節律”,“脈力”,“速率”,“脈速”}
除此之外,為了達到每種脈象都獨有一條經驗軌跡和縮短經驗軌跡的目標,通過與正常脈象進行特征對比,抽取異常特征構成相應的特征組合,從而達到縮短經驗軌跡的目標。根據脈象數據的特征,本文將使用適合低維數據的異常數據檢測方法Z-score 評分機制[14]進行改進之后作為特征選擇的方法。例如,Xi={xi,0,xi,1,…,xi,14}對每一項數據進行距離計算,計算式如下:

其中:xi,j代表一個數據點;μj是第j個脈象特征數據的均值。根據脈象識別的特點,將平脈(正常脈)的特征值作為比較對象,那么μj就是平脈第j個脈象特征的值。δj是j列數據的標準差,其值將隨著數據量的增加逐值更新。獲取Zi,j值之后對其進行判斷,如式(7)所示:

如果|Zi,j|大于閾值Zthr,j則說明該值為異常值,將其數據存入到新的數組序列中,作為后續實驗的實際數據值脈率失常的一條脈象數據的經驗路徑,經過與正常脈象的特征進行對比,從15 個特征值中選擇出5 個具有顯著異常的特征。由經驗軌跡分類可知,其初始狀態s0=“節律”,相應的經驗軌跡為:s0(速率),a0(慢),r0=-1,s1(脈力),a1(有力),r1=1,s2(節律),a2(不齊),r2=-1,s3(脈速),a3(65),r3=-1,s4(終止)。其長度由原來的15 個狀態、14 個行為及其獎勵,縮短到5 個狀態和4 個行為及其獎勵,達到了縮短經驗軌跡和狀態值唯一性的目標。如圖5 所示,通過路徑選擇和特征選擇的操作,每一次脈象識別都有唯一的經驗軌跡和對應的狀態結果值,最終達到準確識別的目標。具體過程如算法1所示。

Fig.5 優化的經驗軌跡效果Fig.5 Effect of optimized experience trajectory
算法1 優化路徑特征分類脈象識別算法getPulseCondition(Xi)。

算法 2 Z-score 評分機制的特征選擇算法getEigenvalues(Xi)。

其中:μj是j列數據的均值;δj是j列數據的標準差;Zthr,j為閾值。
算法3 馬爾可夫決策與蒙特卡羅搜索算法getPulseName(F,Xi)。

本文實驗的先驗知識,包括27 種基礎脈象,其中包括:平、滑、動、澀、弦等,并分別對每一種脈象進行了14 項特征參數的具體值描述。而先驗知識的來源有兩部分:一部分是中醫醫生對《瀕湖脈學》中的定義進行總結,而這部分主要是脈象的基礎特征;而另一部分則是文獻[12]所提供,其對每一種脈象波形圖中重要參數給出了具體的取值范圍。
實驗的數據通過脈象信息采集儀采集,對象為60 歲左右的老年人,采集時間歷時約半年。所采集的數據有中醫專家的標注,經過標注后的數據中分為單一脈象和相兼脈象兩種。本文先選擇單一脈象用于驗證模型的可行性。每一組數據都由15項具體參數值組成,具體如下。
1)Pulse position:脈位,用于描述脈象所出現的位置,分為浮、中、沉三種。
2)Pulse rhythm:節律,用于描述脈象的跳動節奏,分為齊、不齊。
3)Pulse force:脈力,描述把脈時感受到的脈象的力量,有軟、無力、中、有力、不齊五種。
4)Pulse shape:脈型,簡單將脈象的形狀分為b、abc、ac、a這四類,其中a、b、c分別表示主波、重搏前波和重搏波。
5)Pulse potential:脈勢,從另一個角度來描述脈象的力量,即分為低平虛、正常和強三種。
6)Pulse rate:脈搏,即對脈搏進行慢、緩、中、遲和快的分類。
7)Pulse speed:脈搏速率,即對脈搏進行具體數字的采集。
而其他數據參數為脈象波形圖的重要參數項,如圖2 及相關說明。為了實驗的操作方便對數據進行預處理,并將數據轉換成集合的形式,每一個集合包括脈象名稱及上述的15項參數值,例如X1={x1,0,x1,1,…,x1,14}。
實驗中,把預處理后未經優化的數據直接運用到由馬爾可夫決策過程和蒙特卡羅搜索組成的模型中,實驗結果表明存在經驗軌跡混雜和資源浪費等問題。為此,本文實驗根據文獻[12]中所給出的分類標準,將重點參數值作為經驗軌跡的起始狀態;此外,將每組數據與正常脈象(平脈)的各數據項進行了對比,將異常數據項作為特征提取的對象。經過路徑選擇和特征優化處理,最終達到了縮短經驗軌跡、減少時間和資源的浪費、提高準確率的目標。
為驗證本文方法,將同一數據分別使用PNN 模型、RNN模型進行脈象識別,將每一組數據歸一化為樣本矢量。其中,在PNN 模型中不考慮代價因子對脈象診斷的影響都取值為1;文獻[6]研究表明PNN 對脈象診斷準確率的結果不會因為模型超參數的取值而過于敏感。其次,選擇RNN 模型作為對比,RNN 模型類似于本文模型的狀態之間相關性特征,并在脈象識別研究中表現良好[15]。文獻[6]為了滿足RNN 模型的訓練要求,將數據劃分70%作為訓練數據集,30%作為測試集。
對實驗結果進行分析,選擇模型識別脈型的真正率(True Positive Rate,TPR)、真負率(True Negative Rate,TNR)作為模型評估的指標,TPR 描述模型真正識別的能力,TNR 表示在噪聲數據情況下識別的能力,具體的計算式如下:

其中:TP表示真正脈象的數量;FN表示沒被正確識別的數量;FP表示錯誤識別的數量;TN表示正確識別錯誤數據的數量。為了應用該評估模型,實驗數據分別增設了K={0.1,0.2,0.3,0.5}比例的噪聲數據,用于檢測模型對噪聲樣本的敏感度。表2為模型在不同比例噪聲數據下的真正率(TPR)、真負率(TNR)以及準確率(Accuracy)。

表2 不同模型診斷性能對比Tab.2 Comparison of diagnostic performance of different models
除了通過真正率和真負率評估模型針對不同比例噪聲數據的識別能力,本文還采用F1度量來評價模型的穩定性和診斷性能。F1度量的計算式如下:

其中Total為樣本總量。根據F1度量值越大越穩定、性能就越好的原則,可以得出本文所提出的模型相較于其他兩種模型表現出更好的診斷性能和穩定性;且在面對含有不同比例噪聲數據的情況,本文所提出的模型都表現較好,如表3所示。

表3 不同模型診斷F1對比 單位:%Tab.3 F1comparison of different model diagnosis unit:%
在實驗用時方面,本文模型相較于其他模型的實驗時間減少了約90%,明顯降低了時間消耗。依照該實驗的數據特點:部分數據為具體數字,部分有限定取值范圍(脈位、脈型、節律等),PNN模型相較于單一脈象圖數據的實驗表現出脈象識別準確率明顯降低的特征。而RNN 模型在本文所用數據的情況下,仍保持較高的準確率和良好的性能。本文模型的準確率在對比實驗中相對較優,針對真數據和噪聲數據的識別都有良好表現,驗證了其可行性及對本文實驗數據特征擁有較好的適應性。綜合實驗結果顯示,本文模型可較大幅度縮短識別時間,且模型構建過程相對簡單,能應對稀疏數據集的處理。同時,經驗軌跡可以作為脈象識別的過程,用于解決數據處理過程中的“黑箱”問題。
為解決中醫醫生脈診時由醫生的個體感知差異帶來的脈象診斷不一致的問題,本文利用脈象儀獲取的數據,并依據傳統中醫診脈的思想,探尋利用強化學習方法以實現準確診斷脈象。本文采用馬爾可夫決策過程結合蒙特卡羅搜索的方法設計診斷模型,為了降低冗余,設計出脈診數據特征選擇及路徑分類策略。本文模型與概率神經網絡(PNN)模型和循環神經網絡(RNN)模型進行對比的實驗結果表明:本文模型提高了準確率,減少了時間消耗,同時減少了實驗所需訓練標記數據集。與此同時,實驗過程中對經驗軌跡的存儲,可用于說明和解釋診斷過程。目前,本文僅對單一脈象進行了分析和研究,在今后的工作中,我們將改進方法對相兼脈象的分析,以進一步驗證本文模型的可行性和實用性。