潘建中 楊帆 許遵欽


摘要:隨著大數據和人工智能技術的發展,通過中醫基礎古典文獻、醫學指南共識、臨床經典病案等探索挖掘中醫知識圖譜,探索中醫智能知識體系。建立自我學習,自我修正,深度學習的診斷模型,提供個體化治末病解決方案,探索智能中醫輔助診斷,打造智慧超級中醫。通過數字化手段構建“望聞問切”的新型中醫數字化人工智能開方系統
關鍵詞:大數據 人工智能 開方系統
一、研究背景
經過近二十年的發展,中醫藥行業仍處于成長初期,互聯網+助推了中醫藥市場的快速發展,目前市場基本形成三大陣營體系:傳統中醫藥企業、互聯網中醫藥企業、第三方中醫藥企業,第三方企業依托傳統企業的產品和服務,傳統企業利用第三方企業的渠道發展業務,兩者之間形成了緊密的聯系,互聯網中醫藥同樣與傳統中醫藥存在著這種合作關系。所以合作與發展是當下行業的態勢。
當前國家政策大力支持,國務院《中醫藥發展戰略規劃綱要(2016—2030年)》
國家中醫藥管理局《中共中央國務院關于促進中醫藥傳承創新發展的意見》提出出明確的目標和規劃。
其次,公司具有明確的業務需求,需要以優秀的方案解決問題。公司業務和國家要求密切相關,希望能為中醫藥未來發展、公司未來戰略規劃做出貢獻。
二、行業現狀
目前中醫互聯網企業中,有以下幾類智能開方系統:
比較簡單的智能開方系統其實是利用搜索引擎技術,在收集大量的病情以及診斷的基礎上,進行病情匹配,將匹配成功的診斷返回。這個過程看起來就像智能開方一樣,表面看給個病情就能給出診斷,而實際上只是找到答案。
進階一點的智能開方系統,通過圖像識別與自然語言處理(這兩項技術依然使用大數據技術實現),進行相似性匹配。相似的病情即使有文字表述不同,癥狀差異,也不影響實質性診斷,依然可以開方。
高階的智能開方系統,利用神經網絡機器學習技術,將病人的描述和問診單的自然語言描述轉化成形式語言,然后分析知識點和開方策略,進行自動推導,從而完成實質性的開方。
三、主要研究內容
1.項目內容及實施路徑
1、形成“診前、診中、診后”完整的閉環服務體系。
2、完善“診前”、“診后”服務體系,從監測到指導到康復提供全程健康服務。
3、促進支付在線上線下的全場景化,進一步便捷化“診中”就醫過程。
2、產品方案
通過不同終端,定位目標人群,提供相關中醫咨詢、問診服務,可與醫生進行討論交流。系統根據用戶提供的信息進行智能診斷。而經典書方藥,病歷,特別是專家寫的病歷,利用大數據技術將這些知識進行處理、分析、統計、 挖掘,可以構成一個病歷知識庫,可以幫助給更多人,這一些功能,共同組成一個智能輔助診療系統。
3、產品技術架構
1、系統總體架構設計
大數據人工智能開方系統以通過中醫基礎古典文獻、醫學指南共識、臨床經典病案等探索挖掘中醫知識圖譜,通過知識匹配搜索引擎,引導患者自診,也可以幫助醫生診療。
具體架構圖如下所示:
2、技術特點
① 分布式文件系統 HDFS
HDFS為了做到可以保證數據的可靠性。1。任何一個節點失效,不影響 HDFS 服務 2。HDFS 可以自動完成副本的復制。具體實現是通過Datanode壞掉的磁盤上的數據盡快通知 NameNode,Datanode 每3秒鐘向 NameNode 發送心跳,如果 NameNode 認為該 DataNode 已經 dead,NameNode 將取 出該 DataNode 上對應的 block,對其進行復制。持久化元數據來實現。所有的數據至少存儲3份,滿足 CAP原則并且可以支持移動計算,保證的處理的速度。
② 大數據計算引擎 Spark
主要的功能是把患者提交的癥狀,問診單的答案和與醫生聊天過程中產生的聊天數據分割成多個計算階段,這些計算階段組成一個有向無環圖DAG,使用任務調度器根據 DAG的依賴關系執行計算階段。實現的功能有2個:一個是提取特征數據,然后對數據進行取映射,然后進行計算。第二個是通過 Shuffle 將數據進行重新組合,相同癥狀,描述的數據放在一起,進行聚合,關聯等操作。通過不斷的移動計算,得到需要分析文本的特征向量。
在實現持久化存儲的時候,對數據進行指定的分發。
③ 使用感知機訓練樣本制作
感知機是一種比較簡單的二分類模型,感知機算法在疾病診斷中,將不同的數據分為2類,公式如下
自動感知機是一種自監督學習BP神經網絡,它通過建立一個恒等函數,使輸出盡可能復現原始輸入,即通過“編碼”過程學習原始數據在隱空間內的表示,再通過“解碼”過程由數據在隱空間中的表示盡可能重構原始數據。最后計算特征空間向量,根據權值向量和偏置,輸出空間向量。
在訓練開方過程中,如何識別出最可能的疾病診斷,從而增加準確度,降低醫療的風險? 我們通常對于給定的一個用戶病歷問卷,計算得出每個問卷問題所產生的綜合空間向量,最后把空間距離最近的診斷,作為優選結果。對于高風險的疾病或者高風險的用戶(如孕婦),要求其提供更多信息、甚至向醫生提供預警。事實上,中醫行業已經沉淀了大量的歷史病歷數據,利用這些數據進行計算,可以得到用戶特征。當新用戶來就診的時候,將該用戶病歷問卷特征帶入曲線進行計算,就可以得到該用戶的特征指數,進而自動給出該用戶的診斷。
④ 機器學習與神經網絡算法
精選的專家病歷主要依靠浙江省中醫藥大學提供的已經被標記好的病歷集再結合甘草醫生線上重點醫生提供的經典病歷,經典的書方藥采用甘草學院線上數據庫,這一部分數據也已經被標記完善。上面的這部分數據,作為樣本。然后我們采用 K-means分類算法,計算需要分析的數據和樣本之間的距離,對距離進行排序,取最近前若干個樣本,統計樣本類別,統計得到的最多類別,為待分類數據的類別。距離算法采用歐氏距離計算公式,而提取文本的特征值采用TF-IDF算法,
神經網絡中,我們采用了多層感知機,最后一層感知機,則根據疾病診斷結果,建立相對應數量的感知機,最后得到的結果如果不符合要求,就不斷地調整感知機的層級和數量,直到可以得到相對準確的診斷為止。
最有了有診斷后,根據診斷就可以參考經典方中的藥方或者專家給的藥方,根據患者實際情況如年齡,性別,懷孕等給患者開方。
四、小結
本公司通過對國內外現有的人工智能開方系統的研究和分析,運用HDFS,SPARK,HIVE,人工智能神經網絡等前沿技術結合中醫開方診斷的實際需要集成了中醫知識圖譜,科研文獻,病歷,藥材等數據,最終開發出一個自動化、智能化、人性化的穩定可靠的基于大數據的人工智能開方系統,對提高中醫的現代化水平,提高互聯網中醫的人工智能化水平,幫助醫生分析開方記錄,預測醫生開方,輔助醫生開方具有重要意義。
參考文獻
[1]云計算環境下分布式語義文本自適應分類方法[J]. 王剛,楊波,楊明杰. 科學技術與工程. 2018(07)
[2]基于大數據技術的用戶行為分析平臺的設計與實現[J]. 吳榮燦. 電腦知識與技術. 2021(04)
[3]統計學方法的發展及其在大數據中的應用[J]. 游士兵. 統計與決策. 2020(04)
[4]支持新型冠狀病毒肺炎的中醫智能處方推薦和知識庫系統[J]. 王斌. 中國數字醫學. 2020(05)
[5]大數據時代背景下人工智能在計算機網絡技術中的應用淺談[J]. 馮存生. 電腦知識與技術. 2020(12)
[6]人工智能技術在醫療健康領域的應用[J]. 朱壽華. 電子技術與軟件工程. 2020(01)
[7]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏. 中文信息學報. 2017(05)
[8]結合鄰域相關影像與最大相關性最小冗余性特征選擇的面向對象變化檢測[J]. 鄒利東,潘耀忠,朱文泉,周公器,李宜展. 中國圖象圖形學報. 2014(01)