徐璐璐 楊嘉樂 康樂樂
(1.南通大學圖書館,江蘇 南通 226019;2.南京大學信息管理學院,江蘇 南京 210023; 3.江蘇省數據工程與知識服務重點實驗室,江蘇 南京 210023; 4.南通大學信息科學技術學院,江蘇 南通 226019)
醫學信息是面向基礎和臨床醫學為基礎,融合計算機技術智能化應用為代表的一門新興交叉學科。其中的智能化釋義:事物在網絡、大數據、物聯網等人工智能技術支持下,具有能動滿足人各種需求的屬性,推進現代人類文明深度和廣度不斷發展的拓展趨勢。人工智能(Artificial Intelligence)是研究、開發用于模擬、延伸和擴展人類智能的理論、方法、技術及應用系統的一門新興技術科學,也已成為推動國家持續發展的主要動力,各國(地區)紛紛啟動人工智能戰略規劃,旨在提升國家層面技術創新能力,擴大本國(地區)與其他國家(地區)之間的差異。。
1956年,達特茅斯大學一次會議上,學者們正式提出“人工智能”一詞,邁出研究機器如何模擬人類智能活動新課題的第一步。隨后,人工智能不斷滲透教育、醫療等各個領域,不斷刷新人們的想象。自21世紀,人工智能的5個標志性事件相繼發生:2004年,美國國防部高等研究計劃署舉辦DARPA機器人挑戰賽;2008年,IBM提出“智慧地球”的概念;2012年,深度學習在圖像和語音方面產生重大突破,人工智能真正具備走出實驗室步入市場的能力;2016年,Google DeepMind開發人工智能程序“AlphaGo”與圍棋冠軍對決戰勝,引起全世界對人工智能的聚焦目光;2020年,生物界“AlphaGo”精準預測蛋白質結構,解決生物學50年來重大挑戰,成為顯著推動醫學信息領域的重大進步[1-6]。
在此時代潮流下,人工智能一步一步地融入了醫學信息的各個層面。歐美成為醫學信息智能化業界研發應用領跑者,NIH投資320億美元進行醫學信息智能化改造;英國10年投入60億英鎊,建設5個區域、300多家醫院和診所的國家信息化工程[7-8];立足國內,宏觀政策層面,2016年國家連續出臺《“健康中國2030”規劃綱要》《“十三五”全國人口健康信息化發展規劃》《關于促進“互聯網+醫療健康”發展的指導意見》等[9]。
值得注意的是,醫學信息也隨著人工智能高技術、高門檻、高附加值的顯著特征發生了深刻變革。這些變革主要體現在:一方面,人工智能與醫學信息相關產業、政府和社會相互協同并交互升級,創造出新興的醫學生態系統,服務于更為復雜的基因組、細胞學等基礎科研和疾病的診斷、治療及并發癥等臨床醫療的現實場景之中;另一方面,由于精準醫學范式引領和需求不斷擴大,醫學信息越發依賴于人工智能的各類優化算法和模型,不斷改變醫生的工作模式,提高醫學領域的準確性和效率,創新醫療服務高品質發展,助力醫學信息領域各個環節。
綜上所述,人工智能在醫學信息領域多年來一直扮演著極其重要的角色。21世紀以來,人工智能如何分階段地步入醫學信息領域,主題漂移內容和呈現有何特征和區別,人工智能在醫學信息領域的演化脈絡又如何對于人工智能在醫學信息領域的未來有何展望呢。本研究以2000—2019年20年間的醫學信息發展為背景,以人工智能標志性事件為階段,觀察醫學信息領域中人工智能技術的整體布局,通過3種深度學習的方法對醫學信息領域中人工智能技術進行命名實體識別,并對其進行詞頻對比統計并深度分析,實現人工智能技術命名實體識別的較優效果。從而深入厘清人工智能技術在醫學信息領域的主題漂移特征和規律、重要發展趨勢及演化軌跡,并提出3點未來可行性建議以做參考,更可為人工智能技術在其他領域實體識別及其如何發展變遷提供有價值、有意義的科學探討和研究借鑒。
進入20世紀,煥發活力的人工智能作為一種高效的技術工具,從獲取處理基礎的基因數據,到調控識別各類蛋白質等網絡通路,再到面對復雜臨床疾病、文本圖像識別及藥物篩選等,不斷將先進文明的科幻與現實場景加速融合,勢在必行地推動人類進入新時代,為醫學信息相關領域的重大突破做出了巨大貢獻。2004年,國際人類基因組測序組織(IHGSC)在《Nature》上發表一文描述人工智能如何利用強大潛能,建立一個新系統處理大量數據和臨床相關解釋,從最初的核心項目200個全人類基因組測序(WHGS)項目,擴展到了750個WHG,幫助人類基因組計劃走出困境[10]。隨后,Pr?ulj N等和Fortney K等利用人工智能在醫學信息領域進行更豐富、更可行的操作,他們將數據信息與各類網絡(蛋白質相互作用網絡、轉錄調控網絡、microRNA基因網絡、代謝和信號通路)整合在一起,識別數據孤島之間的關系,使用圖論算法或知識工具進一步分析和深入了解這些數據與網絡結構,進而表征這些蛋白質、轉錄因子和microRNA的功能,最大限度地提高對轉化研究的影響,實現更準確和可解釋的建模,增加對復雜疾病的理解,最終支持P4(精準、個性化、參與式、預防性)醫學[11-12]。2011年,IBM研究人員利用名為沃森(Watson)的開放智能問答系統來參加比賽,達到了一個具有象征意義的里程碑,即可以梳理電子病歷和醫學文獻(如期刊),為人類疾病做出臨床決策,并最終戰勝了排名最高的兩名人類選手,獲得了勝利[13]。2013年,Abràmoff M D等利用Messidor數據庫對患者識別眼底虹膜等結構,通過人工智能的計算機檢測程序診斷糖尿病視網膜病變(RDR)相關信息,其準確性與專家閱讀器的診斷準確性相當[14]。隨著模式識別工具數量和數據集大小的增加,人工智能在醫學圖像相關領域的分析呈指數級增長,2016年,Gillies R J等通過分析復雜系統內生理參數、實驗室和影像數據,將圖像轉換為可挖掘的數據,并隨后對這些數據進行分析以提供決策支持,推動智能在線問診及預測疾病等,支撐各類醫學信息及相關研究得以正常運行[15]。2020年,Stokes J M等在《Cell》發文中基于深度神經網絡模型引導的人工智能建模先進方法,從龐大的化學文庫中預測新的候選抗生素,從而開始有機會影響藥物發現的全新范式,擴展對于抗生素庫的效用[16]。
基于上述文獻回顧可見,人工智能所驅動的相關技術正迅速演化為適用于醫學信息領域中精準和高效的解決方案,越來越多地引起學術界的重點關注和聚焦。但是,人工智能在醫學信息領域的學術研究仍主要集中于國外文獻,且針對某個具體領域逐一地進行探討,國內文獻也相對較少。特別是,鮮有研究能夠較為全面地追溯人工智能在醫學信息領域的主題漂移,系統探討其不同的主題特征,并通過時間維度來展示這些人工智能方法在醫學信息的發展脈絡。因此,很有必要重點聚焦與人類生存和發展密切相關的醫學信息領域,著力關注人工智能作為一種“賦能”強大引力,如何不斷碰撞、融合、騰飛發展甚至重構醫學信息的外延和內涵,促使醫學信息在臨床和科研工作中愈加發揮不可估量作用。
針對所提出的研究問題,本文首先采集了醫學信息學相關的學術論文。使用論文而非專利的主要原因是,論文更具有前沿性,往往引領著技術發展。通過分析學術論文,更能夠把握人工智能技術的發展趨勢;其次,通過對論文數據利用VosViwer進行分析,判斷該領域人工智能技術發展的時間脈絡;最后,使用命名實體相關方法進行主題漂移研究,從細粒度上分析醫學信息學領域具體人工智能技術的發展和應用。
首先,本文依據2020年4月30日科睿唯安Journal Citation Reports(JCR)分區中Medical Informetrics類目,確定26本Medical Informetrics英文期刊并獲取2000—2019年全部文獻題錄信息。然后,借助上述2000年、2004年、2008年、2012年、2016年人工智能標志性事件,按照5個時間段全部題錄數據,進行數據清洗,利用VosViewer可視化觀察人工智能技術在醫學信息領域的分布,接著對其進行BIO文本標注,再通過BERT對文本數據預處理,再由CRF、Bi LSTM-CRF和基于Attention的Bi LSTM-CRF 3種深度學習的命名實體方法[17-22],經五折交叉實驗對訓練集和測試集來訓練并識別醫學信息領域人工智能技術相關詞匯,從而最終對人工智能技術在醫學信息領域如何應用和發展,探討和挖掘相應的主題漂移和演化脈絡。整體研究思路和框架流程如圖1所示。

圖1 研究思路和框架流程
本文采用Guitub人工智能等合計782個關鍵詞構建本研究的標注詞典,詞典對數據集進行自動BIO標注,標記序列(“B:開始”,“I:內部”,“O:外部”的縮寫)是一種對給定句子中的單元做序列標注的方式,即從給定句子中抽取連續字/詞塊構成有意義短語,提取類似于命名實體識別經典問題。并且,設計Python程序,利用標注詞典對數據集進行自動標注,其中80%訓練,20%驗證,以人工方式對標注語料進行審核,按照該語料標注方法,構建醫學信息領域涉及人工智能技術與方法語料庫。
基于上述剔除英文字母、亂碼句段、特殊字符、統一標點符號等,得到人工智能技術相關內容有效文本集含40 124條句子,26 052 241個字符,后本文進行3種深度學習的命名實體識別實驗,對有效文本集進行BIO文本標注,后通過BERT對文本數據進行預處理,最后由3種CRF、Bi LSTM-CRF和基于Attention的Bi LSTM-CRF 3種命名實體識別醫學信息領域人工智能技術相關詞匯,核心步驟和框架流程如圖2所示。

圖2 醫學信息領域人工智能技術命名實體核心步驟和流程
2.2.1 BERT預訓練
任何模型的訓練和預測都需要有一個明確的輸入,利用語言模型將文本表示為可以被計算機識別的輸入是進行命名實體識別重要一步。2018年,提出BERT(Bidirectional Encoder Representation from Transformers),作為Word2Vec替代者,通過雙向Transformer的Encoder,捕捉更長距離的依賴,含有詞的向量(Token Embeddings)、語句分塊張量(Segmentation Embeddings)、位置編碼張量(Position Embeddings),將上述3個向量直接做加和形成最終的Embedding向量,在NLP測試中創造了當時的最佳成績[23-24],如圖3所示。

圖3 基于BERT的文本向量化表示的示意圖
2.2.2 Bi LSTM
模塊長短時記憶網絡(LSTM)是一種特殊的循環網絡(RNN)模型,克服傳統RNN模型由于序列過長而產生的梯度彌散問題[25-26],通過特殊設計的門結構使得模型可有選擇地保存上下文信息,具有適合命名實體識別的特點,其網絡的主要結構可以形式化地表示為:
it=σ(wixxt+wihht-1+bi)
(1)
ft=σ(wfxxt+wfhht-1+bf)
ot=σ(woxxt+wohht-1+bo)
ht=ot?g(ct)
其中w代表各個權重矩陣,wix是輸入門到輸出的權重矩陣,b代表偏置向量,bi是輸入門的偏置向量,σ是Sigmoid函數,i、f、o、c分別代表輸入門、忘記s門、輸出門以及Cell狀態更新向量,?代表點乘,g、h分別為Cell的輸入、輸出激活函數,通常為tanh。
由于單向LSTM模型無法同時處理上下文信息,Graves A等提出Bi LSTM(Bidirectional Long-Short Term Memory,雙向長短期記憶網絡),對于每一個時刻而言都對應著前向與后向的信息,對每個句子分別采用順序(從第一個詞開始,從左往右遞歸)和逆序(從最后一個詞開始,從右向左遞歸)計算得到兩套不同隱層的表示,然后通過向量拼接得到最終的隱層表示[27-28],其中輸出ht表示t時刻的輸出,具體結構如圖4所示。

圖4 LSTM和Bi LSTM神經網絡的結構圖
2.2.3 線性CRF模塊
命名實體識別任務中,Bi LSTM善于處理長距離的文本信息,但無法處理相鄰標簽之間的依賴關系。CRF能通過鄰近標簽的關系獲得一個最優的預測序列,可以彌補Bi LSTM的缺點[29],故本文進一步將CRF融合到Bi LSTM模塊中,對Bi LSTM輸出進行處理,獲得全局最優的標記序列。對于任一個序列X,在此假定P是Bi LSTM的輸出得分矩陣,P的大小為n*k,其中n為詞的個數,k為標簽個數,Pij表示第i個詞的第j個標簽的分數。對預測序列Y(y1,y2,…,yn)而言,得到它的分數函數為:

(2)
式中,矩陣A是轉移矩陣,例如:Aij表示由標簽i轉移到j的概率,y0、yn則是預測句子起始和結束的標記,A是一個大小為k+2的方陣。所以在原序列X的條件下產生標記序列y的概率為:
(3)
(4)
其中,YX表示所有可能的標記集合,包括不符合BIO標記規則的標記序列。通過式(4)得到有效合理的輸出序列。預測時,由式(5)輸出整體概率最大的一組序列:
(5)
2.2.4 Attention機制
2014年,Bahdanau D等在論文中第一次提出把Attention機制應用到神經網絡機器翻譯上[30],其通過模仿人類注意力而提出一種解決問題的辦法,從大量信息中快速篩選出高價值信息,保留LSTM的中間結果,用新的模型對其進行學習,并將其與輸出進行關聯,從而達到信息篩選的目的。在Bi LSTM層之后添加Attention層,用矩陣T來計算當前目標字與輸入文本中所有字的相似性。注意力權重系數tj(矩陣T的第t行第j列)表示第t個目標輸出與第j個輸入的相似性,tj值越大,表示在生成第t個輸出的時候受第j個輸入的影響也就越大,計算如下:
(6)
(7)
stj被定義為括號中的兩種形式,分別表示為歐式距離,為b-a的值,當xt和xj越相似的時候,余弦距離的值會越大,相反,歐式距離值會越小。

(8)
用一個全局變量ut表示解碼階段的第t時間序列,hj為Bi LSTM層的輸出編碼的權重之和,如下:
zt=tanh(wu[ut;ht])
(9)
將全局變量ut與Bi LSTM層的輸出ht合并成一個向量[ut;ht],再將其喂給一個tanh函數作為Attention層的輸出。
在Attention層之后用一個tanh層預測神經網絡輸出的標簽得分:
在超聲的引導下,甲狀腺結節粗針穿刺活檢能夠準確的診斷出結節的良性與惡性,且因粗針穿刺組織取樣足,檢測成功率高,對甲狀腺CNB的診斷精準性高,并發癥的發生率低,值得大力推廣。與細針穿刺相比,粗針活檢取出的組織充足,在病理分析的難度上明顯低于細針的細胞學分析,更易于在基層醫院開展。
et=tanh(wezt)
(10)
總之,自底向上:①長度為N的輸入序列將獲得的3種不同的向量表示,分別為:Token Embeddings表示詞的向量;Segment Embeddings表示輔助BERT區別句子對中的兩個句子的向量;Position Embeddings讓BERT學習到輸入的順序屬性;②利用Bi LSTM獲取每個詞長距離的上下文特征;③CRF層考慮單詞標簽之間的制約關系,加入標簽轉移概率矩陣,給出全局最優標注序列;④最后引入Attention模型對Bi-LSTM層輸入與輸出之間的相關性進行重要度計算,根據重要度獲取文本整體特征,有助于取得更好的性能指標。
本文依據上述科睿唯安JCR分區中Medical Informetrics類目中確定26本相應英文期刊并獲取2000—2019年全部文獻題錄信息,將21世紀以來的20年數據劃分5個時間段(2000年、2004年、2008年、2012年、2016年人工智能標志性事件),并利用VosViewer軟件提取共現關鍵詞清晰可見:2000—2003年model、models、meta-analysis、longitudinal data等;2004—2007 年model、models、logistic regression、longitudinal data等;2008—2011年model、models、algorithm、clustering等;2012—2015年model、models、regression、networks等;2016—2019年 model、models、machine learning、automatic detection等。20年來,醫學信息領域人工智能技術的發展大致圍繞模型、算法與聚類分析(model、algorithm、clustering),臨床前期研究(meta-analysis),臨床實驗和數據管理(clinical trail、longitudinal data、networks),機器學習和自動化技術(machine learning、automatic detection),大規模流行病預測(prediction)等方面,可視化結果顯示人工智能技術明顯簇擁于虛線區域并在醫學信息領域持續占據重要地位,具體如圖5所示。

圖5 2000—2019年5個時間段醫學信息領域關鍵詞的總體分布占比
本文中醫學信息人工智能技術語料處理利用Python程序存儲Google云端硬盤,采用計算平臺為Google Colaboratory,提供免費云端Jupyter Notebook環境,支持Python 3.8運行,使用GPU便于硬件加速,實驗平臺參數Tesla K80,NVIDA驅動版本418.67,CUDA版本10.10,顯存11.00GB。字符向量化由Google BERT訓練得到,通過多輪測試,語言模型及序列標注模型參數設置暫定為表1所示。編寫Python程序調用Kashgari開源框架中的BERT-Base Uncased_L-12_H-768_A-1模型進行Bi LSTM、Bi LSTM—CRF和基于Attention機制Bi LSTM—CRF的3種實驗方法。

表1 3種深度學習模型的參數
3.3.1 3種命名實體結果對比
在這項研究中,對于所抽取出來醫學信息人工智能技術的實體知識,本文主要采用準確率(Precision,P)、召回率(Recall,R)、F1值(F-Measure)這3個指標進行判定Bi LSTM、Bi LSTM-CRF和基于Attetion機制Bi LSTM-CRF 3種模型性能。使用F1值評分來評估模型的性能,同時考慮精度和召回率。將實驗語料按照4∶1比例劃分出訓練集和測試集。采用五折交叉驗證的方法,每次實驗隨機選擇其中4份進行訓練,余下1份進行測試,對5次實驗的結果求平均值,結果如表2所示,具體計算公式如下:

表2 醫學信息領域人工智能技術的3種命名實體實驗結果
(11)
(12)
(13)
從表2可以看出,本研究在不使用任何人工特征的情況下,基于BERT模型為輸入的深度學習模型在醫學信息領域中人工智能的實體識別任務上,避免傳統機器學習方法導致系統成本提升、泛化能力下降的不良后果,獲得了比使用大量豐富特征和領域知識的淺層機器學習方法相對理想的性能結果。特別是,后兩種深度學習模型相對更為優化,得益于雙向長短時記憶網絡擁有兩個相反方向的并行層特征,能夠同時考慮上下文信息。第二種模型Bi LSTM-CRF的準確率均值提高到89.04%,召回率均值提高到75.60%,F1值均值提高到81.61%;第三種模型Bi LSTM-CRF-Attention的性能整體上更優,準確率提高到89.08%,召回率提高到88.13%,F1值提高到88.40%。
尤其是第三種模型,不再僅以簡單詞向量,使用BERT語言模型通過3部分Embedding求和組成來對文本進行特征訓練取得更好輸入,利用Bi LSTM提取上下文信息,避免喪失連接到遠處信息的能力,同時結合CRF模型提取全局最優序列,繼而通過Attention機制,提煉那些比較重要的單詞,賦予權重以提高他們的重要性,處理文本分類的相關問題具有較好的效果,該方法可以聚焦到最重要的詞,從而捕獲到句子中最重要的語義信息。在一定程度上,說明集成了鏈式CRF模型后,能夠充分利用相鄰標簽之間的關系特征,考慮上下文的關系,并利用Attention機制本質加權求和,從而比較穩定地提高了整個序列化標注的性能,最終識別醫學信息領域人工智能技術相關命名實體,從而為進一步準確地分析醫學信息領域中人工智能技術的主題漂移不同特征和發展脈絡提供重大幫助。
3.3.2 主題漂移的結果分析
基于命名實體識別結果,本文把20年來在醫學信息領域的人工智能相關技術進行詞頻統計,用于探索與尋找在5個時間階段中人工智能在醫學信息領域的主題漂移特征規律和演化軌跡。
1)人工智能的主題漂移軌跡主流相對穩固——高、中頻關鍵詞
通過詞頻統計發現,高頻次(1~5)排名前3位的一直集中是回歸(Regression)、分布(Distribution)和計算程式(Algorithm),即醫學信息領域涉及的人工智能方面的主要技術較為穩定,改變并不明顯。中頻詞(6~10)選取有特征性,如:精確(Precision)、干預(Inference)、假定(Hypothesis)、聚類(Clustering)、零散值(Odd)、ROC曲線、準確性(Exact)等,總體也相對集中穩定,且變化不大,代表性舉例結果如表3所示。

表3 具有代表性意義醫學信息領域人工智能技術的高、中、低頻詞
由此可見,自21世紀以來的20年,人工智能在醫學信息領域歷經多年的碰撞和磨合,高頻詞較為集中地圍繞在運用各種簡單回歸(Regression)等模型,同時中頻詞也相對穩定地使用聚類、假設等算法。同時,這些持續占比較重的高、中頻詞,正是相對比較傳統型的人工智能技術,20年來一直持久并深入地應用于醫學信息領域的各個方面,相對固定且變化并不明顯。也就是說,人工智能的主題漂移軌跡主流呈現出尚缺乏帶動性、爆發性的超級應用融入基礎和臨床醫療領域,整體技術和研究流程依舊保持成熟穩固的風格,進入比較理性和務實的主題狀態。
2)人工智能的主題漂移軌跡分支確有變化——低頻關鍵詞
基于上述高、中頻詞的觀察和分析可見,醫學信息領域人工智能的主題漂移軌跡主流集中于基礎性相關技術,整體進入相對理性和務實狀態。進一步基于5個時間段進行命名實體識別訓練,并對醫學信息領域人工智能技術低頻詞進行詞頻統計(11~15),卻呈現不同的結果:2000—2003年離群值(Outlier)、機器學習之則化(Regularization)、多元線性回歸模型(MLR)、向量子空間(Subspace);2004—2007年多元線性回歸模型(MLR)、深度神經網絡(DNN)、學習向量量化(LVQ);2008—2011年深度神經網絡(DNN)、隨時間反向傳播(BPTT)、BERT模型及微調(Fine-tuning);2012—2015年最大期望(Expectation-Maximization)算法、標準化(Normalization)算法;2016—2019年最大似然法(Log-likelihood)、邊緣化算法(Marginalization)、條件隨機場模型(CRF),詳見表3結果。
由此可見,低頻詞變化從多元線性回歸模型,到深度神經網絡、學習向量量化,再到各種標準化算法、邊緣化算法、BERT模型等,人工智能技術在醫學信息領域明顯表現出由機器學習過度較為復雜深度學習的主題漂移分支特征。由于人工智能中具有難度的深度學習等相關技術尚未能高頻、全面使用,故對于其在醫學信息領域可能產生突破性的成果依然存有大量空間且尚需努力。因此,本文繼續對于低頻詞的典型性事例從主題、對象、方法、技術、目的和效果歸納如表4所示。

表4 人工智能技術在醫學信息領域低頻詞的典型性事例

表4(續)
3)主題漂移部分呈現直覺→支持→策略→后推理→前推理發展趨勢
通過上述人工智能技術的低頻詞典型性舉例的變化,清晰可見其由淺入深地融入醫學信息相關領域之主題漂移的部分發展趨勢:①從選取動物進行實驗,早期運用回歸模型處理簡單事實的經驗知識,生成簡單的規則,得出某種醫學結論;②逐漸發展為面對多個及特殊問題,通過對病患至少兩種以上的數據進行分析,為醫生給出相對準確的診斷建議;③充分利用數據,利用各種回歸模型,對誤差進行分析,處理復雜問題,讓醫生再結合自己的專業進行判斷,使診斷更快、更精準;④基于已經掌握的數據和事實,運用標準化算法不斷地將各類信息進行多次加工整理,前推理地形成相應的醫學知識,進行分類、分析關聯關系,實時輔助醫生醫療決策;⑤在數字健康時代,當事實于結果并無確定關系,利用文本數據、各種數據庫等多元性的數據,為醫學知識注入卷積神經網絡,借助人工智能里邊緣性的多源算法,為醫生提供可信度較高的后推理,進行各種健康管理,提高生活質量,延伸至精準醫療。
情報學領域經典理論是由事實(Facts)→數據(Data)→信息(Information)→知識(Knowledge)→智能(Intelligence)5個鏈環構成的信息鏈,即它是以信息為中心環節,描述信息運動的一種邏輯構造。而上述醫學信息領域中人工智能技術低頻詞的發展規律部分呈現,直覺(經驗發掘)→支持(深入理解)→策略(強化分析)→后推理(支撐決策)→前推理(提前預測),清晰可見其主題漂移的演化脈絡,這與情報學領域經典理論“信息鏈”的完整邏輯鏈不謀而合[31]。也就是說,人工智能相關技術通過直覺感受可感事實信息→自動理解數據并接收認知信息→系統化、有邏輯地、有策略地分析既可感又可知信息→基于各種客觀信息的升華后做出決策→智能掌握分析海量數據并傳遞信息提前預測,逐步發揮不可替代的重要作用,覆蓋診前、中、后全流程,極大促進醫學信息及相關領域的成熟,步步助力精準醫學的飛躍頂端,如圖6所示。

圖6 人工智能技術在醫學信息領域中主題漂移的部分發展趨勢
綜上所述,基于5個人工智能在醫學信息領域具有不同主題漂移特征和演化趨勢。一是,高、中和低頻詞基本集中于較為傳統型的人工智能技術,低頻詞分階段涉及不同類型的深度學習等較為復雜性人工智能技術;二是,高頻詞變化小,最為穩固,中頻詞整體相對穩固,低頻詞隨著不同階段確有一定程度改變;三是,人工智能在醫學信息領域中主題漂移的演化脈絡呈現總體相對穩固尚未能發生顛覆性的變革,但部分呈現直覺(經驗發掘)→支持(深入理解)→策略(強化分析)→后推理(支撐決策)→前推理(提前預測)的發展趨勢。
由此可見,目前醫學信息領域中人工智能尚處于弱人工智能時代,尚未完全具備溝通、引領、創新及突破的承載功能。未來,期望通過人工智能技術來挖掘醫學信息領域強大內在功能和多樣異質特征,以最新研究技術和方法推動其進步與發展,有望將醫學傳統疾病檢測、診斷和治療轉變拓展為以數據為導向、面向技術的學科引領與創新,取得與人類智能相媲美的成就。因此,根據上述人工智能在醫學信息領域主題漂移主流和分支不同特征和演化脈絡,現有3點展望和建議,以供參考和驗證。
在技術層面上,全面系統地學習人工智能各類方法,將傳統型的技術更好地發揮和應用于醫學信息領域。AlphaGo最主要研發人員David Silver博士曾經表示:強化學習+深度學習=人工智能。基于學習充分理解人工智能現狀優勢和潛在局限,將狹義人工智能通過“學習如何學習”,把人工智能傳統型的技術優化為更具有廣泛價值及通用人工智能,繼而對其進行有效選擇,通過單個項目到多任務地實戰演練和掌握處理復雜性和多樣性的醫學數據。一步步深刻理解人工智能全方位的特殊性質,不斷強化學習和自我對弈來提升人工智能的傳統技術,更好理解其優、缺點,才能構建豐富的醫學領域知識庫,合理利用、分類選擇、預測結果,獲取更公平、更少偏見的決策。也只有這樣,才能從根本上利用人工智能中傳統型技術更好地處理醫學信息領域復雜問題和任務。產生令人印象深刻的翻天覆地的變化及突破,從而打開通向卓越醫療保健的有效途徑。
在應用層面上,不斷開發具有復雜性的人工智能技術,將其更精準地應用于醫學信息領域。由于醫學信息數據可分為大量結構化數據(例如,國際疾病分類代碼、實驗室結果和藥物),非結構化數據(醫師筆記、大多數記錄的數據),以及各類數據的產生真實世界證據(關于醫療產品的使用、潛在益處或風險的臨床證據)。對于結構化數據完全可用現有科學技術進行全面處理,但對于非結構化數據和各類數據產生的證據則需要進行更為復雜的處理,人類光靠自己是做不到的。因此,不斷開發具有難度和深度的人工智能技術,搜集大量外部數據信息,進行患者檢查、數字格式保存、收集和分析病歷、藥物治療、處理各類大型數據集等,并將其轉換為可分析的格式,確保一定程度的準確性和可靠性,通過不帶有個人情緒和環境影響的人工智能技術,引出各類數據和證據更為深刻的內在含義,大量減少漏診與誤診的幾率,分門別類地精準執行醫學任務。人工智能技術不斷提升和拓展,給予醫學信息領域強大賦能,提取具有異質癥狀的疾病本質,獲得更高質量決策應用和監督管理,有助于對基礎研究和臨床診斷提供優質解決方案。
基于實踐驅動和理論方法并行為特征的雙向層面,人工智能技術的不斷深入和互動于醫學信息領域。一方面,利用人工智能技術的精細化、多樣化手段進行患者檢查,創新針對性、個性化的療法,嘗試獨特用藥及外科手術治療,幫助復雜醫療案件做出相對高效的優化決策和精準治療;一方面,人工智能賦予醫療行業更可靠的技術,借助人工智能技術預約、跟蹤、檢測、調查在線患者,對健康預測提供便利和支持,普及到每家每戶,讓人們足不出戶做到日常預防監測,這樣不僅能夠提升醫療人員的工作效率,也從源頭上節約了醫療成本;另一方面,隨著人工智能擴散到醫學信息各個領域,務必利用其強大的先發優勢預測解決數據隱私、數據安全、數據保護等潛在危險及社會影響,可持續性地對人民群眾身心安全起到強有力的保障作用。
自21世紀以來,醫學信息領域不斷壯大、發展和挑戰,人工智能技術不斷更新、嵌入及融合。基于醫學信息領域的人工智能技術現有整體相對穩固,但尚缺乏顛覆性變革的現狀,部分呈現直覺(經驗發掘)→支持(深入理解)→策略(強化分析)→后推理(支撐決策)→前推理(提前預測)的發展趨勢。未來期待通過上述技術、應用及并行層面的3點展望,以人工智能強力崛起高技術、高門檻、高附加值的顯著特征,呈現從單一簡單到復雜多樣地整理分析現實生活中的醫學信息,優化臨床策略和精準治療,協調醫學信息整體規劃,開發提供健康預測,制定相關國家政策法規等,邁向具有革命性影響且意義深遠的美好未來。