劉鳴
隨著大數據、人工智能等創新技術的發展,數字技術在醫療領域高度滲透,“互聯網+”助力醫療行業,使得醫療信息呈幾何倍數增長,醫療大數據時代已經到來。
大數據是指所涉及的信息資料數量規模巨大到無法通過現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合[1]。IBM提出了大數據的“4V”特征,即數量(volume)、多樣性(variety)、速度(velocity)和真實性(veracity)。
天文學和基因學是最早產生大數據變革的領域。2003年人類第一次破譯人體基因密碼時,用了10年才完成了30億對堿基對的排序,而在10年之后,世界范圍內的基因儀15 min就可以完成同樣的工作量[2]。隨著各種便攜式智能設備的出現以及物聯網和云計算、云存儲等技術的發展,人和物的所有軌跡都可以被記錄下來,產生的大量數據可以被收集起來,形成了大數據的海洋。
隨著傳感器及智能設備等技術的快速發展,數據格式變得越來越多樣化。在醫療系統,每一位患者從門診就診、專家號選擇、各種檢查檢驗結果、入院、藥物或手術治療、結果評估、復查等產生大量信息,數據格式涵蓋了文本、音頻、圖片、視頻、模擬信號等不同的類型。醫院每天都會有成百上千例患者,所產生的數據量更是龐大。
英特爾中國研究院首席工程師吳甘沙認為,快速度是大數據處理技術與傳統的數據挖掘技術最大的區別。大數據分析是一種以實時數據處理、實時結果導向為特征的解決方案。它的“快”有兩個層面的含義:一是數據產生得快;二是數據處理得快。
數據的重要性就在于對決策的支持。數據的真實性是獲得真知和思路的最重要因素,但即使是最優秀的數據清理方法,也無法消除某些數據固有的不可預測性。在云計算出現之前,傳統的計算機無法處理數量如此龐大且不規則的“非結構數據”;在以云計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易地被利用起來。大數據與云計算是一個問題的兩個方面:一方面是問題,另一方面是解決問題的方法[1]。
所謂數據庫就是組織、存儲和管理數據的倉庫。隨著信息技術和市場的發展,特別是20世紀90年代以后,數據管理不再僅僅是存儲和管理數據,而轉變成用戶所需要的各種數據管理的方式。數據庫技術的主要目的是有效地管理和存取大量的數據資源,包括:提高數據的共享性,使多個用戶能夠同時訪問數據庫中的數據;減小數據的冗余度,以提高數據的一致性和完整性;提供數據與應用程序的獨立性,從而減少應用程序的開發和維護代價。
心電數據庫是指數據庫內的心電圖診斷和分類是經過臨床資料證實,即數據庫的心電圖分類是以臨床證據作為分類標準,或者經過權威的專家小組確認(主要指心律失常數據庫)。
目前公認的可作為標準的心電數據庫有三個[3],包括,① 美國麻省理工學院與Beth Israel醫院聯合建立的“MIT-BIH心電數據庫”[4]:目前在國際上應用最多的數據庫,由很多子數據庫組成,每個子數據庫都包含某個特定類型的心電記錄。應用最多的是心律不齊數據庫和QT數據庫,國內外許多心電方面的研究都是基于該數據庫的實驗數據和各類識別算法的檢測標準。② 美國心臟學會的“AHA心律失常心電數據庫”[5]:主要目的是評價室性心律不齊探測器的檢測效果。③ 歐盟的心電圖通用標準心電數據庫[6]:包含1000例短時間的心電記錄,采用12或15導聯,主要目的是用于評價心電圖自動分析儀的性能。其他還有如,④ 歐盟的“ST-T心電數據庫”:用于評價ST段和T波檢測算法性能;⑤ 心臟性猝死動態心電數據庫:世界范圍內每年40萬人猝死,PhysioNet進行心臟性猝死的數據庫建設,支持和推動這一重要領域的電生理研究;⑥ PTB心電診斷數據庫:德國國家計量署提供的數字化心電數據庫,目的在于算法標準的研究與教學;⑦ PAF預測挑戰數據庫:2001年針對自動預測陣發性心房顫動(paroxysmal atrial fibrillation, PAF)的開放性競賽,競賽的意義是推動美國在這個重大臨床問題上的探索和創設友好競爭及廣泛合作的環境。
首先,心電數據庫存儲的一段心電圖條圖要求包含如下數據:① 用于管理的數據,如姓名、年齡、出生年月、身份證號(醫保號碼)等;② 不變的醫療數據,如性別、血型、過敏史等;③ 可變的醫療數據,如歷次心電圖診斷、相關臨床診斷等。其次,數據的存儲必須符合一定的標準和要求,以方便國內外不同中心心電圖研究結果的交流和對比,如心電圖記錄的時間、性別、出生年月、種族、患者識別碼、與疾病相關的臨床病理資料、數字化記錄和保存、心電圖可隨時打印在記錄紙上等。第三,對于圖形記錄,要求采樣頻率不低于500 Hz、頻響范圍在0.05~150 Hz(0.05~250 Hz)[7]、12導聯同步記錄、記錄時間不少于10 s、具有通信功能(可壓縮傳輸并精準還原)、低噪聲、無基線漂移等。第四,數據庫的數據是動態的、不斷增加的,要求在多個部位存放,并能按既定規則和定義提取,或按用戶自定義提取。
心電數據庫的建立根據不同的研究方向,其要求也有所不同。比如:要進行心血管疾病流行病學的研究,首先應建立入選樣本的基礎心電圖,并按計劃定期隨訪采集心電圖進入數據庫,以便進行不同時期心電圖的比較及調查心電圖變化與臨床資料的關系;建立正常人心電圖標準值范圍則需要數據庫包含足夠大的樣本量,并且要考慮到不同性別和年齡組的樣本分布數,以符合正常值研究的統計學要求;用于判斷心電圖診斷及儀器標準的心電數據庫還應滿足有關機構制定的標準,包括心電圖的數據采集、儲存、傳送格式等標準;若研究心電圖與臨床疾病的潛在關系,則心電圖數據庫除包括明確的臨床診斷證據外,還應有一定的樣本數,最好還能收集到合并不同疾病或病理狀態患者的心電圖等。
越來越多的大型醫院通過構建區域性的心電信息診斷平臺,除了接收本院門診、病房的心電資料外,還接受從社區、患者家庭等不同地方傳輸過來的心電圖,可以集中診斷,實現區域化的心電圖數字化存儲和信息化共享[8]。此舉一方面可以實現遠程監護,服務基層,節省醫療時間、空間及其他成本;另一方面可以實現基層醫院和大醫院之間的數據共享,相應的數據將納入標本庫,為大數據科研服務。
2003年山西醫科大學第二醫院成立了遠程心電監護中心,建有幾十個分站,遍布縣鄉級醫院、社區衛生服務中心和廠礦衛生院;2006年武漢亞洲心臟病醫院開展遠程心電監測工作,并于2009年成立湖北省遠程心電會診中心,截至2016年年底已和全國近400家基層醫療機構合作,輻射15個省市,覆蓋人數近2000萬。近年來,也相繼有多個地區成立心電會診中心,如2012年7月由第三軍醫大學大坪醫院承建的西南地區遠程心電會診中心成立,形成了覆蓋西南各省(市)三甲醫院、區縣醫院、社區衛生服務中心、鄉鎮衛生院和村衛生室的多級區域協同醫療服務網絡,解決了西南地區和邊遠鄉村廣大基層群眾心電圖檢查診斷難題,提升了西南地區心血管疾病診療水平和防治能力;2016年7月,廣東省家庭醫生遠程心電監測平臺正式啟動,與30余家醫療機構達成了合作,預計能和200多家醫療機構達成合作,覆蓋患者人數達800多萬。
在遠程傳輸和會診的方式下,更多的病例資料可以被集中存儲和管理,不僅包括心電圖,同時傳輸的還包括病例信息、基礎疾病甚至就診時間、就診周期和就診地點等。并且,這些數據持續不斷產生、爆發性增長,形成了大數據分析所需要的“海量”。
傳統的數據分析要求結果準確,但是,當樣本是全部而不是“隨機”或“抽樣”時,并非所有的醫療數據都十分理想,數據本身會存在很多瑕疵甚至是錯誤。比如,遠程傳輸的心電圖片段就會有各種問題,主要是資料的“不完整”,如心電圖機自動分析時未逐搏標記;自動標記測量的心搏不可避免地存在錯漏,而人工糾正時又不能保證所有數據為同一人測量,即存在人工測量的個體差異等;上傳到會診中心的病歷資料不完整;由于操作不規范等原因,原始采集數據的準確性、可靠性得不到保證。但是,大數據時代的研究數據如此之多,我們不必像“小數據”時代那樣熱衷于追求精確度。我們要允許“不精確”,不再對一個現象刨根問底,只要掌握大體的發展方向即可。
心電圖自動分析是迄今為止計算機在醫學領域中應用最為成功的范例之一,它融合了包括傳感器技術、信號處理技術、描記技術以及邏輯判斷技術(人工智能)等最新的研究成果。心電自動分析軟件利用計算機分析并顯示心電圖,測量必要的參數,再根據臨床標準作出正確的診斷或評價。心電自動分析軟件減少了醫生的工作量,提高了臨床指標分析的精度。
目前國外主要的心電分析程序有Philips的DXL ECG algorithm, GE的Marquette 12SL ECG Analysis Program,Glasgow 12-lead ECG Analysis Program,HES Hannover ECG System,Mortara的VERITAS Algorithm,日本福田的The Advanced ECG Analysis Program(Ver.S2),日本光電的Electro Cardiograph Analysis Program System(ECAPS)12C等[9]。國內的心電分析程序有理邦的Smart ECG Measurement and Interpretation Program,科曼的ECG V8.0心電自動分析軟件,邁瑞的運用Glasgow算法等。Philips的DXL ECG Algorithm、GE的Marquette 12SL ECG Analysis Program和Glasgow 的12-lead ECG Analysis Program可以稱為目前主流心電分析軟件的“三駕馬車”。
自1980年Marquette 12SL ECG Analysis Program出現以來,GE在計算機心電分析方面一直保持著行業領先地位,該軟件也成為被證實的臨床“金標準”。在心律失常的節律診斷、起搏檢測、心率、電軸、各波段的持續時間及QRS振幅等方面,可實現有針對性的心電圖跟蹤和回顧,同時也包含多種疾病和各種程度的不正常的ECG數據庫檢測。
Philips DXL心電算法依據最新研究和相關的指南(如2007 AHA/ACCF/HRS指南Part Ⅱ1, 2009AHA/ACCF/HRS指南Part Ⅵ2)而不斷更新。比如算法中新增的右室導聯和后壁導聯提高了右心和后壁心電的分析診斷能力;ST-Maps功能借助視覺進行ST段變化的快速評估;STEMI-CA標準能識別可能的犯罪冠脈或可能的引起功能性缺血的解剖位置;設計了多種分析起搏器起搏方式的算法,同時保證各導聯對起搏脈沖的精確檢測;更重要的是,在心電圖報告上顯示了可以提醒臨床醫師注意的需要緊急處理的臨床事件的關鍵值(危急值)。
Glasgow 12-lead ECG Analysis Program是被Peter W. Macfarlane教授及其同事不斷研究和改進10年的產品。神經網絡的研究成果,提高了房顫報告的準確性;2000年以后進行了一系列改進,包括房撲的檢測、用年齡和性別來解釋ST段抬高的心肌梗死、程序中加入Sgarbossa標準用以檢測左束支阻滯合并急性心肌梗死的患者等。
截至目前,計算機輔助的心電圖自動分析并不能完全取代人工判讀,其原因在于:一,計算機判斷的準確性需要用統計學方法來評價;二,計算機不具備綜合考慮患者所有臨床情況進行系統分析的能力。然而,大數據時代的到來有可能改變這種人工干預的程度,提升計算機自動分析的準確性。
心電圖自動分析的完成是基于系統中已經設定的測量和診斷標準,將實際采集的數據與系統中的數據進行對照,只要達到或符合某一條或幾條標準就給出相應的診斷提示。在這種方式下,需要不斷編譯和更新數據庫“標本”信息,比如Philips DXL算法會依據指南而不斷更新,需要花費巨資。而谷歌則依據每天處理的30億查詢中輸入搜索框中的錯誤拼寫,用一個巧妙的反饋循環就可以將用戶實際想輸入的內容告知系統,將錯別字作為“相關詞”進行處理,幾乎是用“免費”的方式獲得了這種拼寫檢查。這種用戶在線交互的方式,可以使機器不斷地“從數據中學習”。
2017年兩會中“人工智能”第一次出現在政府工作報告中,關注人工智能的科技界因此熱血沸騰;世界癌癥日2月4日當天,IBM的“Watson醫生”第一次在中國“出診”,僅用10 s就開出癌癥處方;Science雜志報道了英國諾丁漢大學流行病學家Stephen Weng博士團隊發表在PLoS One上的重要研究成果,他們將機器學習算法應用于分析電子病歷的常規數據,發現與當前的心臟病預測方法相比,深度學習算法不僅可以更準確地預測心臟病發病風險,還可以降低診斷的假陽性率。
目前應用于醫療的人工智能大多是用來提高醫生的工作效率,擴大工作內容的廣度和增加深度。Science雜志2017年刊登了中國第三軍醫大學羅陽團隊的最新研究成果[10]:利用人工智能在30 s內鑒定血型,準確率超過99.9%。這對于急需輸血搶救的患者意義重大,可以為患者節省3~15 min時間,提高他們的生還概率,同時也可用于搶險救災、戰場急救等急需驗血的情境下。2017年,據美國食品藥品管理局(FDA)官網顯示,其首次批準了一款心臟磁共振影像AI分析的軟件Cardio DL。這款軟件將計算機深度學習用于醫學圖像分析,并為傳統的心臟MRI掃描影像數據提供自動心室分割的分析,這一步驟與傳統上放射科醫生需要手動完成的結果一樣精準。這款人工智能心臟MRI醫學影像分析系統不但得到了FDA510(K)的批準,還得到了歐洲的CE認證和批準,這標志著該軟件將被允許用于臨床。
人工智能是基于大數據,而大數據的核心就是預測。國內已經有不少企業開始涉足醫療領域的人工智能應用。Standard醫療“岐伯”人工智能引擎一經推出市場便引起關注。“岐伯”人工智能引擎主要是將自然語言處理、認知技術、自動推理、機器學習、信息檢索等技術應用于臨床資料(包括醫學專著、論文、治療方案、試驗數據、臨床報告、醫學期刊、教科書等)的深度學習,在大規模證據搜集、分析、評價的人工智能系統中推導出心腦血管疾病輔助診斷、治療、預防建議。
武漢亞洲心臟病醫院在2017年4月嘗試應用“岐伯”人工智能引擎驗證室性早搏起源的自動定位診斷,結果令人滿意。目前心電圖的自動分析和測量主要針對QRS波形態正常的心搏,而對于異常室性早搏的QRS波則無相關自動分析。我們選擇了411例經心內電生理檢查并成功行射頻消融術的起源于流出道不同部位的室性早搏病例,根據指南以及專家建議,對其體表心電圖自動測量分析和計算相關參數,包括R波時限、QRS波時限、R波時限指數、R波波幅、S波波幅、R/S波幅指數、竇性移行區指數、室性移行區指數、V2S、V3R、V2S/V3R指數以及V2過渡比等,并與人工測量結果進行對照。由于原始數據為非格式化數據,主要有jpg和bmp兩種格式,每幅圖的尺寸、像素大小、灰度、噪聲等皆不相同,因此有些病例由于圖像本身或算法適用性的原因未能入組,所以最終得到383組(383/411,約93.19%)共4596個數據,對絕大多數的病例可以做到在1 min內完成提取和計算的過程。對每種心電圖參數的自動測量值與手工測量值(分別去除最大和最小的10組數據)進行統計學分析,結果提示自動測量和人工測量結果差異無統計學意義。
上述預試驗的結果給予我們極大的信心,它提示我們可以通過大數據技術進行分析,提出一種概率預測模型來簡單地判斷心電圖正常患者患病的可能性以及心電圖不正常患者康復(心電圖恢復正常)的可能性,建立預測分層體系。
總之,“人工智能+醫療”不是什么花哨的噱頭,而是實實在在的未來。心電圖檢查作為一個在技術上實現自動化分析相對成熟的心血管疾病檢查項目,試水人工智能,從心電信息切入,進而全面融合疾病相關資料,實現心血管疾病風險防控和慢病管理值得我們期待。
參考文獻
[1] 維克托·邁爾舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:29.
[2] 埃里克·托普.顛覆醫療[M].張南,魏薇,何雨師,譯.北京:電子工業出版社,2014:1-5.
[3] 朱澤煌,胡廣書,郭恒,等. MIT-BIH心電數據庫的開發及用作檢測標準[J]. 中國生物醫學工程學報,1993,12(4):244-249.
[4] Goldberger AL, Amaral LA, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals[J]. Circulation,2000,101(23):E215-E220.
[5] ECRI Institute. AHA database[EB/OL]. https://www.ecri.org/Pages/default.aspx.
[6] Willems JL, Arnaud P, van Bemmel JH, et al. A reference database for multilead electrocardiographic computer measurement programs[J]. J Am Coll Cordiol,1987,10(6):1313-1321.
[7] Norman JE, Bailey JJ, Berson AS, et al. NHLBI workshop on the utilization or ECG databases: preservation and use of existing ECG databases and development of future resources[J]. J Electrocardiol, 1998,31(2):83-89.
[8] 劉鳴,張林,余秀明.建立遠程心電監測系統平臺的意義(一)[J].中國心血管病研究,2016,14(11):961-964.
[9] Kligfield P,Badilini F, Rowlandson I,et al.Comparison of automated measurements of electrocardiographic intervals and durations by computer-based algorithms of digital electrocardiographs[J].Am Heart J, 2014,167(2):150-159.
[10] Zhang H,Qiu X,Zou Y,et al. A dye-assisted paper-based point-of-care assay for fast and reliable blood grouping[J].Sci Transl Med,2017,9(381).pii: eaaf 9209.