李昊原
在電腦上點一下,就能對大量數據進行統計分析,發現問題或者驗證猜想,
這大概是無數苦于發論文而不能的臨床醫生的夢想了。這個場景正在逐漸變為現實。
“很多時候,他們并不是寫不出論文,而是缺乏數據或者整理數據的時間。在國外,一線專家會有專門的科研助理團隊負責整理數據和完成患者隨訪,在中國,基本只有最頂尖的專家才會有這樣的助理;而且中國的醫生工作負荷大,大多數時間都在手術室、病房或門診,沒時間去整理數據。”
零氪科技(LinkDoc)的CTO羅立剛告訴記者,由于結構復雜、專業性強,將醫療行業的數據大規模轉化為機器可識別分析的數據,即結構化,一直是行業的難題。據美國臨床腫瘤學會(ASCO)統計,美國也僅有不到3%腫瘤患者的數據被結構化用于研究,剩下97%的數據都閑置在醫院信息系統(HIS)里或者病歷病案室中。作為一家專注于腫瘤大數據分析與應用的科技公司,通過承諾提供高質量的數據報告和產品,零氪和諸多醫院、科室合作,幫助他們處理脫敏后的病歷數據,使電子病歷信息轉化為科研級數據,并研發人工智能工具,實現了腫瘤大數據一站式解決方案的搭建。
從“人工”到人工智能
將HIS系統中的患者數據,人工錄入整理到數據庫軟件的標準化模板里,生成標準數據文件,再用SPSS、SAS等分析軟件對數據進行統計分析,這是臨床醫生做科研的傳統套路。其中生成標準數據文件的過程(也就是數據“人工結構化”),羅立剛算了筆賬:在美國,一位腫瘤患者,治療全過程數據的平均結構化成本是5000美元;在中國,差不多也要5000元人民幣。
“結構化是最關鍵的,也是很困難的一件事。” 羅立剛說。一開始,零氪用傳統方式收集數據,但很快就發現難以為繼。“人工錄入一份電子病歷平均要花2個小時來整理,正確率還只有40%左右。”而要讓錄入人員看懂平均50多頁的患者病歷,也需要投入大量的培訓成本。
之后,零氪對錄入的流程進行了“流水線式”的改進。“比如說一份病歷中有五六頁是手術記錄的信息,那就分成一個獨立的部分,讓一個錄入員專門做手術記錄的數據結構化。這樣培訓的成本低,工作效率也高。”通過分工,并引入了錄入規范智能提示、參考病歷自動推送、自動化質檢系統等輔助技術,病歷的錄入時間從2小時降到了17分鐘。
但人工錄入終歸“人力有時盡”,零氪又開始探索新的方式。 “第二代其實沒有用到很復雜的技術,主要是一個系統工程,但這為第三代系統積累了經驗。”
在數據采集上,零氪的大數據平臺開始直接接入醫院的HIS系統,減少中間環節。中國醫療機構的HIS系統廠家眾多,沒有統一標準,零氪的IT團隊就只能一個個機構去實施解決方案,但這是“磨刀不誤砍柴工”的事情。“我們現在70%的情況下都是這樣的,30%的在逐步實施。雖然過程中還會有一些問題,但我相信將來肯定都會打通。”
數據進入系統后,繼續分工的思路,從簡單的部分開始,數據結構化的工作逐漸由“機器輔助人工”變成了“機器取代人工”。我國醫療術語缺乏標準化和醫療信息的復雜性,是機器取代人工的障礙。但前期大量人工錄入的經驗積累,讓零氪的團隊熟悉了臨床醫生習慣的表述,明確了結構化點位基于的標準,形成了標準化的術語集,并開發了Fellow-X智能結構化系統。
“人工智能,有一大部分是通過機器學習完成了,給醫療數據處理帶來了很大的幫助。”羅立剛介紹,數據被導入系統后,電子信息會自動解析、標準化錄入并進行質量校驗;紙本信息會被掃描成圖片格式然后由圖片識別技術(OCR)識別成文本信息。在引入了深度學習技術后,計算機在復雜場景下也能快速適配。“比如說化療藥紫杉醇,醇字識別錯了,系統就會自動更正。目前我們95%的數據都能自動結構化,只剩下5%比較難的還需要人工。”人力勞動被解放,讓數據處理能力大幅提升,一份病歷的錄入時間縮短到只需要5分鐘。現在,零氪的腫瘤大數據平臺已有超過100萬的患者數據。
“IT的人做傳統行業,要對行業有敬畏感,不要總說要顛覆什么,而要多去走訪,多交流。” 零氪的大數據技術平臺是完全基于阿里云的SaaS云服務,合作醫療機構的原始數據保存在內網中,清洗、脫敏、結構化后傳輸到云上,醫生可以通過PC端或App進行訪問。一開始,零氪在三家合作的醫院試用新的系統,在不斷交流反饋后,羅立剛發現,IT概念上的數據庫和醫療行業的數據庫有很大的區別。“我們IT的人說數據庫,是說Oracle、mysql,而醫療行業的人說的數據庫,是指從后臺的存儲到前臺的可視化分析的整個解決方案。”
現實的需求促進了許多系統新功能的產生。臨床醫生不擅長統計分析,平臺上便提供了描述性統計、組間比較、生存分析等可視化且便捷易用的適合腫瘤醫生的功能,并可以用App隨訪自己的病人,統計分析結果均使用開源的R實現,“讓大約80%的科研工作能在平臺上實現。”
羅立剛感慨: “人工智能和處理后的醫療大數據結合,會產生許多新的幫助。”可以為醫院和科室的管理決策提供數據,也可以輔助醫生的臨床治療。“患者來了,了解情況后,系統可以將過往類似患者的情況做一個歸納呈現給醫生,輔助醫生做診斷。”
目前,零氪與阿里云、英特爾正在聯合舉辦天池醫療AI大賽,挑戰早期肺癌的智能化診斷,零氪提供經脫敏并由專家標注的高清胸部CT掃描影像數據。“人工智能技術近幾年在圖像形態學方面突破很大,比如人臉識別,在醫學上的前景也是很好的。中國一直存在影像科、病理科醫生缺乏的現象,這是一個福音。”但羅立剛也強調,醫療是“人命關天”的行業,影像診斷技術應用的過程應該謹慎,從復核開始,逐漸到初篩,不斷提升準確率,距離技術落地還有一段距離。
目前零氪已有超過500家醫院和600家科室的合作伙伴,但出于信息安全和隱私保護的考慮,醫生只能使用自己醫院的數據,跨醫院的數據使用,還需要醫院間進行協議和簽字授權。醫療數據有了,要如何去打通屏障充分應用,這可能是未來醫療行業的重要問題。