好的,如果把數據采集的難題先放一放,我們放眼觀望一下醫療數據從采集到使用的中間處理環節……似乎也不是那么樂觀。如果說原始醫療數據是小麥,能使用的數據是面粉,那么我們現在還沒有一個完善的磨坊。
2011年IBM發布了一款叫“沃森”的超級醫生助手,數以千萬G的醫學資料被“灌”進了“沃森”的大腦,包括病人的臨床表現、實驗室檢查、治療方案等,能夠為醫生提供很好的疾病診斷及治療決策支持。自然語言理解、找到證據、判斷,是“沃森”所具備的的三大能力,這種“認知計算”能力讓“沃森”在當前的大數據浪潮中大有用武之地。 “沃森”從不同的信息來源采集數據并且提煉,給醫院,或者是醫師、醫生提供醫療采購方面的建議和咨詢意見。在美國德克薩斯大學MD Anderson癌癥中心,“沃森”為醫生提供建議,以助于治療復雜的疾病和癌癥。
“沃森”的工作過程實際上是一個完整的大數據分析過程,是醫療健康大數據的成功應用。大數據,顧名思義就是數量極其龐大的數據資料。醫療大數據的積累非旦夕之功可達。早期,大部分醫療相關數據是以紙張化的形式存在。隨著強大的數據存儲、計算平臺以及移動互聯網的發展,醫療數據正在進行大量爆發及快速的電子數字化。
醫療領域的數據量巨大,數據類型復雜。到2020年,醫療數據將增至35ZB,相當于2009年數據量的44倍。醫療數據里包含了病人基本信息、個體化診療信息、預后診斷、生化檢查、多種影像或病理切片檢查的生物學信息等數據,類型復雜。
要想在醫療領域使用大數據技術,足夠的信息是數據分析的基礎。但我國的數據質量尚不足以支撐“沃森”級別的科研需求。
一方面,目前我們積累的數據數量及質量都存在較大的問題。例如,醫療數據來源方或多或少存在顧慮,比如病人擔心個人隱私問題,藥企因商業利益不愿共享某些敏感信息等。更為關鍵的是各個醫院及機構的醫療信息、軟件及硬件服務都各自獨立,缺乏合理接口,數據標準不統一。在專家看來,目前我國醫療大數據就像一大塊“蜂窩煤”,大數據收集的渠道并不暢通。我國目前還沒有一個完整的醫療標準化體系,大量醫療數據沉睡在醫院系統里,利用率不高。
另一方面,大數據的有效應用是一個系統性的工程,需要一系列專業技能來保證大數據分析的成功。在獲得足夠的信息后,需要由相關領域的專業人士與信息技術專家一起對數據進行有針對性地歸納和分析,得出由大量新興技術(如Hadoop Map Reduce、內存數據庫等)組成的高性能的專業的分析技術架構解決方案,而這種跨學科、跨領域合作能否順利實現,是大數據技術實際應用中的重要問題。我國在發展醫療大數據的過程中,人才隊伍建設也亟待加強。
關于數據交易的話題,討論得已經越來越多,包括各地也在推交易所,常常能看到類似“醫療大數據公開賣啦”等新聞標題。
但是與討論熱度相反的是,交易這個詞現在被提得越來越少。一方面原因是,數據擁有方和數據需求方很難對接,并不是通過物流和傳遞就可以產生交易。實際上有數據和需要數據的是兩方,中間要經過很多才能把他們的需求對接起來,這是數據處理的一部分。 另一方面,因為醫療數據太過龐大,原始的數據集不可能直接進行交易,而且醫療數據缺乏一個統一的標準,不同的醫院和不同的機構收集的數據格式也不太一樣。
醫療大數據除了包含了大數5個V——Volume(大體量)、Variety(多樣性)、Velocity(時效性)、Veracity(準確性)、Value(大價值)的特點之外,還有多態性、時效性、不完整性、冗余性、隱私性等特點。多態性指醫師對病人的描述具有主觀性而難以達到標準化;時效性指數據僅在一段時間內有用;不完整性指醫療分析對病人的狀態描述有偏差和缺失;冗余性指醫療數據存在大量重復或無關的信息;隱私性指用戶的醫療健康數據具有高度的隱私性,泄漏信息會造成嚴重后果。
因為醫療數據的這些特性,對數據進行清洗是很重要的,包括脫敏、去躁,即使已經拿到大量醫院和機構的數據,甚至是國家部門的數據,還得進行去蕪存菁(不少基層醫院的數據大面積缺失、混亂、不實),當然,還涉及到去隱私。做醫療數據的跟做醫療的人不是同一批,拿到數據以后,首先要做數據清洗,這是很累的活就不提了,而清洗數據的人往往不懂醫療,這就不僅是累了,簡直是一出活生生的天書奇談。
互聯網公司做醫療沒那么簡單,醫院和醫生做互聯網的應用反而簡單得多。有位院長說過,你們互聯網公司把三甲公立醫院的院長們吵醒了,吵明白了,他們一旦行動起來去做互聯網的應用,去開互聯網醫院,你們的空間和機會就不大了。不過請別緊張,多數的三甲公立醫院院長的心思根本不在互聯網上,多數人也是吵不醒的。
“醫院沒這個心思”和“有心思的不專業”,導致了數據清洗的環節沒有合格的清潔工。