張婉瑩

患病3年、接連看了17位醫生都診斷不出來的“怪病”,居然被AI診斷出來了。
7歲男孩Alex患有慢性疼痛3年,疼痛讓他脾氣變得很壞,并且不長個子。母親Courtney非常著急,帶著Alex從兒科、牙科、骨科等科室拜訪各路專家,卻沒有一位醫生能真正解決Alex的問題。
絕望的母親抱著試一試的心態,將兒子的癥狀與檢查報告輸入ChatGPT里,居然得到一個此前從未在醫生口中聽過的疾病—脊髓栓系綜合征。而這個不太常見的疾病與兒子的癥狀高度重合。
AI進入醫療領域不算一個新鮮事,谷歌、微軟、騰訊、科大訊飛等企業都早有布局。隨著技術的發展,醫療相關的AI大模型也顯示出巨大的商業價值。
當AI先于醫生查出病癥時,它是否真的可以替代醫生,讓我們不用去醫院就可以完成就醫?
2020年,4歲美國男孩Alex突然開始牙痛,并且變得喜怒無常、白日里沒有精神。
起初,父母以為是換牙導致的問題,帶著Alex來到牙科門診。牙醫認為他存在氣道阻塞的問題,并認為由于Alex上顎發育不良,在一定程度上導致他呼吸困難,因此影響睡眠。
在為Alex放入上顎擴張器后,孩子的呼吸困難與疼痛問題都有所改善。正當家人們覺得他康復在即時,Alex又出現劇烈頭痛與走路困難等新問題,身體無法平衡,右腿拖著左腿走路。
兒科、骨科、耳鼻喉科等醫生都各執己見,有人認為是新冠造成的發育問題、也有人認為是鼻竇炎影響睡眠。
無論看了多少醫生,專家們只會解決自己專業領域內的問題,沒有一位醫生能找出病因,給到Alex準確的診斷結果。
三年間尋醫無數,卻連孩子可能患有什么病的線索都沒有。這讓母親Courtney有些沮喪,她覺得孩子的病情像是已經走入死胡同。
直到一天夜里,失落的Courtney將孩子的就診資料一條條錄入ChatGPT里,沒想到真的得到一個最接近病狀的答案—脊髓栓系綜合征(tethered cord syndrome,TCS)。
這是一種罕見的疾病,在新生兒中發病率為 0.005%~0.025%。根據美國疾病控制和預防中心的數據,美國每年約有1400名嬰兒出生時患有脊柱裂。英國懷孕咨詢服務公司估計,英國每年大約有1000名嬰兒出生時患有此癥。
脊髓栓系綜合征與脊柱裂有關,可以理解為患兒脊髓發育不完全,部分脊髓和神經會暴露出來在體表。多數患兒脊椎的骶尾部存在明顯裂口。
較為特殊的是,Alex是隱性脊髓栓系綜合征(OTCS)患者,他沒有明顯體征,甚至骶尾部缺口位置被當作胎記,幾乎不被注意到。因此也更加難以被診斷。
治療Alex的密歇根州資深兒科神經外科醫生Holly Gilmer表示,這類疾病包括疼痛、腿拖拽、膀胱失控、便秘、脊柱側彎、腳或腿部肌肉發育延遲等癥狀。由于患者年齡普遍較小,很多患兒不能準確表達相關感受也加大了確診難度。
使得ChatGPT成功診斷出Alex患有隱性脊髓栓系綜合征的一個小細節是,Alex無法完成盤腿坐的動作,這在一些醫學論文中有所記錄。
人并不能像AI一樣擁有龐大的知識庫,當遇到罕見疾病時,AI便可發揮出其作用。
AI確診罕見病,這究竟是誤打誤撞還是確診率比醫生還強?
失落的Cour tney將孩子的就診資料一條條錄入ChatGPT里,沒想到真的得到一個最接近病狀的答案—脊髓栓系綜合征。
波士頓Mass General Brigham的研究人員在8月發表的一項研究發現,ChatGPT可以達到72%的準確率,與住院醫生的比例大致相同。研究人員表示,更資深的醫生通常準確率為95%。
這也可以說明,在第一時間得到ChatGPT給出的診斷結果時,母親Courtney并未選擇完全信任AI診斷,她先是在社交平臺上找相關社群咨詢,又帶著兒子找到神經外科醫生后,才進行了確診。
哈佛大學流行病學助理教授Andrew Beam博士認為,ChatGPT要比一些普通的診斷軟件或是谷歌搜索引擎更好用。但另一方面,目前ChatGPT并不能夠取代具備大量專業知識的臨床醫生。
畢竟對于AI來說,它們確實可能在找不到答案時捏造信息,推測出錯誤結果。
ChatGPT的制造商OpenAI在一封電子郵件中表示,其模型不應用于醫療診斷、分類或管理危及生命的問題。OpenAI的研究人員承認,使用大語言模型(LLM)診斷或治療疾病,存在潛在危害。
今年5月,世界衛生組織就在聲明中強調:倉促采用未經檢驗的AI系統可能會導致醫務人員出現錯誤,對患者造成傷害,損害人們對人工智能的信任,進而可能影響(或延遲)AI技術在全球的長期惠益和應用。
面對AI醫療的龐大前景,越來越多的科技巨頭涌入賽道。目前,AI在醫藥領域內多運用于制藥與篩藥兩個部分。
研發一款新藥的成本不便宜。據統計,從I期臨床到獲得FDA(美國食品藥品監督管理局)批準上市,創新藥的平均成功率僅為7.9%。這意味著藥企需要至少布局12款藥物,才有1款可能上市成功。
2021年,全球創新藥的研發平均成本為20.06億美元,平均研發的時間周期為6.9年。
AI可以幫助藥企節省了時間與金錢。
2023年5月,谷歌云推出了名為Target and Lead Identification Suite的產品。這款產品可以幫助研究人員在藥物研發的基礎部分,可以更好地識別氨基酸的功能與預測蛋白質的結構。
其實谷歌在AI醫療領域早有涉及。2018年,谷歌支持的人工智能研究實驗室DeepMind開發了Alphafold,可以根據基因序列預測對應的蛋白質結構。
得克薩斯大學奧斯汀分校計算機科學教授Swarat Chaudhuri在接受媒體采訪時表示,Alphafold現在已經預測了我們已知的幾乎所有蛋白質的結構,并從根本上推進了我們對生物學的理解,“Alphafold的發現已經對藥物和疫苗開發產生了巨大影響”。
在國內,百度的文心大模型也將生物領域研究對象的特性融入模型。目前正式對外發布的文心生物計算大模型,可以支持小分子的藥物設計以及完成多肽與蛋白等設計任務。
AI加入新藥研發,能夠降低70%的研發成本。
2021年9月華為云推出的盤古藥物分子大模型,可以實現針對小分子藥物全流程的人工智能輔助藥物設計。實驗結果表明,盤古藥物分子大模型的成藥性預測準確率比傳統方式高20%,進而提升研發效率,讓先導藥的研發周期從數年縮短至一個月,同時降低70%的研發成本。
盡管AI可以縮短制藥時間,但在臨床領域,幫助醫生篩藥與進行診斷的聊天式醫藥大模型,被更為廣泛地運用。
10月24日,科大訊飛推出訊飛星火醫療大模型。這款醫療大模型上搭載了三款產品和一個人工智能輔助診療平臺。其中一款產品是面向醫生的“智醫助理”。在2017國家執業醫師資格考試中,其排名超過96.3%的人類考生,能夠為基層醫院的醫生提供幫助。
作為上市公司,京東健康在這片紅海中也沒落下。7月13日,京東健康在京東言犀通用大模型基礎之上,推出京醫千詢。這是一款可以幫助醫生全面了解患者情況、完成診斷和治療決策的產品,能夠為醫生提供具有科學依據的醫療診斷與建議。
除此之外,國內還有騰訊混元醫療大模型、商湯“大醫”大模型、衛寧健康WiNEX Copilot等大語言模型進入醫療領域。
AI可以運用于醫療中,但并不意味著完全安全且無害。目前在AI醫療領域內,存在隱私、安全、偏見、責任、透明度以及當前缺乏監管有關的問題。
一位不愿具名的相關研究人員告訴南風窗,AI進入臨床階段,還有一定困難。比如AI需要學習病人的片子、血液指標與病例數據等信息,但在國內多數醫院中,不同的數據由不同的部門掌握,科室與科室之間的數據并未打通。如讓第三方公司去做整合協調,又將涉及病人隱私與數據清理等問題。
醫療數據的缺失,是很多醫藥大模型在研發時遇到的共同問題。
“當模型學習的數據不夠準確時,如何可以應用到現實的臨床領域?”
醫療數據的缺失,是很多醫藥大模型在研發時遇到的共同問題。
除此之外,很多醫學文獻并不是公開免費,即便使用最先進的互聯網檢索技術,也無法訪問一些付費網站與期刊中的數據。
谷歌健康研究負責人艾倫·卡爾提凱薩林加姆坦言,谷歌的醫療大模型只使用了互聯網上公開的數據。在谷歌專門為醫療領域研發的Med-PaLM(PaLM代表Path-way語言模型)大模型中,雖然其語料庫由7800億個“令牌”組成,包括網頁、書籍、維基百科文章、源代碼、社交媒體對話、新聞文章等,但只利用互聯網上公開的數據,一些付費網站與期刊不易獲取。
任何由大語言模型做出的醫療診斷都需要科學依據,包括研究文章的引用。目前,這是一個較難解決的問題。
今年9月,AI藥物研發公司Insilico Medicine的創始人兼首席執行官亞歷克斯·扎沃龍科夫在接受知名醫學期刊《Nature Medicine》采訪時表示,Insilico Medicine專注于利用人工智能技術進行藥物發現和生物標志物開發。“這些系統的培訓材料必須包括超高質量的、經過同行評審的全文出版物,而目前情況并非如此。”
如果不能全面接觸到高質量的文獻資源,AI就不能做出準確的醫學診斷。扎沃倫科夫指出,ChatGPT是主要從互聯網上抓取的文本中訓練出來的,在他看來,這些文本和來源“需要由人類來監管”。
AI只是輔助人類醫療診斷的工具,成為目前業內主流共識。
耶魯醫學院神經學家、耶魯紐黑文衛生系統臨床倫理中心首任主任本杰明·托爾欽認為,當臨床醫生使用ChatGPT等工具時,必須進行嚴格的臨床監管。
科大訊飛研究院院長賀智陽也向南風窗記者強調,科大訊飛的“智醫助理”只是輔助醫生進行診斷的一種工具,并不能完全用其做診斷。
AI結合人工經驗,可以提升醫生的效率。但若AI完全作為醫生去為患者做診斷,或許還需要一定的迭代與時間。
(實習生楊純希、劉思涵對本文亦有貢獻)