梁春瀅,曾祥衛,陳靜
廣東省藥品監督管理局審評認證中心 (廣東廣州 510080)
近年來,人工智能(artificial intelligence,AI)技術在醫學領域的發展迅速,越來越多的病理AI 軟件面市并服務于臨床,但目前國內大部分的病理AI軟件還難以解決復雜的醫療決策問題,同時也缺乏動態學習、邏輯推理等高級功能。國家藥品監督管理局注冊產品數據庫顯示,已上市的病理AI 軟件的臨床用途主要集中在對病變細胞或組織進行標記、識別、分類和細胞計數等方面,尚缺少對病變性質進行判斷并給出具體臨床建議、輔助診斷、用藥指導或治療依據的應用,對真正輔助臨床決策或解決傳統病理診斷存在主觀問題的目標還有很大的差距。然而要實現上述臨床功能,對病理AI 軟件的算法性能則提出了更高要求,病理AI 軟件研發過程也將面臨復雜臨床使用場景的全面分析、核心算法的合理設計、強算力對海量數據的訓練及科學的性能測試手段等方面的挑戰。
全面、準確的需求分析是軟件研發的首要步驟,直接決定了軟件算法模型的設計和數據收集等。對于病理AI 軟件而言,臨床使用場景是需求分析中的關鍵要素。臨床使用場景包括臨床病種、適用人群、流行病學、操作對象和應用場景等,其中臨床病種目前主要為乳腺疾病、宮頸癌、胃癌等,適用人群可分為不同性別、年齡、人種或高危人群等,操作對象通常為臨床醫師、閱片醫師或護理人員、患者等,應用場景包括疾病預測、分期分診(腫瘤二分類等)、指導治療和預后評估等。
目前,病理AI 軟件的算法可基于已有研究的網絡模型,選擇單一的網絡模型或融合多個網絡模型,通過數據集的訓練來調整系數而得到最優的模型。在設計模型時,設計人員通常要考慮模型的效率和精度,同時也要兼顧減少模型的參數和計算冗余的問題,這些均與選擇的基礎網絡模型息息相關,比如深度學習算法中的基礎網絡模型已有較成熟的研究,通常深層級的網絡結構更利于提取豐富的圖像特征,但也伴隨參數冗余、梯度消失和訓練復雜等缺點,這就決定了深層級的網絡結構優勢并不具有普適性。因此,在病理AI軟件的實際研發中,研發者充分權衡基礎網絡結構的優勢和缺點,結合需求分析,深度挖掘病理圖像特征,才能設計出滿足臨床用途的最優算法。
選擇好基礎網絡架構后,需通過特定數據集進行訓練來調整參數,但在模型優化過程通常會遇到過擬合和欠擬合情況,可通過數據增強、減小網絡容量、添加權重正則化、添加dropout 等技術手段防止神經網絡過擬合,通過加大模型參數避免欠擬合[1]。
評估算法是否滿足預期目標,需經過充分的算法測試、驗證與確認活動。構建科學的算法評估方法應基于充分了解產品算法結構、預期目標任務和臨床需求,可從軟件整個研發周期中的需求階段、設計階段、實現階段和運行階段確立對應的評估指標、接受準則和關鍵活動,進而形成每個階段的評估報告,注意測試人員應獨立于研發人員,以保證測試的可靠性和完整性[2]。評估指標不局限于響應時間、精度、召回率、準確率、重復性與再現性、時效性、靈敏度、特異度和ROC 曲線下面積,可使用單一指標,也可組合設置指標,最終的評估則需進一步評審和確認每個環節是否達到放行要求。
數據集是AI 軟件學習的素材,直接參與了算法模型的訓練、優化和最終評估階段。保證數據的準確性、可用性、一致性和完整性是構建數據集的基本要求。軟件研發者在構建數據集時需重點關注數據的來源和采集、數據標注和質控、數據集的構成。
數據的來源可影響數據的完整性和準確性。為使數據集盡可能滿足臨床預期使用各類場景要求,一方面從臨床用途上考慮覆蓋各類特殊及對抗性樣本,如涵蓋預期適用人群、不同部位,病灶大小、病程范圍及腫瘤類型、分化程度等;或從地理分布上考慮數據差異性,需盡可能來自不同地域和臨床機構;另外,需從設備使用上考慮硬件兼容性,如盡可能來自不同的采集設備[3]。
規范數據的采集主要考慮數據的可用性和一致性,如數字圖像保存格式、大小等不同可影響算法性能,同時防止采集的數據出現不能識別或讀取的情況。數據采集過程至少保證設備采集方式(二維、三維動態、實時成像或掃描成像)、采集參數(如成像倍數等)、采集精度(如分辨力、信噪比)、輸出數字圖像的參數[儲存格式(DICOM、TIFF 等標準格式)、像素大小、對比度、壓縮因子等]的統一。
數據標注過程是否規范將影響數據的準確性和一致性。控制標注數據的質量重點把握以下幾點:(1)確定統一的參考標準,如宮頸細胞學中的TBS分類標準、專家共識等;(2)標準化流程和規范化操作,包括具體的標注流程、標注人員要求、定義標注范圍(如標記細胞核、腺體、組織等)、特定病種標注形式(如中心點標注、細胞邊緣標注)和確保追溯性等;(3)保證標注團隊的專業性,對標注專家提出明確的閱片資質要求,明確區分標注、復核和仲裁人員的任務和權限,針對疑難病例樣本可考慮多人標注,以提高數據標注的可信度和質量。
基于數據集在算法模型評估中的功能,需構建訓練集、驗證集和測試集。美國FDA 起草的指南指出,制造商需適當區分三者[4],同時國內發布的審評要點也明確各個數據集之間的樣本應無交集[3]。因此,在實際設計研發中,研發者需采取一定的措施保證各個數據集之間的獨立性。
為避免數據偏性,各個數據集的樣本分布應盡可能均衡,陰陽性樣本的比例應盡量合理。同時,各數據集的樣本量除考慮滿足算法結構測試和預期任務外,還需考慮流行病學和統計學要求,若樣本量太少,會造成結果的偏倚和算法泛化能力的降低。另外,數據集的來源應盡量接近臨床樣本真實情況,對來源于第三方平臺的數據要充分評估與臨床機構數據的同質性。
病理切片的質量是獲取高質量標注數據的基礎,研發者在前期策劃時應考慮制定病理切片的質量要求,進而在數據采集環節嚴格控制樣本的納入和排除,控制不嚴時出現取材不全、染色過程結構紋理不清晰、各組織層次不強、切片厚薄不一、切片封片劑過多等問題可影響后續采集圖像的質量,造成圖像特征提取的偏差,不利于驗證標準化的設備采集參數,從而降低診斷結果的準確性。
而提高病理切片的質量需嚴格規范制片的標準流程和質控手段[5],若采用市面全自動化的染色、制片一體機,還要關注設備參數的設定和確認。另外,上市產品臨床使用有相關反饋,軟件算法的性能或因染色方法(HE、巴氏等)、制片方式(模式、沉降式)等的不同存在差異。因此,在軟件研發時,盡可能驗證不同病理切片的兼容性或根據產品已有的研究結果對臨床使用過程作出限制,包括在軟件中前置設定圖像匹配度要求或說明書中明確病理切片質量要求、染色方式和采集圖像參數統一等,以提高后續產品診斷結果的準確性。
AI 技術在病理診斷領域的應用正在不斷探索中,AI 軟件在實際的臨床實踐中將不斷遇到疑難病例及復雜且不可預測的使用場景,研發者需在軟件研發階段盡可能分析多方面的影響因素,并找到相應的策略來提高算法的性能。除本文提及因素外,研發者還可從研發新的算法模型、尋求更科學合理的算法測試方法和評估體系等方向進行探索。另外,基于深度學習算法自適應學習和不斷迭代的特性,還需進一步考慮相應的網絡安全防護設計來防止數據污染、數據投毒和對抗性樣本等對模型的攻擊,以更好保證產品診斷結果的準確性。
另外在國家層面,則可考慮進一步加大國內AI 技術在醫學領域的科研投入,推進臨床、軟件研發企業、檢測機構和審評機構共建高質量可共享的大數據環境,同時加快完善國內的AI 應用標準、測試評價體系及產業的服務性政策,推動AI 技術在病理診斷和輔助診斷方面發揮更大作用,并可持續向精準醫療或疾病預防等方向發展。