丁曉燕,沈夢婕,李 嵐,景鵬偉,黃國寧,葉 虹
(人類胚胎工程重慶市重點實驗室/重慶市生殖醫學臨床研究中心/重慶市婦幼保健院 400013)
中國是出生缺陷高發國家,出生缺陷不但嚴重影響新生兒身心健康,也給家庭和社會帶來沉重的負擔[1]。染色體異常是導致新生兒出生缺陷的常見原因,染色體結構或數目異常會引起一系列的臨床疾病,是造成胎兒流產、新生兒畸形、智力低下、發育遲緩等疾病的根本原因[2-4]。隨著國家對出生缺陷的重視以及人們對生育質量要求的提高,產前診斷的需求量及工作量日益增加,羊水細胞培養及染色體核型分析是篩查胎兒先天疾病的首選方法[5]。
隨著輔助生殖技術(assisted reproductive technology,ART)的發展,越來越多的不孕患者選擇通過ART解決生育問題。而隨著“二孩”及“三孩”政策的開放,高齡助孕的患者逐漸增多,助孕前的染色體核型檢查及高齡孕婦的產前診斷已成為很多生殖中心的重要工作,需要安排大量的人力物力來完成,且需要等待較長的時間才能出具檢測報告[6]。
傳統染色體核型分析主要依靠人工分析,經過專業訓練的技術人員通過顯微鏡拍攝的單個細胞圖片觀察染色體,根據其形態結構判斷染色體是否重復、缺失、易位或倒位。這一流程需要經驗豐富的專業技術人員操作,雖然現有的專用顯微鏡可以自動或半自動進行染色體分類,但效果并非特別理想,未能分割的聚簇會導致系統誤報,染色體碎片會增加系統的錯誤率[6]。隨著計算能力的飛速發展和大數據的應用,人工智能(artificial intelligence,AI)圖像識別技術深度神經網絡成為新的圖像識別熱點。本研究以經過分類標記的染色體圖庫作為訓練集,讓神經網絡學習人類染色體各個核型特征,實現可針對中期染色體圖像自動分類過程,在保證分類準確率的同時降低對人工的依賴性。
1.1數據集
采用的所有圖像均來自重慶市婦幼保健院生殖醫學中心,包括外周血及羊水標本制備的染色體圖像。圖像庫由1 652組不同中期染色體圖片組成,每組由兩張圖片組成,一張為經過專業醫師分割的圖片,一張為專業醫師完成識別并分類排序的圖片。見圖1。

圖1 中期染色體及其分析排版結果
隨機將圖像庫中的1 000組歸為訓練組,用于神經網絡參數的訓練和修正。將1 000張已經標記的圖片所包含的約46 000條染色體以40條一組重新隨機分布到圖片上,每條染色體需經過0~360°的隨機旋轉,且互不重疊,最終生成10 000張圖片組成訓練組。剩余的652組圖像分為測試組(300例)與驗證組(352例),分別用于實時觀察神經網絡的收斂效果和檢驗神經網絡的性能。
1.2方法
1.2.1軟硬件平臺
所有的網絡均采用Python3.6語言編寫的TensorFlow1.2框架下搭建,整個試驗在Ubuntu 16.04系統下運行。計算機配置:Intel(R) i7-7820X CPU,64G RAM,NVIDIA 2080TI 11GB GPU *2。
1.2.2不同染色體核型分類方法
一名長期進行染色體分類的專業技師利用普通顯微鏡(Olympus BX51)人工分析染色體圖像(A組),利用全自動染色體顯微圖像掃描分析系統(ZEISS MetaSystems Imager Z2)對染色體圖片進行分析(B組),與AI模型(AI組)對染色體圖片分析的準確率及分析時間進行對比(n=50)。
1.3統計學處理
2.1AI神經網絡建立
采用一個通用圖像分割網絡Mask-RCNN[7],其是一種基于區域的神經網絡架構。采用數據集預訓練模型參數初始化對應的網絡參數,其余參數進行隨機初始化。 驗證組測試分類識別的準確率為91.35%~98.61%,中位準確率為94.38%。采用驗證組對已收斂的深度網絡進行測試,該網絡能夠較好地劃出目標區域并分類,見圖2。

圖2 經深度神經網絡識別的染色體區域并分類
2.2人機分類比較
長期進行染色體分類的專業技師利用普通顯微鏡進行一個染色體圖像的分析時間大約為10 min,而人工利用全自動染色體顯微圖像掃描分析系統對染色體圖片進行分析,每個染色體圖片大約需要2~5 min,準確率均為100%。
專業技師利用全自動染色體顯微圖像掃描分析系統分割粘連、重疊的染色體大約需要1~2 min,然后將圖片傳遞給深度神經網絡,其能在幾秒內完成染色體分類,正確率為96.0%,因此在人工配合下可在1~2 min左右完成染色體的識別和分類。3組的識別時間比較,差異有統計學意義(P<0.05);而準確率比較,差異無統計學意義,見表1。

表1 不同染色體分類方法耗時與準確率比較
以往的染色體核型分析工作幾乎均由專業人員人工完成,包括培養、制片、鏡檢,其過程煩瑣,雖然準確率有保障,但效率比較低下,導致染色體檢查結果等待時間較長。半自動或全自動染色體分析系統的出現使染色體核型分析的效率得到了很大的提高,然而這些系統只是在染色體圖像的拍攝和選取方面做到了全自動,而在染色體圖像分割和染色體核型分析方面還是需要專業技師的參與[8],即仍然是通過人機交互的模式完成的,并沒有真正做到“全自動”。
隨著計算機計算能力的飛速發展和大數據的應用,深度神經網絡成為新的圖像識別熱點。AI圖像識別技術用于醫學影像的輔助診斷已有大量研究,包括胸部、心血管疾病、骨科疾病及神經系統疾病影像等,這些研究成果如果用于臨床將大大減少臨床醫師的工作量及輔助提高診斷的準確率[9-10]。關于染色體核型的AI分析也早有研究,但有很多技術難題沒有克服,且準確率一直較低。WU等[11]采用VGG-net-d的網絡架構,識別染色體的準確率達到了63.5%。GUPTA等[12]采用孿生雙網絡互糾正分類法,準確率達到85.6%。LIN等[13]采用基于ResNeXt框架的遷移學習識別法,準確率達到了94.09%。然而這些研究的準確率還遠遠不足以用于臨床。
染色體識別的兩個難點在于分割和分類[14]。由于顯微鏡下的染色體難免粘連或重疊,不成熟的分割算法導致后續的分類準確率降低[15]。然而人工分割重疊的染色體要求的技術不高,時間較短,且后續神經網絡識別率還能得到提高。而影響染色體分類的難點主要在于染色體彎曲折疊等不同的形態。有研究發現將彎曲折疊的染色體進行伸直處理,使染色體的識別率達到了很大的提升,然而這種方法并不能完全適用于所有染色體圖像中的情況[16]。本研究發現只需將各種形態的染色體隨機旋轉,反復訓練深度神經網絡便可以高效識別呈現各種形態的染色體。因此相較于傳統的染色體核型分析流程,采用預先人工處理,再采用神經網絡進行分類的方法,不但提高了效率,同時降低了對技術人員的要求。
本研究通過現有圖像庫訓練出的神經網絡,對染色體的識別率可高達96.0%,所耗費的時間僅為傳統人工識別的五分之一,較全自動染色體分析系統的所需時間也顯著降低,大大提高了染色體核型分析的效率,從而降低了患者等待檢測結果的時間。由于培養一名專業的遺傳學醫師需要漫長的時間,其經驗也需要在工作中不斷積累,期間必定耗費大量的人力物力,需要大量的醫務工作者為染色體核型分析付出大量的工作。本研究建立的AI深度神經網絡可以高效、準確地識別出染色體核型,而且可以集成到現有的核型分析系統中或通過網絡集成到云端。并且隨著應用的推廣,圖像庫的數據集會得到不斷的補充,通過AI神經網絡的自主學習及調整功能,識別率會得到進一步的提高,將大大減輕醫護人員的工作負擔,并減輕患者的經濟負擔及減少患者的等待時間。