劉子銘,郭佩宏,孫永恒,祖 建*,胡 曦,馬欣越,吳曉明,王 彤
(1.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 數(shù)學(xué)與生命科學(xué)交叉中心, 西安 710049;2.西安交通大學(xué) 生命科學(xué)與技術(shù)學(xué)院,生物醫(yī)學(xué)信息工程教育部重點實驗室,西安 710049;3.西安交通大學(xué) 醫(yī)學(xué)部, 西安 710061;4.河北燕達(dá)陸道培醫(yī)院, 河北 廊坊 065201)
染色體是人類遺傳物質(zhì)(DNA)的載體,在人類體細(xì)胞中共有46條染色體,22對為與性別無關(guān)的常染色體,剩余的兩條為性染色體,其中女性性染色體成對出現(xiàn)表現(xiàn)為XX,男性為XY[1]。任何的染色體異常都會導(dǎo)致很嚴(yán)重的疾病,如子代流產(chǎn)、死胎、新生兒死亡、先天畸形、智力低下、發(fā)育遲緩以及血液腫瘤疾病等[2]。染色體的異常包括數(shù)目異常和結(jié)構(gòu)異常,分別是指整條染色體的增加或減少和染色體部分片段的斷裂重組,這些異常的判斷需要由訓(xùn)練有素的專業(yè)人員基于細(xì)胞分裂至中期的顯微鏡觀察圖,先進行染色體核型分析[3],再從核型中判斷染色體是否異常,整個流程費時、費力。隨著遺傳病診斷需求的增加,染色體自動分類和異常診斷日漸重要,因此發(fā)展染色體核型的自動分析方法和異常染色體的自動識別方法來輔助臨床診斷是非常有必要的。
染色體核型分析最為關(guān)鍵的一步是染色體分類,該任務(wù)實質(zhì)上屬于圖像分類問題。早期的染色體分類問題,通過提取染色體的視覺特征,構(gòu)建分類器進行分類,MARKOU[4]等通過提取染色體特征,構(gòu)建支持向量機(SVM)分類器,染色體分類達(dá)到93.5%的準(zhǔn)確度。自卷積神經(jīng)網(wǎng)絡(luò)(CNN)提出以來,利用CNN進行圖像分類的研究越來越多,CNN結(jié)構(gòu)來自HUBEL和WIESEL對貓的視覺皮層的建模[5],有著強大的特征提取功能,基于早期CNN的改進模型如AlexNet[6]、VGG[7]、ResNet[8]等一系列網(wǎng)絡(luò)不斷刷新了圖像分類的準(zhǔn)確度。目前已有一些研究將CNN方法應(yīng)用于染色體分類: HU[9]等人構(gòu)建了一個6層卷積層,3層池化層和4層隨機失活層以及2個全連接層對染色體進行了24分類;SWATI[10]等人提出一種自動矯直染色體的方法后輸入孿生網(wǎng)絡(luò)對染色體進行24分類,實驗表明比常規(guī)的CNN分類更高;SHARMA[11]采用眾包預(yù)處理得到單條染色體,然后輸入CNN網(wǎng)絡(luò)進行分類。
對于染色體異常識別問題,WANG[12]等人結(jié)合染色體大小、平均灰度、標(biāo)準(zhǔn)差、著絲粒指數(shù)、最暗帶指數(shù)以及最暗帶比來識別22對染色體,然后運用模板匹配方法進行正常/異常分類,達(dá)到了93.3%的準(zhǔn)確度;SAEID[13]等人根據(jù)形態(tài)特征(長度、長短臂比值)對染色體的異常進行了識別。
對于易位重組位點的自動識別問題,LEGEAND[14]等結(jié)合不同核型指定參考染色體密度譜后,采用動態(tài)時間規(guī)劃方法(DTW)對染色體密度譜進行了易位重組位點識別。
但是,目前染色體分類和異常染色體易位重組位點的自動識別方法還存在一些不足。首先,現(xiàn)有的染色體類別識別往往都基于一個具體的分類網(wǎng)絡(luò)進行,特征提取能力有限,因此本文針對染色體24分類,利用基于紋理特征的多通道模型進行特征提取,并和ResNet18基本模型進行模型融合,構(gòu)建了整合的染色體分類網(wǎng)絡(luò)。其次,大多異常染色體判別方法都是基于染色體的多個形態(tài)特征進行識別,然而當(dāng)染色體發(fā)生易位時密度譜特征是變化最為明顯的特征,因此本文采用密度譜作為異常染色體判別的主要特征,集成支持向量機、隨機森林和XGBoost模型進行異常染色體判別。最后,異常染色體中易位重組位點的自動識別方法目前也較少有人研究,本文借助于DTW算法在判別序列相似度方面的優(yōu)勢,用于染色體密度譜序列進行易位重組位點的判別,并在臨床數(shù)據(jù)中進行了驗證。此外,本文通過以上的研究能夠構(gòu)建一套比較完整的易位重組位點的自動識別流程,有較強的現(xiàn)實意義和應(yīng)用價值。
數(shù)據(jù)來源于河北燕達(dá)陸道培醫(yī)院,其中包含準(zhǔn)確分類的1-22號常染色體、X、Y性染色體,共24類;異常染色體t(9;22) (q34;q11.2),即9號、22號易位染色體(t(9;22) (q34;q11.2)表示9號染色體3區(qū)4帶和22號染色體1區(qū)1帶發(fā)生易位)。所有數(shù)據(jù)來自顯微鏡拍攝的樣本,染色體類型由專業(yè)醫(yī)師確認(rèn)。
該數(shù)據(jù)集包含了專業(yè)醫(yī)師手動分割出的24類染色體,每一類染色體含有179張左右的染色體圖片,24號染色體為男性性染色體僅有28張圖片,共計4 108張,數(shù)據(jù)具體情況(見表1),下載地址http://gr.xjtu.edu.cn/web/jianzu/useful-links。

表1 24類染色體分類數(shù)據(jù)信息匯總Table 1 Summary of data information for 24 classes of chromosomes
該數(shù)據(jù)集包含了正常的9號染色體圖片和發(fā)生易位的9號染色體圖片(異常),其中正常染色體圖片有61張圖片,異常染色體有53張圖片,數(shù)據(jù)量描述如表2所示,下載地址http://gr.xjtu.edu.cn/web/jianzu/useful-links。

表2 正常和異常9號染色體數(shù)據(jù)信息匯總Table 2 Summary of data information for normal and abnormal chromosomes 9
本研究旨在建立一套自動識別染色體易位重組位點的方法流程。總體流程圖(見圖1),首先,結(jié)合帶有標(biāo)簽的24類染色體數(shù)據(jù),構(gòu)建染色體類別識別網(wǎng)絡(luò),提出基于紋理特征的多通道網(wǎng)絡(luò)模型進行染色體24分類,再與ResNet18基本模型進行模型融合,預(yù)測染色體的類別。然后,對每一類染色體,構(gòu)建染色體易位異常識別模型,結(jié)合帶有正常和異常標(biāo)簽的9號染色體,基于染色體密度譜序列利用投票的方法集成支持向量機、隨機森林和XGBoost分類模型,構(gòu)建了染色體異常判別器。最后,基于識別出的異常染色體的密度譜,利用動態(tài)時間規(guī)劃(DTW)算法計算出了發(fā)生易位的重組位點。本文接下來的3節(jié)分別對該框架的染色體類別識別、異常染色體判別和重組位點計算進行詳細(xì)介紹。

圖1 染色體重組位點自動識別總體流程圖Fig.1 Overall flow chart of automatic identification of chromosome recombination sites
不同類別的染色體在長度、條帶、長短臂比例等多方面有著較大的區(qū)別,在有限的數(shù)據(jù)集下訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)難以提取到深層的特征,如何充分利用現(xiàn)有數(shù)據(jù)成為關(guān)鍵。
一方面,通過隨機旋轉(zhuǎn)10度、隨機中心裁剪、隨機水平翻轉(zhuǎn)進行數(shù)據(jù)增強,實驗表明這有效地增強了分類的效果。另一方面,不僅僅直接使用統(tǒng)一維度(224×224)的原始圖像數(shù)據(jù)訓(xùn)練了ResNet18基礎(chǔ)網(wǎng)絡(luò)模型,還通過對染色體圖像進行預(yù)處理,提取了紋理特征,得到方向梯度直方圖特征(HOG)和局部二值模式特征(LBP),并同時輸入ResNet18網(wǎng)絡(luò)模型,訓(xùn)練了多通道網(wǎng)絡(luò)模型。相比ResNet18基礎(chǔ)網(wǎng)絡(luò)模型,基于紋理特征的多通道網(wǎng)絡(luò)模型更注重染色體條帶間的灰度變化信息,而ResNet18基礎(chǔ)網(wǎng)絡(luò)模型由于沒有直接利用提取好的紋理特征,會更注重染色體的輪廓信息等。
最后,在現(xiàn)有數(shù)據(jù)上進行了24分類的測試。由于數(shù)據(jù)有限,我們對ResNet18基礎(chǔ)網(wǎng)絡(luò)模型和基于紋理特征的多通道網(wǎng)絡(luò)模型都進行了4折交叉驗證,最后把訓(xùn)練完成的兩個模型進行融合,預(yù)測染色體的類別。本文設(shè)計的分類流程如(見圖2)。

圖2 染色體24分類流程圖Fig.2 Flow chart of chromosome 24 classification
首先,將原始圖片轉(zhuǎn)化為224×224,通過LBP映射、HOG映射預(yù)處理,得到LBP特征圖、HOG特征圖。然后,再把LBP特征圖、HOG特征圖和原始染色體圖像組合為3×224×224的多通道輸入。
具體的多通道輸入模型為經(jīng)過調(diào)整的ResNet18模型,將最后一層調(diào)整為一個(512,24)的全連接層以適應(yīng)我們的分類任務(wù)。同時,訓(xùn)練了維度為224×224單通道原始圖像作為輸入的ResNet18基礎(chǔ)網(wǎng)絡(luò)模型。2個模型都采用了部分ImageNet預(yù)訓(xùn)練的參數(shù)進行初始化,并利用數(shù)據(jù)增強和4折交叉驗證以增強分類的效果。
對ResNet18基礎(chǔ)網(wǎng)絡(luò)模型和基于紋理特征的多通道網(wǎng)絡(luò)模型分別進行4折交叉驗證,可以分別得到4種不同訓(xùn)練集、驗證集劃分,相當(dāng)于2個子模型一共訓(xùn)練了8種情形。這8種情形在同一個測試集上可以得到共8個特征圖,每個特征圖的維度為訓(xùn)練批次數(shù)目×訓(xùn)練批次大小×24,最后一個維度對應(yīng)了標(biāo)簽的獨熱編碼。
模型融合的方式是把2個子模型得到的共8個特征圖在最后一個維度相加(與取平均等價),得到的結(jié)果取最大值,得到輸出的預(yù)測標(biāo)簽,與真實標(biāo)簽比對,最終得到分類準(zhǔn)確率。
本文討論的染色體類別識別問題是一個24分類問題,因此可以直接使用基本的多類別交叉熵?fù)p失。對于樣本數(shù)據(jù)集(X,Y)={(xi,yi)},yi為真實標(biāo)簽, 現(xiàn)在有24個類別標(biāo)簽,第i個樣本第k個標(biāo)簽的預(yù)測概率記為pi,k,則該多分類網(wǎng)絡(luò)的損失函數(shù)為:
染色體密度譜是指染色體橫截面處灰度值的均值構(gòu)成的序列,其計算過程由算法1給出:
由于不同類別的染色體有著唯一的帶狀信息,因此密度譜序列能夠直接反映染色體的帶狀信息。因此當(dāng)染色體發(fā)生易位時,會直接反映在密度譜序列上,圖3展示了正常和異常染色體密度譜的序列圖,紅色曲線代表正常9號染色體的密度譜,藍(lán)色曲線代表異常9號染色體密度譜。
傳統(tǒng)的染色體易位異常的判斷是依靠專業(yè)人員進行判斷,這種判別方式耗費人力和時間,因此本文基于帶有標(biāo)簽的9號正常和異常染色體數(shù)據(jù),構(gòu)建分類器模型來自動判別正常和異常染色體。在訓(xùn)練集上分別訓(xùn)練支持向量機,隨機森林和XGBoost分類器,在測試集上采用投票法對三種分類器的分類結(jié)果進行投票融合(見圖4),得到最終的正常/異常預(yù)測結(jié)果。
在識別出染色體類別并識別出異常染色體之后,進一步需要識別染色體發(fā)生易位后的重組位點。動態(tài)時間規(guī)劃方法(DTW)是一種衡量不同長度序列之間相似度的方法,本文基于此方法進行重組位點的計算,基于動態(tài)時間規(guī)劃方法(DTW)的易位重組位點識別算法由算法2給出:

算法2 基于動態(tài)時間規(guī)劃方法(DTW)的易位重組位點識別算法Require:正常染色體密度譜序列X=x1,x2,...,xn,異常染色體密度譜序列Y=y1,y2,...,ymEnsure:m≠n1:計算序列兩點之間的歐式距離:D(xi,yj),1≤i≤n,1≤j≤m2:找出距離矩陣D(xi,yj)中從D(1,1)到D(m,n)的最短距離dij3:for i = 1to m do4: DTWi=DTW(X,(y1,...,yi))5:end for6:min(DTWi)對應(yīng)的位點i即為計算出的重組位點
通過第3,4,5節(jié)提出的方法,輸入單張染色體圖像即可識別染色體類別和判別其是否異常,并自動識別易位異常染色體的重組位點。
對收集到的4 108張染色體圖像數(shù)據(jù)集按照8∶1∶1的比例進行訓(xùn)練集、驗證集和測試集的劃分。首先,通過3.1提出的染色體特征提取方法進行特征提取,網(wǎng)絡(luò)參數(shù)由表3給出,將得到的特征進行融合后進行全連接分類,得到準(zhǔn)確率曲線(見圖5)。

圖5 染色體24分類模型準(zhǔn)確率曲線圖Fig.5 Accuracy curves of chromosome 24 classification model

表3 染色體24分類網(wǎng)絡(luò)參數(shù)說明Table 3 Parameter description of chromosome 24 classification network
用測試集對ResNet18基本模型、基于紋理特征的多通道網(wǎng)絡(luò)模型和兩模型的融合模型進行測試,分類準(zhǔn)確率分別達(dá)到了95.86%,95.99%和97.08%。換句話說,融合模型達(dá)到了更好的分類效果。為了分析融合分類模型對每一類染色體的分類情況,計算得到的混淆矩陣(見圖6),從混淆矩陣可以得到,有20類染色體的分類準(zhǔn)確率均達(dá)到了95%及以上。只有第17類染色體的分類精度較低,說明對應(yīng)的圖像數(shù)據(jù)提取出的特征代表性還不夠,會與9號和10號染色體混淆。特別地,對于23和24號染色體,即X、Y性染色體,盡管數(shù)據(jù)較少,但是用融合模型得到的分類準(zhǔn)確率都達(dá)到了97%。

圖6 染色體24分類混淆矩陣Fig.6 Confusion matrix of chromosome 24 classifications
按照16∶4∶5的比例對115張正常和異常9號染色體數(shù)據(jù)集進行訓(xùn)練集、驗證集和測試集的劃分,采用公平投票的方式在測試集上對第4.2節(jié)得到的判別模型進行測試,正常和異常染色體判別準(zhǔn)確率均達(dá)到了100%。這表明基于密度譜特征構(gòu)建分類器對染色體易位異常進行判別是非常有效的。
首先,計算標(biāo)準(zhǔn)密度譜:使用專家確定的10條正常染色體,計算10條染色體的平均長度和寬度,為了統(tǒng)一標(biāo)準(zhǔn),將10條染色體的長度和寬度規(guī)范化為平均長度100和寬度50,按照算法1計算密度譜,取該10條正常染色體密度譜的均值作為標(biāo)準(zhǔn)的參考密度譜A;
其次,計算異常染色體的密度譜:按照算法1計算待識別的異常染色體的密度譜序列B;
最后,計算易位位點:按照算法2通過序列A和B計算易位重組位點。
選擇了27張異常的9號易位染色體進行易位重組位點識別測試,得到的部分識別結(jié)果(見圖7)。
由圖7可以看出利用算法2可以準(zhǔn)確定位出發(fā)生易位的位點。由于計算出的位點是基于圖片像素位點,醫(yī)學(xué)上將染色體的條帶信息進行編號得到染色體G顯帶模式圖,將計算的像素位點映射到染色體G顯帶模式圖上,得到臨床上的位點描述,可以得到發(fā)生易位的區(qū)域均在9號染色體的3區(qū)4帶,這與臨床醫(yī)生根據(jù)原始數(shù)據(jù)的診斷結(jié)果一致,說明本算法可以較為準(zhǔn)確的識別染色體易位的發(fā)生區(qū)域。

圖7 易位重組位點識別結(jié)果圖Fig.7 Identification results of translocation recombination sites
染色體易位重組位點的自動精準(zhǔn)識別對輔助臨床診斷具有重要的應(yīng)用價值。本文結(jié)合河北燕達(dá)陸道培醫(yī)院采集到的24類染色體數(shù)據(jù)和9號正常與異常染色體數(shù)據(jù),構(gòu)建了一套自動識別染色體易位重組位點的模型和方法。對于任意給定的一對染色體圖像,我們首先可以自動將其進行分類;如果是9號染色體,我們可以進一步判斷它是正常染色體還是易位異常染色體;如果是易位異常染色體,我們還可以進一步自動判斷其易位的重組位點,具有較高的準(zhǔn)確率。本論文的主要創(chuàng)新點包括:第一,通過將染色體灰度圖像轉(zhuǎn)換成密度譜曲線,將染色體密度譜曲線作為正常和易位異常染色體的分類特征,采用集成分類器的分類方法,使得正常和異常染色體的分類準(zhǔn)確率達(dá)到了100%。第二,基于動態(tài)時間規(guī)劃(DTW)的算法,我們設(shè)計了染色體易位重組位點的自動識別算法,在異常染色體的密度譜曲線上準(zhǔn)確找到了重組位點,并映射至染色體G顯帶模式圖上,得到的診斷結(jié)果與臨床專家的診斷結(jié)果一致,相關(guān)方法也可以應(yīng)用到其他類別異常染色體重組位點的識別。具體來講,本文提出的模型和方法具有以下優(yōu)點和可以進一步改進的地方:
首先,為了提取染色體更多的紋理特征,本文在ResNet18基本模型的基礎(chǔ)上,提出了基于紋理特征的多通道網(wǎng)絡(luò)模型和融合模型,進行了特定的特征提取和特征融合,同時輔以數(shù)據(jù)增強,有利于對染色體圖像特征的提取,且分類準(zhǔn)確度達(dá)到了較高的水平。從表4可以看出,相比已有研究結(jié)果,我們提出的融合模型達(dá)到了較好的分類預(yù)測效果。但是由于臨床數(shù)據(jù)不易獲取,目前訓(xùn)練和測試數(shù)據(jù)的數(shù)量有限,數(shù)據(jù)在質(zhì)量上也存在顯著的類別間不平衡因素和圖像質(zhì)量的問題,隨著不同類型染色體數(shù)據(jù)的不斷收集和增強,以及更高級針對小樣本數(shù)據(jù)的智能學(xué)習(xí)方法、穩(wěn)健方法的應(yīng)用,本文提出的分類模型將達(dá)到更高的準(zhǔn)確率。

表4 染色體分類結(jié)果比較Table 4 Comparison of chromosome classification results
其次,在染色體異常判別分析中,WANG[12]等人運用模板匹配方法進行正常/異常染色體分類,達(dá)到了93.3%的準(zhǔn)確度。然而,我們基于密度譜曲線特征,采用集成的思想融合多個分類器,對9號正常和異常染色體的判別準(zhǔn)確率達(dá)到了100%,取得了更好的效果。后續(xù)可以繼續(xù)收集22號或者其他類別異常染色體的數(shù)據(jù)信息,可將此集成分類器應(yīng)用于22號或其他類別染色體的異常識別。
最后,本文基于動態(tài)時間規(guī)劃方法(DTW)對9號易位染色體進行了易位重組位點的識別,能準(zhǔn)確的定位到易位發(fā)生的區(qū)域,并通過與臨床專家診斷的結(jié)果進行比較,驗證了算法的有效性和可信度。相關(guān)識別方法可推廣至22號或者其他類別染色體易位點的識別。但是由于圖像質(zhì)量的影響,有少數(shù)的易位重組位點識別不準(zhǔn)確,因此對于染色體圖像質(zhì)量的增強、評估是一個很好的改進方向。此外,構(gòu)建一個正常染色體的標(biāo)準(zhǔn)密度譜曲線數(shù)據(jù)庫,也將大大提高重組位點的識別準(zhǔn)確率。
總的來講,基于24類染色體灰度圖像數(shù)據(jù)和9號正常與易位異常染色體數(shù)據(jù),本文提出了一套自動識別易位染色體重組位點的方法流程。基于多網(wǎng)絡(luò)提取特征和模型融合的染色體分類網(wǎng)絡(luò)的設(shè)計,加強了染色體特征提取的能力,達(dá)到了較高的分類準(zhǔn)確率。基于特定紋理特征融合的染色體分類方法在我們的測試數(shù)據(jù)上達(dá)到了97.08%的分類準(zhǔn)確率;基于密度譜曲線的正常和異常染色體判別器在目前的數(shù)據(jù)集上達(dá)到了100%的分類準(zhǔn)確率,說明利用密度譜這一特征進行染色體異常判別是非常有效的。對于異常染色體,基于動態(tài)時間規(guī)劃方法(DTW)對重組位點進行了識別,計算出可能的重組位點并映射至染色體G顯帶模式圖上,得出了臨床直觀的診斷結(jié)果,并由臨床專家進行判斷檢驗,提升了本文算法的可信度。本文提出的自動識別易位重組位點的方法流程具有較強的現(xiàn)實意義,有望完善和設(shè)計成一套軟件系統(tǒng),應(yīng)用于臨床實踐。