魏超杰 李 超 解宏鑫 王 欣 李玉鋒 李玉文 劉 楊 王 偉*
(1.中國農業大學 工學院,暨全國金屬組學創新研究中心,北京 100083;2.安徽醫科大學 第二附屬醫院,暨全國金屬組學創新研究中心,合肥 230032;3.中國科學院高能物理研究所,中國科學院-香港大學金屬組學與健康和環境聯合實驗室,中國科學院納米生物效應與安全性重點實驗室,暨全國金屬組學創新研究中心,北京 100049;4.安徽醫科大學 基礎醫學院,暨全國金屬組學創新研究中心,合肥 230032)
癌癥是引起全球范圍內高發病率和高死亡率的公共衛生疾病之一。根據國際癌癥研究機構(International agency for research on cancer,IARC)的報告,人類癌癥的發病率和死亡率正在迅速增加[1]。對于晚期癌癥患者,經過有效治療5年存活率小于50%[2]。若能盡早發現并治療,能夠在很大程度上降低死亡率。而臨床上對于癌癥患者篩查需要一系列操作,速度較慢,因此有必要開發一種快速癌癥篩查的方法。
目前癌癥的臨床診斷方法有體液生化指標檢測、X射線影像[3]、計算機斷層成像[4]、核磁共振影像[5]、超聲影像[6]、內鏡檢查[7]等,這些方法存在主觀依賴性強、價格昂貴、局限性大等不足,迫切需要快速、準確、無損的癌癥篩查方法。金屬組學[8]是系統研究生命體內自由或絡合的全部金屬/類金屬元素的含量、分布、化學種態及其功能的一門新興學科。以健康與癌癥人群體內血液的金屬組作為靶標物,有助于癌癥患者的篩查。
微量元素的濃度是身體疾病的另一種信息來源。眾所周知,某些元素在調節和決定生物體健康的多種生化過程中發揮著重要作用。CHEN等[9]通過使用原子熒光光譜法(AFS)和電感耦合等離子體原子發射光譜法(ICP-AES)測定健康人與心血管患者血液與尿液中的9種元素(鉻、鐵、錳、鋁、鎘、銅、鋅、鎳和硒),發現正常人血液與尿液內所有的元素濃度均高于心血管疾病組,使用決策樹建立分類模型最高可達到97.6%的準確率。CARTER等[10]以微波誘導等離子體原子發射光譜法(MIP-ONS)與電感耦合等離子體質譜法(ICP-MS)測定腳趾甲22種元素并結合其他指標作為特征,采用隨機森林建立糖尿病預測模型,最優模型的受試者工作特征曲線下面積達到0.9。LIN等[11]采用ICP-AES與ICP-MS技術測定血清中39種微量元素,結合機器學習算法對精神分裂癥的識別準確率能夠達到99.21%。因此人體內元素水平可以反應健康狀態,用于疾病的篩查。
使用電感耦合等離子體光學發射光譜(ICP-ONE)和ICP-MS法可以量化元素的含量,具備精確度高、檢出限低等優點。但具有破壞性,同時測量濃度差異較大的多種元素時,需要使用多種技術組合。而SRXRF具有預處理少、非破壞、寬分析范圍[從輕元素(鋰、硼)到重金屬元素(鈾、钚)]、檢測速度快、適用樣品廣等優點。SRXRF技術通過校正儀器響應和建立標準曲線來預測元素的含量,但定量分析受到多種因素影響。因此本文嘗試使用SRXRF作為研究手段進行癌癥患者的篩查。
基于SRXRF的平均光譜偏最小二乘判別分析(PLSDA)與支持向量機(SVM)的機器學習算法,預處理方法單一,樣本數量有限[12]。為了從大數據集中挖掘數據特征,此次研究增加了血清樣本數量,以同一個樣本不同位置的光譜作為輸入開發卷積神經網絡,以適應大數據發展時代下的癌癥篩查方法研究。
受生物視覺感知機制啟發的卷積神經網絡(Convolutional Neural Network,CNN)被證明可以從原始數據中提取有效特征進行分類或者回歸的有效手段[13]。二維卷積神經網絡在圖像處理[14]和目標檢測[15]方面取得一定的研究成果。但一維卷積神經網絡(One dimensional-convolutional neural network,1DCNN)可以處理序列數據,且具有較少的參數量,較小的過擬合風險,成功用于近紅外光譜[16]、拉曼光譜[17]和其他一維信號[18]等研究。因此,構建1DCNN模型,從SRXRF數據中提取深層特征,建立癌癥患者的篩查模型具有可行性。
在本研究中,將SRXRF和1DCNN結合展示非靶標金屬組學在血清樣本中篩選癌癥患者中的應用。通過分析光譜差異,研究控制組與癌癥組的標志物。建立預處理與化學計量學和1DCNN的癌癥分類模型。并以特異性,靈敏性驗證模型性能。本研究有助于推動SRXRF技術在癌癥患者篩查方法的應用研究。
本研究的血清樣本采集實驗在安徽醫科大學第二附屬醫院進行,于上午6:00-8:00采集志愿者空腹狀態下的靜脈血液,保存于離心管內,使用3 000 r/min離心機離心10 min,取上層血清。無各類疾病的健康志愿者與病理證實的肺癌與胃癌志愿者提供血清樣本,兩者在年齡、性別上無明顯差異。健康志愿者的血清樣本稱為控制組,癌癥志愿者為癌癥組,共收集269份血清樣本,包含161份控制組與108份癌癥組樣本。所有志愿者均簽署了知情同意書,本工作獲得了安徽醫科大學倫理委員會同意。
在北京同步輻射裝置4W1B束線上進行SRXRF數據采集,設備運行的能量為2.5 GeV,束流強度為150~250 mA[19]。將60 μL血清滴在濾紙上,風干后固定在移動平移臺上,采用Si(Li)固態探測器檢測X射線熒光強度。在每個血清樣本的不同位置進行22次連續點掃描,共收集5 918(269×22)條熒光光譜。計算每個樣品的22條光譜的平均值稱為平均光譜,共269條用于化學計量學的模型建立,5 918條熒光光譜稱為像素級光譜,用于1DCNN模型建立。
采用歸一化處理、Savitzky-Golay平滑(SG)、迭代自適應加權懲罰最小二乘法(Adaptive iteratively reweighted penalized least squares,airPLS)、標準正態變化(Standard normal variate,SNV)作為光譜預處理手段。歸一化處理可以消除志愿者體內微量元素量級差異對SRXRF的影響。采用15點2次線性SG平滑對曲線進行去噪,減少儀器與環境對光譜曲線的影響。目前效果最好的基線校正方法是airPLS,采用基于誤差的迭代加權策略,基于上一次循環擬合的基線和原始信號之間的差異來糾正譜線。SNV能夠消除光程差異、散射和樣品稀釋等引起的誤差,使數據具有可比性。
采用偏最小二乘判別(Partial least squares linear discriminant analysis,PLSDA)、K近鄰算法(K-nearest neighbor,KNN)、簇類獨立軟模式分類(Soft independent modeling of class analogy,SIMCA)對癌癥組進行篩選。PLSDA是一種常用的多變量校準方法,它通過將光譜數據投影到一個新的空間中來搜索一系列與響應變量高度相關的潛在變量,本研究采用五折交叉驗證法優化潛變量的數量[20]。KNN是一種非常經典的分類算法,未知樣本的類別由其最接近的K個臨近值來代表[21]。采用歐式距離作為度量,采用五折交叉驗證選擇最優鄰域值K。SIMCA是以主成分分析為基礎的定性分析方法[22],通過將數據投影到最優主成分子空間中實現分析和分類的目的。
CNN是在前饋神經網絡的基礎上通過增加卷積操作而發展起來的。SRXRF能夠反應血清中微量元素的信息,因此可以將連續的SRXRF數據作為一維方向的像素點,使CNN應用于SRXRF分析具有可行性。本文參考LeNet模型,將二維卷積神經網絡變形,以連續通道的SRXRF光譜作為輸入,共提出三種1DCNN框架(圖1)。

圖1 一維卷積神經網絡模型Figure 1 A one-dimensional convolutional neural network model.
第一個1DCNN模型是由三個卷積層和一個全連接層組成的淺CNN模型(CNN#1)。三層卷積的卷積尺度大小分別為1×5、1×11、1×19,卷積核為32、64、128,步幅為2、5、9。第二個模型是由五個卷積層和一個全連接層組成深CNN模型(CNN#2)。CNN#2與CNN#1第一層卷積相同,第二到五層卷積的卷積尺度大小分別為1×7、1×9、1×11、1×13,卷積核為64、64、128、128,步幅為3、3、5、7。第三個是寬CNN模型(CNN#3),CNN#3與前兩個模型的第一層卷積相同,而Conv3、Conv2與Conv1串聯,Conv2與Conv3內各含有三個卷積層,并保持并行處理數據,其中Conv2-1與Conv3-1串聯,并保持小的卷積尺寸,Conv2-2和Conv3-2保持中等卷積尺寸,Conv2-3與Conv3-3保持最大卷積尺寸,具體參數如圖1所示。三種模型的卷積層后采用BatchNorm進行歸一化和Leaky ReLU函數進行激活,激活函數的表達式如式(1)所示:
(1)
α稱為Leaky系數,在此處取0.1。特征提取后采用自適應最大池化和全連接層,輸出有兩個節點,分別對應控制組與癌癥組。
模型的訓練過程,將SRXRF光譜(1×2025)輸入到3個1D-CNN模型中,將標簽0、1轉換為One-hot形式,三種模型的輸出層為2個神經元,使用“Sigmoid”激活函數判斷分類概率。設置Batch size的大小為512,初始學習率為1×103,迭代次數Epoch為600,模型損失函數為BCEloss,優化器為Adam(Adaptive moment estimation)優化器,為了訓練過程中更好的收斂,Adam動量項權重衰減系數β1為0.9,學習率衰減系數為0.999。采用t-分布隨機鄰域嵌入算法(t-distributed stochastic neighbor embedding,tSNE)進行卷積神經網絡模型的特征可視化。
在建立模型前,樣本被隨機分為校正集(2/3)和預測集(1/3),通過計算校正集和預測集的正確分類率(Correct classification rate,CCR)來評價模型,CCR的計算公式如式(2)表示:
(2)
其中,N1和N2分別為校正集和預測集正確的數量和總數。進一步,為了評估模型的魯棒性和可靠性,從混淆矩陣計算得到特異性與靈敏度,分別使用式(3)或(4)來評估每種類型樣本的分類精度。

(3)

(4)
式中TP、TN、FN、FP分別代表真陽性(True positive)、真陰性(True negative)、假陰性(False negative)、假陽性(False positive)。
在Windows系統上基于Matlab和Classification toolbox 5.4搭建化學計量學模型?;赑yCharm開發環境與Pytorch框架搭建1DCNN模型,采用NVIDIA GeFore RTX 1650 4GB GPU進行模型訓練。
圖2顯示了兩類志愿者血清數據在0~2 025通道內的SRXRF平均光譜及標準差。光譜曲線基本走勢與HE等[12]的研究一致。在本實驗中,數據采集條件一致,血清樣本體積相同,通過對光譜曲線峰面積的擬合,可反應血清中金屬元素的差異,其中371、588、862、992、1 189通道附近的峰面積擬合為Ca、Mn、Zn、Ge、Br。呈現出的規律為控制組中對應的通道強度高于癌癥組,即控制組體內上述元素含量高于癌癥組。CALLEJN-LEBLIC等[23]的研究提出V/Mn與V/Zn的比值作為肺癌中金屬標志物,HE等[13]提出Ca和Zn作為癌癥標志物,PIACENTI等[24]的研究指出癌癥組織中的Ca、Cu、Zn低于正常組織,上述文獻與本研究中SRXRF的Ca、Mn、Zn差異情況一致。

圖2 控制組與癌癥組SRXRF均值曲線Figure 2 The averaged SRXRF spectra of serum samples in the control group and cancer group.
Ge是一種能在外部誘發癌癥的一種微量元素,在腫瘤患者體內作為重要標志物[25]。曾昭華等[26]的研究表明,土壤中Br與食道癌、宮頸癌死亡率呈負相關,與肝癌、鼻咽癌死亡率成正相關。以上元素對于癌癥的篩查具有顯著意義,對于提取特征通道,簡化模型,識別癌癥標志物具有重要意義。
PLSDA、KNN和SIMCA分類準確率及最優的關鍵參數列于表1,參數LVs/K表示PLSDA與SIMCA的最優潛變量數與KNN的最近鄰數。在PLSDA模型中,預處理后的準確率相對于原始數據均有一定程度的改善,airPLS基線校正后的準確率最高,校正集、預測集和交叉驗證集分別達到了90.76%、89.76%、88.67%。在KNN模型中,原始數據的預測集準確率達到了92.13%,僅有SG平滑預處理改善了準確率,而其他預處理準確率低于原始數據預測結果,KNN的分類結果整體上均優于PLSDA模型。在SIMCA模型中,歸一化預處理取得最優分類結果,校正集、預測集與交叉驗證集分別為91.93%,90.95%和90.45%。

表1 基于化學計量學的分類性能
根據模型預測結果,預處理能夠改善模型準確率,但錯誤地使用預處理方式會削弱有效信息甚至引入新的噪聲。模型的選擇比預處理方式的選擇對模型的分類影響更大,本次數據中KNN的模型準確率優于其他模型。
為了進一步驗證模型的預測能力,預處理與三種模型的最優組合airPLS-PLSDA、SG-KNN、Normalization-SIMCA的預測集的混淆矩陣如表2所示。三個模型對于癌癥組的靈敏性均大于91.67%,而特異性均大于84.91%,對于癌癥的精確度最高僅為89.47%,表明易將控制組樣本誤識別為癌癥組樣本。采用一維卷積神經網絡進一步提高準確率。

表2 化學計量學模型的混淆矩陣
為了增加模型的泛化能力增加魯棒性,以5 918條SRXRF譜線作為網絡的輸入。三種1DCNN的預測結果如表3所示。在模型中,歸一化預處理對于CNN#1的準確率有所改善,其他預處理相對于原始數據會造成模型的準確率下降,這跟ZHANG等[27]相關研究中表述的一致,雖然預處理可以改善原始數據,但會導致原始信息的丟失,甚至不恰當預處理,反而會引入新的噪聲,造成模型準確率下降。

表3 卷積神經網絡模型性能
CNN#2相對于CNN#1的準確率有所提高,是卷積層在提取特征方面發揮作用,CNN#1卷積層數較少,提取特征有限,并不能充分發揮模型優勢,而CNN#2增加了卷積層的層數,預測集的準確率提高了1.68%。但在提高準確率的同時,導致模型參數增加,訓練模型花費的時間更多,CNN#1迭代一個周期僅需0.29 s,即僅需180 s可完成模型的訓練,而CNN#2迭代一次需要消耗0.56 s,時間是CNN#1的1.93倍。CNN#3相對CNN#1而言具有相似的準確率,雖然具備更寬的卷積尺度,但并沒有明顯提升,原因可能是CNN#1中Conv2和Conv3具備較寬的卷積尺寸,模型的特征提取能力與CNN#3相同,均能夠提取原始光譜中絕大部分有效特征。
卷積神經網絡的卷積層具備提取特征的能力,將三種模型提取特征后的輸出(128個特征)進行tSNE降維處理,保留前三個維度,可視化后的結果如圖3所示,發現控制組和癌癥組絕大部分能夠很好地分為兩類,但是依然有重疊的部分存在,表示神經網絡提取的特征能夠有效篩查癌癥患者。

圖3 1DCNN提取特征tSNE(a)CNN#1;(b)CNN#2;(c)CNN#3Figure 3 tSNE diagrams of 1DCNN feature extraction(a)CNN#1;(b)CNN#2;(c)CNN#3.
針對控制組與癌癥組志愿者的血清樣本,采用SRXRF對血清樣本進行數據采集,獲得5 918個SRXRF數據。對原始譜線分析發現了控制組與癌癥組的有效標志元素Ca、Mn、Zn、Ge、Br。采用預處理與化學計量學結合的方法,建立基于平均光譜的分類模型,模型準確率為93.6%。采用1DCNN進行分類,模型準確率為95.24%,并可視化提取的特征,提取的特征對篩查癌癥患者具有較好的可分性。本研究有利于推動SRXRF結合深度學習開發非靶標金屬組學方法,實現癌癥患者的快速篩查。