胡宏亮劉清謝雅芳楊大洲劉軼王可楊紫君王文進文于華
基于三維形態參數的凋亡乳腺癌細胞機器學習識別研究*
胡宏亮1,劉清1,謝雅芳1,楊大洲1,劉軼1,王可1,楊紫君1,王文進1,2,文于華1,2
(1.湖南理工學院物理與電子科學學院,湖南 岳陽 414006;2.湖南理工學院先進光學研究所,湖南 岳陽 414006)
通過對誘導凋亡乳腺癌細胞的激光共聚焦顯微圖像進行三維重建,獲得細胞核、線粒體和整個細胞的平均體積、比表面積、等體積球半徑和體積百分數。再利用獲得的上述三維形態參數,分別采用層次聚類方法和BP神經網絡模型對細胞進行分類,發現在區分正常細胞和凋亡細胞兩大類時分別可實現65%和83.3%的準確率,并且兩者對正常細胞的區分度較高。
機器學習;細胞凋亡;BP神經網絡模型;高斯混合模型
凋亡是細胞程序性死亡的過程,相關機制對人類多種疾病,包括癌癥、自身免疫和退行性疾病等有重要影響,其研究對生命科學和臨床應用具有廣泛的意義[1-2]。在癌癥治療的情況下,由于腫瘤細胞對治療方案的敏感性和微環境之間的密切關系,細胞凋亡深刻地影響患者對治療和復發風險的反應。因此,對癌細胞凋亡過程的評估對于患者個體化治療變得越來越重要。癌細胞凋亡過程中的形態變化,為表征凋亡提供了外型特征標記。通過激光共聚焦顯微技術,可以獲得高分辨率的細胞結構層切圖像。對其三維重建后,可計算獲得細胞的三維形態學參數,并統計分析得出凋亡細胞和正常細胞之間的差異[3]。
機器學習是一門人工智能的科學,研究人工智能如何在經驗學習中改善具體算法的性能。無監督機器方法層次聚類[4]和監督機器學習方法BP(back propagation)神經網絡模型[5],被廣泛用于各種分類識別研究中。
本文以誘導凋亡過程中的人體乳腺癌細胞MCF-7為研究對象,通過激光共聚焦顯微圖像三維重建技術獲取細胞三維形態學參數,然后進行上述兩種機器學習分類研究,以期對正常細胞和凋亡細胞進行準確區分。
研究流程如圖1所示,研究中首先進行細胞的培養與誘導凋亡實驗。MCF-7細胞保存在37 ℃濃度為5%的CO2加濕培養箱中,采用含質量分數為10%胎牛血清(FBS)的DMEM培養基進行培養,并用14-羥基柔紅霉素(Doxorubicin)誘導凋亡。然后,分別用Syto-61、M-7510和Annexin V三種熒光染料對MCF-7細胞進行染色,在激光共聚焦顯微鏡實驗中分別標定細胞核、線粒體和凋亡特征,對應的共聚焦顯微鏡切片圖像分別呈現紅、綠和藍三種顏色,根據藍通道的熒光強度,區分正常細胞和處于凋亡狀態的細胞。在此基礎上,對獲取的切片圖像進行三維重建,獲取細胞核、線粒體和細胞膜三維結構,并計算整個細胞的體積()、比表面積()和等體積球半徑(),線粒體的體積()、比表面積()、等體積球半徑()和體積百分數(),細胞核的體積()、比表面積()、等體積球半徑()和體積百分數()共11個三維形態參數。最后,分別采用層次聚類和BP神經網絡模型對上述參數進行機器學習分類研究,獲取不同模型下正常細胞和凋亡細胞識別準確的數目,并計算準確率。

圖1 研究流程圖
在機器學習研究中,分別選取60個正常細胞和60個凋亡細胞,隨機分成2組,每組含有30個正常細胞和30個凋亡細胞。將其中一組作為BP神經網絡模型的訓練樣本,另一組作為測試樣本。同時,測試樣本組用于層次聚類,方便與BP神經網絡模型分類的結果對比。
在進行機器學習研究前,對兩組數據每個參數分別進行了歸一化處理。進行層次聚類和BP神經網絡模型研究時,分別調用MATLAB軟件中的clusterdata函數與newff函數將測試樣本數據分2類時。其中,調用clusterdata函數時,linkage參數選用ward,其他為默認設置。調用newff函數時,輸入層和輸出層分別含有11和2個神經元,中間包含4個隱層,分別含有20、8、8、8個神經元,4個隱層和輸出層的激活函數分別為tansig、logsig、logsig、tansig和tansig,多次進行訓練,并輸出測試樣本的分類結果。
實驗得到的60個正常細胞和60個凋亡細胞的三維形態學參數,計算結果如表1所示。通過對比發現,正常細胞和凋亡細胞的部分三維形態學參數有明顯差異。通過機器學習方法,去對比每個細胞的上述11個參數,可能將正常細胞和凋亡細胞進行準確區分。MCF-7細胞機器學習分類結果如圖2所示。
進行層次聚類分析時,正常細胞和凋亡細胞組識別正確的數目分別為26和13個,準確率為65%。通過BP神經網絡模型多次訓練,正常細胞和凋亡細胞組識別正確的數目分別為29和21個,準確率為83.3%。可以發現,正常細胞組的區分度較高,其細胞三維形態特征穩定。而凋亡細胞組,可能存在早期凋亡與晚期凋亡的差異,前者更接近與正常細胞的三維形態結構,因此識別的準確率低一些。
本文通過機器學習方法研究了誘導凋亡過程中的人體乳腺癌細胞基于三維形態參數的分類識別,分別采用層次聚類方法和BP神經網絡模型。發現兩者的準確率分別為65%和83.3%,且對正常細胞組的識別率較高。采用BP神經網絡模型進一步優化網絡結構,可能獲得更高的識別準確率。
表1 MCF-7細胞三維形態參數計算結果
參數名稱符號單位均值 ± 標準偏差 正常細胞凋亡細胞 細胞體積c_volμm33 955±1 6983 249±1 279 細胞比表面積SVR_cμm-10.461±0.0620.532±0.130 細胞等體積球半徑Er_cμm9.640±1.2719.014±1.282 細胞核體積n_volμm31 249±5661 172±800 細胞核比表面積SVR_nμm-10.702±0.0870.781±0.166 細胞核等體積球半徑rt_nμm6.550±0.9226.333±1.123 細胞核體積百分數Er_n-0.318±0.0600.364±0.133 線粒體體積m_volμm3310±209143±107 線粒體比表面積SVR_mμm-13.206±0.5994.341±1.470 線粒體等體積球半徑Er_mμm0.973±0.2070.750±0.198 線粒體體積百分數rt_m-0.079±0.0360.044±0.030

圖2 MCF-7細胞機器學習分類結果
[1]BROWN J M,ATTARDI L D.The role of apoptosis in cancer development and treatment response[J]. Nat.Rev.Cancer,2005,5(3):231-237.
[2]KERR J F, WYLLIE A H,CURRIE A R. Apoptosis: a basic biological phenomenon with wide-ranging implications in tissue kinetics[J].Br.J.Cancer,1972,26(4):239-257.
[3]WEN Y H,CHEN Z,LU J F,et al.Quantitative analysis and comparison of 3D morphology between viable and apoptotic MCF-7 breast cancer cells and characterization of nuclear fragmentation [J].PLoS ONE,2017,12(9):e0184726.
[4]YING Z,KARYPIS G,FAYYAD U.Hierarchical clustering algorithms for document datasets[J]. Data Mining & Knowledge Discovery,2005,10(2):141-168.
[5]HECHT-NIELSEN R.Theory of the backpropagation neural network[C]// Neural Networks,IJCNN. International Joint Conference on,1989.
2095-6835(2020)20-0117-02
TP181
A
10.15913/j.cnki.kjycx.2020.20.049
胡宏亮(2000—),男,微電子科學與工程專業,本科在讀。
文于華(1981—),男,博士,講師,研究方向為細胞光學與人工智能。
2019年湖南省大學生創新訓練項目(編號:S201910543028)資助;湖南省教育廳優秀青年項目(編號:18B348)資助
〔編輯:嚴麗琴〕