賈曉冬,汲珊珊,劉 蕊,楚玉蘭
(1.天津醫科大學研究生院 300070;2.天津醫科大學人民醫院臨床學院 300121;3.天津金域醫學檢驗實驗室有限公司 300392)
運用流式細胞術檢測淋巴細胞亞群(LS)觀察機體細胞免疫水平,了解在不同疾病狀態下患者的細胞免疫功能狀態,對惡性腫瘤、自身免疫性疾病、免疫缺陷病、血液系統疾病的診治、預后判斷均具有重要意義[1-5],已在臨床得到廣泛應用。但傳統流式細胞術人工分析主要依靠分析者手動圈門和熒光表達強度的判讀,檢測靈敏度和準確性取決于分析者經驗[6-7]。近年來,隨著人工智能(AI)技術在醫療領域的探索與發展,AI輔助多參數流式細胞術(MFC)可通過聚類、降維、自動分群等分析方法自動判斷并進行統計分析,實現對待測細胞群的分類和快速判定,提高了檢測的靈敏度和準確性[8]。本研究應用人外周血LS流式檢測數據建立了AI模型,并評價了AI輔助MFC檢測LS免疫表型與人工分析結果的一致性,現報道如下。
選取2020年6-7月天津金域醫學檢驗實驗室收集的1 263例患者外周血樣本作為研究對象,其中男588例,女675例;年齡0~81歲,中位年齡55歲。
1.2.1實驗步驟
采用美國BD公司FACS canto型流式細胞儀,檢測用單克隆抗體購自同生時代公司,溶血素購自美國BD公司。按文獻[9]步驟操作進行樣本制備,熒光素標記單克隆抗體組合:CD3-FITC/CD16+CD56-PE/CD45-PerCP-cy5.5/CD4-PC-7/CD19-APC/CD8-APC-cy7。
1.2.2數據分析
待測樣本混勻后檢測并獲取,使用Kaluza Analysis軟件分析數據,傳統人工分析應用Kaluza Analysis軟件進行分析并結合抗原表達情況分析淋巴細胞各亞群百分比。AI分析應用AI模型分析,計算淋巴細胞各亞群百分比,并生成可視化結果。檢測前校準流式細胞儀并調整電壓、補償等參數,淋巴細胞總數小于5 000個的FCS數據不納入本研究。
1.2.3實驗流程
AI輔助MFC檢測LS免疫表型的流程圖見圖1。

圖1 AI輔助MFC檢測LS免疫表型流程
1.2.4AI模型建立
1.2.4.1無效細胞清除
(1)去除粘連體:根據非粘連體的線性分布特點建立線性回歸模型:y=ax+b,得到線性分布主軸的位置參數a、b,以此參數為基準并參照人工分析特點去除粘連體。(2)去除死細胞和細胞碎片:根據細胞碎片前向散射(FSC)、側向散射(SSC)極小,同時CD45陰性的特征去除細胞碎片。采用核密度估計模型計算FSC、SSC、CD45核密度概率密度函數。見公式1。
(公式1)
其中,f為核密度概率密度函數,fi1,fi2…fin為n個流式細胞的指定熒光標記的熒光強度值;h為帶寬,默認設為10;K為核函數,采用高斯核函數(公式2)
(公式2)
得到細胞在FSC、SSC以及CD45上的密度分布曲線,并參照人工分析經驗尋找極值來確定碎片在FSC、SSC以及CD45上的分布界限,從而去除細胞碎片。
1.2.4.2AI模型數據處理
采用高斯混合模型(GMM)為基礎的聚類分析[10]對數據進行高斯分布擬合。見公式3。
(公式3)
帶入特定變量x,求得在該分布下對應的概率N。其中μ代表總體均值,σ代表該分布的標準差,σ越大分群數越少;反之,σ越小分群數越多。不符合高斯分布的數據采用改進的歐氏距離進行分析。見公式4。
(公式4)
其中d(x,y)代表目的細胞坐標位置(x,y)與固定點的距離。按最小距離原則將所有細胞點歸入與其距離最小的細胞群內,從而將有效細胞分為若干個細胞群。
1.2.4.3抗體強度內對照模型
根據LS特征將粒細胞作為淋巴細胞特異性抗體的陰性內對照,通過粒細胞平均熒光強度確認淋巴細胞各亞群的陰性表達范圍。
1.2.4.4淋巴細胞模型
根據淋巴細胞整體在SSC/CD45上的分布特征,以GMM聚類結果為基礎,初步篩選淋巴細胞。參照粒細胞陰性內對照,綜合人工分析的診斷標準,利用核密度分析方法對淋巴細胞熒光表達強度分布進行分析并分群[11]。
1.2.5AI分析數據
經標本制作獲取FCS數據,將FCS數據輸入AI模型并解析成與原始數據相匹配且AI模型可讀數據。AI模型采用多維度聚類算法(pheno-graph、KNN、K-means等)將細胞分為多個集群,再利用自動分類器在多維空間中對細胞集群進行初步分類和定義。建立抗體強度內對照模型,參照粒細胞陰性內對照,綜合人工分析的診斷標準,利用核密度分析方法對淋巴細胞熒光表達強度分布進行分析,確定淋巴細胞各亞群類型并輸出各類細胞群百分比。
1.2.6AI分析重復性試驗
用AI 模型對1 263份樣本進行3次日間重復性分析,比較各細胞群的細胞數和熒光強度差值的變異系數(CV)。
1.2.7AI分析與人工分析檢測速度比較
比較AI模型分析單個樣本并生成的可視化結果的平均時間與傳統人工分析方法的平均時間。
1.2.8AI模型性能評估
以人工分析結果為參照,對LS免疫表型FCS數據進行AI分析,AI模型分析與人工分析診斷結果按下述標準判定是否一致,并計算檢測通過比例。判斷標準:絕對誤差允許±3%的允差、細胞占父類比例大于5%、相對誤差小于15%為合格;細胞占父類比例小于或等于5%、相對誤差小于40%為合格。符合上述標準即判定為一致,否則判定為不一致。由高年資醫師對結果不一致者進行人工復核,綜合判斷結果差異的原因。
1.2.9AI分析與人工分析一致性比較
計算1 263例樣本兩種分析方法各項淋巴細胞計數百分比平均差值,采用SPSS17統計軟件通過配對t檢驗對LS細胞百分比進行統計學分析,并計算P值,以評價兩種方法結果的一致性,以P<0.05為差異有統計學意義。計算兩種方法質控平均值,以判定兩種分析方法差異性的原因。運用MedCalc19.2.1統計軟件對兩種方法進行比對,通過Bland-Altman圖分析95%置信區間(95%CI)。計算AI分析方法質控的重復系數(CR)評價該方法的可重復性。
AI分析可快速檢測出外周血中LS的數量和百分比,可通過降維自動輸出二維圖,清晰展現多維空間細胞群分布及抗原表達水平。見圖2。

a:NK細胞;b:TCRγδ+T淋巴細胞;c:輔助性T淋巴細胞;d:細胞毒性T淋巴細胞;e:B淋巴細胞。
細胞分群類別、各群細胞的細胞數、百分比及每群細胞表達抗原的平均熒光強度均相同,各項差值的CV均為0。
AI分析單個樣本平均時間為(1.36±0.25)s,而人工分析單個樣本的平均時間約為60 s,分析疑難病例需7~8 min。AI分析較人工分析速度提高50倍以上。
1 263例樣本中1 199例結果與人工結果一致,檢測通過比例為94.93%。64例樣本的80個差異項與人工分析結果有差異。差異項病例數分別為:CD3+5例、CD3+CD4+9例、CD3+CD8+23例、CD3-CD19+11例、CD3-CD16+CD56+32例。
兩種方法CD3+、CD3+CD8+、CD3+CD4+/CD3+CD8比值、CD3-CD19+4項平均差值比較,差異均有統計學意義(P<0.05)。經高年資醫師復核,AI分析也會因異常T淋巴細胞的存在導致結果分析的差異。其余CD3+CD4+和CD3-CD16+/CD56+2項平均差值比較,差異均無統計學意義(P>0.05),兩項指標檢測具有良好的一致性,可相互替代。見表1。人工分析質控的平均值為1.414,AI分析質控的平均值為0.384,提示AI分析比人工分析質量控制(QC)更趨向于0。AI分析方法質控的CR為2.833 1%,95%CI:2.726 8~2.948 1%,均小于臨床可接受的臨界值范圍±5%,表明AI分析方法可重復性好。

表1 淋巴細胞各亞群細胞百分比比較
本研究初步建立了AI輔助MFC檢測人外周血LS含量及百分比的診斷方法,基于多維空間聚類細胞群進行分析,可快速檢測人外周血中LS百分比并降維后生成可視化結果。AI分析效率較人工分析提升約50倍以上,極大地減少了臨床診斷工作量、壓縮了檢測周轉時間,初步滿足了臨床診斷的需求,并可將多維分析結果以二維散點圖形式輸出,提高了可視化效果,并對異常群示警允許人工訂正,避免了偶然因素引起的錯、誤診。日間重復性試驗結果顯示,CV為0,AI分析不受人員疲勞程度、精神狀態、人為失誤等主觀因素的影響。
研究發現,當總LS占比之和結果超過5%~10%時考慮樣本中可能包含大量異常T淋巴細胞亞群,如TCRγδ+T淋巴細胞、雙陰性CD4-CD8-或雙陽性CD4+CD8+T淋巴細胞。如外周血樣本中存在γδT淋巴細胞時為滿足“(CD4++CD8+)%=(CD3+±5)%”的檢測標準[12],而AI分析會出現圈門不準確。在人工分析CD3/CD4細胞分群時由于單核細胞與淋巴細胞在二維散點圖上界限不清,人工分析將部分單核細胞納入淋巴細胞計數范圍內,導致人工分析較AI分析數據百分比降低,而AI會多方位空間劃分,將CD3-CD4+細胞群剔除整體淋巴細胞群。見圖3。對大部分單一LS分析表現出較好的分析速度和準確率,但對個別復雜病例仍沒有達到與人工分析完全相同的診斷效果,仍需高年資醫師結合臨床其他檢測指標進行綜合診斷,AI分析模型的建立是基于醫師的分析方法而建立的,在機器學習算法方面雖然可通過數據進行訓練,但仍受制于單一檢測手段分析結果而缺乏思維靈活性,進而無法完全替代高年資醫師檢測結果。但該AI模型仍可作為一種臨床決策支持系統和輔助診斷工具用于臨床,可為低年資醫師樹立信心。

A:CD45圈出LS;B:人工分析的CD3+CD4+二維散點圖,人工分析圈出的淋巴細胞中可能含有部分單核細胞(粉色);C:AI分析的CD8+CD4+二維散點圖。
AI借助強大的數據分析能力和計算能力用于醫學各領域,尤其是多維圖像解讀及大數據分析[13-14]。研究者在疾病診斷領域挖掘AI輔助分析更快、更準、更便捷的方法,以滿足臨床疾病診斷的需要[15]。但AI輔助MFC分析方法的相關研究較少見,不同領域和疾病診斷類型對算法的要求不盡相同,且大多研究均基于小樣本量的探索性研究[16-17],在臨床實際應用中尚存在不足[18]。有研究對比了7 784例淋巴細胞淋巴瘤患者和8 493例健康對照者的FCS數據,利用神經網絡算法和10倍交叉驗證建立了AI診斷模型,診斷準確率高達97%[19]。KO等[20]分析了1 742例 急性髓系白血病(AML)患者和5 333例 骨髓增生異常綜合征(MDS)患者的FCS數據,通過對機器學習算法訓練,使AML和MDS患者診斷率提高至84.9%~92.4%,診斷準確率達84.6%~89.7%,平均數據處理時間為7 s,極大地提高了檢測效率。周麗娜等[17]以多維空間密度分布的非監督學習分群聚類算法為基礎,應用決策樹和隨機森林等監督學習算法辨別細胞分類,并以二維圖、降維t-分布領域嵌入算法和熱圖進行可視化呈現,提高了AI輔助診斷微小殘留病的靈敏度和準確度。本研究基于聚類算法和核密度估計方法在AI輔助流式細胞術檢測LS方面進行了初步探索及應用研究,AI模型使用的機器學習算法與其他算法比較,其優勢:(1)計算伸縮性。該算法使用多個高斯分布的組合刻畫數據分布,計算伸縮性好。(2)參數依賴性。可調整參數為數據分布的均值和標準差。(3)普適性能力。描述能力和泛化能力均優于其他算法。(4)抗噪聲能力。優于K均值聚類算法。(5)結果解釋性。模型和結果均具有解釋性。該算法能更好地捕捉流式細胞數據的分布特點進行細胞聚類和分群。
盡管近年來AI技術在醫學領域取得了一定的成功,AI機器學習方法在診療過程中的局限性和解決方案也被廣泛地討論[21-23]。但探索過程中仍面臨AI輔助診斷不流暢、檢驗結果重復性不夠、檢測機構間水平差異等諸多問題,從而阻礙了AI模型的推廣應用。同時AI算法導致的醫療責任歸屬及其“黑匣子”“可解釋性”等諸多問題也使AI輔助診斷在臨床應用中受限而破壞了其應用價值。因此,仍需在臨床更多領域、更多算法進行驗證,并建立基于AI模型的診療指南和行業標準,以確保檢測流程標準化和結果的準確性和靈敏度。本研究通過1 263例患者淋巴細胞百分比數據進行分析建立了AI輔助診斷模型,未來希望能應用LS絕對計數的AI分析輔助臨床提供更可靠、快速的結果,并有更多的機會對算法進行優化與訓練,使診斷更精確,希望通過機器學習算法的優化和人工分析思路的高度融合不斷提升AI模型識別復雜細胞群的能力。未來隨著人類對AI的認知逐漸加深,AI模型識別流式細胞數據能力將會隨著不斷深入的研究和探索成為醫師的左膀右臂,大幅提升診斷效率。