基于46 個基因的預測三陰性乳腺癌患者新輔助化療療效模型的構建和優化△

2023-10-14 08:15:06謝文倩莊穎劉智威張戀戀袁沛怡龔浩

癌癥進展 2023年15期

謝文倩，莊穎，劉智威，張戀戀，袁沛怡，龔浩

惠州學院生命科學學院，廣東惠州 516007

乳腺癌是女性最常見的惡性腫瘤，對多個國家和多種腫瘤的發病率和病死率進行評估發現，2018 年新發惡性腫瘤1810 萬例，其中乳腺癌占比11.6%，病死960 萬例，其中乳腺癌占比6.6%[1]。2020 年全球癌癥統計數據顯示，女性新發乳腺癌860 萬例，占所有惡性腫瘤新發病例的24.2%，因乳腺癌病死420 萬例，占所有惡性腫瘤死亡病例的15.0%[2]。乳腺癌按照分子類型分為Basal-like 型、人表皮生長因子受體2（human epidermal growth factor receptor 2，HER2）過表達型、Luminal A 型和Lumimal B 型四種。三陰性乳腺癌（triple negative breast cancer，TNBC）指雌激素受體、孕激素受體及HER2 均陰性表達的乳腺癌。TNBC 的生長與雌激素有關，雌激素的水平升高以及雌激素受體的分布、質和量的異常均有可能促進乳腺癌的發展。TNBC 常見癥狀包括乳房脹痛、刺痛，乳腺腫塊、疼痛、糜爛或皮膚凹陷，腋窩淋巴結腫大等[3-4]。TNBC的轉移方式傾向于通過血行轉移至內臟，包括肺、肝等器官，Ⅲ期TNBC 患者更傾向于骨轉移，是一種比較難治的乳腺癌亞型。

臨床常采用新輔助化療（neoadjuvant chemotherapy，NAC）來縮小腫瘤大小和殺死部分不可見的腫瘤轉移細胞，通常被用于局部治療前。NAC預后一般分為病理學完全緩解（pathologic complete response，pCR）和殘留病灶兩種，pCR 與更好的臨床預后緊密相關。與其他分子類型腫瘤相比，TNBC 患者接受NAC 具有更大的可能性獲得pCR，但其不良反應導致腫瘤轉移的風險也是其他分子類型的2 倍左右。因此，根據患者的臨床特征和一些分子分型結果對NAC 的療效進行提前預測尤為重要，但部分常用的臨床指標和分子分型均不能很好地對NAC 的療效進行準確預測。目前有研究利用一些影像學檢查、miRNA 表達量檢測等方法對預測價值進行了探索[1]，但這些方法都有一定的局限性，不能在臨床大規模使用?；虮磉_水平經常被用來輔助制訂患者個性化的治療方法，如美國國立綜合癌癥網絡（National Comprehensive Cancer Network，NCCN）指南推薦采用21個基因檢測結果來指導乳腺癌患者采用化療還是內分泌治療。因此，本研究擬通過構建基于基因表達量的NAC 療效預測模型，旨在為NAC 在TNBC 中的應用提供參考。

目前，采用分子數據對疾病進行分類的預測模型有很多種，常見的包括監督式或非監督式的機器學習算法，一些較復雜的深度神經網絡算法在一些場景中也有使用[5]。這些算法各有優劣也有不同的應用場景，為找出最好的TNBC 患者NAC療效的預測方法，本研究選取7 種常規的機器學習算法和深度神經網絡進行對比測試，旨在尋找最合適的分類方法，現報道如下。

1 資料與方法

1.1 數據獲取

通過基因表達綜合（Gene Expression Omnibus，GEO）數據庫的公共數據集（GSE163882）（https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE-163882）采集基因表達數據和患者病歷資料。該數據集包括222 例TNBC 患者的轉錄數據和相關臨床特征，其中1 例患者由于預后結果缺失被剔除，本研究共收集221 例TNBC 患者的相關病歷資料。此前研究分別利用免疫指標和篩選的免疫相關指標得到預測TNBC 患者NAC 療效的準確率最高為76.9%和75.2%[6]。

1.2 模型構建特征基因的篩選和過濾

從GEO 數據庫的公共數據集（GSE163882）中下載的原始基因表達量數據表中共有60 279 個人類基因不同轉錄本的原始表達量數據。由于轉錄本在不同個體中的表達量存在差異，一些基因在研究群體中表達的不是很多，缺失率大。首先將缺失率﹥70%和預后表型缺失的樣本剔除，共剩余221 個樣本的19 451 個基因表達量數據。隨后采用U檢驗檢測pCR 和殘留病灶中基因表達量的差異，以P﹤0.01 作為篩選標準過濾掉兩組表達量差異不大的基因，篩選后剩余527 個基因表達量數據。最后采用單因素方差分析根據pCR 和殘留病灶分為兩組，計算兩組表達量的差異，計算P值，通過計算所有527 個基因相關性的P值，以兩個位點相關性P﹤1.0×10-16作為篩選標準，保留方差差異較大的位點，最后篩選得到46 個基因，用這些基因構建預測模型。為驗證不同特征數構建模型的差異，本研究采用最小絕對收縮和選擇算子交叉驗證法計算每個特征值的重要性并排序，選取5 種不同的特征數（分別為10、14、24、34、46 個基因）構建預測TNBC 患者NAC 療效的模型并進行驗證。

1.3 模型的構建和優化

采用Python 3.96 的sklearn 1.1.2 模塊中7 種不同機器學習算法[線性判別分析（linear discriminant analysis，LDA）[2]、線性回歸（linear regression，LN）[7-8]、貝葉斯（navie bayes，NB）[9-12]、決策樹（decision tree，DT）[13-15]、支持向量機（support vector machine，SVM）[16]、隨機森林（random forest，RF）[17-22]、K 最鄰近節點算法（K-nearest neighbor，KNN）]預測TNBC 患者的NAC 療效，包括準確度、曲線下面積（area under the curve，AUC）和F1 度量值3 個指標。221 個樣本被隨機分為訓練集（n=131）、測試集（n=40）和驗證集（n=40），所有的模型參數和結果均采用20 次重復計算后取平均值作為最后的結果。采用Python 的Tensorflow 2.9.1 軟件包中的深度神經網絡進行后續優化，采用grid search 方法對單次訓練模型樣本數、訓練步長數、神經網絡層數、每層神經節點數進行優化。

2 結果

2.1 7 種不同機器學習算法對TNBC 患者NAC 療效的預測價值

不同機器學習算法在TNBC 患者NAC 療效預測時大部分預測效果一般，但也有在不同指標上表型突出的算法。在準確度這個指標上，LDA 算法在46 個特征數構建的模型的測試集和驗證集上（測試集0.850、驗證集0.829）整體優于其他6 種算法；雖然LN 算法在34 個特征數構建的預測模型的驗證集的準確度和LDA 相似，但在測試集時差別較大（測試集0.825、驗證集0.830）；整體來看，不同模型達到最優準確度時所用的數據集不一樣，但與其他4 個（10、14、24 和34 個）特征數構建的預測模型相比，46 個特征數構建的預測模型的預測準確度最高（圖1A）。在AUC 這個指標上，RF 和LDA 測試集的結果接近，但驗證集上差別較大；整體來看，46 個特征數構建的LDA 模型預測TNBC患者NAC 療效的AUC 最大（測試集0.750、驗證集0.747）（圖1B）。在F1 度量值這個指標上，LDA 算法的預測價值依然比較好，但RF 算法（測試集0.919、驗證集0.894）在46 個特征數構建的預測模型表現比LDA（測試集0.856、驗證集0.843）效果好；RF 算法在34 個特征數構建的預測模型（測試集0.923、驗證集0.900）比46 個特征數構建的預測模型的結果更好（圖1C）。綜合3 個指標來看，RF算法在F1 度量值上優于LDA 算法，但LDA 算法在準確度和AUC 上有一定優勢（圖1D）。（表1）

表1 7 種機器學習算法對NAC 療效的預測效果評價指標

圖1 7種不同機器學習算法對TNBC患者NAC療效的預測價值

2.2 深度神經網絡對模型的優化

神經網絡很強大的地方在于其完美的擬合能力，此外，神經網絡包含的隱藏層中的隱藏結點，使神經網絡的表達能力十分強大，同時，神經網絡出現了自編碼，可以無監督地學習數據的特征，尤其是圖片等抽象的特征，對于后續的分類、檢測、分割等提供了很好的特征支持。在一定程度上，傳統的特征提取方法可以為神經網絡特征的學習提供參考方案。深度神經網絡的優化分為兩步[23]：①參數batch size 和step 的優化；②對神經網絡的層數和每層節點數的優化。對參數batch size 和step 進行優化，根據合并平均準確率、合并最大準確率、測試集平均準確率、測試集最大準確率、驗證集平均準確率、驗證集最大準確率6 個指標進行排序，選取前3 名的batch size 分別為130、80、140，而step 選取20 000、10 000、15 000，最后通過對測試集和驗證集得到的結果求取平均值，發現130 的batch size 和20 000 的step 綜合起來表現效果最好（表2）。驗證batch size 和step 后，對兩層的神經網絡及節點進行優化，首先對兩層神經網絡優化后的節點進行排序打分，當每個指標排第一時，多個指標的總和得到1 個數值，這個數值越小，證明準確率越高。測試集中，第1 層神經網絡節點數為50時、第2 層神經網絡節點數為10 時的準確率最高，為90.00%；驗證集中，第1 層神經網絡節點數為100 時、第2 層神經網絡節點數為10 時的準確率最高，為85.00%；將測試集的數據和驗證集的數據進行合并后，第1 層神經網絡節點數為45 時，第2 層神經網絡節點數為30 時的準確率最高，為86.25%（表3）。以上4 個參數的優化結果顯示，batch size為130、step 為20 000、隱藏層層數為2 時的測試集和驗證集預測TNBC 患者NAC 療效的準確率最高，測試集為90.00%，驗證集為85.00%，二者合并后為86.25%（圖2）。

表2 batch size 和step 分數評估

表3 3 種數據集的最高準確率所在的節點數

圖2 兩層隱藏層神經網絡參數的平均值優化結果

3 討論

乳腺癌是對全球女性威脅最大的惡性腫瘤，其中TNBC 指雌激素受體、孕激素受體及HER2 均不表達的乳腺癌。與其他類型的乳腺癌相比，TNBC的治療手段較少，預后較差[24]。目前，TNBC 無明確的治療標準，憑檢測報告和醫師的經驗，診斷準確度不高。傳統的機器學習算法對腫瘤各個時期的預測已有良好的結果，結合深度神經網絡能夠提高預測的準確度。本研究基于傳統機器學習算法，結合深度神經網絡的優化對TNBC 患者NAC的療效進行預測，取得了一定成果。

首先7 種不同的機器學習算法在基于不同的基因表達量構建的數據集中的表現有一定差異，但差異沒有很大。同一種算法利用相同基因表達量數據集時在測試集和驗證集上基本差別不是很大。整體來看，46 個基因構建的數據集預測效果較好，雖然在一些指標上其他基因數構建的模型預測效果更好。然而采用遞歸特征消除算法（recursive feature elimination，RFE）計算時發現，21～27個特征數構建的預測模型的AUC 最高，這也表明不同的機器學習算法適用于不同的特征數集合。研究顯示，RF 算法在很多基本模型預測時被證實優于LDA 等簡單算法模型[25]。本研究顯示，LDA算法在準確度和AUC 方面都優于RF 算法，推測這可能與本研究納入的樣本量少、RF 模型的訓練樣本不足有關。事實上不同機器學習算法對訓練要求的樣本不一樣，真實訓練的樣本數目也會對算法準確性造成一定影響，導致其可能由于訓練樣本不足而不能發揮模型的作用。因此，這也提示臨床選擇模型時沒有最好的預測模型，只有最適合該數據集的模型，后期可以通過多中心聯合來增加樣本量，以提高各個模型的分類準確率。

深度神經網絡是一個適用范圍很廣的模型，在臨床的疾病分類模型上也有很多應用，本研究通過深度神經網絡對不同參數進行簡單優化后，對比前面的7 種簡單機器學習模型，其在測試集和驗證集的準確率上均有一定的提高，準確率優于LDA 模型。但本研究深度神經網絡模型在一些節點組合上出現測試集準確率明顯大于驗證集的結果，這可能是因為本研究訓練樣本不足造成局部模型過度擬合的現象[26]。因此，提高樣本量應該會大幅提高深度神經網絡模型的準確率。

乳腺癌的21 個免疫相關基因構建的模型已經被NCCN 指南推薦用于乳腺癌化療和內分泌治療的選擇上，這表明基于基因表達量構建的模型有一定的穩健性。除了用于乳腺癌治療，熒光定量聚合酶鏈反應（polymerase chain reaction，PCR）檢測基因表達量用于輔助其他臨床治療也已經有大量的應用。這也證實本研究提出的基于46 個基因構建的模型也具有一定的可操作性。由于樣本量的限制，本研究沒能更好地縮小模型構建需要的基因數目，導致需要檢測的基因還很多，但后期隨著樣本量的增加應該會減少需要檢測的基因數目。

綜上所述，基于基因表達數目構建的模型具有預測TNBC 患者NAC 療效的作用，可為后期的病情預測提供參考依據。