基于有監(jiān)督的多視角圖神經(jīng)網(wǎng)絡(luò)的藥物組合協(xié)同預(yù)測算法

2022-12-31 00:00:00郝志峰詹健明蔡瑞初

計算機應(yīng)用研究 2022年7期

摘要：藥物組合療法在癌癥治療中具有重要應(yīng)用價值。通過算法預(yù)測藥物協(xié)同組合，可為生物學(xué)研究提供靶向指導(dǎo)，從而提高研究效率，降低實驗成本。針對現(xiàn)有算法缺乏有效的藥物互相作用建模方法、無法考慮細胞系之間的關(guān)系等問題，提出了一種基于多視角圖神經(jīng)網(wǎng)絡(luò)的藥物協(xié)同預(yù)測算法。首先，采用變分圖自編碼器來學(xué)習(xí)特定細胞系藥物的向量表示；然后，通過多視角框架整合同一組織內(nèi)其他細胞系的藥物信息，提升藥物表示向量的可靠性；最后通過引入已知的藥物組合得分作為監(jiān)督信號對模型進行監(jiān)督訓(xùn)練，實現(xiàn)可靠的藥物協(xié)同效果預(yù)測。在DrugComb數(shù)據(jù)集上的實驗結(jié)果驗證了本方法的有效性。

關(guān)鍵詞：藥物協(xié)同；圖神經(jīng)網(wǎng)絡(luò)；多視角；癌癥細胞系

中圖分類號：TP393.4 文獻標志碼：A

文章編號：1001-3695（2022）07-015-2020-05

doi：10.19734/j.issn.1001-3695.2022.01.0004

基金項目：國家自然科學(xué)基金資助項目（61876043，61976052）

作者簡介：郝志峰（1968-），男，廣東廣州人，教授，博導(dǎo)，博士，主要研究方向為代數(shù)學(xué)及其應(yīng)用、機器學(xué)習(xí)、數(shù)據(jù)挖掘；詹健明（1996-），男，廣東東莞人，碩士研究生，主要研究方向為深度學(xué)習(xí)；蔡瑞初（1983-），男（通信作者），廣東廣州人，教授，博導(dǎo)，博士，主要研究方向為因果關(guān)系、機器學(xué)習(xí)、數(shù)據(jù)挖掘（cairuichu@gmail.com）.

Drug synergy prediction algorithm based on supervised multi-view graph neural network

Hao Zhifeng¹^，2，Zhan Jianming¹，Cai Ruichu¹^?

（1.School of Computer Science，Guangdong University of Technology，Guangzhou 510006，China；2.School of Science，Shantou University，Shantou Guangdong 515063，China）

Abstract：Drug combination therapy has important application value in the cancer treatment.Predicting drug synergistic combinations through computational methods can provide targeted guidance for biological research，thereby improving research efficiency and reducing experimental costs.This paper proposed a multi-view graph neural network for drug synergy prediction to solve the problem of existing algorithms lack effective drug interaction modeling methods and could not consider the relationship between cell lines.Firstly，the algorithm used variational graph auto-encoder to learn the drug embedding of a specific cell line.Then，the algorithm integrated the drug information of other cell lines in the same tissue through a multi-view framework to improve the reliability of the drug embedding.Finally，the algorithm used the known drug combination scores as a supervisory signal to supervised training of the model to achieve reliable prediction of drug synergy effects.The experimental results on the DrugComb dataset demonstrate the effectiveness of the method.

Key words：drug synergy；graph neural network；multi-view；cancer cell line

0 引言

藥物組合療法被廣泛應(yīng)用于多種復(fù)雜疾病的治療中，近年在癌癥治療領(lǐng)域中得到了極大的關(guān)注^［1^］。藥物組合療法是指使用了兩種或多種藥物來治療一種病癥。相比于藥物單一療法，組合療法使用每種藥物的劑量較低，可以減少宿主的毒性和不良的副作用并有助于降低耐藥性^［²^］。除了癌癥治療，組合療法還被有效應(yīng)用于治療艾滋病、真菌和細菌感染^［^3～5^］。

對于藥物組合的有效性，生物學(xué)實驗中通常是通過臨床實驗或高通量篩選方法（high-throughput screening，HTS）進行鑒定的。HTS實驗已經(jīng)在各種癌癥類型的不同細胞系中產(chǎn)生相當(dāng)多已知效果的藥物組合^［6^］。這些藥物組合的數(shù)據(jù)能夠作為生物濕實驗的一個有效補充。隨著被批準生產(chǎn)的藥物數(shù)量不斷增加，存在可能性的成對藥物組合數(shù)量變得非常龐大。盡管HTS可以在合理的時間內(nèi)產(chǎn)生大量的測量結(jié)果，但是由于HTS實驗技術(shù)成本昂貴，在沒有明確的組合策略時效率較低，利用HTS去窮盡所有藥物組合對仍然是不切實際的。

近年來，許多研究學(xué)者提出了各種基于機器學(xué)習(xí)預(yù)測協(xié)同藥物組合的方法，主要可以總結(jié)為以下兩類方法：

a）基于傳統(tǒng)機器學(xué)習(xí)的方法。這類方法一般從藥物的化學(xué)物理結(jié)構(gòu)、細胞系基因表達譜和劑量反應(yīng)曲線中手動提取特征，然后將提取的特征輸入到隨機森林、貝葉斯網(wǎng)絡(luò)和梯度提升機等預(yù)測器中預(yù)測不同細胞系下的藥物對的協(xié)同得分^［7^，8^］。例如文獻［9］提出了一個名為TreeCombo的算法，通過藥物的化學(xué)和物理描述符和細胞系的基因表達譜作為特征輸入到極度梯度增強樹中進行藥物對的協(xié)同得分預(yù)測；類似地，文獻［7］提出的TAIJI算法則通過整合藥物藥理和分子特性的數(shù)據(jù)，并且利用了隨機森林來預(yù)測藥物組合的協(xié)同得分。

b）基于深度學(xué)習(xí)的方法。同樣地，深度學(xué)習(xí)方法也需要以藥物化學(xué)描述符和細胞系基因表達譜作為特征輸入到不用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來自動學(xué)習(xí)潛在特征，最終用于藥物協(xié)同得分預(yù)測。作為第一個用于藥物協(xié)同預(yù)測的深度學(xué)習(xí)方法，文獻［10］提出的DeepSynergy實現(xiàn)了一個以藥物和細胞系特征作為輸入的前饋神經(jīng)網(wǎng)絡(luò)。文獻［11］提出的MatchMaker則進一步改進DeepSynergy，通過訓(xùn)練兩個并行的前饋神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)潛在的藥物特征，用于特定細胞系中的藥物組合預(yù)測。也有基于transformer的算法（如TranSynergy^［12^］）被提出用到了藥物組合預(yù)測當(dāng)中。此外，還有基于矩陣分解的方法，如Combo-LTR^［13^］，這類方法利用隱藏變量重構(gòu)的技術(shù)自動學(xué)習(xí)藥物的隱藏特征，進而實現(xiàn)藥物組合的協(xié)同得分預(yù)測。上述算法都可以預(yù)測特定細胞系中兩種藥物的協(xié)同得分。然而，這些算法都沒有考慮利用同一種組織內(nèi)其他類似細胞系的數(shù)據(jù)信息來改進預(yù)測效果。

圖神經(jīng)網(wǎng)絡(luò)作為圖數(shù)據(jù)的深度學(xué)習(xí)方法，可以對生物信息中的分子或蛋白質(zhì)等常見的生物圖數(shù)據(jù)建模，通過卷積或添加注意力機制等操作，可以對生物圖中拓撲信息和節(jié)點屬性進行捕獲，并且已經(jīng)成功應(yīng)用于解決疾病基因預(yù)測^［14^］和合成致死性預(yù)測^［¹⁵^］等各種生物信息學(xué)任務(wù)。文獻［16］提出的圖卷積神經(jīng)網(wǎng)絡(luò)（graph convolution network，GCN）實現(xiàn)圖結(jié)構(gòu)數(shù)據(jù)上的卷積操作，用來學(xué)習(xí)節(jié)點的隱藏向量表示以進行下游任務(wù)。文獻［17］則在GCN的基礎(chǔ)上，提出了變分圖自編碼器（variational graph auto-encoder，VGAE），用已知的圖經(jīng)過GCN編碼學(xué)到節(jié)點向量表示的高斯分布，在分布中采樣得到更高質(zhì)量的節(jié)點向量表示。此外，已知的藥物組合可以自然地建模為一個圖，其中節(jié)點是藥物，邊是其協(xié)同效應(yīng)。它被表示為一個藥物—藥物協(xié)同作用（drug-drug synergy，DDS）圖，它能夠捕獲藥物之間的長期依賴關(guān)系。然而，目前各種基于機器學(xué)習(xí)的方法沒有考慮將DDS圖結(jié)構(gòu)數(shù)據(jù)用于藥物協(xié)同預(yù)測。

多視角學(xué)習(xí)可以有效地將多個數(shù)據(jù)源信息進行融合從而提高學(xué)習(xí)性能，已經(jīng)被廣泛應(yīng)用在推薦系統(tǒng)^［18^］以及基因致死預(yù)測^［¹⁵^］等領(lǐng)域。癌癥治療方案總是在起源組織上發(fā)現(xiàn)的，根據(jù)組織類型對細胞系進行分組可以降低樣本間的異質(zhì)性^［¹⁹^，20^］，從而提高預(yù)測效率。因此，如何利用同一組織內(nèi)不同細胞系的節(jié)點信息是一個挑戰(zhàn)。然而，現(xiàn)有算法都沒有考慮到細胞系之間的信息來提高模型的預(yù)測效率。

針對上述不足，本文提出了一個基于有監(jiān)督的多視角圖神經(jīng)網(wǎng)絡(luò)算法。該算法首先利用變分圖自編碼器對每個特定癌細胞系建立單獨的模型來預(yù)測藥物協(xié)同得分。接著，在給定一個特定細胞系下，利用多視角框架結(jié)合同一組織內(nèi)其他類似細胞系的節(jié)點特征得到這個特定細胞系最終的節(jié)點特征，并將其輸入到解碼器中得到最后的預(yù)測結(jié)果；利用已知藥物組合的協(xié)同得分作為監(jiān)督信號，使算法能從復(fù)雜的多個數(shù)據(jù)中學(xué)習(xí)到協(xié)同藥物組合得分的相關(guān)信息。

該算法首先構(gòu)建了多種作用類型藥物—藥物協(xié)同作用圖來描述藥物組合的關(guān)系，并且首次嘗試應(yīng)用多視角框架于藥物組合協(xié)同得分預(yù)測，提出了一個多視角圖神經(jīng)網(wǎng)絡(luò)框架，有效地整合同一組織內(nèi)其他類似細胞系的數(shù)據(jù)。該算法在DrugComb數(shù)據(jù)集^［21^］中進行了實驗，結(jié)果表明其性能良好，取得更高的預(yù)測準確度。

1 構(gòu)建藥物—藥物協(xié)同作用圖

藥物的協(xié)同性則是指兩個藥物共同使用產(chǎn)生的效果是否大于兩者獨自使用的效果。藥物的協(xié)同性通常要用一些參考模型來衡量，其中就包括了Loewe模型^［22^］。根據(jù)Loewe評分的定義，即真實評分大于閾值t視為強協(xié)同作用，小于閾值t視為強拮抗作用，而基于兩者之間則稱為加性作用。在DrugComb數(shù)據(jù)集上，閾值t通常被設(shè)置為10。

本文算法首先為每個細胞系構(gòu)建對應(yīng)的藥物—藥物協(xié)同作用圖，其中節(jié)點是藥物，邊是藥物對的協(xié)同效應(yīng)。然后，對于每個特定細胞系，選擇此特定細胞系下的所有藥物組合對，對于這些選定的藥物組合對，根據(jù)它們的真實協(xié)同得分和Loewe評分的定義，將其劃分為三種作用類型藥物組合并構(gòu)建三個對應(yīng)的DDS子圖，分別稱作協(xié)同圖、加性圖以及拮抗圖。圖1具體展示了構(gòu)建細胞系HCT116的DDS圖過程。

上述的DDS圖是本文算法的主要輸入，同時每種藥物從化學(xué)描述符中計算出來的特征也被作為算法的輸入。本文的主要任務(wù)可以描述為一個預(yù)測每個特定細胞系的所有藥物對協(xié)同作用得分的回歸任務(wù)。

2 有監(jiān)督的圖神經(jīng)網(wǎng)絡(luò)算法

圖2展示了本文提出的多視角圖神經(jīng)網(wǎng)絡(luò)算法的總體框架。首先，給定一個特定細胞系Sm，把它作為該算法的主視角，而同一組織內(nèi)其他細胞系（S1，S2，…，Sk）作為子視角；然后在編碼階段通過多個并行的單視角變分圖自編碼器來分別學(xué)習(xí)主視角和各個子視角的藥物向量表示；接著，通過拼接來整合所有子視角的藥物向量表示；最后，將主視角和多個子視角的藥物向量表示聚合后作為主視角最終的藥物特征輸入至解碼器進行重構(gòu)，得到主視角中所有藥物組合預(yù)測得分，即特定細胞系Sm的所有藥物組合預(yù)測得分。

2.1 單視角變分圖自編碼器

單視角變分圖自編碼器是為每個特定細胞系提取對應(yīng)的藥物節(jié)點特征而設(shè)計的。如圖2所示，每個單視角變分圖自編碼器的輸入為對應(yīng)細胞系Si的DDS圖的鄰接矩陣A^Si和節(jié)點初始特征X，即藥物化學(xué)描述符。如第1章所述，該算法為每個細胞系構(gòu)建了三個DDS子圖來表示不同類型的協(xié)同效應(yīng)。因此，每個單視角變分圖自編碼器組件采用了三個標準的變分圖自編碼器作為特征編碼器，分別為三個DDS子圖（協(xié)同圖A1、加性圖A2、拮抗圖A3）提取藥物節(jié)點特征（H1、H2、H3），最后將三個子圖的藥物向量表示聚合得到這一個特定細胞系的藥物向量表示Z^Si。圖3具體展示了單視角變分圖自編碼器組件。

本文采用了標準的變分圖自編碼器進行特征提取，即第一層為共享參數(shù)的GCN，第二層由并行的GCNμ和GCNσ組成。這里使用的是標準的GCN函數(shù)，如式（1）所示。

其中：A是輸入圖的鄰接矩陣，I是單位矩陣；D是度矩陣，定義為D=∑j（A1+I）j；W是一個可訓(xùn)練的權(quán)重矩陣；H^（l）和H^（l+1）分別是第l層GCN的輸入和輸出，當(dāng)l=0時，H（0）表示的是初始節(jié)點特征；σ是非線性激活函數(shù)，該算法使用ReLU（x）=max（0，x）函數(shù)。

以協(xié)同圖為例，該算法將協(xié)同圖的鄰接矩陣A1和藥物初始特征X輸入至第一層GCN，得到第一層GCN輸出的隱藏向量表示H。同時，該算法假設(shè)圖中構(gòu)成關(guān)系的藥物對的隱藏表示的分布服從高斯分布，通過GCNμ和GCNσ學(xué)習(xí)得到其均值向量μ1和方差σ1。具體過程如式（3）～（5）所示。

通過μ1和σ1可以得到一個具體的高斯分布，再利用重參數(shù)技巧^［17^］從中采樣得到協(xié)同圖最終的藥物節(jié)點隱藏表示H1，其過程如式（6）所示。

其中：f（*）是全連接網(wǎng)絡(luò)函數(shù)；‖表示拼接操作；WSi表示一個可訓(xùn)練的權(quán)重矩陣。

2.2 多視角融合機制

同一組織內(nèi)的細胞系之間相似度較高，因此該算法使用多視角融合機制來有效利用同一組織內(nèi)其他類似細胞系的藥物節(jié)點信息，來提高主視角細胞系的藥物協(xié)同預(yù)測性能。

如圖2所示，在給定當(dāng)前預(yù)測的細胞系Sm作為主視角后，該算法首先為細胞系Sm和其他輔助細胞系（S1，S2，…，Sk）設(shè)置了對應(yīng)的單視角變分圖自編碼器，根據(jù)式（7）的函數(shù)，推導(dǎo)得到它們對應(yīng)的藥物隱藏表示，分別標識為Z^Sm，Z^S1，…，Z^Sk。

為了在當(dāng)前預(yù)測的細胞系中有效融合其他輔助細胞系的藥物節(jié)點信息，該算法實現(xiàn)了一種多視角融合機制，即首先將所有輔助細胞系的隱藏向量表示拼接成一個長向量；隨后將此長向量輸入到全連接層中進行降維，從而得到所有子視角的融合后的藥物隱藏表示ZS；最后將其與當(dāng)前預(yù)測細胞系的藥物隱藏表示Z^Sm拼接得到細胞系Sm最終的藥物隱藏表示Z，其過程如式（8）～（9）所示。

其中：W是一個可訓(xùn)練的權(quán)重矩陣；b為偏置系數(shù)。

2.3 圖重構(gòu)及融合損失

經(jīng)過編碼階段得到最終的藥物隱藏表示Z后，該算法通過雙線性解碼器，對當(dāng)前預(yù)測細胞系的藥物協(xié)同得分圖進行重構(gòu)，得出預(yù)測的協(xié)同得分矩陣S，如式（9）所示。

其中：Wd是可訓(xùn)練的權(quán)重矩陣。

該算法希望預(yù)測結(jié)果與目標得分盡可能相似，因此使用已知的協(xié)同藥物得分對預(yù)測結(jié)果進行監(jiān)督訓(xùn)練，把兩者之間的均方誤差作為預(yù)測損失函數(shù)；同時，為了使當(dāng)前主視角的細胞系的單視角變分圖自編碼器組件中各個子圖的獨立高斯分布與標準高斯分布對齊，引入KL散度用于衡量損失。具體地，模型的總損失函數(shù)Ltotal定義為

對于均方誤差的定義如式（12）所示。特別地，Y是藥物組合的真實得分矩陣；M是訓(xùn)練集的掩碼矩陣，用于進行訓(xùn)練的數(shù)據(jù)的篩選；N是訓(xùn)練集數(shù)據(jù)的數(shù)量。

對于KL散度，其中q（Hg‖X，Ag）表示在主視角DDS子圖g中所學(xué)習(xí)到的隱藏表示；p（H）表示標準高斯分布先驗；n表示節(jié)點總數(shù)；Hjg和Hj分別表示子圖g和標準高斯分布中第j個節(jié)點的隱藏表示。具體計算公式為

令θ表示為模型中所有可學(xué)習(xí)的參數(shù)，則該模型的目標函數(shù)可以表示為式（14），即最小化損失函數(shù)。在該模型中，使用了dropout技巧和Adam優(yōu)化器對模型進行訓(xùn)練。

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

3.1.1 數(shù)據(jù)集

該算法使用DrugComb數(shù)據(jù)集^［18^］進行模型訓(xùn)練和評估。該數(shù)據(jù)集整合了四個數(shù)據(jù)源，即NCI ALMANAC、ONEIL、FORCINA和CLOUD數(shù)據(jù)集。原始的DrugComb數(shù)據(jù)集由來自11個不同組織中的112個癌細胞系的466 033個藥物組合組成。由于整合不同的數(shù)據(jù)源，所以在同一特定的細胞系下，相同的藥物組合有多個有相同的協(xié)同得分或者不同得分的條目。在數(shù)據(jù)預(yù)處理過程，該算法首先將重復(fù)的條目篩選掉，然后將不同得分的條目的平均數(shù)作為最終的協(xié)同得分。最終，整理后的DrugComb數(shù)據(jù)集有來自11個組織的81個癌細胞系中268 457對藥物組合。同時，每種藥物都有化學(xué)描述符來描述其化學(xué)結(jié)構(gòu)，這些描述符是使用ChemoPy Python庫^［23^］計算得到的。

3.1.2 基線方法

為了更好地評估該算法的性能，將該算法與當(dāng)前主流的藥物協(xié)同組合得分預(yù)測算法在DrugComb數(shù)據(jù)集上進行了對比。其中，彈性網(wǎng)絡(luò)^［20^］（elastic net，EN）、隨機森林^［7^］（random forest，RF）、梯度提升機^［8^］（gradient boosting machines，GBM）以及TreeCombo^［14^］使用的極度梯度增強樹都是常用的基于特征的機器學(xué)習(xí)模型。最近提出的基于張量重建的comboLTR^［15^］、基于深度學(xué)習(xí)網(wǎng)絡(luò)的DeepSynergy^［12^］、MatchMaker^［13^］、TranSy-nergy^［14^］都是目前新穎的藥物協(xié)同預(yù)測算法。關(guān)于各個基線算法的介紹，已在本文引言中詳細闡述。

3.1.3 參數(shù)設(shè)置

對于本文算法，如2.1節(jié)所述，在編碼器階段使用了兩層的GCN，其中第一層GCN的輸出特征維度數(shù)d為256；第二層GCNμ和GCNσ的維度設(shè)為d/2，即128；dropout率γ設(shè)置為0.3。同時，在單視圖編碼器中聚合子圖時使用了一個四層的全連接網(wǎng)絡(luò)，其中輸入層維度為d×3=384，兩層隱藏層和輸出層維度分別為128、256和128；兩個隱藏層的dropout率分別設(shè)為0.5和0.2。對于多視圖融合機制中的全連接層，輸出維度設(shè)為128，偏置系數(shù)b設(shè)置為0。模型中Adam優(yōu)化器的學(xué)習(xí)率設(shè)置為0.001。模型基于PyTorch 1.6版本實現(xiàn)，并在Tesla K80 GPU上進行實驗，模型的訓(xùn)練最大步長設(shè)置為10 000，并考慮了early-stop機制，即每300個步長內(nèi)損失不下降則考慮停止優(yōu)化。

3.1.4 實驗方法以及模型指標

本文進行了五折交叉驗證實驗來評估該算法的性能，即數(shù)據(jù)集中所有藥物組合被隨機分成五個數(shù)量相等的非重疊的亞組。其中選擇一個亞組作為測試集，其余的四個亞組作為訓(xùn)練集。同時，為了提高模型的泛化能力，本文進一步將訓(xùn)練集數(shù)據(jù)分解為訓(xùn)練集和驗證集，使得訓(xùn)練集、驗證集和測試集分別占總樣本的60%、20%和20%。本文采用真實分數(shù)和預(yù)測分數(shù)之間的均方誤差（mean square error，MSE）、均方根誤差（root mean square error，RMSE）、平均絕對誤差（mean absolute error，MAE）、皮爾森積矩相關(guān)系數(shù)（Pearson correlation coefficient）以及斯皮爾曼等級相關(guān)系數(shù)（Spearman correlation coefficient）等五個指標作為模型評估標準。

3.2 與基線方法對比

如3.1.2節(jié)所述，該算法將與各種基線方法進行五個評價指標的性能比較。本文首先計算每種方法在各個特定細胞系下的性能，然后取所有細胞系下性能的平均值作為最終方法的性能。表1展示了各算法在DrugComb數(shù)據(jù)集上的評估結(jié)果，可以看出本文算法在各個指標上均優(yōu)于所有基線方法。

如表1中所示，本文算法的MSE、RMSE和MAE分別為92.691、9.478和6.313，顯著低于其他基線方法。此外，能觀察到基于深度學(xué)習(xí)的方法會比基于傳統(tǒng)機器學(xué)習(xí)的方法效果表現(xiàn)要更好，而MatchMaker作為表現(xiàn)最好的基線方法，本文算法在Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)上分別顯示出有4.05%和2.69%的提升。這個對比結(jié)果驗證了利用已知圖結(jié)構(gòu)信息和來自其他細胞系的節(jié)點信息是有助于藥物協(xié)同預(yù)測的。

3.3 參數(shù)敏感度分析

為了驗證超參數(shù)對該算法性能的影響，本文對模型的單視角編碼器中使用的GCN的dropout率γ和輸出維度d進行了敏感度分析。

圖4展示了本文算法當(dāng)GCN的dropout率設(shè)置為不同值時的表現(xiàn)。可以觀察到當(dāng)γ≥0.7時，算法性能有明顯下降趨勢。而當(dāng)0.2≤γ≤0.4，算法性能較穩(wěn)定，尤其當(dāng)γ=0.3時，該算法表現(xiàn)最好。因此，本文在實驗時設(shè)置的dropout率γ=0.3。

圖5展示了不同GCN的輸出維度對模型性能的影響，可以觀察到當(dāng)d=2⁷或2⁸時，算法性能更優(yōu)。而當(dāng)設(shè)置過小或過大，算法性能都不佳，因此，本文實驗設(shè)置d =2⁸=256。

3.4 消融實驗與分析

首先，本文算法提出了通過多視角集成同一組織內(nèi)其他細胞系的數(shù)據(jù)信息，可以有助于提高預(yù)測性能。因此，本文設(shè)置了三組實驗，分別為僅用單個細胞系的數(shù)據(jù)，使用隨機分組的多個細胞系的數(shù)據(jù)以及使用同一組織內(nèi)其他細胞系的數(shù)據(jù)，以展示同一組織內(nèi)其他類似細胞系的貢獻，實驗結(jié)果如圖6所示。可以看出，當(dāng)算法僅使用單個視角的數(shù)據(jù)時，算法效果不如使用多個視角的數(shù)據(jù)，這說明利用其他細胞系數(shù)據(jù)是有利于藥物協(xié)同預(yù)測的。另外，當(dāng)選擇同一組織下其他類似的細胞系數(shù)據(jù)，算法性能要比選擇隨機分配的多個細胞系數(shù)據(jù)提升得更明顯，說明同一組織內(nèi)其他細胞系的數(shù)據(jù)更具有參考性。

第二，該算法基于先驗知識預(yù)先定義的閾值t=10，為每個細胞系中構(gòu)建了三個DDS子圖來表示不同的協(xié)同效應(yīng)。雖然閾值t=10是遵循了之前其他工作的設(shè)置，本文仍希望展示使用不同閾值對模型性能的影響。在這里，本文評估了當(dāng)t分別被設(shè)置為0、10、20和30時模型的性能，實驗結(jié)果如表2所示。

從表2中可以看到，當(dāng)閾值t=10時，該模型獲得了最佳性能。另外，當(dāng)t設(shè)置為不同值時，該模型的表現(xiàn)都比所有的基線方法的表現(xiàn)要好，驗證了該算法在藥物組合協(xié)同預(yù)測領(lǐng)域的有效性。

3.5 細胞系間模型性能分析

在此節(jié)中，進一步展示了不同方法在每個單獨的細胞系上Spearman相關(guān)系數(shù)和Pearson相關(guān)系數(shù)的比較。在此，本文選取了基線方法中表現(xiàn)較好的MatchMaker和comboLTR以及第一個應(yīng)用深度學(xué)習(xí)于藥物協(xié)同預(yù)測的算法DeepSynergy進行與本文算法比較，如圖7所示。

顯然，本文算法的表現(xiàn)要好于基線方法MatchMaker、comboLTR以及DeepSynergy中大多數(shù)的細胞系。其次，該算法在大部分細胞系中表現(xiàn)良好，Spearman相關(guān)系數(shù)和Pearson相關(guān)系數(shù)均大于0.6，這說明在大部分細胞系中該算法的性能具有一致性且有較高的相關(guān)性。而在極少數(shù)細胞系中，不同方法的性能均表現(xiàn)較差，這可能是由于這些細胞系中的數(shù)據(jù)量太少導(dǎo)致的。

3.6 組織間模型性能分析

除了在細胞系間的模型性能分析，本文進一步研究了該算法在不同組織間的性能。特別地，本文展示了該算法與最佳基線方法MatchMaker在11種不同組織上的性能比較，包括了大腸、肺、卵巢、皮膚、乳房、腎臟、大腦、造血淋巴、前列腺、骨和軟組織，實驗結(jié)果如圖8所示。

3.7 樣本案例研究

在3.2節(jié)中主要展示的是各種方法在所有細胞系的平均性能。而在此小節(jié)中，主要展示的是該算法與其他基線方法在擁有藥物組合對數(shù)量最多的細胞系SW-620上實驗數(shù)據(jù)的比較。選取的細胞系SW-620擁有5 133個藥物組合對，選取在數(shù)據(jù)量較大的樣本細胞系中進行結(jié)果比對，對于各個方法對模型訓(xùn)練都是有效并具有說服性的。

如表3所示，該算法在細胞系SW-620上比其他方法表現(xiàn)得更加突出，其中比表現(xiàn)最好的基線方法MatchMaker的MSE，Perason相關(guān)系數(shù)以及Spearman相關(guān)系數(shù)分別有20.81%、7.17%和3.72%的提升。值得注意的是，在此細胞系上TranSynergy的性能比comboLTR的性能要好，這可能是由于transformer在大規(guī)模數(shù)據(jù)集中比矩陣分解方法的表現(xiàn)更好。

4 結(jié)束語

本文提出了一種針對藥物組合協(xié)同預(yù)測的有監(jiān)督的多視角圖神經(jīng)網(wǎng)絡(luò)算法，通過整合同一組織內(nèi)其他類似的細胞系的數(shù)據(jù)提高藥物協(xié)同得分預(yù)測的準確度。該算法首先構(gòu)建了多個藥物—藥物協(xié)同（DDS）圖來描述三種類型的藥物組合對，接著使用單視角變分圖自編碼器從圖中學(xué)習(xí)藥物的隱藏表示，并設(shè)計多視角融合機制整合其他細胞系數(shù)據(jù)進行DDS圖的重構(gòu)。最后，利用已知藥物組合的真實得分作為監(jiān)督信號，對模型進行監(jiān)督訓(xùn)練。實驗結(jié)果證明，該算法優(yōu)于目前主流的方法。本文算法是首個將多視角預(yù)測和圖神經(jīng)網(wǎng)絡(luò)引入到藥物協(xié)同組合預(yù)測的工作。接下來的工作將會考慮引入注意力機制，使算法更有效地聚合其他細胞系的藥物節(jié)點信息。

參考文獻：

［1］Lehár J，Krueger A S，Avery W，et al. Synergistic drug combinations tend to improve therapeutically relevant selectivity［J］.Nature Biotechnology，2009，27（7）：659-666.

［2］O’Neil J，Benita Y，F(xiàn)eldman I，et al. An unbiased oncology compound screen to identify novel combination strategies［J］.Molecular Cancer Therapeutics，2016，15（6）：1155-1162.

［3］Clercq D E.The design of drugs for HIV and HCV ［J］.Nature Reviews Drug Discovery，2007，6（12）：1001-1018.

［4］毛陽，向小洪.防治侵襲性真菌感染的聯(lián)合療法［J］.國外醫(yī)藥：抗生素分冊，2018，39（5）：391-396.（Mao Yang，Xiang Xiaohong.Combination therapy for prevent invasive fungal infections［J］.Journal of Foreign Medicine：Antibiotics Section，2018，39（5）：391-396.）

［5］Worthington R J，Melander C.Combination approaches to combat multidrug-resistant bacteria［J］.Trends in Biotechnology，2013，31（3）：177-184.

［6］He Liye，Kulesskiy E，Saarela J，et al. Methods for high-throughput drug combination screening and synergy scoring［J］.Methods in Molecular Biology，2018，1711：351-398.

［7］Li Hongyang，Hu Shuai，Neamati N，et al. TAIJI：approaching experimental replicates-level accuracy for drug synergy prediction［J］.Bioinformatics，2019，35（13）：2338-2339.

［8］曲文龍，陳笑屹，李一漪，等.一種深度梯度提升回歸預(yù)測模型［J］.計算機應(yīng)用與軟件，2020，37（9）：194-201.（Qu Wenlong，Chen Xiaoyi，Li Yiqi，et al. A deep gradient boosting regression prediction model［J］.Journal of Computer Applications and Software，2020，37（9）：194-201.）

［9］Janizek J D，Celik S，Lee S I.Explainable machine learning prediction of synergistic drug combinations for precision cancer medicine［EB/OL］.（2018-05-27）.https：//doi.org/10.1101/331769.

［10］Preuer K，Lewis R P I，Hochreiter S，et al. DeepSynergy：predicting anti-cancer drug synergy with deep learning［J］.Bioinformatics，2018，34（9）：1538-1546.

［11］Kuru H I，Tastan O，Cicek E.MatchMaker：a deep learning framework for drug synergy prediction ［J/OL］.IEEE/ACM Trans on Computational Biology and Bioinformatics.（2021-06-04）.http：//doi.org/10.1109/tcbb.2021.3086702.

［12］Liu Qiao，Xie Lei.TranSynergy：mechanism-driven interpretable deep neural network for the synergistic prediction and pathway deconvolution of drug combinations［J］.PLoS Computational Biology，2021，17（2）：e1008653.

［13］Wang Ti，Szedmak S，Wang Haishan，et al. Modeling drug combination effects via latent tensor reconstruction［J］.Bioinformatics，2021，37（1）：93-101.

［14］Ata S K，Wu Min，F(xiàn)ang Yuan，et al. Recent advances in network-based methods for disease gene prediction［J］.Briefings in Bioinformatics，2021，22（4）：bbaa303.

［15］郝志峰，吳迪，蔡瑞初，等.基于有監(jiān)督的多視角變分圖自編碼器的協(xié)同致死基因預(yù)測算法［J］.計算機應(yīng)用研究，2021，38（9）：2678-2682.（Hao Zhifeng，Wu Di，Cai Ruichu，et al. Synthetic letha-lity prediction via supervised multi-view variational graph auto-encoder ［J］.Application Research of Computers，2021，38（9）：2678-2682.）

［16］Kipf T N，Welling M.Semi-supervised classification with graph convolutional networks ［EB/OL］.（2016-09-09） .https：//arxiv.org/abs/ 1609.02907.

［17］Kipf T N，Welling M.Variational graph auto-encoders ［EB/OL］.（2016-11-21）.http：//doi.org/10.48550/arxiv.1611.07308.

［18］Wu Chuhan，Wu Fangzhao，An Mingxiao，et al.Neural news recommendation with attentive multi-view learning ［EB/OL］.（2019-07-12）.http：//doi.org/10.48550/arxiv.1907.05576.

［19］Cohen R L，Settleman J.From cancer genomics to precision onco-logy—tissue’s still an issue ［J］.Cell，2014，157（7）：1509-1514.

［20］Yang Jianghong，Li Ao，Li Yongqiang，et al. A novel approach for drug response prediction in cancer cell lines via network representation learning［J］.Bioinformatics，2019，35（9）：1527-1535.

［21］Zagidullin B，Aldahdooh J，Zheng Shuyu，et al. DrugComb：an integrative cancer drug combination data portal［J］.Nucleic Acids Research，2019，47（W1）：W43-W51.

［22］Chou Tingchou.Theoretical basis，experimental design，and compu-terized simulation of synergism and antagonism in drug combination studies［J］.Pharmacological Reviews，2006，58（3）：621-681.

［23］曹東升，嚴軍，梁逸曾，等.ChemoPy：一個基于Python語言編寫QSAR/QSPR分子描述符計算軟件包［C］//第十一屆全國計算（機）化學(xué)學(xué)術(shù)會議論文摘要集.2011：107.（Cao Dongsheng，Yan Jun，Liang Yizeng，et al. ChemoPy：freely available Python package for computational biology and chemoinformatics ［C］//Abstract Collection of Papers of the 11th National Conference on Computational （Compu-ter） Chemistry.2011：107.）

計算機應(yīng)用研究2022年7期

計算機應(yīng)用研究的其它文章: 下期要目; 基于損失自注意力機制的立體匹配算法研究; 基于視覺信息補償?shù)亩嗔饕粢曪@著性檢測; 基于無監(jiān)督深度圖像生成的盲降噪模型; 稀疏差分網(wǎng)絡(luò)和多監(jiān)督哈希用于高效圖像檢索; 基于偏振成像和顯著區(qū)域自補償?shù)乃嘛@著目標檢測