基于FAVOR+和增強(qiáng)損失的蛋白溶解預(yù)測(cè)

2024-02-22 08:01:50楊子航王順?lè)?/span>

計(jì)算機(jī)工程與設(shè)計(jì) 2024年2期

關(guān)鍵詞：模型

楊子航，王順?lè)?/p>

(云南大學(xué) 信息學(xué)院，云南昆明 650504)

0 引言

蛋白質(zhì)的溶解性往往代表著它的產(chǎn)量，從而在制藥與食品等行業(yè)中發(fā)揮重要作用[1]。迄今為止，在大腸桿菌表達(dá)系統(tǒng)中可以成功生產(chǎn)的可溶性重組蛋白實(shí)例仍然很少，這導(dǎo)致了難以提高整體生產(chǎn)能力。為了獲得可溶性蛋白質(zhì)，大多數(shù)成熟的策略通常涉及一系列試錯(cuò)步驟，卻無(wú)法保證成功。同時(shí)提高產(chǎn)量和最小化生產(chǎn)成本的一種方法是通過(guò)使用計(jì)算模型來(lái)提供準(zhǔn)確的溶解性預(yù)測(cè)[2]，在實(shí)驗(yàn)工作之前預(yù)測(cè)出高度可溶解的蛋白質(zhì)。

目前，已經(jīng)提出了幾種預(yù)測(cè)方法[3-5]，但現(xiàn)有方法存在一定的不足且預(yù)測(cè)效果上仍然表現(xiàn)不佳。在已有工作的基礎(chǔ)上，本文提出了一種多輸入的深度學(xué)習(xí)模型FESOL來(lái)應(yīng)對(duì)現(xiàn)有方法的局限性并提高蛋白質(zhì)溶解性的預(yù)測(cè)性能。方法受到FAVOR+(fast attention via positive orthogonal random features)[6]這種快速注意力機(jī)制的高效性和它與常規(guī)Transformer[7]的兼容性的啟發(fā)，應(yīng)用它代替?zhèn)鹘y(tǒng)自注意力使得模型能夠在蛋白質(zhì)長(zhǎng)序列的溶解性預(yù)測(cè)中高效提取全局特征，同時(shí)克服由于傳統(tǒng)注意力而引起的計(jì)算復(fù)雜度問(wèn)題。此外，在交叉熵的基礎(chǔ)上，進(jìn)一步結(jié)合余弦相似度，設(shè)計(jì)了增強(qiáng)的損失函數(shù)，文中記名為EhL(enhanced loss)。傳統(tǒng)的交叉熵?fù)p失只關(guān)注樣本是否被正確分類[8]，EhL一定程度上彌補(bǔ)了這一不足，使得模型在處理多個(gè)輸入時(shí)能夠關(guān)注到不同輸入的差異性。本文提出的方法針對(duì)蛋白質(zhì)長(zhǎng)序列和多數(shù)據(jù)，通過(guò)FAVOR+和EhL的相互配合，編碼更多特定于不同輸入的信息，從而提高溶解性預(yù)測(cè)的準(zhǔn)確性。

1 相關(guān)工作

近幾年，深度學(xué)習(xí)領(lǐng)域快速發(fā)展，相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法不靈活等特點(diǎn)，深度學(xué)習(xí)能夠直接高效地捕獲到原始數(shù)據(jù)中所關(guān)心的信息，因此通過(guò)深度學(xué)習(xí)的方法探索蛋白質(zhì)性質(zhì)與其序列的內(nèi)在關(guān)系是目前比較熱門的一個(gè)研究領(lǐng)域，并取得了良好的研究成果[9，10]。在蛋白質(zhì)溶解性預(yù)測(cè)中，Khurana S等提出了DeepSol，一種基于深度學(xué)習(xí)的蛋白質(zhì)溶解性預(yù)測(cè)器，框架的主干是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)，它利用了k-mer 結(jié)構(gòu)以及從蛋白質(zhì)序列中提取的額外序列和結(jié)構(gòu)特征[3]。Chen J等提出了一種新的結(jié)構(gòu)感知方法GraphSol，通過(guò)結(jié)合預(yù)測(cè)的接觸圖和圖神經(jīng)網(wǎng)絡(luò)，從序列中預(yù)測(cè)蛋白質(zhì)溶解度[11]。Wu X等提出了EPSOL，使用Bi-gram和Tri-gram來(lái)增強(qiáng)原始蛋白質(zhì)序列的表示，通過(guò)多維嵌入獲得全面的蛋白質(zhì)特征表示，利用多卷積池進(jìn)一步整合并最后預(yù)測(cè)[4]。

利用CNN和多數(shù)據(jù)融合進(jìn)行蛋白質(zhì)溶解性預(yù)測(cè)已經(jīng)取得了良好的效果，但仍存在一定的不足，主要體現(xiàn)在兩方面：其一，基于卷積神經(jīng)網(wǎng)絡(luò)的模型將無(wú)法直接高效的捕獲到序列的長(zhǎng)程依賴信息，這也導(dǎo)致了這類模型不能夠最大限度提取有意義的長(zhǎng)序列特征進(jìn)行準(zhǔn)確的下游預(yù)測(cè)；其二，當(dāng)在多輸入下使用傳統(tǒng)交叉熵作為模型訓(xùn)練損失時(shí)，僅學(xué)習(xí)各個(gè)輸入關(guān)聯(lián)到標(biāo)簽的一般特征，而無(wú)法充分考慮到不同類型的輸入數(shù)據(jù)可以在高級(jí)表示空間呈現(xiàn)出獨(dú)特的特征，這將導(dǎo)致模型無(wú)法有效提取豐富的預(yù)測(cè)特征。

Transformer通過(guò)注意力機(jī)制并行處理整個(gè)輸入，它能夠直接有效提取序列全局特征，有效緩解了卷積網(wǎng)絡(luò)難以捕獲長(zhǎng)程信息的問(wèn)題。例如，Thumuluri V提出了NetSolP，一個(gè)基于Transformer的深度學(xué)習(xí)蛋白質(zhì)語(yǔ)言模型，專注于直接從序列預(yù)測(cè)溶解性和可用性[12]。但是，Transformer由于其較高計(jì)算復(fù)雜度而不能很好地?cái)U(kuò)展到長(zhǎng)序列。為了優(yōu)化Transformer模型的復(fù)雜度，Choromanski K等提出了Performer，并在蛋白質(zhì)序列建模任務(wù)上測(cè)試了其有效性[6]。其復(fù)雜度上的優(yōu)化主要得益于FAVOR+，它通過(guò)核技巧近似傳統(tǒng)注意力分布，利用矩陣運(yùn)算規(guī)則將時(shí)間復(fù)雜度降到了線性，這很好解決了由序列長(zhǎng)度引起的計(jì)算復(fù)雜度問(wèn)題。因此應(yīng)用FAVOR+有望改善長(zhǎng)序列蛋白質(zhì)的溶解性預(yù)測(cè)。

2 FESOL模型

2.1 模型輸入

提出的模型接受單個(gè)蛋白質(zhì)的8種不同輸入數(shù)據(jù)，可以概括為4個(gè)部分：①原始氨基酸序列、2-mer和3-mer增強(qiáng)表示；②從蛋白質(zhì)序列預(yù)測(cè)的二級(jí)結(jié)構(gòu)序列；③從蛋白質(zhì)序列預(yù)測(cè)的溶劑相對(duì)可及性序列；④從蛋白質(zhì)序列中提取的附加特征，共57個(gè)數(shù)值形式的特征。表1中總結(jié)了這8種輸入數(shù)據(jù)。

表1 輸入數(shù)據(jù)總結(jié)

2.2 模型總體框架

FESOL是一個(gè)在多輸入數(shù)據(jù)下完成分類任務(wù)的深度學(xué)習(xí)模型，架構(gòu)如圖1所示。它由7個(gè)編碼器以及1個(gè)分類器組成。并行的7個(gè)編碼器在結(jié)構(gòu)上都是相同的，從模型的整體工作過(guò)程來(lái)說(shuō)，它首先接受一個(gè)樣本的7種不同序列特征輸入，分別是Seq、2-mer、3-mer、Rsa、Rsa20、SS和SS8，它的7個(gè)編碼器分別為一個(gè)樣本的不同輸入各編碼到一個(gè)表示向量，產(chǎn)生7個(gè)表示向量再與57個(gè)附加特征(Add)直接連接為一個(gè)全局表示向量，與此同時(shí)，7個(gè)表示向量計(jì)算余弦相似度損失(LCS)，以在高級(jí)特征空間中約束不同特征向量的相似程度。之后，F(xiàn)ESOL的分類器直接將這個(gè)全局表示向量映射到預(yù)測(cè)標(biāo)簽，這個(gè)分類器是一個(gè)兩層的全連接網(wǎng)絡(luò)。最終，預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽計(jì)算交叉熵?fù)p失并結(jié)合余弦相似度損失訓(xùn)練整個(gè)網(wǎng)絡(luò)。

圖1 FESOL總體框架

2.3 編碼器

單個(gè)編碼器在Transformer基礎(chǔ)上，引入了FAVOR+機(jī)制，其結(jié)構(gòu)如圖2所示，它由嵌入層(Embedding)、多頭注意力層(MulHAttn)和前饋神經(jīng)網(wǎng)絡(luò)層(FFN)順序堆疊組成。由于各個(gè)編碼器獨(dú)立工作，且結(jié)構(gòu)相同，本節(jié)將以氨基酸序列輸入(Seq)為例，介紹其對(duì)應(yīng)的編碼器(Enc1)的工作過(guò)程。

圖2 編碼器結(jié)構(gòu)

(1)嵌入層

整齊后氨基酸序列是Enc1的輸入，它由20種不同的氨基酸和1個(gè)填充構(gòu)成。Enc1從嵌入層開始，將每個(gè)氨基酸轉(zhuǎn)換為相應(yīng)的嵌入向量。經(jīng)過(guò)嵌入層后，得到氨基酸序列嵌入矩陣E∈RL×d，其中L是氨基酸序列長(zhǎng)度，d是嵌入向量的維度大小。

(2)多頭注意力層

Enc1的多頭注意力與早期工作(Transformer)中的注意力機(jī)制[13，14]有所不同，它是基于正交隨機(jī)特征的快速注意力，通過(guò)隱式計(jì)算注意力分布，利用矩陣運(yùn)算規(guī)則將時(shí)間復(fù)雜度降到了線性，使得編碼器能夠在捕獲長(zhǎng)序列的上下文信息時(shí)更加簡(jiǎn)潔高效。Enc1的每個(gè)子層中，多頭注意力層是核心，它幫助編碼器將序列的嵌入矩陣轉(zhuǎn)換為潛在特征矩陣。多頭注意力的具體計(jì)算公式被列出

MH(E)=Concat(head1，head2，…，headn)Wh

(1)

(2)

(3)

在FAVOR+的注意力分布矩陣A中，A(i，j)=K(qiT，kiT)，核函數(shù)K定義如下[6]

K(x，y)=[φ(x)Tφ(y)]

(4)

這里的φ(u) 是一個(gè)隨機(jī)特征圖，qi，ki分別對(duì)應(yīng)到矩陣Q，K的第i行向量。最終高效的注意力機(jī)制的計(jì)算形式具體表示為

Attn(Q，K，V)=U-1(QP((KP)TV))

(5)

U=diag(QP((KP)T1L))

(6)

對(duì)于QP，KP的矩陣行分別由φ(qiT)T和φ(kiT)T給出。 diag(z) 獲得以輸入向量為對(duì)角線的對(duì)角矩陣。1L表示長(zhǎng)度為L(zhǎng)的全1向量。

編碼器通過(guò)FAVOR+計(jì)算注意力分布，能夠?qū)ESOL的計(jì)算復(fù)雜度從O(L2d) 降至了O(Lrd)，有效提高了長(zhǎng)序列的計(jì)算效率。

除了注意力的有效近似估計(jì)外，本層還添加了殘差連接。嵌入矩陣E通過(guò)多頭注意力層后，得到帶有殘差連接的輸出H∈RL×nr

H=LayerNorm(MH(E)+E)

(7)

(3)前饋神經(jīng)網(wǎng)絡(luò)層

前饋神經(jīng)網(wǎng)絡(luò)層由兩個(gè)線性變換組成，中間通過(guò)一個(gè)elu激活函數(shù)連接，計(jì)算過(guò)程描述為

O=elu(HW1+b1)W2+b2

(8)

W1∈Rd×m和W2∈Rm×d是權(quán)重矩陣，b1和b2是偏置值。這一層得到的O∈RL×d為氨基酸序列的特征矩陣，取O的第一行o∈Rd作為氨基酸序列的特征表示向量，提供給分類器進(jìn)行溶解性預(yù)測(cè)。

2.4 分類器

FESOL的分類器是一個(gè)簡(jiǎn)單的兩層全連接神經(jīng)網(wǎng)絡(luò)。它接受x作為輸入，x由每種輸入特定的編碼器生成的表示向量和附加的特征連接而成

x=Concat(o1，o2，…，o7，oAdd)

(9)

o1，o2，…，o7分別對(duì)應(yīng)到Seq，2-mer，3-mer，Rsa，Rsa20，SS，SS8這7個(gè)不同特征輸入的表示向量，oAdd是附加特征組成的特征向量。分類器的輸出是預(yù)測(cè)概率yp

yp=softmax(elu(xW3+b3)W4+b4)

(10)

2.5 EhL損失

在交叉熵?fù)p失下學(xué)習(xí)的表示僅捕獲所有輸入數(shù)據(jù)的一般上下文，但可能不是特定于每種輸入的信息。這將直接導(dǎo)致預(yù)測(cè)模型學(xué)習(xí)到的表示向量中缺乏不同輸入之間的差異性，而這些無(wú)法學(xué)習(xí)到的差異性可能是決定蛋白質(zhì)溶解性的潛在特征，進(jìn)而影響到溶解性的預(yù)測(cè)效果。為了體現(xiàn)不同輸入的差異性，希望不同輸入的表示向量應(yīng)當(dāng)互不相同，因此本研究中增強(qiáng)了訓(xùn)練模型的損失函數(shù)，將交叉熵和余弦相似度相結(jié)合，新增的余弦相似度損失可以在高級(jí)特征空間中迫使不同輸入的表示互不相同，從而提高FESOL編碼器提取豐富特征的能力。

總體上，F(xiàn)ESOL的7個(gè)編碼器分別將7種不同數(shù)據(jù)的輸入編碼到7個(gè)獨(dú)立的d維的表示向量，然后，進(jìn)一步利用每種輸入特定的編碼器生成的表示向量來(lái)構(gòu)建反映不同輸入數(shù)據(jù)獨(dú)特性的余弦相似度損失，同時(shí)，結(jié)合交叉熵?fù)p失構(gòu)建出EhL。這里的交叉熵?fù)p失由FESOL分類器給出的預(yù)測(cè)概率與真實(shí)標(biāo)簽計(jì)算得到。

EhL=αLCE+βLCS

(11)

這里的LCE，LCS分別代表交叉熵?fù)p失和余弦相似度損失，α，β是權(quán)重系數(shù)，α約束預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的接近程度，β控制各個(gè)表示向量的差異程度。LCE計(jì)算如下，表示二分類交叉熵?fù)p失

(12)

LCS先計(jì)算單個(gè)樣本的不同表示間的余弦相似度，然后進(jìn)行求和

(13)

這里的cs計(jì)算兩個(gè)向量余弦相似度，規(guī)范定義在下列等式中給出

(14)

其中，p，q是分別代表一個(gè)向量。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文中使用的原始數(shù)據(jù)集來(lái)自于Smialowski等從大腸桿菌中收集的異源表達(dá)的蛋白質(zhì)序列，并由Xiang Wu等[4]進(jìn)行了預(yù)處理的基礎(chǔ)上作為訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集由28 972個(gè)可溶性和40 448個(gè)不溶性蛋白質(zhì)組成。

研究中使用的獨(dú)立的測(cè)試集由1000個(gè)可溶性蛋白質(zhì)序列和1001個(gè)不溶性蛋白質(zhì)序列組成，它已被廣泛用作評(píng)估方法性能的基準(zhǔn)測(cè)試集。為了與現(xiàn)有方法進(jìn)行公平比較，采用此測(cè)試集對(duì)幾種最先進(jìn)的基于序列的蛋白質(zhì)溶解性預(yù)測(cè)方法進(jìn)行全面比較。

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中將預(yù)測(cè)蛋白質(zhì)溶解性的任務(wù)作為二分類問(wèn)題，目標(biāo)是最小化預(yù)測(cè)的溶解性標(biāo)簽和實(shí)驗(yàn)測(cè)量的標(biāo)簽之間的差異。Pytorch庫(kù)被用來(lái)實(shí)現(xiàn)所提出的模型。模型訓(xùn)練中，使用學(xué)習(xí)率為0.001和正則率為0.005的AdamW優(yōu)化器，批次大小為32，訓(xùn)練輪次設(shè)置為10。至于輸入數(shù)據(jù)，為了保證方法的可對(duì)比性，所有蛋白質(zhì)的序列數(shù)據(jù)長(zhǎng)度固定為L(zhǎng)=1200，這類似于之前的工作[3，4]，少于1200個(gè)氨基酸用0填充，超過(guò)1200個(gè)氨基酸被截?cái)酁?200。不同的序列形式輸入數(shù)據(jù)的嵌入維數(shù)d均設(shè)置為64，這些數(shù)據(jù)依次為Seq、2-mer、3-mer、Rsa、Rsa20、SS和SS8。此外，EhL中的權(quán)重系數(shù)α，β經(jīng)過(guò)實(shí)驗(yàn)探索后均設(shè)置為1。

3.3 評(píng)價(jià)指標(biāo)

研究中使用到的評(píng)價(jià)指標(biāo)包括正確率(Accuracy)、馬修斯相關(guān)系數(shù)(MCC)和Rawi等[5]介紹到的每類選擇性(Selectivity)、每類靈敏度(Sensitivity)，這些指標(biāo)已在之前研究中用于評(píng)估其它先進(jìn)方法的性能，MCC的值在-1和1之間，越接近1表示模型預(yù)測(cè)越好。其它5個(gè)指標(biāo)具體計(jì)算為

(15)

(16)

(17)

(18)

(19)

其中，TP和TN分別代表正確分類的可溶和不可溶蛋白質(zhì)的樣本數(shù)，F(xiàn)N和FP分別代表被錯(cuò)誤分類的可溶和不可溶蛋白質(zhì)的樣本數(shù)。

此外，EhL系數(shù)影響和消融研究中還使用到Precision、Recall和AUC，Precision、Recall這兩個(gè)指標(biāo)被廣泛用于評(píng)估分類問(wèn)題的性能[15，16]，定義為

(20)

(21)

AUC定義為接受者操作特性曲線(ROC)下的面積，一般來(lái)說(shuō)，提供更大AUC的分類器表明它具有更好的性能。

3.4 增強(qiáng)損失性能分析

為了驗(yàn)證增強(qiáng)損失EhL的有效性，實(shí)驗(yàn)中對(duì)FESOL依次使用EhL和交叉熵(CE)進(jìn)行了訓(xùn)練，并在MCC上進(jìn)行了比較，同時(shí)，為了更全面探索EhL在不同序列長(zhǎng)度輸入下的適用性，設(shè)置了從600到1200，以100長(zhǎng)度遞增的序列截?cái)嚅L(zhǎng)度上進(jìn)行模型訓(xùn)練并比較預(yù)測(cè)性能，結(jié)果如圖3所示。可以發(fā)現(xiàn)，EhL在所有的不同截?cái)嚅L(zhǎng)度下均取得了更高的性能，能夠適應(yīng)于不同長(zhǎng)度下的預(yù)測(cè)。在長(zhǎng)度為1200時(shí)，EhL最高超過(guò)僅使用交叉熵?fù)p失時(shí)的0.3以上，雖然長(zhǎng)度為600和1000時(shí)兩條折線最為接近，但是也略微勝過(guò)了交叉熵。

圖3 EhL和交叉熵對(duì)FESOL性能影響

根據(jù)觀察到的實(shí)驗(yàn)結(jié)果，設(shè)計(jì)的增強(qiáng)損失函數(shù)EhL可以提高多輸入下的預(yù)測(cè)性能。總體而言，實(shí)驗(yàn)結(jié)果表明了損失函數(shù)的組合是一個(gè)簡(jiǎn)單且有效的策略，它有助于在多輸入模型的學(xué)習(xí)過(guò)程中捕獲更豐富的表示并提高分類性能。

3.5 EhL系數(shù)分析

為了探究EhL中的權(quán)重系數(shù)α，β在不同的取值下的對(duì)模型預(yù)測(cè)性能的影響。實(shí)驗(yàn)中對(duì)0.5、1、2這3個(gè)參數(shù)上進(jìn)行了網(wǎng)格搜索，并在Accuracy、Precision、Recall、MCC這4個(gè)評(píng)價(jià)指標(biāo)上對(duì)預(yù)測(cè)性能進(jìn)行了比較，具體預(yù)測(cè)結(jié)果見表2。

表2 FESOL在不同α，β下的預(yù)測(cè)性能

實(shí)驗(yàn)中主要關(guān)注引入不同比重的余弦相似度后對(duì)預(yù)測(cè)效果產(chǎn)生的影響，因此固定α取值，比較β對(duì)預(yù)測(cè)性能的影響。可以發(fā)現(xiàn)在比較α=0.5時(shí)，β=0.5取的相對(duì)最高性能，對(duì)于其它兩組β=1，2，隨著β取到更大值，性能也隨之增大；比較α=1時(shí)，當(dāng)β=1時(shí)取得全局最高性能，而對(duì)于β=0.5，2時(shí)，性能也呈現(xiàn)隨β增大而增大；比較α=2時(shí)，當(dāng)β=2時(shí)取得相對(duì)較高性能，但是，對(duì)于β=0.5，2時(shí)卻呈現(xiàn)與之前相反結(jié)果，隨β增大性能反而下降。根據(jù)固定α?xí)r的對(duì)比可知，在α，β等比例取值時(shí)，一致取得了最高性能，也說(shuō)明了添加余弦相似度的必要性。

3.6 消融研究

FESOL總共有8種不同類型的輸入，為了探究不同的輸入對(duì)FESOL預(yù)測(cè)性能的貢獻(xiàn)程度，實(shí)驗(yàn)中通過(guò)移除網(wǎng)絡(luò)中的單個(gè)輸入組件來(lái)進(jìn)行消融研究。具體來(lái)說(shuō)，將所有輸入分為了4組，氨基酸(Seq，2-mer，3-mer)、溶劑可及性(Rsa，Rsa20)、二級(jí)結(jié)構(gòu)(SS，SS8)和附加特征(Add)，并依次測(cè)試了移除氨基酸(Without Seq)、溶劑可及性(Without Rsa)、二級(jí)結(jié)構(gòu)(Without SS)和附加特征(Without Add)時(shí)模型性能，并與所有輸入(All)進(jìn)行比較。

實(shí)驗(yàn)結(jié)果見表3，可以發(fā)現(xiàn)氨基酸序列對(duì)最終的預(yù)測(cè)性能是最重要的。如果沒(méi)有氨基酸序列，Accuracy、Precision、Recall和MCC分別從0.803、0.802、0.804和0.605下降到0.696、0.779、0.546和0.410，氨基酸序列的重要程度在之前的研究[4]中也得到了驗(yàn)證。其次，溶劑可及性也是重要的，在沒(méi)有它們輸入時(shí)，Accuracy、Precision、Recall和MCC分別下降到0.775、0.796、0.738和0.551。此外，相較于其它輸入數(shù)據(jù)，二級(jí)結(jié)構(gòu)和附加特征顯得不那么重要，但它們也有利于提高預(yù)測(cè)性能。

表3 FESOL與移除不同輸入的性能

此外，展示了提出的FESOL與移除不同組件后的模型的ROC曲線，如圖4所示，所有輸入下FESOL的ROC曲線明顯高于沒(méi)有氨基酸輸入的模型，但是相較于其它模型則高度并不明顯。結(jié)果表明，不同類型的輸入數(shù)據(jù)對(duì)蛋白質(zhì)溶解性預(yù)測(cè)產(chǎn)生的作用也是不同的。最關(guān)鍵的數(shù)據(jù)是氨基酸輸入，其它包括溶劑可及性、二級(jí)結(jié)構(gòu)和附加特征僅作為一種改善預(yù)測(cè)性能的輔助信息。

圖4 FESOL與移除不同輸入的ROC曲線

3.7 FESOL性能分析

為了評(píng)估FESOL的預(yù)測(cè)性能，在6個(gè)評(píng)價(jià)指標(biāo)上使用獨(dú)立測(cè)試集將FESOL與3種先進(jìn)的預(yù)測(cè)方法進(jìn)行了比較，包括PaRSnIP、DeepSOL和EPSOL。FESOL訓(xùn)練過(guò)程中的損失收斂曲線如圖5所示，可以發(fā)現(xiàn)，訓(xùn)練5輪左右時(shí)模型收斂，取驗(yàn)證集上損失達(dá)到最低的模型，進(jìn)而在測(cè)試集上進(jìn)行性能評(píng)估。

圖5 損失收斂曲線

性能預(yù)測(cè)結(jié)果見表4，可以發(fā)現(xiàn)FESOL在所有方法中取得了最高的Accuracy=0.80、MCC=0.60、Selectivity(insoluble)=0.80、Sensitivity(soluble)=0.80。唯一例外的是Selectivity(soluble)=0.84和Sensitivity(insoluble)=0.88兩個(gè)指標(biāo)，它們由DeepSol S2產(chǎn)生了最高分?jǐn)?shù)。但是，在使用Selectivity(insoluble)和Sensitivity(soluble)指標(biāo)評(píng)估時(shí)，DeepSol S2的表現(xiàn)卻明顯更低，綜合顯示，F(xiàn)ESOL能夠兼顧到正類和類負(fù)樣本，性能顯得更加均衡穩(wěn)定。

表4 FESOL與其它方法的性能

4 結(jié)束語(yǔ)

本文提出了用于蛋白質(zhì)溶解性預(yù)測(cè)的多輸入深度學(xué)習(xí)模型FESOL，并在獨(dú)立測(cè)試集上驗(yàn)證了其有效性。該模型巧妙地利用了FAVOR+的線性計(jì)算復(fù)雜度特點(diǎn)，從而為更長(zhǎng)的蛋白質(zhì)序列預(yù)測(cè)問(wèn)題提供有效的解決方案。實(shí)驗(yàn)結(jié)果表明，余弦相似度與交叉熵相結(jié)合的增強(qiáng)損失能夠在多輸入數(shù)據(jù)的分類問(wèn)題下有助于提高性能。未來(lái)，主要工作將探索僅基于原始氨基酸序列的高效模型，在進(jìn)一步提高預(yù)測(cè)能力的同時(shí)，更加注重模型簡(jiǎn)潔易用。