999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FAVOR+和增強(qiáng)損失的蛋白溶解預(yù)測(cè)

2024-02-22 08:01:50楊子航王順?lè)?/span>
關(guān)鍵詞:模型

楊子航,王順?lè)?/p>

(云南大學(xué) 信息學(xué)院,云南 昆明 650504)

0 引 言

蛋白質(zhì)的溶解性往往代表著它的產(chǎn)量,從而在制藥與食品等行業(yè)中發(fā)揮重要作用[1]。迄今為止,在大腸桿菌表達(dá)系統(tǒng)中可以成功生產(chǎn)的可溶性重組蛋白實(shí)例仍然很少,這導(dǎo)致了難以提高整體生產(chǎn)能力。為了獲得可溶性蛋白質(zhì),大多數(shù)成熟的策略通常涉及一系列試錯(cuò)步驟,卻無(wú)法保證成功。同時(shí)提高產(chǎn)量和最小化生產(chǎn)成本的一種方法是通過(guò)使用計(jì)算模型來(lái)提供準(zhǔn)確的溶解性預(yù)測(cè)[2],在實(shí)驗(yàn)工作之前預(yù)測(cè)出高度可溶解的蛋白質(zhì)。

目前,已經(jīng)提出了幾種預(yù)測(cè)方法[3-5],但現(xiàn)有方法存在一定的不足且預(yù)測(cè)效果上仍然表現(xiàn)不佳。在已有工作的基礎(chǔ)上,本文提出了一種多輸入的深度學(xué)習(xí)模型FESOL來(lái)應(yīng)對(duì)現(xiàn)有方法的局限性并提高蛋白質(zhì)溶解性的預(yù)測(cè)性能。方法受到FAVOR+(fast attention via positive orthogonal random features)[6]這種快速注意力機(jī)制的高效性和它與常規(guī)Transformer[7]的兼容性的啟發(fā),應(yīng)用它代替?zhèn)鹘y(tǒng)自注意力使得模型能夠在蛋白質(zhì)長(zhǎng)序列的溶解性預(yù)測(cè)中高效提取全局特征,同時(shí)克服由于傳統(tǒng)注意力而引起的計(jì)算復(fù)雜度問(wèn)題。此外,在交叉熵的基礎(chǔ)上,進(jìn)一步結(jié)合余弦相似度,設(shè)計(jì)了增強(qiáng)的損失函數(shù),文中記名為EhL(enhanced loss)。傳統(tǒng)的交叉熵?fù)p失只關(guān)注樣本是否被正確分類[8],EhL一定程度上彌補(bǔ)了這一不足,使得模型在處理多個(gè)輸入時(shí)能夠關(guān)注到不同輸入的差異性。本文提出的方法針對(duì)蛋白質(zhì)長(zhǎng)序列和多數(shù)據(jù),通過(guò)FAVOR+和EhL的相互配合,編碼更多特定于不同輸入的信息,從而提高溶解性預(yù)測(cè)的準(zhǔn)確性。

1 相關(guān)工作

近幾年,深度學(xué)習(xí)領(lǐng)域快速發(fā)展,相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法不靈活等特點(diǎn),深度學(xué)習(xí)能夠直接高效地捕獲到原始數(shù)據(jù)中所關(guān)心的信息,因此通過(guò)深度學(xué)習(xí)的方法探索蛋白質(zhì)性質(zhì)與其序列的內(nèi)在關(guān)系是目前比較熱門的一個(gè)研究領(lǐng)域,并取得了良好的研究成果[9,10]。在蛋白質(zhì)溶解性預(yù)測(cè)中,Khurana S等提出了DeepSol,一種基于深度學(xué)習(xí)的蛋白質(zhì)溶解性預(yù)測(cè)器,框架的主干是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),它利用了k-mer 結(jié)構(gòu)以及從蛋白質(zhì)序列中提取的額外序列和結(jié)構(gòu)特征[3]。Chen J等提出了一種新的結(jié)構(gòu)感知方法GraphSol,通過(guò)結(jié)合預(yù)測(cè)的接觸圖和圖神經(jīng)網(wǎng)絡(luò),從序列中預(yù)測(cè)蛋白質(zhì)溶解度[11]。Wu X等提出了EPSOL,使用Bi-gram和Tri-gram來(lái)增強(qiáng)原始蛋白質(zhì)序列的表示,通過(guò)多維嵌入獲得全面的蛋白質(zhì)特征表示,利用多卷積池進(jìn)一步整合并最后預(yù)測(cè)[4]。

利用CNN和多數(shù)據(jù)融合進(jìn)行蛋白質(zhì)溶解性預(yù)測(cè)已經(jīng)取得了良好的效果,但仍存在一定的不足,主要體現(xiàn)在兩方面:其一,基于卷積神經(jīng)網(wǎng)絡(luò)的模型將無(wú)法直接高效的捕獲到序列的長(zhǎng)程依賴信息,這也導(dǎo)致了這類模型不能夠最大限度提取有意義的長(zhǎng)序列特征進(jìn)行準(zhǔn)確的下游預(yù)測(cè);其二,當(dāng)在多輸入下使用傳統(tǒng)交叉熵作為模型訓(xùn)練損失時(shí),僅學(xué)習(xí)各個(gè)輸入關(guān)聯(lián)到標(biāo)簽的一般特征,而無(wú)法充分考慮到不同類型的輸入數(shù)據(jù)可以在高級(jí)表示空間呈現(xiàn)出獨(dú)特的特征,這將導(dǎo)致模型無(wú)法有效提取豐富的預(yù)測(cè)特征。

Transformer通過(guò)注意力機(jī)制并行處理整個(gè)輸入,它能夠直接有效提取序列全局特征,有效緩解了卷積網(wǎng)絡(luò)難以捕獲長(zhǎng)程信息的問(wèn)題。例如,Thumuluri V提出了NetSolP,一個(gè)基于Transformer的深度學(xué)習(xí)蛋白質(zhì)語(yǔ)言模型,專注于直接從序列預(yù)測(cè)溶解性和可用性[12]。但是,Transformer由于其較高計(jì)算復(fù)雜度而不能很好地?cái)U(kuò)展到長(zhǎng)序列。為了優(yōu)化Transformer模型的復(fù)雜度,Choromanski K等提出了Performer,并在蛋白質(zhì)序列建模任務(wù)上測(cè)試了其有效性[6]。其復(fù)雜度上的優(yōu)化主要得益于FAVOR+,它通過(guò)核技巧近似傳統(tǒng)注意力分布,利用矩陣運(yùn)算規(guī)則將時(shí)間復(fù)雜度降到了線性,這很好解決了由序列長(zhǎng)度引起的計(jì)算復(fù)雜度問(wèn)題。因此應(yīng)用FAVOR+有望改善長(zhǎng)序列蛋白質(zhì)的溶解性預(yù)測(cè)。

2 FESOL模型

2.1 模型輸入

提出的模型接受單個(gè)蛋白質(zhì)的8種不同輸入數(shù)據(jù),可以概括為4個(gè)部分:①原始氨基酸序列、2-mer和3-mer增強(qiáng)表示;②從蛋白質(zhì)序列預(yù)測(cè)的二級(jí)結(jié)構(gòu)序列;③從蛋白質(zhì)序列預(yù)測(cè)的溶劑相對(duì)可及性序列;④從蛋白質(zhì)序列中提取的附加特征,共57個(gè)數(shù)值形式的特征。表1中總結(jié)了這8種輸入數(shù)據(jù)。

表1 輸入數(shù)據(jù)總結(jié)

2.2 模型總體框架

FESOL是一個(gè)在多輸入數(shù)據(jù)下完成分類任務(wù)的深度學(xué)習(xí)模型,架構(gòu)如圖1所示。它由7個(gè)編碼器以及1個(gè)分類器組成。并行的7個(gè)編碼器在結(jié)構(gòu)上都是相同的,從模型的整體工作過(guò)程來(lái)說(shuō),它首先接受一個(gè)樣本的7種不同序列特征輸入,分別是Seq、2-mer、3-mer、Rsa、Rsa20、SS和SS8,它的7個(gè)編碼器分別為一個(gè)樣本的不同輸入各編碼到一個(gè)表示向量,產(chǎn)生7個(gè)表示向量再與57個(gè)附加特征(Add)直接連接為一個(gè)全局表示向量,與此同時(shí),7個(gè)表示向量計(jì)算余弦相似度損失(LCS),以在高級(jí)特征空間中約束不同特征向量的相似程度。之后,F(xiàn)ESOL的分類器直接將這個(gè)全局表示向量映射到預(yù)測(cè)標(biāo)簽,這個(gè)分類器是一個(gè)兩層的全連接網(wǎng)絡(luò)。最終,預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽計(jì)算交叉熵?fù)p失并結(jié)合余弦相似度損失訓(xùn)練整個(gè)網(wǎng)絡(luò)。

圖1 FESOL總體框架

2.3 編碼器

單個(gè)編碼器在Transformer基礎(chǔ)上,引入了FAVOR+機(jī)制,其結(jié)構(gòu)如圖2所示,它由嵌入層(Embedding)、多頭注意力層(MulHAttn)和前饋神經(jīng)網(wǎng)絡(luò)層(FFN)順序堆疊組成。由于各個(gè)編碼器獨(dú)立工作,且結(jié)構(gòu)相同,本節(jié)將以氨基酸序列輸入(Seq)為例,介紹其對(duì)應(yīng)的編碼器(Enc1)的工作過(guò)程。

圖2 編碼器結(jié)構(gòu)

(1)嵌入層

整齊后氨基酸序列是Enc1的輸入,它由20種不同的氨基酸和1個(gè)填充構(gòu)成。Enc1從嵌入層開始,將每個(gè)氨基酸轉(zhuǎn)換為相應(yīng)的嵌入向量。經(jīng)過(guò)嵌入層后,得到氨基酸序列嵌入矩陣E∈RL×d, 其中L是氨基酸序列長(zhǎng)度,d是嵌入向量的維度大小。

(2)多頭注意力層

Enc1的多頭注意力與早期工作(Transformer)中的注意力機(jī)制[13,14]有所不同,它是基于正交隨機(jī)特征的快速注意力,通過(guò)隱式計(jì)算注意力分布,利用矩陣運(yùn)算規(guī)則將時(shí)間復(fù)雜度降到了線性,使得編碼器能夠在捕獲長(zhǎng)序列的上下文信息時(shí)更加簡(jiǎn)潔高效。Enc1的每個(gè)子層中,多頭注意力層是核心,它幫助編碼器將序列的嵌入矩陣轉(zhuǎn)換為潛在特征矩陣。多頭注意力的具體計(jì)算公式被列出

MH(E)=Concat(head1,head2,…,headn)Wh

(1)

(2)

(3)

在FAVOR+的注意力分布矩陣A中,A(i,j)=K(qiT,kiT), 核函數(shù)K定義如下[6]

K(x,y)=[φ(x)Tφ(y)]

(4)

這里的φ(u) 是一個(gè)隨機(jī)特征圖,qi,ki分別對(duì)應(yīng)到矩陣Q,K的第i行向量。最終高效的注意力機(jī)制的計(jì)算形式具體表示為

Attn(Q,K,V)=U-1(QP((KP)TV))

(5)

U=diag(QP((KP)T1L))

(6)

對(duì)于QP,KP的矩陣行分別由φ(qiT)T和φ(kiT)T給出。 diag(z) 獲得以輸入向量為對(duì)角線的對(duì)角矩陣。1L表示長(zhǎng)度為L(zhǎng)的全1向量。

編碼器通過(guò)FAVOR+計(jì)算注意力分布,能夠?qū)ESOL的計(jì)算復(fù)雜度從O(L2d) 降至了O(Lrd), 有效提高了長(zhǎng)序列的計(jì)算效率。

除了注意力的有效近似估計(jì)外,本層還添加了殘差連接。嵌入矩陣E通過(guò)多頭注意力層后,得到帶有殘差連接的輸出H∈RL×nr

H=LayerNorm(MH(E)+E)

(7)

(3)前饋神經(jīng)網(wǎng)絡(luò)層

前饋神經(jīng)網(wǎng)絡(luò)層由兩個(gè)線性變換組成,中間通過(guò)一個(gè)elu激活函數(shù)連接,計(jì)算過(guò)程描述為

O=elu(HW1+b1)W2+b2

(8)

W1∈Rd×m和W2∈Rm×d是權(quán)重矩陣,b1和b2是偏置值。這一層得到的O∈RL×d為氨基酸序列的特征矩陣,取O的第一行o∈Rd作為氨基酸序列的特征表示向量,提供給分類器進(jìn)行溶解性預(yù)測(cè)。

2.4 分類器

FESOL的分類器是一個(gè)簡(jiǎn)單的兩層全連接神經(jīng)網(wǎng)絡(luò)。它接受x作為輸入,x由每種輸入特定的編碼器生成的表示向量和附加的特征連接而成

x=Concat(o1,o2,…,o7,oAdd)

(9)

o1,o2,…,o7分別對(duì)應(yīng)到Seq,2-mer,3-mer,Rsa,Rsa20,SS,SS8這7個(gè)不同特征輸入的表示向量,oAdd是附加特征組成的特征向量。分類器的輸出是預(yù)測(cè)概率yp

yp=softmax(elu(xW3+b3)W4+b4)

(10)

2.5 EhL損失

在交叉熵?fù)p失下學(xué)習(xí)的表示僅捕獲所有輸入數(shù)據(jù)的一般上下文,但可能不是特定于每種輸入的信息。這將直接導(dǎo)致預(yù)測(cè)模型學(xué)習(xí)到的表示向量中缺乏不同輸入之間的差異性,而這些無(wú)法學(xué)習(xí)到的差異性可能是決定蛋白質(zhì)溶解性的潛在特征,進(jìn)而影響到溶解性的預(yù)測(cè)效果。為了體現(xiàn)不同輸入的差異性,希望不同輸入的表示向量應(yīng)當(dāng)互不相同,因此本研究中增強(qiáng)了訓(xùn)練模型的損失函數(shù),將交叉熵和余弦相似度相結(jié)合,新增的余弦相似度損失可以在高級(jí)特征空間中迫使不同輸入的表示互不相同,從而提高FESOL編碼器提取豐富特征的能力。

總體上,F(xiàn)ESOL的7個(gè)編碼器分別將7種不同數(shù)據(jù)的輸入編碼到7個(gè)獨(dú)立的d維的表示向量,然后,進(jìn)一步利用每種輸入特定的編碼器生成的表示向量來(lái)構(gòu)建反映不同輸入數(shù)據(jù)獨(dú)特性的余弦相似度損失,同時(shí),結(jié)合交叉熵?fù)p失構(gòu)建出EhL。這里的交叉熵?fù)p失由FESOL分類器給出的預(yù)測(cè)概率與真實(shí)標(biāo)簽計(jì)算得到。

EhL=αLCE+βLCS

(11)

這里的LCE,LCS分別代表交叉熵?fù)p失和余弦相似度損失,α,β是權(quán)重系數(shù),α約束預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽的接近程度,β控制各個(gè)表示向量的差異程度。LCE計(jì)算如下,表示二分類交叉熵?fù)p失

(12)

LCS先計(jì)算單個(gè)樣本的不同表示間的余弦相似度,然后進(jìn)行求和

(13)

這里的cs計(jì)算兩個(gè)向量余弦相似度,規(guī)范定義在下列等式中給出

(14)

其中,p,q是分別代表一個(gè)向量。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文中使用的原始數(shù)據(jù)集來(lái)自于Smialowski等從大腸桿菌中收集的異源表達(dá)的蛋白質(zhì)序列,并由Xiang Wu等[4]進(jìn)行了預(yù)處理的基礎(chǔ)上作為訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集由28 972個(gè)可溶性和40 448個(gè)不溶性蛋白質(zhì)組成。

研究中使用的獨(dú)立的測(cè)試集由1000個(gè)可溶性蛋白質(zhì)序列和1001個(gè)不溶性蛋白質(zhì)序列組成,它已被廣泛用作評(píng)估方法性能的基準(zhǔn)測(cè)試集。為了與現(xiàn)有方法進(jìn)行公平比較,采用此測(cè)試集對(duì)幾種最先進(jìn)的基于序列的蛋白質(zhì)溶解性預(yù)測(cè)方法進(jìn)行全面比較。

3.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)中將預(yù)測(cè)蛋白質(zhì)溶解性的任務(wù)作為二分類問(wèn)題,目標(biāo)是最小化預(yù)測(cè)的溶解性標(biāo)簽和實(shí)驗(yàn)測(cè)量的標(biāo)簽之間的差異。Pytorch庫(kù)被用來(lái)實(shí)現(xiàn)所提出的模型。模型訓(xùn)練中,使用學(xué)習(xí)率為0.001和正則率為0.005的AdamW優(yōu)化器,批次大小為32,訓(xùn)練輪次設(shè)置為10。至于輸入數(shù)據(jù),為了保證方法的可對(duì)比性,所有蛋白質(zhì)的序列數(shù)據(jù)長(zhǎng)度固定為L(zhǎng)=1200,這類似于之前的工作[3,4],少于1200個(gè)氨基酸用0填充,超過(guò)1200個(gè)氨基酸被截?cái)酁?200。不同的序列形式輸入數(shù)據(jù)的嵌入維數(shù)d均設(shè)置為64,這些數(shù)據(jù)依次為Seq、2-mer、3-mer、Rsa、Rsa20、SS和SS8。此外,EhL中的權(quán)重系數(shù)α,β經(jīng)過(guò)實(shí)驗(yàn)探索后均設(shè)置為1。

3.3 評(píng)價(jià)指標(biāo)

研究中使用到的評(píng)價(jià)指標(biāo)包括正確率(Accuracy)、馬修斯相關(guān)系數(shù)(MCC)和Rawi等[5]介紹到的每類選擇性(Selectivity)、每類靈敏度(Sensitivity),這些指標(biāo)已在之前研究中用于評(píng)估其它先進(jìn)方法的性能,MCC的值在-1和1之間,越接近1表示模型預(yù)測(cè)越好。其它5個(gè)指標(biāo)具體計(jì)算為

(15)

(16)

(17)

(18)

(19)

其中,TP和TN分別代表正確分類的可溶和不可溶蛋白質(zhì)的樣本數(shù),F(xiàn)N和FP分別代表被錯(cuò)誤分類的可溶和不可溶蛋白質(zhì)的樣本數(shù)。

此外,EhL系數(shù)影響和消融研究中還使用到Precision、Recall和AUC,Precision、Recall這兩個(gè)指標(biāo)被廣泛用于評(píng)估分類問(wèn)題的性能[15,16],定義為

(20)

(21)

AUC定義為接受者操作特性曲線(ROC)下的面積,一般來(lái)說(shuō),提供更大AUC的分類器表明它具有更好的性能。

3.4 增強(qiáng)損失性能分析

為了驗(yàn)證增強(qiáng)損失EhL的有效性,實(shí)驗(yàn)中對(duì)FESOL依次使用EhL和交叉熵(CE)進(jìn)行了訓(xùn)練,并在MCC上進(jìn)行了比較,同時(shí),為了更全面探索EhL在不同序列長(zhǎng)度輸入下的適用性,設(shè)置了從600到1200,以100長(zhǎng)度遞增的序列截?cái)嚅L(zhǎng)度上進(jìn)行模型訓(xùn)練并比較預(yù)測(cè)性能,結(jié)果如圖3所示。可以發(fā)現(xiàn),EhL在所有的不同截?cái)嚅L(zhǎng)度下均取得了更高的性能,能夠適應(yīng)于不同長(zhǎng)度下的預(yù)測(cè)。在長(zhǎng)度為1200時(shí),EhL最高超過(guò)僅使用交叉熵?fù)p失時(shí)的0.3以上,雖然長(zhǎng)度為600和1000時(shí)兩條折線最為接近,但是也略微勝過(guò)了交叉熵。

圖3 EhL和交叉熵對(duì)FESOL性能影響

根據(jù)觀察到的實(shí)驗(yàn)結(jié)果,設(shè)計(jì)的增強(qiáng)損失函數(shù)EhL可以提高多輸入下的預(yù)測(cè)性能。總體而言,實(shí)驗(yàn)結(jié)果表明了損失函數(shù)的組合是一個(gè)簡(jiǎn)單且有效的策略,它有助于在多輸入模型的學(xué)習(xí)過(guò)程中捕獲更豐富的表示并提高分類性能。

3.5 EhL系數(shù)分析

為了探究EhL中的權(quán)重系數(shù)α,β在不同的取值下的對(duì)模型預(yù)測(cè)性能的影響。實(shí)驗(yàn)中對(duì)0.5、1、2這3個(gè)參數(shù)上進(jìn)行了網(wǎng)格搜索,并在Accuracy、Precision、Recall、MCC這4個(gè)評(píng)價(jià)指標(biāo)上對(duì)預(yù)測(cè)性能進(jìn)行了比較,具體預(yù)測(cè)結(jié)果見表2。

表2 FESOL在不同α,β下的預(yù)測(cè)性能

實(shí)驗(yàn)中主要關(guān)注引入不同比重的余弦相似度后對(duì)預(yù)測(cè)效果產(chǎn)生的影響,因此固定α取值,比較β對(duì)預(yù)測(cè)性能的影響。可以發(fā)現(xiàn)在比較α=0.5時(shí),β=0.5取的相對(duì)最高性能,對(duì)于其它兩組β=1,2,隨著β取到更大值,性能也隨之增大;比較α=1時(shí),當(dāng)β=1時(shí)取得全局最高性能,而對(duì)于β=0.5,2時(shí),性能也呈現(xiàn)隨β增大而增大;比較α=2時(shí),當(dāng)β=2時(shí)取得相對(duì)較高性能,但是,對(duì)于β=0.5,2時(shí)卻呈現(xiàn)與之前相反結(jié)果,隨β增大性能反而下降。根據(jù)固定α?xí)r的對(duì)比可知,在α,β等比例取值時(shí),一致取得了最高性能,也說(shuō)明了添加余弦相似度的必要性。

3.6 消融研究

FESOL總共有8種不同類型的輸入,為了探究不同的輸入對(duì)FESOL預(yù)測(cè)性能的貢獻(xiàn)程度,實(shí)驗(yàn)中通過(guò)移除網(wǎng)絡(luò)中的單個(gè)輸入組件來(lái)進(jìn)行消融研究。具體來(lái)說(shuō),將所有輸入分為了4組,氨基酸(Seq,2-mer,3-mer)、溶劑可及性(Rsa,Rsa20)、二級(jí)結(jié)構(gòu)(SS,SS8)和附加特征(Add),并依次測(cè)試了移除氨基酸(Without Seq)、溶劑可及性(Without Rsa)、二級(jí)結(jié)構(gòu)(Without SS)和附加特征(Without Add)時(shí)模型性能,并與所有輸入(All)進(jìn)行比較。

實(shí)驗(yàn)結(jié)果見表3,可以發(fā)現(xiàn)氨基酸序列對(duì)最終的預(yù)測(cè)性能是最重要的。如果沒(méi)有氨基酸序列,Accuracy、Precision、Recall和MCC分別從0.803、0.802、0.804和0.605下降到0.696、0.779、0.546和0.410,氨基酸序列的重要程度在之前的研究[4]中也得到了驗(yàn)證。其次,溶劑可及性也是重要的,在沒(méi)有它們輸入時(shí),Accuracy、Precision、Recall和MCC分別下降到0.775、0.796、0.738和0.551。此外,相較于其它輸入數(shù)據(jù),二級(jí)結(jié)構(gòu)和附加特征顯得不那么重要,但它們也有利于提高預(yù)測(cè)性能。

表3 FESOL與移除不同輸入的性能

此外,展示了提出的FESOL與移除不同組件后的模型的ROC曲線,如圖4所示,所有輸入下FESOL的ROC曲線明顯高于沒(méi)有氨基酸輸入的模型,但是相較于其它模型則高度并不明顯。結(jié)果表明,不同類型的輸入數(shù)據(jù)對(duì)蛋白質(zhì)溶解性預(yù)測(cè)產(chǎn)生的作用也是不同的。最關(guān)鍵的數(shù)據(jù)是氨基酸輸入,其它包括溶劑可及性、二級(jí)結(jié)構(gòu)和附加特征僅作為一種改善預(yù)測(cè)性能的輔助信息。

圖4 FESOL與移除不同輸入的ROC曲線

3.7 FESOL性能分析

為了評(píng)估FESOL的預(yù)測(cè)性能,在6個(gè)評(píng)價(jià)指標(biāo)上使用獨(dú)立測(cè)試集將FESOL與3種先進(jìn)的預(yù)測(cè)方法進(jìn)行了比較,包括PaRSnIP、DeepSOL和EPSOL。FESOL訓(xùn)練過(guò)程中的損失收斂曲線如圖5所示,可以發(fā)現(xiàn),訓(xùn)練5輪左右時(shí)模型收斂,取驗(yàn)證集上損失達(dá)到最低的模型,進(jìn)而在測(cè)試集上進(jìn)行性能評(píng)估。

圖5 損失收斂曲線

性能預(yù)測(cè)結(jié)果見表4,可以發(fā)現(xiàn)FESOL在所有方法中取得了最高的Accuracy=0.80、MCC=0.60、Selectivity(insoluble)=0.80、Sensitivity(soluble)=0.80。唯一例外的是Selectivity(soluble)=0.84和Sensitivity(insoluble)=0.88兩個(gè)指標(biāo),它們由DeepSol S2產(chǎn)生了最高分?jǐn)?shù)。但是, 在使用Selectivity(insoluble)和Sensitivity(soluble)指標(biāo)評(píng)估時(shí),DeepSol S2的表現(xiàn)卻明顯更低,綜合顯示,F(xiàn)ESOL能夠兼顧到正類和類負(fù)樣本,性能顯得更加均衡穩(wěn)定。

表4 FESOL與其它方法的性能

4 結(jié)束語(yǔ)

本文提出了用于蛋白質(zhì)溶解性預(yù)測(cè)的多輸入深度學(xué)習(xí)模型FESOL,并在獨(dú)立測(cè)試集上驗(yàn)證了其有效性。該模型巧妙地利用了FAVOR+的線性計(jì)算復(fù)雜度特點(diǎn),從而為更長(zhǎng)的蛋白質(zhì)序列預(yù)測(cè)問(wèn)題提供有效的解決方案。實(shí)驗(yàn)結(jié)果表明,余弦相似度與交叉熵相結(jié)合的增強(qiáng)損失能夠在多輸入數(shù)據(jù)的分類問(wèn)題下有助于提高性能。未來(lái),主要工作將探索僅基于原始氨基酸序列的高效模型,在進(jìn)一步提高預(yù)測(cè)能力的同時(shí),更加注重模型簡(jiǎn)潔易用。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产日韩精品欧美一区灰| 日韩AV手机在线观看蜜芽| 国产91丝袜在线观看| 精品国产免费观看| 99无码中文字幕视频| 黄色三级毛片网站| 久久香蕉欧美精品| 欧美激情首页| 国产最新无码专区在线| 99无码中文字幕视频| 蜜臀AV在线播放| 极品国产一区二区三区| 中文字幕有乳无码| 国产超薄肉色丝袜网站| 18禁不卡免费网站| 啪啪啪亚洲无码| 亚洲床戏一区| 久久久噜噜噜久久中文字幕色伊伊| 在线观看视频一区二区| 91麻豆国产在线| 五月天天天色| 国产成人亚洲综合a∨婷婷| 无码国产偷倩在线播放老年人 | 中文字幕亚洲精品2页| 亚洲日本在线免费观看| 91成人免费观看在线观看| 亚洲 欧美 日韩综合一区| 高清不卡一区二区三区香蕉| 爆乳熟妇一区二区三区| 2020最新国产精品视频| 久久这里只有精品免费| 制服丝袜 91视频| 在线观看欧美国产| 91色在线视频| 日韩在线播放欧美字幕| 亚洲视频二| 中文字幕有乳无码| 日韩高清欧美| 久久国产高清视频| 免费看黄片一区二区三区| h视频在线观看网站| 精品国产成人a在线观看| 国产特一级毛片| 国产成人夜色91| 中文字幕 日韩 欧美| 日本高清视频在线www色| 99无码熟妇丰满人妻啪啪| 欧美亚洲综合免费精品高清在线观看| 韩日免费小视频| 亚洲天堂高清| 欧美亚洲日韩不卡在线在线观看| 日韩精品资源| 色呦呦手机在线精品| 欧美人人干| av无码久久精品| 日韩欧美中文| 国产97视频在线| 亚洲区视频在线观看| 亚洲日本中文字幕天堂网| 国产一区二区三区在线无码| 青草精品视频| 久久精品只有这里有| 欧美日本在线播放| 国产精品自在在线午夜区app| 久久国产V一级毛多内射| 久久国产精品麻豆系列| 人妻无码一区二区视频| 欧美区在线播放| 亚洲精品桃花岛av在线| 在线观看精品国产入口| 国产精品美女在线| 国产日韩欧美在线播放| 91麻豆精品视频| 亚洲AV无码久久天堂| 亚洲欧洲日韩国产综合在线二区| 在线精品视频成人网| 国产无遮挡裸体免费视频| 亚洲色欲色欲www在线观看| 全部毛片免费看| a天堂视频| 在线观看av永久| 亚洲日韩精品伊甸|