王金雷 丁學明 秦琪琪 彭博雅



摘 要:蛋白質的功能對于理解細胞和生物的活動機制、研究疾病機理等至關重要。面對序列數據庫的快速增長,傳統的實驗和序列對比方法不足以支撐大規模的蛋白質功能標注。為此,提出EGNet(evolutionary graph network)模型,采用蛋白質預訓練語言模型ESM2和onehot編碼得到蛋白質序列編碼,通過序列自注意力和物理計算整合出殘基間的協同進化信息PI(paired interaction)和SPI(strong paired interaction);之后將兩種進化信息和序列編碼作為多層串聯圖卷積網絡輸入,學習序列編碼節點特征,實現端到端的蛋白質功能預測。與早期方法相比,在ENZYME數據庫中的EC(Enzyme Commission)類別標簽上,EGNet獲得了更好的性能,其Fscore達到0.89,AUPR值達到0.91。結果表明,EGNet僅僅采用單條序列來預測蛋白質功能就可以得到良好的結果,從而能夠提供快速且有效的蛋白質功能注釋。
關鍵詞:蛋白質功能;深度學習;協同進化信息;語言模型;圖卷積神經網絡
中圖分類號:TP181?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-008-3572-06
doi:10.19734/j.issn.10013695.2023.04.0166
Protein function prediction based on coevolutionary information and deep learning
Abstract:The function of protein is crucial for understanding the mechanisms of cellular and biological activities,as well as for studying the mechanisms of diseases.Traditional experimental and sequence alignment methods are insufficient to support largescale protein functional annotation when in the face of the rapid growth of sequence databases.For this situation,this paper proposed EGNet model,which utilized the protein pretraining language model ESM2 and onehot encoding to obtain the protein sequence encoding.The model integrated the coevolutionary information between residues,including PI and SPI,through sequence selfattention and physical calculations.Subsequently,the two types of coevolutionary information and the sequence encoding used in inputs for a multilayered cascaded graph convolutional network to learn the node features of the sequence encoding and achieve endtoend protein function prediction.Compared with earlier methods,EGNet achieves better performance on the EC category labels in the ENZYME database,which reaches 0.89 in the Fscore and 0.91 in the AUPR.The results indicate that EGNet can achieve good performance by using only a single sequence to predict protein function,providing a rapid and effective method for protein function annotation.
Key words:protein function;deep learning;coevolutionary information;language model;graph convolutional neural network
0 引言
蛋白質是一種功能多樣性的生物大分子,是生命的物質基礎[1]。隨著高效、低成本測序技術和計算方法的進步,UniProt (UniProtKB,2022/04)[2]等關鍵蛋白質序列數據庫中的可用序列數量大幅增長,而大多數蛋白質并未進行功能注釋。根據SWISSPROT[3],在人工注釋的蛋白質中,約一半的蛋白質是酶,通常使用酶委員會(EC)系統對如此大量的酶進行分類。
酶作為生物體內必不可少的蛋白質,能夠催化生物體內的化學反應,在生命活動中發揮重要作用。對酶功能進行準確標注,在宏基因組學、工業生物技術以及酶缺乏性疾病的診斷等領域都有著廣泛的應用。某些酶的功能障礙會引起嚴重的代謝疾病。例如,DNA修復酶能夠識別和糾正DNA中的物理損傷,DNA修復酶的缺乏會導致突變的積累,從而可能進一步導致各種癌癥[4]。通過對酶功能進行標注,可以更加深入地了解生物體內各種生物過程的機制和調控途徑,同時還有助于發現新的藥物靶點和治療方法。受驗證蛋白質功能實驗的規模、設計和成本因素的影響,通過實驗得到相對準確的蛋白質功能標注是非常困難的。所以,對于蛋白質功能的研究是當今的熱點話題。
傳統的酶功能預測方法,通常利用蛋白質的序列或結構域的同源相似性比對來實現蛋白質功能預測。使用的工具有BLAST(basic local alignment search tool)[5]和FunFams(functional families)[6] 。BLAST是一種廣泛使用的序列比對算法,常用于對生物學序列進行比對以確定它們之間的相似性。BLAST可以在數據庫中快速查找相似序列,從而幫助識別和注釋未知的蛋白質功能。FunFams是一種生物信息學工具,使用聚類算法將結構域聚集為具有相似功能的族群,之后通過具有相似結構域的蛋白質之間的相似性來推斷其功能。但基于序列相似性或結構域比對的方法忽略了在生物活動中一種蛋白需要與其他蛋白或者配體相互作用來完成特定的生物學功能[7],所以使用同源性方法進行預測時會缺失部分功能。
考慮到序列比對方法的局限性,研究者們開始采用機器學習和深度學習方法來實現蛋白質功能預測。一些基于殘基耦合關系從蛋白質相互作用網絡(proteinprotein interaction network,PPIN)提取功能信息[8~10],被廣泛用于預測酶委員會(EC)標注。DEEPre[11]采用了PSIBlast[12]、HMMER[13]等工具進行序列相似性比對,同時以位置特定評分矩陣(PSSM)特征信息作為深度學習網絡的特征輸入,進而實現EC功能預測。Dalkiran等人[14]提出了ECPred,該模型實現了酶功能分層預測,每個EC號都具有獨立的機器學習模型。Ryu等人[15]將序列和其對應的催化位點注釋信息送入深度殘差卷積神經網絡(ResidueCNN),實現酶功能預測。Sarker 等人[16]提出的GrAPFI采用一種基于結構域相似圖的酶功能預測方法,通過將蛋白質表示為圖形結構來捕捉蛋白質的拓撲信息和相互作用關系,并將其輸入到一個多層神經網絡中進行訓練,之后執行基于鄰域的標簽傳播來進行功能注釋。文獻[17]進一步采用帶有功能標記的有向無環圖實現蛋白質功能預測。文獻[18]通過對構建的PPINs進行聚類,實現功能預測。Sanderson等人[19]提出了ProteInfer蛋白質功能預測方法。首先,ProteInfer對蛋白質氨基酸序列進行onehot編碼,并通過深度殘差卷積得到序列嵌入特征,最后經過帶有激活函數的線性層來輸出功能類別概率分布。但其仍然采用了BLAST[5]序列對比工具來提高預測精度,通過將BLAST得到的頂部命中相關聯序列的分數和ProteInfer預測的分數相乘,得到最終預測結果。
近年來,國內外學者在蛋白質功能預測研究上不斷探索,基于不同的方法實現了蛋白質功能預測。雖然以上方法在蛋白質EC功能預測中取得了一定的成果,但這些方法在網絡特征的提取上多采用基于序列或結構域對比方法,其在全局搜索過程中時間成本過高,也存在數據信息的局限性。當然,以上結果也表明,采用深度學習實現蛋白質功能預測是可行的。
本文提出了EGNet網絡模型,采用蛋白質預訓練語言模型ESM2[20]和onehot編碼得到蛋白質序列編碼;利用蛋白質序列殘基之間的協同進化信息,包括序列成對殘基之間的耦合關系(paired interaction,PI)和強耦合關系(strong paired interaction,SPI)矩陣作為圖網絡的鄰接矩陣,構建出圖網絡的拓撲結構,并通過學習序列編碼節點特征實現端到端的蛋白質功能預測。EGNet在預測過程中不需要其他輸入信息,具有預測精度高、速度快的優勢,為研究人員提供了便捷、準確的蛋白質功能預測方法。
1 研究方法
1.1 網絡架構
如圖1所示, EGNet模型主要包含序列編碼模塊、協同進化信息(coevolutionary information)模塊、兩組串聯的圖卷積神經網絡[21](GCN)模塊和MLP分類模塊。
對于EGNet模型的預測過程主要包含以下幾個步驟:
a)序列編碼嵌入。給定一條蛋白質序列,分別采用ESM2蛋白質預訓練語言模型和onehot編碼得到兩組序列編碼特征,具體方法將在1.2節中詳細闡述。之后將這兩種編碼信息融合得到最終的序列編碼嵌入,其大小為L×1306,L為序列長度。
b)提取協同進化信息。序列經過協同進化信息提取模塊,得到序列殘基間的耦合關系矩陣PI,其大小為L×L。為了多尺度地提取協同進化特征,對PI進行了物理特征提取[22],得到強耦合關系矩陣SPI,大小為m×m(m≤L)。對于PI和SPI的具體提取方法,將在1.3.1節和1.3.2節中詳細闡述。
c)圖卷積神經網絡特征學習。將序列水平的編碼特征經過線性層降維,作為圖卷積網絡的節點特征,PI和SPI分別作為兩組圖卷積網絡的鄰接矩陣,進行蛋白質殘基間的耦合特征學習。具體方法在1.4節中詳細闡述。
d)節點池化和功能預測。將最后一個圖卷積網絡層的節點輸出進行加和池化操作,并采用多層感知機(MLP)和softmax函數對預測輸出進行打分,實現蛋白質EC功能類標的預測。式(1)為softmax函數表達式。
其中:xi表示輸出類別向量中的第i個元素;n表示輸出類別向量的維度。
1.2 基于蛋白質語言模型ESM2和onehot的序列編碼
ESM2是一種基于BERT[23]模型的蛋白質語言模型,包含33個注意力層[24],通過多頭注意力機制和前向傳播神經網絡,ESM2能夠表示出序列殘基間的耦合關系,并提供有關蛋白質殘基間遠程同源性的信息。ESM2在訓練過程中采用了大規模的無標簽蛋白質序列數據,包括UniRef50、UniRef90[25]、Pfam[26]、TrEMBL[27]等數據庫,覆蓋了廣泛的物種和功能類別。通過如此龐大的信息學習,可以綜合考慮多個層面的生物信息,如進化同源性等。因此,通過ESM2對蛋白質序列進行編碼,能夠更好地獲得序列間的同源信息特征,有利于對蛋白質功能的研究。
蛋白質的結構和功能可能因自然序列的進化多樣性而存在相似性。為了提高蛋白質功能預測的準確性,EGNet采用了超過2.5億條訓練序列樣本的蛋白質語言模型ESM2對輸入序列進行編碼。
EGNet采用了兩種序列編碼方式,包括ESM2和onehot序列編碼。
a)ESM2序列編碼。該編碼是一種用于蛋白質序列嵌入的技術,其輸出為定長的向量表示,每個向量表示包含序列中每個氨基酸殘基的信息。這種序列編碼嵌入技術能夠捕獲蛋白質序列的全局和局部特征。具體而言,對于長度為L的蛋白質序列qL,ESM2序列編碼輸出的大小為RL×1280。
qL→ESM2→RL×1280(2)
b)onehot序列編碼。該編碼是蛋白質序列分析中常用的一種編碼技術,能夠將氨基酸序列的位置表示為固定長度的向量,并且僅有一個元素為1,其余元素為0,如丙氨酸(A)編碼為[1,0,0,…,0,0,0]。EGNet采用26維的onehot編碼方式,對輸入序列進行編碼,其中包括20種常見氨基酸和6種非常見氨基酸。這些非常見氨基酸在蛋白質中的出現頻率較低,但在某些生物體中具有特殊的生物學功能,因此被納入編碼過程中。對于長度為L的蛋白質序列qL,經onehot編碼,得到大小為RL×26的編碼特征。
qL→onehot→RL×26(3)
1.3 協同進化信息模塊
1.3.1 耦合關系矩陣
EGNet的耦合關系矩陣(PI)主要提取流程如圖2所示。
首先,一條序列經過序列自注意力模塊,得到序列殘基間的自注意力輸出。自注意力(selfattention)是注意力機制的一種類型,又稱內部注意力機制,其核心思想是在序列數據中對每個位置進行關注,計算某一位置與其他位置之間的關聯程度。對于蛋白質序列,可以確定每個殘基與序列中其他殘基的相關性。因此,采用自注意力機制能夠學習序列殘基間的關系。
如圖3所示,序列殘基間的自注意力操作主要包含以下幾個步驟。其中,網絡參數源自于ESM2預訓練參數。
a)序列嵌入。將序列編碼嵌入到向量空間Rd,d為序列編碼維度,并將每個殘基i的d維特征向量編碼看做一個查詢向量Qi,其他殘基編碼為一個鍵向量Kj和一個值向量Vj,計算公式為
Qi=WqRid,Kj=WkRjd,Vj=WvRdj(4)
其中:Wq∈Euclid Math TwoRApd×d′,Wk∈Euclid Math TwoRApd×d′,Wv∈Euclid Math TwoRApd×d′是學習得到的權重矩陣,d′是自注意力機制中的超參數,即Q、K和V的維度。
b)計算殘基間的相似度S,其計算公式為
其中:d為序列編碼的維度。
c)對殘基i的相似度Si采用softmax函數進行打分,并和值向量V進行點積計算后進行加權求和,得到殘基i的注意力輸出向量Att。
之后,將自注意力模塊得到的注意力特征送入線性層進行特征提取。對于第i個注意力層的輸出向量Atti,經過線性層變換,得到第i層特征表示向量PIi。linear為全連接神經網絡。
PIi=linear(Atti)(7)
最后,進行多層信息融合。如式(8)所示,通過對每層的注意力輸出PIi進行均值化處理,得到最終的耦合關系矩陣PI。
其中:m為所采用的注意力層的個數。
由于自注意力機制能學習序列成員間的相關程度,所以,得到的PI矩陣可表示出序列中每個殘基之間的耦合關系。
1.3.2 強耦合關系矩陣
在蛋白質序列中,殘基之間的相互作用可以影響其折疊和功能。本文提出強耦合關系矩陣(SPI)來描述蛋白質殘基之間較強的相互作用關系。
為了得到殘基間的強相互作用關系,本文實現了Cheung等人[22]提出的RC(residue communities)求解方法,將相關性較高的殘基分為不同的社區組。通過對PI進行計算處理得到SPI,主要流程如圖4所示。
具體計算步驟如下:
a)為了使SPI在統計上盡可能獨立,提取PI矩陣(RPI)的特征值Eij和特征向量vk,表示為
RPIvk=Eijvk(9)
采用Eij的前五個特征值中的兩個及其對應的特征向量vk定義前三個殘基群落。其中,閾值ε=0.05,用來提取相關性系數大的殘基:
(a)社區Ⅰ(紅),第i個位置上的殘基滿足
vik=2>max(vik=4,ε)(10)
(b)社區Ⅱ(藍),第i個位置上的殘基滿足
vik=2<-max(vik=4,ε)(11)
(c)社區Ⅲ(綠),第i個位置上的殘基滿足
vik=4>max(vik=2,ε)(12)
經過以上數值計算,將每條序列上具有強相關性的殘基分為了三個社區,分別表示不同的相關性強度(紅>藍>綠)。之后,根據殘基編號,將得到的兩兩殘基的強耦合關系矩陣Rm×m插值到L×L大小的零矩陣,得到最終的強耦合關系矩陣SPI。
1.4 圖卷積神經網絡模塊
圖卷積神經網絡(GCN)模塊由兩個串聯堆疊的GCN塊組成,每個網絡塊包含三個圖卷積層,每個GCN模塊的內部結構如圖5所示。
對于EGNet模型的每個GCN層,采用無向圖G={V,E,A}來表示,其中節點V由L個殘基組成,每一個殘基對應GCN圖中的一個節點;A為鄰接矩陣(包括PI和SPI),定義邊緣E。如果兩個殘基ai和aj之間存在關聯,則鄰接矩陣Aij=1;否則,Aij=0,鄰接矩陣直接體現在PI和SPI矩陣中,圖6(a)(b)展示了蛋白質序列A0A073CEA3的PI和SPI作為鄰接矩陣的示例,深色為兩個殘基在GCN中存在聯系。GCN的逐層正向傳播定義如式(13)所示。
GCN模塊的初始輸入特征包括PI、SPI和序列編碼嵌入特征。每個網絡塊的三層圖卷積層的隱藏層大小均設為512,輸出為三個圖卷積層的輸出并集,大小為1 536。其中,一個GCN塊使用耦合矩陣PI作為鄰接矩陣,從序列編碼嵌入中收集信息。序列編碼特征由每個殘基的氨基酸類型的onehot編碼(L×26)和ESM2的序列編碼嵌入(L×1280)組成,后經過線性層將序列編碼1 306維度嵌入到1 024維度,作為該網絡塊的節點特征。另一個GCN塊采用強耦合關系矩陣SPI作為鄰接矩陣,將功能上重要的殘基與殘基群體區分開來,學習對蛋白質功能有顯著貢獻的殘基信息,采用上一圖卷積塊的輸出作為節點信息。通過采用兩種鄰接矩陣,EGNet能夠從多個角度和層面綜合挖掘蛋白質序列的特征,提高蛋白質功能預測的準確性。
2 結果與分析
2.1 數據集
在生物化學領域,Enzyme Commission(EC)編號是用于對酶進行分類的本體系統,由國際生物化學聯合會命名委員會(Nomenclature Committee of the International Union of Biochemistry)制定。每個EC編號由四位數字構成,中間用句點分隔,例如,EC:3.1.3.16代表蛋白質絲氨酸/蘇氨酸磷酸酶。EC編號系統包含四個級別。在第一級別中,系統將酶分為氧化還原酶、轉移酶、水解酶、裂解酶、異構酶和連接酶六大類。EC編號的第一位數字表示酶屬于六大類中的哪一類,第二位數字表示子類,第三位數字表示亞類,第四位數字表示酶的底物[28]。目前,EC系統是公認的生物數據庫中酶的注釋方式。
采用ENZYME數據庫(2014年12月)[29]的EC類標和UniProt (UniProtKB,2022/04)對應的蛋白質序列來構建數據集。構建數據集的主要流程如下:
a)剔除了殘基數小于50的序列以避免片段數據,并將最大殘基數限制在1 024以內。
b)為了減弱樣本不均衡帶來的影響,只保留對應序列數大于4的EC功能類標,其數據分布如圖7所示,共剔除了2 503個功能類標,但整體序列樣本僅減少了1.63%。
c)將篩選后的序列采用MMseqs2[30]以50%的序列同一性進行聚類,并從每個聚類中選擇至少一個帶有注釋功能的代表性蛋白質序列。
經過以上步驟,確定了本文所采用的基準數據集,包括29 748條蛋白質序列和2 763個EC功能類別。其中,一條序列對應一個或多個功能類別,標記不同的催化反應。后將數據集劃分為訓練集(23 742)、驗證集(2 617)和測試集(3 389)三組。在三組數據中,每條蛋白質序列同樣對應一個或多個EC功能類別,其構建的數據集示例如表1所示。
2.2 超參設置
在網絡模型訓練過程中,將訓練批次batch的大小設為64,最多訓練100個epoch。訓練過程采用Adam[31]優化器,學習率設置為1×10-4,并加入了權重衰減操作,衰減率為1×10-4。為了避免過擬合,訓練采用了early stopping操作,并在MLP層引入了dropout操作,參數設置為0.3。采用PyTorch來搭建深度學習網絡框架,訓練采用單張GTX2080Ti顯卡,訓練成本低。
2.3 評價指標
本文采用損失函數值(loss)、召回率(recall)、精確率(precision)、Fscore作為模型泛化能力評價指標,具體計算公式如下:
a)對于損失函數,采用了交叉熵損失。
b)召回率。
c)精確度。
d)Fscore。采用β=1,即F1score來評價模型。
為了更準確地描述評價模型的召回率、精確率以及Fscore等指標,引入了混淆矩陣的概念。混淆矩陣中,TP表示正例預測為正例的個數;FP表示負例預測為正例的個數;FN表示正例預測為負例的個數;TN表示負例預測為負例的個數。
2.4 模型性能對比分析
對于EGNet模型,實現了端到端的預測方式,可以直接預測蛋白質的四級EC功能標注,同時也可以預測多功能蛋白。對于測試集的3 389條序列,將EGNet和其他幾種蛋白質EC功能預測方法,包括BLAST、GrAPFI、FunFams、ECPred、DeepEC和ProteInfer的性能進行比較。其中,根據ProteInfer的研究內容,最佳預測結果綜合運用了BLAST序列比對工具,該方法將BLAST所得的與頂部命中相關聯序列的分數與ProteInfer預測分數相乘,以得到最終的預測分數,下述結果采用了該策略。
對于召回率(recall)和精確率(precision)評價結果,體現在PR曲線上。由于PR曲線的兩個指標都聚焦于正例,對于蛋白質功能預測的研究,主要傾向于預測的準確性,即主要關心正例的預測結果。因此,采用了PR曲線來評價模型性能,結果如圖8所示。同時,也采用了Fscore作為性能評價指標,表2中列出了每種方法的Fscore和AUPR值,AUPR為PR曲線下的面積。圖9是結果數據的可視化。由結果可得,EGNet明顯優于其他模型。
2.5 PI和SPI不同閾值下的網絡性能
鄰接矩陣作為GCN的重要輸入,對其網絡性能具有一定的影響。為了更好地優化模型參數,提高模型的性能,采用雙循環閾值設置([0.1,0.4])來提高PI和SPI對預測模型的正向影響。EGNet在不同閾值下的預測結果如表3所示。其中,當PI閾值設為0.2,SPI閾值設為0.3時,EGNet的性能最佳,Fscore達到了0.89,AUPR達到了0.91。
2.6 消融實驗
由表3結果可知,GCN模塊鄰接矩陣的閾值選擇對于EGNet性能存在影響。為了驗證強耦合關系矩陣SPI對于網絡性能提升的作用,下面對GCN只采用PI作為鄰接矩陣來進行實驗,進而分析SPI對于網絡性能的影響。去除SPI前后的實驗對比結果如表4所示,訓練的超參設置保持一致。實驗對PI采用不同閾值進行測試。其中,EGNet采用了PI和SPI,所得的Fscore和AUPR為當前PI閾值設置下的最好結果。由實驗結果可得,相較于單獨采用PI,同時采用PI和SPI的網絡性能更好。
3 結束語
本文提出了一種基于協同進化信息和深度學習的蛋白質功能預測模型。相較于傳統的序列比對方法,EGNet實現了端到端的設計,通過處理ESM2的輸出獲取序列間的編碼特征和協同進化信息,并將其作為兩個串聯的GCN模塊的節點特征和邊緣特征,用于訓練并實現蛋白質功能預測。通過在ENZYME數據集上進行實驗,證明了該方法在蛋白質功能預測上的可行性。實驗結果表明,與現有模型BLAST、GrAPFI、FunFams、ECPred、DeepEC和ProteInfer相比,EGNet模型能夠更準確地預測蛋白質功能。后續研究將進一步發掘蛋白質序列信息,補充對蛋白質基因本體論GO(gene ontology)的預測,提供更全面的蛋白質功能預測信息。
參考文獻:
[1]Ciechanover A.The ubiquitinproteasome pathway:on protein death and cell life[J].The EMBO Journal,1998,17(24):71517160.
[2]The UniProt Consortium.UniProt:the universal protein knowledgebase in 2023[J].Nucleic Acids Research,2022,51:523531.
[3]Bairoch A,Apweiler R.The SWISSPROT protein sequence database and its supplement TrEMBL in 2000[J].Nucleic Acids Research,2000,28(1):45-48.
[4]Wood R D,Mitchell M,Sgouros J,et al.Human DNA repair genes[J].Science,2001,291(5507):12841289.
[5]Rahman S A,Cuesta S M,Furnham N,et al.ECBLAST:a tool to automatically search and compare enzyme reactions[J].Nature Methods,2014,11(2):171174.
[6]Das S,Lee D,Sillitoe I,et al.Functional classification of CATH superfamilies:a domainbased approach for protein function annotation[J].Bioinformatics,2015,31(21):34603467.
[7]Xie Zhongru,Hwang M J.Methods for predicting proteinligand binding sites[J].Molecular Modeling of Proteins,2015,1215:383-398.
[8]Zhao Bihai,Sai Hu,Li Xueyong,et al.An efficient method for protein function annotation based on multilayer protein networks[J].Human Genomics,2016,10(1):article No.33.
[9]Chua H N,Sung W K,Wong L.Exploiting indirect neighbours and topological weight to predict protein function from proteinprotein interactions[J].Bioinformatics,2006,22(13):16231630.
[10]Nabieva E,Jim K,Agarwal A,et al.Wholeproteome prediction of protein function via graphtheoretic analysis of interaction maps[J].Bioinformatics,2005,21(S1):302310.
[11]Li Yu,Wang Sheng,Umarov R,et al.DEEPre:sequencebased enzyme EC number prediction by deep learning[J].Bioinformatics,2018,34(5):760769.
[12]Altschul S F,Madden T L,Schffer A A,et al.Gapped BLAST and PSIBLAST:a new generation of protein database search programs[J].Nucleic Acids Research,1997,25(17):3389-3402.
[13]Finn R D,Clements J,Eddy S R.HMMER Web server:interactive sequence similarity searching[J].Nucleic Acids Research,2011,39(2):29-37.
[14]Dalkiran A,Rifaioglu A S,Martin M J,et al.ECPred:a tool for the prediction of the enzymatic functions of protein sequences based on the EC nomenclature[J].BioMed Central Bioinformatics,2018,19(1):113.
[15]Ryu J Y,Kim H U,Lee S Y.Deep learning enables highquality and highthroughput prediction of enzyme commission numbers[J].Proceedings of the National Academy of Sciences,2019,116(28):1399614001.
[16]Sarker B,Ritchie D W,Aridhi S.GrAPFI:predicting enzymatic function of proteins from domain similarity graphs[J].BioMed Central Bioinformatics,2020,21(1):115.
[17]吳建盛,唐詩迪,梅德進,等.面向蛋白質功能預測中有向無環圖標記結構的多示例多標記學習[J].國防科技大學學報,2022,44(3):2330.(Wu Jiansheng,Tang Shidi,Mei Dejin,et al.Multiinstance multilabel learning for labels with directed acyclic graph structures in protein function prediction[J].Journal of National University of Defense Technology,2022,44(3):2330.)
[18]沈婷婷,劉靜,管驍.基于多層功能結構的谷物蛋白質功能預測[J].農業工程學報,2023,39(1):261-268.(Shen Tingting,Liu Jing,Guan Xiao.Prediction of cereal protein function based on multilayer functional structures[J].Transactions of the Chinese Society of Agricultural Engineering,2023,39(1):261-268.)
[19]Sanderson T,Bileschi M L,Belanger D,et al.ProteInfer,deep neural networks for protein functional inference[J].Elife,2023,12:e80942.
[20]Lin Zeming,Akin H,Rao R,et al.Evolutionaryscale prediction of atomiclevel protein structure with a language model[J].Science,2023,379(6637):11231130.
[21]Kipf T N,Welling M.Semisupervised classification with graph convolutional networks[EB/OL].(20170222).https://arxiv.org/abs/1609.02907.
[22]Cheung N J,Huang Siyu.Residue communities reveal evolutionary signatures of γδ TCell receptor[EB/OL].(20221230)[20230313].https://doi.org/10.1101/2022.12.29.522230.
[23]Devlin J,Chang Mingwei,Lee K,et al.BERT:pretraining of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:41714186.
[24]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.New York:ACM Press,2017:60006010.
[25]Suzek B E,Huang Hongzhan,McGarvey P,et al.UniRef:comprehensive and nonredundant UniProt reference clusters[J].Bioinformatics,2007,23(10):12821288.
[26]Bateman A,Coin L,Durbin R,et al.The Pfam protein families database[J].Nucleic Acids Research,2004,32(S1):138141.
[27]Bairoch A,Apweiler R.The SWISSPROT protein sequence data bank and its new supplement TREMBL[J].Nucleic Acids Research,1996,24(1):21-25.
[28]CornishBowden A.Current IUBMB recommendations on enzyme nomenclature and kinetics[J].Perspectives in Science,2014,1(16):74-87.
[29]Bairoch A.The ENZYME database in 2000[J].Nucleic Acids Research,2000,28(1):304-305.
[30]Steinegger M,Sding J.MMseqs2 enables sensitive protein sequence searching for the analysis of massive datasets[J].Nature Biotechnology,2017,35(11):10261028.
[31]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(20170130).https://arxiv.org/abs/1412.6980.