周豐豐,張亞琪
(1.吉林大學 計算機科學與技術學院,長春 130012; 2.吉林大學 符號計算與知識工程教育部重點實驗室,長春 130012)
Ⅰ類人類白細胞抗原(HLA-Ⅰ)是位于人體細胞表面的主要組織相容性復合體(MHC)蛋白,具有啟動特異性免疫應答及提呈內源性抗原等作用.HLA-Ⅰ分子可識別位于癌細胞表面的腫瘤抗原肽,但僅可與小部分抗原肽特異性結合,形成呈遞給T細胞受體的肽-HLA復合物,若T細胞抗原受體(TCR)能識別癌細胞表面上的肽-HLA復合物,則毒性T淋巴細胞會破壞癌細胞,從而幫助免疫系統在識別病原體方面發揮關鍵作用.因此,研究多肽與特定的HLA-Ⅰ分子的結合機制對癌癥免疫治療和基于蛋白質的疫苗及藥物開發具有重要意義.
HLA-Ⅰ分子具有高度多態的特性,根據數據庫IMGT/HLA統計,目前已有超過23 000個Ⅰ類HLA等位基因,它們主要由HLA-A、B、C位點編碼,因此對于HLA-Ⅰ和多肽的結合預測模型分為兩類: 特異性模型和泛特異性模型.特異性模型即針對每個HLA-Ⅰ等位基因訓練一個對應的預測模型,如NetMHC[1]和SMM[2]等; 泛特異性模型則是對所有同種異型的HLA-Ⅰ分子訓練一個通用預測模型,如NetMHCPan[3]等.目前,仍有很多HLA-Ⅰ等位基因只具有少量的已知結合肽,由于泛特異性模型使用多個等位基因的數據進行訓練,不會被訓練數據集的大小限制,因此本文提出的ProHLAⅠ框架是一種泛特異性模型.目前,主流的預測方法有基于序列評分函數的方法和基于機器學習的方法兩種.用于氨基酸序列預測問題的序列評分函數已有許多種,例如氨基酸頻率評分[4-5]、基于WebLogo的熵信息[6]等.MHCflurry1.2.0[7]和HLA-CNN[8]等使用了機器學習和深度學習算法進行模型的搭建,基于原始的氨基酸序列生成更高維度的特征,從而實現預測任務.
蛋白質序列可被視為一種生命體語言,雖然蛋白質的結構和功能是動態的和上下文相關的,但其仍由潛在的氨基酸序列定義.像句子是由若干單詞組成一樣,蛋白質由一串氨基酸序列定義,目前已知的氨基酸共20余種,不同氨基酸的排列組合會形成不同功能的蛋白質.因此,從信息論的角度,蛋白質的信息被包含在它的序列中[9].鑒于上述生命體語言和文本語言的共性,深度學習算法已逐漸從自然語言處理領域(NLP)遷移至生物信息學[10-11],UniRep[12]將深度學習應用于未標記的氨基酸序列,從蛋白質序列中提取語義豐富的統計表示特征,并在下游任務中表現出優越性.TAPE[13]在5個與蛋白質相關的半監督學習任務中驗證了基于NLP的蛋白質嵌入編碼方式可更好地捕捉生物序列中的信息.預訓練語言模型BERT(bidirectional encoder representations from transformers)[14]一經提出就在11項NLP任務中取得了最先進的結果,Elnaggar等[15]使用大量蛋白質序列數據對原始的BERT模型進行了進一步微調,提出了蛋白質預訓練模型ProtBert.本文基于ProtBert提出一種新的HLA-Ⅰ和多肽的結合預測算法ProHLAⅠ,整合預訓練ProtBert模型、BiLSTM序列編碼能力和注意力機制,提取氨基酸序列的上下文信息生成高維度特征向量.實驗結果表明,將NLP領域中的文本語言模型遷移至蛋白質序列預測問題上,可有效提高預測的準確性.
1.1.1 BERT
BERT是一種基于Transformer模塊的自然語言處理領域預訓練模型.BERT采用多個雙向Transformers編碼模塊組成,每個編碼模塊由Self-Attention子層和Feed Forward子層組成,在每個子層后進行殘差連接和層歸一化操作,其結構如圖1所示.
BERT由預訓練和微調兩個階段任務組成.預訓練階段是利用大型語料庫對序列語言雙向編碼模型進行無監督訓練.定義了兩種全新的無監督預測任務優化網絡參數,分別是基于Mask機制的語言預測任務(簡稱Masked LM)[14]以及下一句預測任務,微調階段則針對具體的下游任務對與訓練模型進行微調.

圖1 Transformers Encoder模型Fig.1 Transformers Encoder model
1.1.2 ProtBert
蛋白質預訓練模型ProtBert[15]使用來自UniRef100[16]和BFD[17]的21億個蛋白質序列對原始的BERT模型進行進一步訓練,將蛋白質序列解釋為句子,將其組成成分氨基酸解釋為單個單詞,將模型從文本語言映射到生命體語言.與原始的BERT模型相比,ProtBert將組成模型的Transformer Encoder模塊層數提高至30層,以便在受監督的下游任務中獲得更好的性能,同時調整了模型的訓練策略,使該模型能在使用較大batch_size的同時首先從較短的序列中提取有用的特征,從而提高了對較長序列的訓練效率,進而提高了整體訓練效率.Elnaggar等[15]將ProtBert作為特征提取器在3個不同的下游任務(二級結構預測、定位預測以及膜或非膜蛋白的分類)中證明了將BERT遷移至蛋白質序列問題上的魯棒性.
循環神經網絡(recurrent neural network,RNN)廣泛用于時間序列數據類型內在模式的建模,但經典RNN網絡在處理長序列時具有長期依賴的問題.LSTM(long short-term memory)通過“門”結構控制網絡中信息的傳輸,使網絡可選擇性地記住或遺忘某些信息,有效解決了長序列在訓練過程中丟失較遠信息的問題.BiLSTM(bi-directional long short-term memory)由前向和后向兩個LSTM神經網絡組成,可以同時捕捉序列從前向后和從后向前的雙向語義依賴信息,解決了LSTM無法編碼從后向前語義信息的缺陷.
深度學習領域中的注意力(Attention)機制模仿人類觀察行為的過程,將注意力聚焦在重點信息區域,從而獲取更多的相關信息,減少無關信息的干擾.目前,注意力機制在多領域應用廣泛,如機器翻譯、自然語言處理、計算機視覺和蛋白質序列建模等.Attention機制在神經網絡處理大量輸入特征時,對不同的特征賦予不同的權重,使與任務相關的輸入信息參與下一步網絡的計算,從而提高了神經網絡處理信息的能力.
Attention機制的模型結構如圖2所示,其中Query向量,Key向量和Value向量在不同的具體任務中會根據輸入序列初始化,計算過程如下:

圖2 Attention機制模型Fig.2 Attention mechanism model
步驟1) 利用相似度函數,計算每個Key向量與Query向量的相似度,作為權重;
步驟2) 使用Softmax函數對權重進行歸一化操作;
步驟3) 將每個Value向量與對應的權重加權求和,得到Attention的輸出.
ProHLAⅠ網絡包括預處理模塊、詞嵌入的預訓練模塊、BiLSTM模塊、注意力模塊和分類模塊,其結構如圖3所示.
預處理模塊的輸入為原始HLA-Ⅰ分子和多肽對,由下列4個步驟組成:
1) 編碼.采取NetMHCPan中提出的HLA-Ⅰ偽序列轉換方式將HLA-Ⅰ分子轉換為長度為34的偽序列;
2) 補全.對于長度小于15的多肽,氨基酸“X”會被補至序列末尾,使多肽長度統一為15;
3) 連接.將HLA-Ⅰ偽序列與補全后的多肽序列連接,生成長度為49的HLA-多肽序列;
4) 將HLA-多肽序列首尾添加[CLS]和[SEP]標志以符合ProtBert模型的輸入格式.

圖3 ProHLAⅠ框架Fig.3 ProHLAⅠ framework
最終預處理模塊的輸出是長度為51的氨基酸序列.詞嵌入的預訓練模塊利用ProtBert語言模型提取預處理后的氨基酸序列中的高維特征,并將初步提取的特征作為BiLSTM編碼模塊的輸入,BiLSTM編碼模塊進一步學習氨基酸序列中的上下文依賴關系,然后注意力模塊將BiLSTM層的輸出加權融合得到最終的1 536維特征向量,通過全連接神經網絡和Softmax歸一化得到HLA-Ⅰ分子和多肽的結合預測結果,最后整個模型的輸出為一個一維向量,標識預測結果.
實驗數據集選取DeepHLApan[18]中整理的來自數據庫IEDB(http://www.iedb.org/)的81個HLA-Ⅰ等位基因和長度為8~15的多肽序列.共有437 077個HLA-多肽對參與實驗模型訓練,其中正樣本和負樣本的比例為1∶1,本文按照7∶2∶1將數據集均衡地分為訓練集、驗證集和測試集,用于模型調優和消融實驗.
從IEDB的每周基準測試集中下載11個子數據集作為獨立測試集1,并從IEDB上下載其他7種預測算法在上述數據集上的預測性能用于模型評估.采用文獻[19]中的獨立數據集作為獨立測試集2,該數據集由15個子數據集組成,且從未被開發工具用于模型訓練等.
本文將HLA-Ⅰ和多肽的結合預測規定為二分類任務.通過3個性能指標ROC曲線下面積(AUC)、準確率(ACC)和F1分數(F1-score)對模型預測結果進行評估,計算公式分別為

(1)
其中TP和FN分別表示真陽性和假陰性的數量,TN和FP分別表示真陰性和假陽性的數量,Precision表示精確率,Recall表示召回率.AUC是一個用于衡量分類器性能的指標,其值越大,分類器性能越優.
實驗的初始學習率設為5×10-5,訓練輪次epoch為3,batch size設為16,實驗中使用dropout防止過擬合,dropout率為0.1.
2.4.1 batch size參數評估
為確定最優的batch size參數,本文在僅適用ProtBert模型做特征提取器,后接分類模塊的前提下,分別設batch size為16,32和64進行對比實驗,在驗證集上得到的性能指標結果如圖4所示.由圖4可見,當batch size設為16時,ACC,AUC和F1分別得到了最優結果.因此,所有后續實驗batch size參數均設為16.
2.4.2 ProtBert結合模型評估
采用多模塊結合的方式預測HLA-Ⅰ和多肽的結合,實驗中評估4種不同的模塊結合方式以達到最好的預測結果,分別為ProtBert,ProtBert+BiLSTM,ProtBert+CNN及本文提出的ProHLAⅠ框架,在驗證集上得到的性能指標結果如圖5所示.由圖5可見,對ProtBert模型融合其他模塊可提升模型的分類性能,本文提出的ProHLAⅠ框架在3個評價指標下均達到了最優.因此,本文的最終模型采取了ProHLAⅠ框架結構.

圖4 不同batch size參數下的性能評估結果Fig.4 Performance evaluation results under different batch size parameters

圖5 不同結合模型的性能評估結果Fig.5 Performance evaluation results of different combination models
表1為使用獨立測試集1的11個子數據集,對本文提出的ProHLAⅠ與其他7種HLA-Ⅰ和多肽結合預測算法(NetMHCpan 4.0,SMMPMBEC,IEDB Consensus,NetMHCcons,PickPocket,MHCflurry 1.2.0和DeepHLApan)在AUC指標下的對比結果.

表1 不同預測算法對獨立測試集1的AUC指標對比結果
由表1可見,本文提出的預測算法在11個子數據集的6個中均得到了最高的AUC值,是8種預測算法中性能表現相對最穩定和最優的.即使對于所有預測算法的AUC值均不超過0.7的子數據集中,本文模型仍可在多數數據集上取得最優性能,從而證明了僅依賴氨基酸序列的上下文關系進行特征提取的方式對那些本身性能表現較差的數據會有更突出的預測效果.
表2為使用獨立測試集2的15個子數據集,對本文提出的模型與其他6種結合預測算法(Pickpocket,MixMHCpred,NetMHCpan 4.0,NetMHCcons,NetMHCstabpan和DeepHLApan)在AUC指標下的對比結果.由表2可見,所有算法在這些數據集上都取得了相似的性能,本文提出的ProHLAⅠ框架在其中的14個子數據集上的AUC指標值超過了0.990,并在其中10個子數據集上得到了最優的性能.

表2 不同預測算法對獨立測試集2的AUC指標對比結果
通過在兩組共26個獨立子數據集上的性能比較,本文算法在其中的16個子數據集上均有最優的性能,在所有預測算法中是預測性能最穩定的,因此本文提出的ProHLAⅠ框架可獲得與最新的HLA肽結合工具相當、甚至更優的性能.
綜上所述,本文針對HLA-Ⅰ結合肽預測問題,提出了一種基于NLP算法的模型,用于氨基酸序列的特征提取.本文研究不依賴序列評分函數,僅使用HLA-Ⅰ分子和多肽序列的自身信息構建特征.通過預訓練ProtBert模型初步提取序列中的重要特征,采用BiLSTM網絡進一步提取氨基酸序列上下文特征,基于注意力機制對提取的特征加權融合得到最終用于模型分類的特征向量.通過在兩組獨立測試集上的驗證結果表明,本文提出的預測模型均取得了最優性能,證明了整合自然語言處理領域的ProtBert預訓練模型、BiLSTM序列編碼功能和注意力機制編碼氨基酸序列的必要性,進而表明了將自然語言處理算法應用于蛋白質生命語言上的可行性[20-21].