周雨薇,岳鵬,黃健*
(1.電子科技大學生命科學與技術學院 成都 611731;2.成都東軟學院健康醫療科技學院 成都 611844)
抗體(antibody)是指機體內一類能識別外來潛在有害分子的表面并與之特異性結合,從而引發適應性免疫反應的免疫球蛋白(immunoglobulin,Ig)[1]。抗體在脊椎動物的免疫防御系統中起著不可或缺的作用[2],在重大疾病的預防、診斷與治療中也起著至關重要的作用[3]。在臨床實踐中,單克隆抗體(monoclonal antibody,mAb)的出現對癌癥和自身免疫性疾病的治療產生了革命性的影響,不少化學小分子不能作用的蛋白成為抗體藥物的高效靶標。由于二代測序、噬菌體展示等技術的發展,抗體藥物產業進入飛速發展的時代。單克隆抗體的結合特異性、安全性、構象穩定、可制造性等多種特性,使其成為目前最大的一類生物治療藥物[1]。據統計,美國FDA 批準上市的抗體藥已多達100 種[4],全球正在進行I、II 期臨床試驗的抗體藥物超過550 種,另有79 種已進入開發最后階段[5]。全球抗體藥物占據著巨大的市場份額,2018 年全球最暢銷的藥品TOP10 中,就有8 種是抗體藥物,當年抗體的全球市場價值為1152 億美元,預計2025年能達到3000 億美元[6]。無論從臨床價值還是產業角度,抗體藥物相關的研究在生物醫藥行業的熱度會持續增長。雖然抗體產業發展如此迅猛,但進入臨床試驗階段的人源或人源化治療性抗體最終能夠成功開發上市的只有15%左右[7]。不少抗體由于低表達、低穩定性、高聚集、存在交叉或自身相互作用等問題導致研發失敗。許多相互依存的因素影響著治療性抗體的成功開發,而選擇具有良好理化特性的候選藥能為后續研發奠定良好基礎。可開發性(developability)評估[8]的主要目標是嚴格評估單克隆抗體候選物的生化和生物物理特性,并選擇開發風險低的抗體分子。
目前,對抗體生物物理與生物化學特性進行測試已有多種相關實驗方法,如反映抗體的粘度、聚集傾向、溶解度的直立單層色譜(SMAC)、體積排除色譜(SEC)、親和捕獲自相互作用納米顆粒光譜(AC-SINS)、克隆自相互作用生物膜干涉(CSIBLI)、疏水相互作用色譜(HIC);反應抗體結合特異性的常見抗原或桿狀病毒顆粒(BVP)的酶聯免疫吸附試驗(ELISA)、多特異性試劑結合試驗(PSR);反映抗體熱穩定性的差示掃描熒光(TmDSF)等[9]。文獻[10]對被批準上市或處于II、III 期臨床試驗的137 個抗體進行了12 種實驗測定,給每項實驗中表現最差的10%的抗體標記一項缺陷。結果顯示,約2/3 的上市抗體沒有缺陷,而二期臨床試驗中的抗體約2/3 有一項或以上缺陷。這一觀察結果提示了大規模測試綜合評估抗體理化特性,可作為候選抗體的可開發性評估標志[10]。然而,通過實驗評估抗體藥物可開發性相關理化性質費事費錢費力。相較而言,計算方法更省時省錢[11?12]。
對抗體理化性質進行預測在近年來迅速成為免疫信息學研究的熱點。文獻[13]對12 種抗體的長期穩定性進行了為期2 年的測量,他們計算抗體凈電荷、空間聚集屬性(spatial aggregation propensity,SAP)分數,從中得出了可開發性指數(developability index,DI),并證明了其與抗體的聚集屬性密切相關。然而,DI 基于抗體晶體結構或同源建模形成的理論結構進行計算,速度較慢,結果受理論預測模型精度的影響較大。文獻[14]僅基于序列預測抗體聚集傾向,最佳模型的AUC 為0.76,性能欠佳,且收費使用。文獻[15]僅根據抗體序列,采用支持向量機訓練了能能預測抗體交叉或自身相互作用的模型CISI,準確率可達到88.20%,該模型可快速高通量地評估影響抗體可開發性的交叉或自身相互作用,缺點是模型中所含的特征數過多,容易導致過擬合,泛化性較弱。
針對上述問題,本文提出一個新的模型,用于預測抗體的交叉或自身相互作用,并提供了免費在線服務工具。該模型可作為抗體可開發性評估流程中的一個環節,以便研究者快速篩選出可開發性較高的候選抗體,加快研究進程,降低研發成本。
本文所使用的數據下載自文獻[10],包括48 條已被批準的和89條處于臨床II、III 試驗的抗體序列信息以及已被廣泛運用于抗體理化性質測定的12 種實驗檢測的結果。本文采用多特異性試劑結合試驗(poly-specificity reagent,PSR)、交叉作用色譜(cross-interaction chromatography,CIC)、克隆自相互作用生物膜干涉測定(clone self-interaction by biolayer interferometry,CSI-BLI)、親和捕獲自相互作用納米顆粒光譜(affinity-capture self-interaction nanoparticle spectroscopy,AC-SINS)4 個指標對抗體的交叉或自身相互作用進行綜合評估。
為保證數據的準確性,有沖突記錄的6 條抗體序列被排除。將抗體重鏈可變區與輕鏈可變區連接(重鏈在前,輕鏈在后)作為抗體的序列。文獻[10]對給每項實驗中表現最差的10%的抗體標記一項缺陷,當實驗數據超過或低于該閾值時,該抗體則標記為一項缺陷。根據缺陷數,將抗體分為正負樣本,至少有一項缺陷的為正樣本。4 種實驗的閾值如表1 所示,最終得到85 條陰性樣本(未顯示缺陷標記),46 條陽性樣本,每條抗體的標記情況詳見圖1。CIC、CIS、AC-SINS、PSR:1 表示該實驗方法測出的結果顯示抗體有缺陷,0 表示沒有缺陷。flags:每種缺陷標記之和,大于等于1 時抗體為陽性樣本,等于0 時抗體為陰性樣本。在機器學習中,正負樣本不平衡是一個常見的問題,多數量樣本所含有的信息量較大,會對分類器學習過程造成影響。為解決該問題,85 條陰性樣本被隨機分為包含42、43 條抗體的兩組,再分別與46 條陽性樣本組成兩個相對平衡的子數據集(group1、group2),分別構建模型,最后集成模型預測抗體的交叉或自身相互作用。

表1 4 種評估抗體交叉或自身相互作用的實驗閾值

圖1 每個抗體交叉或自身相互作用的缺陷標記熱圖
目前機器學習技術已越來越多的用于DNA、RNA、蛋白質序列分析,但其輸入必須是數值而不能是字符。構建一個高效的預測工具,除了基準數據集可靠之外,使用適當的方法,將序列數據無失真地轉為數值表達,以描述他們與結構和功能屬性的內在關聯也是至關重要的[16]。基于大量實驗,本研究選擇二肽與期望均值的偏差(dipeptide deviation from expected mean,DDE)[17]來提取序列特征。氨基酸頻率與各自期望平均值的偏差值由文獻[18]提出,用于確定蛋白質的親緣關系。編碼20 種氨基酸的密碼子數有所不同,理論上,編碼相鄰的兩個氨基酸的密碼子數目越多,該二肽組分出現的頻率越大,DDE 反應了二肽組分出現的頻率與期望值偏差,DDE 絕對值越大,說明該二肽組分與理論值偏差較大,能夠揭示特定蛋白質序列的潛在標志。DDE 通過計算二肽組分Dc、理論均值Tm和理論方差Tv3 個參數構建DDE 特征向量,具體計算過程如下:

式中,Nrs是由r 和s 型氨基酸所代表的二肽的數量;N是蛋白質或肽的長度。

式中,對于給定的二肽r、s,Cr是編碼第一個氨基酸r的密碼子數量;Cs是編碼第二個氨基酸s的密碼子數量;CN是密碼子總數,除去3 個終止密碼子,編碼氨基酸的密碼子數CN=61。根據理論均值Tm,即可算出理論方差Tv:

DDE 可被定義為:

對于400 種二肽組成,均計算他們之間DDE,最終可得到一個400 維的特征向量,可表示為:

除此之外,為比較不同的特征提取算法,使用iFeature 軟件包[19]計算了包括AAC,DPC,TPC,CKSAAP,DDE,GAAC,CKSAAGP,GDPC,GTPC,Moran,Geary,NMBroto,CTDC,CTDT,CTDD,CTriad,KSCTriad,SOCNumber,QSOrder,PAAC這20 種特征描述符,除了上述詳細介紹的DDE 之外,其余算法的具體過程以及用法的參數解釋均在iFeature 的操作手冊中有詳細介紹,這里便不再贅述。
特征選擇(feature selection,FS)也稱特征子集選擇,指從已有的所有M個特征中,選擇出N(N 目前,研究者已提出許多有效的特征選擇方法用于降維。集成學習方法已應用到了包括生物信息在內的眾多領域中,該方法結合多個單一技術來解決相同的問題,旨在克服單一技術的弱點,同時保留各個技術的優勢[20]。文獻[21]基于PageRank 算法,開發了一種集成排序的方法MRMD2.0,用于特征排序與降維。MRMD2.0 首先計算得出不同的特征排序;然后將所有的排序用有向圖表示(a→b表示特征b比特征a重要,得到一個鏈接列表),使用PageRank 得到每個特征的新排名;最后采用序列前向選擇,從中篩選出最優特征子集。 支持向量機(support vector machine,SVM)是由文獻[22]在1995 年首次提出的用于分類與回歸分析中一種監督式學習模型與相關學習算法。SVM 的基本思想是在空間中找出間隔最大的、能正確劃分正負樣本的超平面。在線性可分的情況下,樣本點中與超平面距離最近的點稱為“支持向量”,其余的樣本點稱為“非支持向量”。非支持向量的移動與刪除不會對最優超平面產生影響,即支持向量對模型起著決定性的作用。支持向量機能有效解決實際問題中樣本較少但特征維度較高的問題,它具有的另一個優勢是,在線性不可分的情況下,使用核函數,即使用核變換將原數據隱式映射到新的空間,然后在新空間里用線性方法,找超平面將樣本分開。支持向量機靈活多變,深受各個領域的研究者喜愛,目前已應用于(超)文本分類、圖像分類、金融預測、生物信息學[23-25]等相關領域。鑒于SVM 處理分類問題的出色表現,許多團隊基于SVM 開發了軟件包,以便研究者使用。LIBSVM 是文獻[26]開發的一個操作簡單、快速有效的開源軟件包,本課題使用該軟件包來構建模型。 為了直觀地衡量一個分類預測器的好壞,需要引入一些指標參數對模型進行評估,對于分類問題,常用的評價指標有:敏性感(sensitivity,Sn)、特異性(specificity,Sp)、準確率(accuracy,ACC)、馬氏相關系數(MCC)等。其中Sn 與Sp 只能表示對一類樣本的預測能力。ACC 代表了模型的整體預測準確度。MCC 是一個相對平衡的預測評價指標,它綜合考慮了TP、TN、FP 和FN,避免了樣本不平衡偏差。相關的計算公式如下: 此外,本文使用了ROC 曲線下面積(area under curve,AUC)作為模型評估的另一項指標。ROC曲線即受試者工作特征曲線(receiver operating characteristic curve),是一個以在不同條件下的1-Sp 為橫坐標,Sn 為縱坐標繪制的二維曲線。AUC 的值介于0~1。ROC 曲線越靠近左上角,即曲線下面積越大時,模型的預測性能越好。實際情況中,AUC 的取值在0.5~1;該值與Sn、Sp、ACC 等指標不同,不受預測閾值的影響,是一個更具可比性的反映模型好壞的指標。 將用于預測抗體交叉或自身相互作用的數據分為兩組(group1、group2),分別進行DDE 特征提取,并使用MRMD2.0 降維,最終第一組得到的特征數為86、第二組特征數為152。將最優特征子集組成的特征空間作為輸入,得到group1 與group2 兩組數據的最優模型參數c、g值(表2),當c與g取最優值時,兩個模型的留一交叉檢驗ACC 分別為72.72%與82.02%。接下來分別訓練SVM 子模型(CISI1 與CISI2),表3 中列出了兩個SVM 子模型的詳細預測結果。 表2 兩組數據的最優c、g 值與模型的準確率 表3 兩組數據集基于留一法交叉檢驗的預測模型評估指標 上述結果中,子模型的準確率最高僅能達到82.02%,本文采用集成方法得到集成模型,提高預測效能,集成策略為:將所有樣本作為每個子模型的輸入,每個樣本得到兩個預測結果以及其屬于該類別的概率,對兩個概率值求平均得到最終的概率均值,作為判斷樣本類別的標準(閾值為0.5)。如表4 所示,當集成模型時,對抗體交叉或自身相互作用的預測準確率能達到96.18%,敏感性能夠提升到100.00%,AUC 為0.9699,結果表明集成模型是預測抗體自相互作用與交叉相互作用的更優模型。 表4 抗體交叉或自身相互作用集成模型的預測結果 為了確定與抗體交叉或自身相互作用密切相關的特征,表5 列出了兩個子模型中共同包含的DDE 特征,共45 個。這些DDE 特征中所包含的氨基酸,多為疏水的非極性氨基酸。其中共有11 個在正樣本組與負樣本組之間有著較高的DDE差異比率(>2 或<0.5)如表6 所示,結果顯示,在正負樣本間DDE 差異比率最大的二肽組分為TN、FN、GA、NP、WT、DR。在具有交叉或自身相互作用的抗體中,TN 的DDE 值為負樣本組的25.914倍,而NP 的DDE 值明顯降低,僅為負樣本組的0.067 倍。這說明當表6 中列出的二肽組分的出現的頻率偏離了期望值時,抗體更易出現交叉或自身相互作用缺陷,在開發前期需要盡早淘汰。 表5 CISI1 與CISI2 共有的DDE 特征 表6 正樣本組與負樣本組的平均DDE 差異比率 為了更為全面地評價不同特征提取算法的預測效果,使用了iFeature 包中的其余19 種方法對相同分組的數據進行特征提取,MRMD2.0 篩選特征子集,建立SVM 模型,同樣采用投票策略集成預測器,從特征維度,分類器效能方面比較不同的特征提取算法對識別抗體交叉或自身相互作用的影響。 MRMD2.0 對每類特征進行降維后的結果如圖2 所示,圖中橫坐標括號里為原始特征維度。僅從特征數量看,在預測精度提升的前提下,多數的特征在兩個子數據集中都被減少了60%以上,如:TPC、DDE、CKSAAP、CTriad、GTPC、KSCTriad。部分特征,如CKSAAP、CKSAAGP,存在著在兩個數據集中維度相差較大的情況,同樣說明這些特征容易受樣本的影響,缺乏泛化性。 圖2 MRMD2.0 降維結果 好的特征不僅在數量上要少,同時還能保證模型的效能。20 種特征提取算法得到的數據建立集成模型的具體預測結果如表7。基于DDE 特征得到模型的Sn、Sp、ACC、MCC 與AUC 均為最高,因此,在綜合特征維度以及集成分類器的分能效能考慮之后,認為DDE 這類特征能夠作為預測抗體的交叉或自身相互作用的重要標志。 表7 20 種特征提取算法構建的集成預測器的結果 本課題組在之前的研究中,構建了預測抗體交叉或自身相互作用的集成模型CISI,數據預處理過程與本文相同,但隨機分組樣本不同。該模型使用的特征提取方法為三肽組分(TPC),特征選擇方法為f-score,基于兩個SVM 集成最終的預測模型。子模型分別包含了356、346 個特征,準確率分別為86.52%與89.89%,集成模型的準確率為88.20%。CISI 模型中包含的特征數遠遠超過了樣本數,易造成過擬合現象,模型泛化性低。本研究中使用不同的特征提取、特征選擇方法進行改進,從特征層面與模型效能層面與CISI 比較,由于CISI 與本文對正負樣本的定義相反,本文將敏感性定義為對有缺陷的樣本的識別能力,對原文中的敏感性特異性進行轉換。 如表8 所示,CISI 使用了TPC 特征,兩個子模型的特征數為300 以上,而CISI2.0 使用DDE特征,模型用了更少的特征數,敏感性、特異性、ACC、AUC 均得到了提升,其中敏感性達到了100%,CISI2.0 能識別出所有具有交叉或自身相互作用缺陷的抗體,而CISI 的敏感性僅為86.05%。綜上,認為相對于CISI,CISI2.0 是預測抗體交叉或自身相互作用的更優模型。 表8 CISI 與CISI2.0 在特征與模型層面的比較 上述特征提取、特征篩選、模型構建等過程,都是使用命令或腳本完成處理的,為了方便研究人員使用本文構建的預測模型,需要開發一個用戶友好的在線網頁服務器。利用HTML、CSS、PHP、JavaScript、Python 等語言將CISI2.0 集成模型開發為在線服務工具,用戶可通過以下鏈接訪問并使用此工具:http://i.uestc.edu.cn/CISI2/。CISI2.0 的主頁如圖3,要求用戶分別輸入FASTA 格式的重鏈與輕鏈序列數據,點擊“Predict”,在結果頁面會返回每條抗體的預測結果,頁面上方有結果說明。 圖3 CISI2.0 在線工具主頁面 進行單克隆抗體藥物的可開發性評估,對治療性抗體開發具有指導意義。在早期篩選出具有良好理化性質的先導抗體有助于提高后期開發的成功率,降低研發成本。因此,本文以臨床II、III 期或已批準上市的137 條抗體序列與實驗數據為基礎,建立模型預測抗體交叉或自身相互作用。首先,根據實驗測定值,將抗體序列劃分為正負樣本集,為了避免數據集不平衡的情況,將負樣本分成與正樣本數量相當的組,分別與正樣本組成子數據集。然后采用DDE 算法提取序列特征,MRMD2.0篩選最優特征子集,最后構建基于SVM 的集成模型。最終模型的敏感性達到100%,準確率為96.18%。為了探究DDE 是否為最適特征,本文與其余19 種特征提取算法進行了比較,基于DDE 特征構建的模型,特征數較少,并且各項評價指標均為最好,所以認為DDE 能作為預測抗體交叉或自身相互作用的重要標志。除此之外,與已發表的模型相比,CISI2.0 在使用較少特征的基礎上,提高了模型的預測準確率,降低了過擬合風險。 當然,本文仍有一些不足:數據的規模和質量直接關系到任何一種機器學習模型的最終效能,獲得可靠的數據以及正負樣本的構建標準是建立模型最重要的基礎。本研究中所用抗體樣本量有限,無法進行獨立驗證。因此,需要跟進抗體數據庫、相關文獻的更新,以及關注抗體行業的發展,收集更多的抗體數據,使得樣本含量小、樣本不平衡的情況得以解決。此外,集成學習已經成為分類算法的主流。本研究的集成模型中,每個基分類器都是SVM 模型,可以考慮嘗試新的集成方法,同樣的數據,用不同的機器學習算法構建模型,最后將不同方法的基分類器集成。 最后,希望本文提出的算法流程以及構建的預測模型能夠對評估抗體可開發性相關領域提供借鑒與幫助,能作為抗體可開發性評估流程的一個環節。接下來的工作將著眼于其余影響抗體可開發性的重要因素,從結構、安全性、可制造性等,全面對抗體的可開發性進行評估。2.3 分類算法
2.4 模型評價

3 實驗結果
3.1 基于DDE 特征的模型預測結果



3.2 DDE 特征


3.3 不同特征提取算法的比較


3.4 與已發表的模型相比

3.5 在線服務

4 結束語