劉炳輝,馬潔,朱云平
細胞外基質蛋白質預測工具研究進展
劉炳輝1,2,馬潔1,2,朱云平1,2
1 軍事科學院軍事醫學研究院 生命組學研究所,北京 102206 2國家蛋白質科學中心 (北京)北京蛋白質組研究中心蛋白質組學國家重點實驗室,北京 102206
細胞外基質蛋白質在細胞的一系列生物過程中發揮著重要作用,它的異常調節會導致很多重大疾病。理論細胞外基質蛋白質參考數據是實現細胞外基質蛋白質高效鑒定的基礎,研究者們已經基于機器學習的方法開發出一系列的細胞外基質蛋白質預測工具。文中首先闡述了基于機器學習模型構建細胞外基質蛋白質預測工具的基本流程,之后以工具為單位總結了已有細胞外基質蛋白質預測工具的研究成果,最后提出了細胞外基質蛋白質預測工具目前面臨的問題和可能的優化方法。
細胞外基質蛋白質,分類特征,預測工具,機器學習
多細胞生物的組織由細胞及細胞分泌的大分子網絡組成,這些大分子網絡就是細胞外基質(Extracellular matrix,ECM)[1]。ECM蛋白質包括膠原、糖蛋白、蛋白聚糖、粘連蛋白、參與ECM形成和重塑的酶以及其他因子[2]。ECM蛋白質在細胞的形成、分化、增殖、生存、極性和遷移中起著至關重要的作用[3-4],其調節異常易導致馬凡綜合征、成骨不全、軟骨發育異常和癌癥等諸多疾病的發生[5-8]。因此鑒定細胞外基質蛋白質的組成對于深入理解其功能以及為相關疾病提供有效的治療靶標具有重要作用。
通過實驗鑒定蛋白質的細胞外基質定位需要耗費大量的時間和人力,因此,目前大量蛋白質的定位尚未得到實驗驗證。為解決這個問題,2012年Naba等[9]通過基于蛋白質功能結構域的半經驗方法構建了理論的ECM蛋白質參考數據集——Matrisome,并在2016年發布了更新的2.0版本;同時他們通過對公開的ECM質譜實驗數據集進行統一分析并與Matrisome理論列表比較,得到了人類和小鼠的首個ECM草圖(ECM Atlas)[1]。ECM Atlas中已有結果顯示Matrisome與實驗數據的重合度并不高,同時其他研究人員開展的不同物種或者不同組織的ECM蛋白質組研究也證實了類似的結果[10-13]。Naba等認為造成這一結果的原因是多方面的,而基于結構域半經驗預測方法本身的局限性可能就是其主要原因之一[1]。
不同于Naba等采用半經驗的方法來判定ECM蛋白質,更多的研究者通過機器學習模型發展了一系列ECM蛋白質預測工具,包括:ECMPP[14]、EcmPred[15]、PECM[16]、IECMP[17]、ECMP-HybKNN[18]、BAMORF[19]和TargetECMP[20]等。這些工具都基于“標準數據集選取——特征提取——特征篩選——學習分類——模型性能評估”這一主流生物信息學預測工具流程進行構建,可以實現ECM蛋白質的自動預測,不同的工具分別針對流程中的不同部分進行了創新,由此推動了ECM蛋白質預測工具的不斷發展。
文中以基于機器學習模型發展的ECM蛋白質預測工具為主,首先闡述這一類工具構建的基本流程,然后以工具為單位總結已有ECM蛋白質預測工具的研究成果,最后討論ECM蛋白質預測工具普遍面臨的問題和可能的優化方法。
ECM蛋白質預測工具構建的基本流程如圖1所示,可以概括為5個主要步驟:I) 金標準數據集的構建,包括確定為ECM蛋白質的陽性數據集和確定為非ECM (non-ECM) 蛋白質的陰性數據集;II) 特征提取,將每一個蛋白質序列表示為一個特征向量,特征向量由與ECM蛋白質預測相關的特征組成;III) 特征篩選,通過特征重要性打分和增量特征選擇挑選出最優特征子集,以消除冗余特征帶來的噪音;IV) 學習分類,運用隨機森林、支持向量機等機器學習算法對數據集進行訓練和建模;V) 模型性能評估,計算模型的敏感度、特異度和準確率等指標以評估模型的性能。
根據已有實驗或者數據庫注釋,選取確定的ECM蛋白質和non-ECM蛋白質分別構成模型訓練的陽性數據集和陰性數據集。數據集的選取是構建ECM蛋白質預測工具的基礎,從根本上決定了預測工具性能的優劣,因此應盡量保證數據集中ECM和non-ECM蛋白質的準確性。
除ECMPP之外[14],目前已發展的ECM蛋白質預測工具所采用的標準數據集均來自于Kandaswamy等2013年開發EcmPred時所構建的數據集:選取Swiss-Prot數據庫 release 67版本中的17 233個多細胞動物的分泌蛋白質作為初始數據集,其中1 103個含有ECM注釋信息的認定為ECM蛋白質,作為陽性數據集,剩余16 130個不包含ECM注釋的蛋白質作為陰性數據集,然后對數據去冗余以保證蛋白質序列兩兩之間的相似度不超過70%。最后得到由445個ECM蛋白質構成的陽性數據集和4 187個non-ECM蛋白質構成的陰性數據集[15]。

圖1 細胞外基質蛋白質預測工具構建的基本分析流程
在發展蛋白質屬性預測方法的計算過程中,蛋白質序列往往被表示為一個特征向量,該向量可以反映出序列與預期目標的內在相關性[21]。發展有效的特征提取方法甚至能比改進分類器實現更高的預測精度[22]。因此,為蛋白質提取精準的特征向量是預測成功的關鍵步驟。有研究者指出單一特征不能很好地保留足夠多的區分信息[23],所以目前絕大部分ECM蛋白質預測工具都提取了多種特征。其中一些代表性的特征得到了大部分研究人員的青睞。
偽氨基酸組成(Pseudo amino acid composition,PseAAC) 和二肽組成(Dipeptide composition,DPC) 均為基于序列組成信息的特征,可以同時反映蛋白質序列的氨基酸組成信息和氨基酸之間的順序信息[24-25],在ECM蛋白質預測工具中得到了廣泛應用[17-19]。
蛋白質的結構和功能很大程度上由其基本單元氨基酸的理化性質(Physicochemical properties,PP) 所定義。經過大量的實驗和理論研究,研究者們用氨基酸指數(Amino acid index,AAIndex) 來表示每一種氨基酸的理化性質[26]。理化性質已被廣泛應用于蛋白質亞細胞定位的研究,目前大多數的ECM蛋白質預測工具也把基于理化性質的特征作為提取的重要特征之一[15-17,19]。
氨基酸殘基的改變、插入和刪除等序列變化伴隨著蛋白質演變的全部過程[27]。經過漫長的時間,這些累積的進化會慢慢消除初始蛋白和最終蛋白之間的相似性,但是和蛋白質基本屬性相關的一些關鍵性殘基傾向于一直保持穩定,表現為進化的保守性。進化保守性通常反映了重要的生物學功能[28]。因此基于進化信息的特征對于蛋白質結構和功能的刻畫至關重要[29],在ECM蛋白質預測工具中也得到了廣泛的應用[14,16-17,20]。位置特異性得分矩陣(Position specific scoring matrix,PSSM) 能夠很好地反映蛋白質進化信息,如下所示,PSSM由20×個元素組成,代表蛋白質序列的長度[30],E代表在進化過程中序列第位的氨基酸突變形成氨基酸的得分,為了讓不同蛋白質的PSSM具有可比性,研究人員通常會對初始的PSSM進行不同方式的標準化,標準化的方式也可以有不同的選擇[16-17,20]。

多個特征的組合一般可以提升預測的準確率,但同時也可能因為特征冗余帶來噪聲干擾,使模型過擬合并顯著增加數據分析的存儲需求和計算成本[31]。為了克服這些挑戰,有必要進行特征篩選以獲得最優特征子集。構建ECM蛋白質預測工具常用的特征篩選一般包括2個步驟:特征重要性打分(Feature importance score,FIS)和增量特征選擇(Incremental feature selection,IFS)。
FIS是指通過特征打分算法對所有特征進行重要性打分并按照評分由高到低進行排序。現有ECM蛋白質預測工具中采用的算法包括:平均精度減少(Mean decrease accuracy,MDA)[14]、最大相關最小冗余(Maximum relevance minimum redundancy,MRMR)[15]、費希爾-馬爾可夫選擇器(Fisher-Markov selector)[16]、信息增益率(Information gain ratio,IGR)[17]和二元動物遷徙(Binary animal migration)[19]等。
基于FIS得到有序特征列表后,再通過IFS確定分類模型特征。該過程始于一個空特征子集,按照特征重要性的順序由高到低依次加入,每加入一個特征,就生成一個新的特征子集(個特征將生成個特征子集)。預測表現最佳、同時包含更少特征的特征子集被認為是最優特征子集[17]。
經過特征提取和特征篩選兩個步驟后,數據集中的每一個蛋白質序列都由一個最優特征向量來表征。基于最優特征向量和它們的分類標簽(ECM或non-ECM),運用機器學習分類算法進行訓練建模,最常用的算法是隨機森林(Random forest,RF)[14-15,17,19,32]和支持向量機(Support vector machine,SVM)[16,20,33]。隨機森林能夠同時處理連續型變量和離散型變量,并且處理速度較快,它對異常值和噪聲有較好的容忍度,不易于過擬合,是一種很有優勢的機器學習算法;但是當訓練數據集不均衡時,隨機森林會傾向于將樣本預測為數目較多的類別[32]。支持向量機能更好地識別高維模式,同時在面對非線性和小樣本問題時有更好的表現,它能夠找到全局最優解,具有較優的泛化能力;但是支持向量機的分類預測效果比較依賴于核函數的選擇,同時其運算效率也有待改進[34]。除此之外,Ali團隊還嘗試使用K近鄰算法(K nearest neighbor,KNN)[35]作為ECM蛋白質預測工具的分類算法[18]。
在統計預測中,如果僅簡單給出一個預測模型的成功率,而不說明使用的交叉驗證方法,那么這樣的結果是沒有意義的[21]。常用的交叉驗證方法包括:獨立數據集檢驗(Independent dataset test)、K-fold交叉檢驗(K-fold cross validation) 和Jackknife檢驗(Jackknife test)。相比于獨立數據集檢驗和K-fold交叉檢驗,Jackknife檢驗的優勢在于可以有效避免隨意性的問題,即對于一個給定的原始數據集,Jackknife檢驗的結果是唯一的。但是Jackknife檢驗也有自身的劣勢,當原始數據集中蛋白質序列的兩兩相似度超過25%時,Jackknife檢驗估計的成功率過高,同時Jackknife檢驗相對于其他兩種交叉驗證方式更耗時。現有ECM預測工具普遍采用的標準數據集中蛋白-蛋白序列的相似度都超過了25%的臨界線,采用Jackknife檢驗會有高估成功率的風險且比較耗時,因此大部分預測工具都采用了獨立數據集檢驗[15-16,19]或K-fold交叉檢驗[14,17-18]。
用于評估模型性能的參數一般包括敏感度(Sensitivity,Sn)、特異度(Specificity,Sp)、準確率(Accuracy,Acc)、Matthew相關系數(Matthew’s correlation coefficient,MCC) 和受試者特征曲線(Receiver operating curve,ROC)。上述參數都可以通過真陽性(True positive,TP)、假陰性(False negative,FN)、真陰性(True negative,TN) 和假陽性(False positive,FP) 4個指標來表示。
Sn指正確將陽性數據集中的樣本預測為ECM蛋白質的比例:

Sp指正確將陰性數據集中的樣本預測為non-ECM蛋白質的比例:
Acc指正確預測數據集中ECM蛋白質和non-ECM蛋白質的比例:

在數據集不均衡的時候,MCC也是一個不錯的評估模型性能的參數。它的取值范圍是(?1,1),MCC=1代表模型能正確地預測所有的樣本,MCC=?1代表模型將所有的樣本都預測錯誤,MCC=0代表模型在隨機的進行預測。它的表示方式為:
以上評估參數有一個共同的缺點:它們的取值依賴于閾值的選擇,設置不同的閾值可能會出現不同的結果。而ROC則不受限于閾值,它是一條以Sn為縱軸,以(1?Sp) 為橫軸的曲線,通過計算曲線下面積(Area under the curve,AUC),可以有效衡量預測模型的性能。
研究人員在研發ECM蛋白質預測工具的過程中,逐步發現并解決了很多問題,包括:探索數據集不均衡時的建模策略和評估方法,發掘能夠顯著預測ECM蛋白質的特征,對機器學習分類算法進行調參以獲得更優的預測性能等等,這些研究成果對今后ECM蛋白質預測工具的發展和改進有重要的啟示作用。目前已經發展的ECM蛋白質預測工具如表1所示,本節將對這些工具的主要特點進行總結。
ECMPP是較早通過機器學習建模對ECM蛋白質進行預測的工具[14],在ECM蛋白質預測研究領域具有開創性意義。在標準數據集構建方面,雖然后來的研究者廣泛采用的是EcmPred工具發展的標準數據集,但是EcmPred數據集的構建思路和ECMPP完全一致:都是以Swiss-Prot中的多細胞動物分泌蛋白為初始數據集,認為有ECM注釋是ECM蛋白質,沒有ECM注釋則為non-ECM蛋白質,去冗余之后形成最終的金標準數據集。因此可以認為ECMPP也是ECM蛋白質預測工具標準數據集構建思路的開創者。

表1 主要ECM蛋白質預測工具及其特點
Jung: the standard dataset used by Jung et al to build ECMPP in 2010; Kandaswamy: the standard dataset used by Kandaswamy et al to build EcmPred in 2013; SI: extracted features based on the sequence information; EI: extracted features based on the evolutionary information; SI: extracted features based on the structural information; PP:extracted features based on physicochemical properties.
EcmPred的最大貢獻在于構建了一個被后來的ECM蛋白質預測工具研究者所廣泛采用的標準數據集[15]。但是該數據集存在數據不均衡的問題,即陽性數據集的樣本數目(445) 遠少于陰性數據集的樣本數目(4 187)。如果采用不均衡的數據集進行模型訓練,則會導致對小樣本數據(即陽性數據) 的預測精度變差[17]。針對這個問題,Kandaswamy等[15]提出了解決方案:從原始數據集中分別隨機選取同等數目的ECM樣本(300) 和non-ECM樣本(300) 進入訓練集,使得訓練集中的陰性數據和陽性數據的數目相同。這種方法避免了模型在陽性數據集中預測精度較差的問題,卻不能充分利用原始數據集的樣本信息,只能作為一個初步的解決方案。
PECM首次使用了PSSM特征[16],并采用了SVM分類算法。相比于一般的特征,PSSM的批量提取一方面需要使用特定的工具(比如PSI-BLAST) 和合適的背景庫(比如SwissProt),另一方面需要耗費較多的時間(時間長短和背景庫大小成正比)。但是實踐證明這些代價是值得的,因為PSSM確實是預測ECM蛋白質的一個重要特征,在隨后發展的ECM蛋白質預測工具研究中被廣泛使用。SVM的一個特點是:C和γ這兩個參數對模型影響很大,因此調參可以顯著改善模型的性能。研究者普遍采用網格搜索策略(Grid search strategy) 進行調參[16,20]。
IECMP引入均衡準確率(Balanced accuracy,BAcc) 來衡量預測模型的性能[17],同時使用集成分類器應對數據集不均衡問題。在均衡數據集中,Acc能較好地反映模型的總體性能。但是由于標準數據集中non-ECM蛋白質的數目遠超過ECM蛋白質,模型會更傾向于將某個樣本判定為non-ECM,導致模型在Acc很高的前提下,Sn依舊很低,使得Acc不能很好地反映模型的總體性能,因此在不均衡的數據集中,BAcc比Acc能更好地反映模型的總體性能。

為了解決數據集不均衡問題,同時能夠充分利用原始數據的樣本信息,IECMP提出了集成分類器的思路:將訓練集中的陰性數據集隨機均分為11個陰性數據子集,使得每個陰性數據子集的數目和訓練集中的陽性數據接近。用這11個陰性數據子集分別和陽性數據集作為訓練集來構建11個ECM蛋白質預測模型,然后應用這11個預測模型分別對測試集中的樣本進行預測并投票,采用多數投票結果作為該測試樣本的最終預測結果。實驗結果表明使用集成分類器的預測表現要優于不使用集成分類器。
ECMP-HybKNN利用易提取的特征構建了一個高效的預測工具[18]。它僅選擇了二肽組成(DPC) 和偽氨基酸組成(PseAAC) 作為提取的特征,這兩個特征提取較為簡單,因而計算效率也相應提高。
TargetECMP首次通過僅采用一個分類特征來構建ECM蛋白質預測工具[20],也取得了比較好的預測結果。以往的ECM蛋白質預測工具往往整合多個特征以反映更多的區分信息,而TargetECMP僅采用了基于灰色系統模型(Grey system model)[36-37]提取的進化信息(GreyPSSM),就得到了相當可觀的模型性能。可能存在以下原因:Ⅰ) GreyPSSM確實是一個比較出色的ECM蛋白質預測特征;Ⅱ) TargetECMP通過對SVM分類器進行調參改善了模型性能。
2.2.1 標準數據集的更新問題
截至目前,構建ECM蛋白質預測工具所使用的標準數據集依舊是Kandaswamy等于2013年提取的數據集[15]。該數據集在ECM蛋白質預測工具的構建中發揮了不可替代的作用,對推動ECM蛋白質預測工具的發展作出了巨大的貢獻,同時該數據集也有一些值得改進之處。
第一,判定ECM和非ECM的標準。該數據集選取了SwissProt數據庫中有ECM注釋的分泌蛋白作為ECM,沒有ECM注釋的分泌蛋白為non-ECM。但是,一些分泌蛋白雖然沒有注釋為ECM,可能只是尚未得到實驗研究,它本身由于可以被分泌到細胞外,理論上有可能為ECM或者ECM相關的蛋白質,因此目前判定non-ECM的標準很可能會將一些實際為ECM的蛋白判定為non-ECM,筆者認為從非分泌蛋白中挑選non-ECM可能是更為合理的選擇。
第二,標準數據集中多物種混雜。該標準數據集從多細胞動物的分泌蛋白挑選而來,包含了多個物種的序列,個別物種僅含有少數幾個蛋白質。多物種數據集使得訓練得到的模型有更好的泛化能力,但是在預測某個特定物種蛋白質時,僅以該物種數據訓練的模型將比多物種模型有更好的特異性,預測能力更強。因此筆者建議針對不同物種分別建立標準數據集,構建不同物種的ECM蛋白質預測工具。
2.2.2 特征提取的問題
現有的ECM蛋白質預測工具大都選擇了基于蛋白質序列信息、進化信息和理化性質計算得到的特征,但其中大部分不是ECM蛋白質功能特異相關的特征,這些特征可以用于預測ECM蛋白質,同樣也能用于預測其他的蛋白質屬性。這些非特異性特征能夠反映ECM蛋白質足夠多的信息,但是如若能合理利用ECM蛋白質特異的特征,將對提升ECM蛋白質預測性能有更大的幫助。
另一方面,大量研究指出ECM蛋白質普遍擁有一些保守的特征結構域,同時含有這些結構域的蛋白質有極大概率為ECM蛋白質[3]。Naba等曾對這些特征結構域做過總結[9],但是目前尚未有預測工具利用過此特征結構域列表。筆者認為將來的ECM蛋白質預測工具應將此作為重要的特征進行考慮。
2.2.3 分類算法的問題
已有ECM蛋白質預測工具全部基于傳統的機器學習進行分類預測,而方興未艾的深度學習尚未應用到該領域[38]。機器學習算法的準確性很大程度上依賴于良好的特征提取,這個過程通過人工完成,因此提取一組好的特征需要相關研究者對問題有相當深入的認知,這就需要花費巨大的時間和人力成本;而深度學習算法的一大特征便是能夠自動學習有用的特征,因此將大大節省時間和人力成本,同時有可能得到更好的預測準確性。
制約深度學習算法在ECM蛋白質預測領域應用的一個重要原因可能是深度學習需要較大的數據集,而目前ECM蛋白質預測領域的金標準數據集規模仍較小。但是,一方面現有標準數據集可以不斷完善,在提升數據集準確度的同時擴大規模;另一方面,深度學習已有在小樣本上應用成功的案例[39]。因此,將來ECM蛋白質預測工具的發展完全有可能也有必要引進深度學習算法,以期實現對ECM蛋白質預測的更大突破。
2.2.4 工具的可用性問題
在已發展的ECM蛋白質預測模型中,IECMP及其之前的工作都將預測模型做成了線上工具,但是目前大多已無法使用;IECMP之后的預測模型則沒有再提供用戶可以直接使用的工具。因此,開發用戶體驗良好的ECM蛋白質預測工具并進行長期穩定的維護,是一項比較重要的工作,它不僅可以方便生物學背景的研究人員對相關蛋白直接進行預測,還可以方便后續的ECM蛋白質預測工具開發者與已發展的預測工具進行比較。因此,將ECM蛋白質預測模型開發為好用的工具應是相關研究人員要達到的基本目標;在此基礎上應對開發的可用工具進行持續的維護,以保證在相當長一段時間內,用戶在需要時可以調取使用;當然,進一步將該工具開發為用戶友好型的線上工具則更好,這將為相關用戶和研究者的使用帶來極大便利。
構建ECM蛋白質預測工具對于ECM蛋白質的研究具有重要意義。基于“選取數據集——特征提取——特征篩選——學習分類——模型性能評估”這個基本流程,研究者已經開發了一系列ECM蛋白質預測工具。前人的研究啟示我們,通過集成分類器建模和通過均衡準確率進行評估可以較好地應對數據集不均衡問題;二肽組成、偽氨基酸組成、理化性質和位置特異性得分矩陣等特征在ECM蛋白質預測中起到重要作用;特征篩選可以對特征去冗余,從而提升模型性能;對機器學習分類算法進行調參可以獲得更優的預測性能。
目前的ECM蛋白質預測工具面臨4個主要問題:首先,標準數據集存在分類標準不嚴格和物種混合的問題,有必要對數據集進行更新;其次,已有工具提取的特征缺少ECM蛋白質特異性特征,筆者認為有必要引進基于實驗的ECM蛋白質特異性特征以提高預測性能;再次,可以嘗試引進深度學習算法來優化ECM蛋白質的預測建模;最后,目前ECM蛋白質預測領域普遍缺乏便捷的線上工具,對ECM蛋白質預測產生了不利影響,該領域研究者有必要配套開發ECM蛋白質預測的線上工具。
[1] Naba A, Clauser KR, Ding HM, et al. The extracellular matrix: tools and insights for the “omics” era. Matrix Biol, 2016, 49: 10–24.
[2] Hynes RO, Naba A. Overview of the matrisome—an inventory of extracellular matrix constituents and functions. Cold Spring Harb Perspect Biol, 2012, 4(1): a004903.
[3] Hynes RO. The extracellular matrix: not just pretty fibrils. Science, 2009, 326(5957): 1216–1219.
[4] Frangogiannis NG. The extracellular matrix in myocardial injury, repair, and remodeling. J Clin Invest, 2017, 127(5): 1600–1612.
[5] Tokhmafshan F, Brophy PD, Gbadegesin RA, et al. Vesicoureteral reflux and the extracellular matrix connection. Pediatr Nephrol, 2017, 32(4): 565–576.
[6] Lim J, Grafe I, Alexander S, et al. Genetic causes and mechanisms of Osteogenesis Imperfecta. Bone, 2017, 102: 40–49.
[7] Bateman JF, Boot-Handford RP, Lamandé SR. Genetic diseases of connective tissues: cellular and extracellular effects of ECM mutations. Nat Rev Genet, 2009, 10(3): 173.
[8] Walker C, Mojares E, Del Rio Hernandez A. Role of extracellular matrix in development and cancer progression. Int J Mol Sci, 2018, 19(10): 3028.
[9] Naba A, Clauser KR, Hoersch S, et al. The matrisome:definition andcharacterization by proteomics of normal and tumor extracellular matrices. Mol Cell Proteomics, 2012, 11(4): M111.014647.
[10] Lennon R, Byron A, Humphries JD, et al. Global analysis reveals the complexity of the human glomerular extracellular matrix. J Am Soc Nephrol, 2014, 25(5): 939–951.
[11] Mayorca-Guiliani AE, Madsen CD, Cox TR, et al. ISDoT:decellularization of tissues for high-resolution imaging and proteomic analysis of native extracellular matrix. Nat Med, 2017, 23(7): 890–898.
[12] Gopal S, Veracini L, Grall D, et al. Fibronectin-guided migration of carcinoma collectives. Nat Commun, 2017, 8: 14105.
[13] ?hrman E, Hallgren O, Malmstr?m L, et al. Quantitative proteomic characterization of the lung extracellular matrix in chronic obstructive pulmonary disease and idiopathic pulmonary fibrosis. J Proteomics, 2018, 189: 23–33.
[14] Jung J, Ryu T, Hwang Y, et al. Prediction of extracellular matrix proteins based on distinctive sequence and domain characteristics. J Comput Biol, 2010, 17(1): 97–105.
[15] Kandaswamy KK, Pugalenthi G, Kalies KU, et al. EcmPred: prediction of extracellular matrix proteins based on random forest with maximum relevance minimum redundancy feature selection. J Theor Biol, 2013, 317: 377–383.
[16] Zhang J, Sun PP, Zhao XW, et al. PECM: prediction of extracellular matrix proteins using the concept of Chou’s pseudo amino acid composition. J Theor Biol, 2014, 363: 412–418.
[17] Yang RT, Zhang CJ, Gao R, et al. An ensemble method with hybrid features to identify extracellular matrix proteins. PLoS ONE, 2015, 10(2): e0117804.
[18] Ali F, Hayat M. Machine learning approaches for discrimination of Extracellular Matrix proteins using hybrid feature space. J Theor Biol, 2016, 403: 30–37.
[19] Guan LZ, Zhang SW, Xu HQ. BAMORF: a Novel computational method for predicting the extracellular matrix proteins. IEEE Access, 2017, 5: 18498–18505.
[20] Kabir M, Ahmad S, Iqbal M, et al. Improving prediction of extracellular matrix proteins using evolutionary information via a grey system model and asymmetric under-sampling technique. Chemom Intell Lab Syst, 2018, 174: 22–32.
[21] Chou KC. Some remarks on protein attribute prediction and pseudo amino acid composition. J Theor Biol, 2011, 273(1): 236–247.
[22] Wang L, Zhao Y, Chen YH, et al. The effect of three novel feature extraction methods on the prediction of the subcellular localization of multi-site virus proteins. Bioengineered, 2018, 9(1): 196–202.
[23] Hayat M, Tahir M, Khan SA. Prediction of protein structure classes using hybrid space of multi-profile Bayes and bi-gram probability feature spaces. J Theor Biol, 2014, 346: 8–15.
[24] Ahmad J, Hayat M. MFSC: multi-voting based feature selection for classification of Golgi proteins by adopting the general form of Chou’s PseAAC components. J Theor Biol, 2019, 463: 99–109.
[25] Chou KC. Prediction of protein cellular attributes using pseudo-amino acid composition. Proteins, 2001, 43(3): 246–255.
[26] Kawashima S, Pokarowski P, Pokarowska M, et al. AAindex: amino acid index database, progress report 2008. Nucleic Acids Res, 2008, 36 (Database issue): D202–D205.
[27] Chou KC, Shen HB. Large-scale plant protein subcellular location prediction. J Cell Biochem, 2007, 100(3): 665–678.
[28] Zuo YC, Peng Y, Liu L, et al. Predicting peroxidase subcellular location by hybridizing different descriptors of Chou’ pseudo amino acid patterns. Anal Biochem, 2014, 458: 14–19.
[29] Ding SY, Yan SJ, Qi SH, et al. A protein structural classes prediction method based on PSI-BLAST profile. J Theor Biol, 2014, 353: 19–23.
[30] Altschul SF, Madden TL, Sch?ffer AA, et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 1997, 25(17): 3389–3402.
[31] Li JD, Cheng KW, Wang SH, et al. Feature selection: a data perspective. ACM Comput Surv, 2018, 50(6): 94.
[32] Breiman L. Random forests. Mach Learn, 2001, 45(1): 5–32.
[33] Vapnik V. Statistical Learning Theory. New York: John Wiley & Sons, 1998.
[34] Burges CJC. A tutorial on support vector machines for pattern recognition. Data Min Knowl Discov, 1998, 2(2): 121–167.
[35] Akkus A, Güvenir HA. K nearest neighbor classification on feature projections//Proceedings of the Thirteenth International Conference on International Conference on Machine Learning. Bari, Italy: ACM, 1996.
[36] Matsuda S, Vert JP, Saigo H, et al. A novel representation of protein sequences for prediction of subcellular location using support vector machines. Protein Sci, 2005, 14(11): 2804–2813.
[37] Lin WZ, Fang JA, Xiao X, et al. iLoc-Animal: a multi-label learning classifier for predicting subcellular localization of animal proteins. Mol Biosyst, 2013, 9(4): 634–644.
[38] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436–444.
[39] Ng HW, Nguyen VD, Vonikakis V, et al. Deep learning for emotion recognition on small datasets using transfer learning//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. Seattle, Washington, USA: ACM, 2015.
Advances in the research of extracellular matrix protein prediction tools
Binghui Liu1,2, Jie Ma1,2, and Yunping Zhu1,2
1 Beijing Institute of Life Omics, Academy of Military Medical Sciences, Academy of Military Sciences, Beijing 102206, China2 State Key Laboratory of Proteomics, Beijing Proteome Research Center, National Center for Protein Sciences (Beijing), Beijing 102206, China
Extracellular matrix (ECM) proteins play an important role in a series of biological processes in the cell, and their abnormal regulation can lead to many diseases. The theoretical ECM reference dataset is the basis for efficient identification of extracellular matrix proteins. Researchers have developed various ECM protein prediction tools based on machine learning methods. In this review, the main strategy of development of ECM protein prediction tools that based on machine learning methods has been introduced. Then, advances and specific characters of the existing ECM protein prediction tools have been summarized. Finally, the challenges and possible improvements of ECM protein prediction tools are discussed.
extracellular matrix protein, classification feature, prediction tool, machine learning
January 23, 2019;
March 4, 2019
National Key Research and Development Program of China (Nos. 2016YFC0901601, 2016YFB0201702).
Yunping Zhu. Tel: +86-10-61777058; E-mail: zhuyunping@gmail.com
國家重點研發計劃 (Nos. 2016YFC0901601, 2016YFB0201702) 資助。
劉炳輝, 馬潔, 朱云平. 細胞外基質蛋白質預測工具研究進展. 生物工程學報, 2019, 35(9): 1571–1580.
Liu BH, Ma J, Zhu YP. Advances in the research of extracellular matrix protein prediction tools. Chin J Biotech, 2019, 35(9): 1571–1580.
(本文責編 陳宏宇)