富 坤,李佳寧
(河北工業大學人工智能與數據科學學院,天津 300401)
經典的分子生物學中心法則將RNA 視為基因與其編碼蛋白的中間媒介。根據人類基因組序列分析顯示,大部分基因都可以參與轉錄過程形成對應RNA 產物,但具有蛋白編碼功能的基因僅占人類基因組序列的約1.5%,這些非編碼基因通過轉錄產生了大量的非編碼RNA 分子[1,2]。其中,序列長度大于200 核苷酸分子的非編碼RNA 被稱為長鏈非編碼RNA(long non-coding RNA,lncRNA)[3]。越來越多的研究表明[4,5],lncRNA 可以通過堿基互補配對干擾下游基因的表達,參與了人體內包括轉錄及轉錄后調控、表觀遺傳調控、代謝過程和染色體動力學等多種生命進程,并在其中發揮著重要的調控作用。因此,lncRNA 的突變或失調與多種復雜疾病,尤其是各種癌癥的產生發展密切相關[6,7]。而采用生物實驗驗證特定lncRNA-疾病關聯代價高昂,缺乏普適性。近年來通過挖掘已知的生物信息數據,采用經典機器學習或新興深度學習方法設計計算模型預測潛在lncRNA 與疾病關聯,逐漸成為生物信息領域的研究熱點[8]。采用計算方法識別潛在的lncRNA-疾病關聯,不僅可以在lncRNA 分子水平更好地理解各種人類復雜疾病的發生發展機制,也對復雜疾病的診斷、治療、預后和藥物反應預測具有重要價值[9,10]。借助于高速發展的計算機技術以及各種智能計算方法的不斷完善,目前已經存在大量的lncRNA-疾病關聯預測模型,但每種方法都有其各自的優勢與不足。依據不同模型流程與算法的差異,當前主流的預測方法分為以下4 類:基于機器學習的方法,基于生物特征信息的方法,基于信息網絡的方法和基于矩陣分解的方法。本文在此分類的基礎上介紹了每類方法中的經典模型,并對每類方法的特點以及普遍存在的缺陷進行了總結,旨在系統性地歸納當前lncRNA-基本預測的計算模型,為后續模型的研發提供進一步的改進方向。
1.1 LRLSLDA 模型 根據“相似疾病通常與功能相似的lncRNA 相關”這一假設,Chen X等[11]提出了lncRNA-疾病關聯預測領域的第1 個計算模型LRLSLDA。該方法基于半監督機器學習框架,采用拉普拉斯正則最小二乘計算特定lncRNA 和相關疾病之間潛在關聯的概率得分。利用已知lncRNA-疾病關聯、lncRNA 表達譜數據以及高斯相互作用譜核構建了lncRNA 與疾病的相似度矩陣,基于兩個相似度矩陣進行拉普拉斯正則化操作,最小化損失函數。分別在lncRNA 空間和疾病空間得到兩個優化后的分類器,將兩個分類器的預測組合作為關聯預測得分的輸出。最終預測概率得分矩陣的計算公式為:
其中,FL*和FD*分別代表基于lncRNA 和疾病空間的分類器最優分類函數,1w 為lncRNA 空間分類器的置信權重。F*(i,j)代表矩陣中第i 行的lncRNAli與第j 列的疾病dj間的關聯概率。
LRLSLDA 作為一種開創性方法,首次將機器學習分類框架應用于lncRNA 與疾病關聯預測領域,為后續模型的開發提供了理論假設基礎與借鑒經驗。在lncRNA-疾病關聯數據數量稀少的情況下,其留一法交叉驗證(LOOCV)實驗的AUC 值(ROC曲線下方面積)達到了0.776。然而,LRLSLDA 在不同空間下分別計算相似性的思想導致了模型的參數較多,大量參數只能依靠經驗知識預設,限制了模型預測性能的進一步提升。此外,矩陣正則化操作的計算時間復雜度較高,難以適應當前快速增長的人類基因組學數據。
1.2 CFNBC 模型 基于LRLSLDA 方法的理論假設,Yu J等[12]融合樸素貝葉斯分類器和協同過濾模型提出了CFNBC 預測模型。該模型基于已知的lncRNA-疾病關聯、lncRNA-miRNA 關聯和miRNA-疾病關聯搭建原始的三部網絡(tripartite network),之后利用基于項目的協同過濾推薦算法更新原始網絡,將更新后網絡輸入樸素貝葉斯分類器,完成預測任務。該模型的創新在于應用協同過濾算法豐富了原始網絡中lncRNA-疾病關聯,使得最終的預測結果不完全依賴于已知的lncRNA 與疾病關聯數據,在一定程度上抵消了已知關聯稀疏性的影響。在LOOCV實驗中,CFNBC方法的AUC值達到了0.86,對比當時主流的lncRNA-疾病關聯預測模型,預測性能提升明顯。但是,基于樸素貝葉斯分類器模型的訓練過程中,需要不存在關聯關系的lncRNA-疾病對作為負樣本輸入,模型基于隨機采樣收集的負樣本極有可能存在尚不知曉的關聯,進而影響分類器的預測準確率。
1.3 基于深度學習的預測方法 深度學習作為機器學習的一個重要分支,已然成為機器學習研究的熱點問題。許多成熟的深度學習模型,如全連接網絡、卷積神經網絡、生成對抗網絡等,已經被成功應用于lncRNA-疾病關聯預測任務中[13-15]。如Xuan P等[16,17]基于帶注意力的雙卷積神經網絡和混合圖卷積網絡與卷積神經網絡的方法提出兩個預測框架。這兩個模型的基本思想都是利用不同的神經網絡模型提取隱含不同生物特征的lncRNA 和疾病節點表示,實現lncRNA-疾病關聯預測。Wu QW 等[18]優化了Xuan P等[16,17]提出的第2 個混合模型,僅利用圖卷機提取的節點對特征和隨機森林分類器,實現了較之前模型更為優秀的預測效果。不同于傳統的機器學習分類器,深度學習僅依靠輸入簡單的關聯特征或相似性數據就可以直接得到預測結果,不需要收集負樣本,避免了隨機負樣本帶來的訓練誤差。但同樣受限于多源異構數據的差異以及數據規模問題,大部分深度網絡模型難以依靠現有數據,有效挖掘深層的lncRNA-疾病關聯信息,但其依舊是當前主流預測方法的一個重要研究發展方向。
基于生物特征信息預測lncRNA-疾病關聯的方法大都出現在關聯預測模型研究早期,每種方法都依托于不同的生物研究證實理論或提出的合理假說,需要特定的專業先驗設計模型。因此,這類方法一般普適性較差,只能對當前研究較為充分,或能夠使相應假說成立的lncRNA 與疾病關聯進行預測[19]。本文介紹了兩種早期經典方法,分別基于lncRNA基因組位置和lncRNA 組織特異性相關理論實現關聯預測任務。
2.1 基于基因組位置的lncRNA 與心血管疾病預測方法 Li J等[20]基于lncRNA 的基因組位置信息,提出預測與心血管疾病相關lncRNA 的方法。該方法收集了與心血管疾病相關的基因數據、單核苷酸突變(SNP)關聯數據,并通過關鍵詞檢索提取與心血管疾病相關的基因本體(GO)術語,得到GO 基因位置前后50 kb 內的lncRNA 轉錄位點,認為在此范圍內的lncRNA 與心血管疾病具有較高的關聯可能性。利用該方法預測出的10 個與血管平滑肌細胞增殖和遷移關聯的lncRNA 中,有8 個得到了相關文獻證實,證明了模型的有效性。此方法的缺點主要是應用范圍有限,實驗數據與流程設計僅針對心血管疾病相關的lncRNA 預測,無法對lncRNA 與其他疾病關聯進行預測。另一方面,基于基因組位置與功能相似性的假設同樣具有局限性,并非所有的lncRNA 都具有相鄰基因,相鄰基因也不一定全部具備相似功能。
2.2 基于lncRNA 組織特異性的相關疾病預測方法基于人類基因表達譜數據lncRNA 表達譜數據和基因-疾病關聯數據,Liu MX等[21]根據lncRNA 的組織特異性特征提出了一種全新的lncRNA-疾病關聯預測模型。該模型根據lncRNA 在各不同組織中的表達量得到lncRNA 的組織特異性得分,按照設定閾值將lncRNA 分為組織特異lncRNA 和非組織特異lncRNA,對兩類lncRNA 分別設計不同的方法流程進行關聯預測。對于組織特異的lncRNA,認為該lncRNA 關聯與該組織相關的所有疾病;對于非組織特異lncRNA,通過表達數據計算lncRNA 和基因的斯皮爾曼相關系數,得到lncRNA 與基因的共表達關系,再利用lncRNA 與疾病共同關聯的基因集作為橋梁進行超幾何分布富集分析,量化該關聯存在的概率。該模型交叉驗證的AUC 值達到了0.7645。在針對組織特異性lncRNA 進行的案例分析結果中,在預測概率得分前10 的lncRNA 中,有4 個得到了相關文獻證實,而對于非組織特異性lncRNA,預測的36 個關聯中有32 個得到了相關文獻證實。
數據的網絡結構可以天然地表示lncRNA 與各種生物分子間的相互作用,基于網絡拓撲結構和節點屬性信息的關聯預測方法也成為了lncRNA-疾病關聯預測方法中的一個重要分支[22,23]。此類方法可以高效地集成大規模的多源異構網絡數據,通常利用信息傳播或隨機游走的網絡發現算法實現網絡中節點的關聯預測[24]。相比于基于機器學習的集成模型或深度模型,該類方法的時間復雜度要低很多,可以更好地適應快速增長的網絡數據。但是,多源數據間的差異集成以及大規模網絡的融合是此類方法函待解決的問題。
3.1 RWRlncD 模型 隨著生物大數據時代的到來,出現了海量的生物網絡數據,研究者們借助不斷完善的網絡表示學習算法,設計了一系列基于lncRNA相關信息網絡的預測方法,其中早期的典型方法有Yang X 等[25]提出的RWRlncD 模型。通過集成lncRNA-疾病關聯、基因-疾病關聯數據,將lncRNA映射為非編碼基因,構建了一個編碼-非編碼基因-疾病二分網絡。然后,利用傳播算法來尋找該網絡中隱藏的lncRNA-疾病關聯。RWRlncD 方法以網絡的形式整合多種關聯數據,從網絡投影的角度解釋了關聯數據中隱含的同類節點間相似性關聯。對103種疾病進行的LOOCV 預測評估實驗中,AUC 值達到了0.7881。但由于二分網絡整合的關聯數據有限,模型采用的傳播算法難以挖掘網絡中深層的隱含關聯信息,這可能是導致RWRlncD 方法預測準確率較低的原因。
3.2 BRWLDA 模型 基于大規模異構網絡,Yu G等[26]基于雙向隨機游走算法,提出了經典的BRWLDA模型。該模型利用miRNA-疾病關聯,miRNAlncRNA 關聯和lncRNA-疾病關聯數據構建了lncRNA 功能相似性網絡,在此網絡的基礎上融合疾病相似性網絡以及lncRNA-疾病關聯,構建了一個定向雙關系網絡。在網絡上應用雙向隨機游走方法挖掘潛在的lncRNA-疾病關聯。該研究表明,BRWLDA在LOOCV 評估實驗以及具有掩蔽關聯的模擬實驗中的表現,都要比當時主流預測方法更加準確、可靠。此外,通過對lncRNA 功能相似性網絡設計的消融實驗,證明了3 個子網絡對模型預測性能的提升都起到了增益作用。
矩陣分解方法原理簡單,目前已經有許多預測模型通過利用矩陣分解方法處理數據、提取特征,實現潛在lncRNA 與疾病關聯的預測[27,28]。此類方法的基本思想是利用多源數據集成來彌補數據稀疏性的影響,采用矩陣分解方法得到數據在低維空間中的表示。在參數優化階段,通過最小化低維特征還原矩陣與原關聯矩陣的損失函數實現優化,輸出補全后的關聯矩陣,為每個lncRNA 與疾病之間的關聯概率賦值[29]。此類方法的不足主要體現在矩陣分解算法效率不高,難以應用于大規模數據下的關聯預測任務中。
4.1 MFLDA 模型 Fu G等[30]基于矩陣分解方法提出了lncRNA-疾病關聯預測模型MFLDA。該模型通過矩陣三角分解,將異構的多源關聯矩陣分解為低秩矩陣,深入挖掘數據間存在的共有信息。MFLDA 為不同來源的數據分配權重、選擇集成數據集,采用迭代策略優化權重和低秩矩陣,使用優化后的低秩矩陣重構原來稀疏的lncRNA-疾病關聯矩陣,識別潛在lncRNA-疾病關聯。在5 折交叉驗證實驗中,MFLDA 預測的AUC 值為0.7408。在乳腺癌,肺癌和胃癌的案例分析中,該模型預測的45 個關聯中有38 個得到了相關文獻證明。同時,作為一個通用的數據融合框架,MFLDA 也可用來預測其他生物實體間的關聯。
4.2 PMFILDA 模型 Xuan Z等[31]采用概率矩陣分解形式,提出預測lncRNA-疾病關聯的PMFILDA 模型。該模型基于lncRNA-疾病關聯網絡、lncRNAmiRNA 關聯網絡和miRNA-疾病關聯網絡構建了一個lncRNA-疾病加權關聯網絡,通過基于網絡節點間相似性的k-近鄰算法進一步更新網絡中的關聯權重,根據更新的lncRN-疾病加權網絡以概率矩陣分解方法預測潛在lncRNA-疾病關聯。LOOCV 驗證實驗結果表明,PMFILDA 模型預測的AUC 值達到了0.8794。在案例分析實驗中,PMFILDA 模型的表現同樣優秀。同樣,該方法涉及到數據集成流程,多源數據間的不一致的問題尚未得到合理解決。
本文在對模型進行分類的基礎上,介紹了當前lncRNA-疾病關聯預測領域中的幾種主流計算模型。通過以上介紹與分析,可以發現每種方法都有各自的優勢與不足。早期基于生物特征信息方法的模型準確率與擴展性往往不盡如人意,當前主流的基于機器學習與矩陣分解方法的模型具有較高的時間復雜度,使其難以適應快速擴充的生物信息數據。基于信息網絡上隨機游走或信息傳播方法的模型在集成多源數據后,依舊有著不錯的運算效率與預測精度,但是仍要面對多源數據間的差異冗余與數據稀疏性問題。隨著生物信息數據的快速擴充,基于深度學習的預測模型可能挖掘出lncRNA 與疾病之間的深度關聯信息,有望為探究lncRNA 的失調與疾病產生調控機制提供數據支撐,有望成為機器學習類方法研究的新方向。