



摘要:隨著高通量技術在癌癥基因組學中發展,目前迫切需要開發新的計算方法來全面挖掘潛在的抗癌藥物靶標,如Long non-coding RNA(lncRNA)。在這項研究中,開發了一個基于隨機游走的模型,即RWLDA模型,以基于連接疾病和lncRNA的網絡,將lncRNA作為表征抗癌藥物治療反應的潛在生物標志物。使用五折交叉驗證檢測模型性能,發現RWLDA的優異性能,五折交叉驗證ROC值為0.9643。同時,也篩選出潛在與肝癌相關的lncRNA。
關鍵詞:隨機游走;lncRNA;disease;cancer
一、前言
一種長度超過200個核苷酸的非編碼RNA被命名為長非編碼RNA(lncRNA),在最近幾十年得到了相當大的關注[1]。許多研究證實,人類基因組中含有數千種lncRNA。大量lncRNA在許多重要的生物學過程中發揮著重要作用,包括染色質修飾、轉錄和轉錄后調控、基因組剪接、分化、免疫應答等[2]。lncRNA的突變和故障與人類疾病密切相關,如神經疾病、血液疾病、心血管疾病和各種癌癥。LncRNAs已參與復雜疾病的診斷、預后、預防和治療。LncRNA已成為癌癥的新候選生物標志物[3]。
lncRNA疾病關聯預測的實驗方法昂貴且耗時。lncRNADisease[4]數據庫包含了200多種常見疾病和2000多種長非編碼RNA(lncRNAs)關聯。然而,NONCODE數據庫[5]包含了90000多個人類常見lncRNA。長非編碼RNA(lncRNAs)與疾病之間的大多數關系仍然未被發現和驗證。因此,迫切需要研究人員開發一種全新的計算模型來挖掘潛在的lncRNA和疾病關聯。
近年來,基于網絡科學和機器學習算法被開發和設計出來用于挖掘潛在長非編碼RNA(lncRNA)與疾病關聯。人類生物系統是一個包含各種類型生物分子相互作用的高度復雜且龐大的異質網絡。因此,基于網絡相互作用的計算模型可以為人類生物系統的各種生物分子網絡提供可量化的表征。已經提出了多種計算模型,通過整合多種數據源和機器學習算法來識別lncRNA疾病關聯或lncRNA蛋白質相互作用關系。Chen等人提出了一種基于拉普拉斯正則化最小二乘框架的半監督學習方法的LRLSLDA計算模型[6],以預測潛在的疾病相關lncRNA。此外,LRLSLDA不需要負性樣本,并且可以基于整合lncRNA表達譜生物數據和已知長非編碼RNA(lncRNA)疾病相關性產生可靠的結果。基于功能相似的lncRNA有大概率可能與發病機理類似疾病存在關聯的假設,Chen等人基于網絡相互作用理論開發了一種新的長非編碼RNA(lncRNA)-疾病關聯計算模型LRLSLDA-LNCSIM,將疾病語義表達相似性和lncRNA功能相似性與lncRNA表達相似性相結合,使用LRLSLDA中的lncRNA高斯相互作用譜核相似性和疾病高斯相互作用輪廓核相似性。有標簽監督分類器的模型不足在于,通過算法隨機挑選未標記的lncRNA疾病關聯作為負樣本。LDAP是一個用于lncRNA疾病關聯預測的Web服務器,通過基于lncRNA相似性和疾病相似性整合多個生物數據資源,該數據資源使用矩陣的幾何平均值來融合不同的數據資源,而SVM用于預測潛在的lncRNA病患關聯。
基于lncRNA功能相似性,使用jacard系數表征它們的相似性,以及帶重啟的隨機游走的預測模型RWLDA。和其他四種方法進行交叉驗證,RWLDA有更優異的性能。
二、計算模型
(一)數據
LDA網絡數據來源于LncRNADisease[6]數據庫。關聯網絡Mld中包含5918個經過實驗驗證的LDA。數據集包含2659個lncRNA和216種疾病(見表1)。在關聯網絡中,如果疾病 d(i) 與lncRNA l(j) 相互作用,則 Mld(i,j)值為1,否則為0。此外,變量 d 和 l 分別定義為疾病和lncRNA的數目。
(二)相似性計算
疾病關聯相似性:兩種疾病如果它們的共享相同的lncRNA越多,則這種疾病越相似。如果兩種疾病的相似度為0,則說明兩種疾病沒有任何相同的lncRNA。假設 N(i)代表與小分子藥物d(i) 相關的負作用集;用 SMdacc (d(i),d(j)) 表示小個小分子藥物 d(i) 和 d(j)之間的副作用相似。RWLDA使用基于Jaccard公式計算了疾病關聯相似性。|X|表示集合X的基數。
(1)
lncRNA關聯相似性:兩種lncRNA如果它們出現相同的疾病越多,則這種lncRNA越相似。如果兩種lncRNA的相似度為0,則說明兩種lncRNA沒有調控相同的疾病。假設 N(i)代表與lncRNAl(i)相關的負作用集;用 SMlacc (l(i),l(j))表示小分子藥物 l(i)和 l(j) 之間的副作用相似。RWLDA使用基于Jaccard公式計算了疾病關聯相似性。|X| 表示集合X的基數。
(2)
受ThrRW模型的啟發,開發了可運行在網絡中的LDA預測模型(RWLDA)。假設矩陣M(i * j)表示已知的LDA關聯矩陣。這些矩陣中的值為1(對應實體之間存在關聯)和0(否則)。SMd (I* I)和SMl(J * J)分別是疾病相似性矩陣,lnRNA相似性矩陣。 M(i,j) 的值表示疾病d(i) 與 lnRNA (j) 預測關聯概率的大小。
(三)RWLDA模型
RWLDA根據已知的關聯信息預測可能的LDA。RWLDA通過迭代更新矩陣M獲得了潛在關聯信息。基本假設是兩個lncRNA之間的相似性越高,它們與相同disease相互作用的可能性就越高。同樣,兩個小分子藥物之間的相似度越高,它們與同一疾病相關的可能性就越高。
RWLDA模型在數學上,隨機游走過程可通過公式(3)和公式(4)進行描述。
(3)
(4)
如上述公式所示,在每個隨機游走步驟中,lncRNA和疾病關聯都得到了擴展(通過將左側的 SMd與右側的 SMl 相乘獲得),從而發現了一些可能的LDA(通過更新矩陣M)。參數 (t = 1、2,...) 是迭代步驟。矩陣B作為先驗知識控制著迭代過程。參數 α∈[0,1] 用于懲罰較長的路徑并控制B中已知關聯的權重,見圖1。
(四)結果分析
在五折交叉驗證中,RWLDA與4種最新的LDA預測方法LDGRNMF,KATZLDA,SMiR-NBI和NCP-BiRW在數據集上進行了5倍交叉驗證(見表3,圖2)。表3以及圖2顯示了在兩個數據集進行五折交叉驗證的AUC。在表3中每一行最好的性能以黑體字表示。圖2顯示了在數據集中五個方法的AUC。在相同的數據集中,RWLDA的性能在這五種方法中是最好的(見圖2)。
在預測的前10個LDA關聯中,發現其中有七個與肝癌相關。它們可以控制和調節各種生理和病理過程(見表2)。
三、結語
盡管RWLDA在預測lncRNA-疾病關聯方面取得了顯著成果,但也應該意識到任何計算模型都存在局限性。例如,模型的準確性依賴于輸入數據的質量和完整性,而且模型可能無法捕捉到所有的生物復雜性。因此,未來的研究需要進一步優化模型,探索更多的生物數據源,并驗證模型在不同類型的疾病和lncRNA中的應用。
總之,新的模型為理解lncRNA在疾病中的作用提供了新的視角,并為開發新的治療策略提供了可能。同時,期待RWLDA模型能夠在未來的研究中得到更廣泛的應用,并為生物醫學研究領域帶來更多的突破。
參考文獻
[1]Yang P ,Ormerod T J ,0007 L W , et al.AdaSampling for Positive-Unlabeled and Label Noise Learning With Bioinformatics Applications.[J].IEEE Trans. Cybernetics,2019,49(05):1932-1943.
[2]Shen, Cong, et al. Lpi-ktaslp: Prediction of lncrna-protein interaction by semi-supervised link learning with multivariate information.[J].IEEE Access.2019(07):13486-13496.
[3]Liang C ,Yu S ,Luo J .Adaptive multi-view multi-label learning for identifying disease-associated candidate miRNAs.[J].PLoS Computational Biology,2019,15(04):e1006931.
[4]Xing C ,Gui-Ying Y .Novel human lncRNA-disease association inference based on lncRNA expression profiles.[J].Bioinformatics (Oxford, England),2013,29(20):2617-24.
[5]Yi Z ,Hui L ,Shuangsang F , et al.NONCODE 2016: an informative and valuable data source of long non-coding RNAs.[J].Nucleic acids research,2016,44(D1):D203-8.
[6]Qu J ,Chen X ,Sun Y , et al.Inferring potential small molecule–miRNA association based on triple layer heterogeneous network[J].Journal of Cheminformatics,2018,10(01):1-14.
作者單位:黔南民族職業技術學院
責任編輯:張津平、尚丹