摘 要:本文對基本群優化方法進行了改進,提出一種異步消減群優化方法,從生物意義、堿基對、序列和二級結構四個層次對LncRNA進行特征提取,采用異步消減群優化方法進行了相似度計算,進而提出一種新型與疾病關聯的LncRNA預測方法。實驗結果表明,該方法預測準確率較高,具有很高的推廣應用價值。
關鍵詞:異步消減;群優化;疾病關聯;LncRNA;預測
中圖分類號:TP311文獻標識碼:A文章編號:2096-4706(2018)01-0112-03
LncRNA Prediction Method for Disease Association Based on Asynchronous Subtractive Group Optimization
WANG Bo1,2,ZHANG Jing1
(1.College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China;
2.College of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China)
Abstract:Optimization method is improved,and a asynchronous subtractive group optimization method is put forward in this paper. LncRNA feature extraction is carried out from four levels of biological significance,base pairs,sequence and secondary structure. The asynchronous subtractive group optimization method is used for similarity calculation. Nextly a new type of LncRNA prediction method associated with disease is put forward. At last the experimental results show that the prediction accuracy is higher,and high value of popularization and application for this method.
Keywords:asynchronous subtractive ;group optimization;disease associations;LncRNA;prediction
0 引 言
LncRNA是一類長非編碼RNA,它具有非常重要的生物學功能,是生物信息學領域又一個熱點RNA[1,2]。研究表明,LncRNA與很多疾病有密切關系,如乳腺癌、結腸癌、心血管疾病和神經退行性疾病等。因此對與疾病關聯的LncRNA的相關研究,對疾病的診斷、治療和預防都有重要的作用[3,4]。與疾病關聯的LncRNA計算方法研究中計算智能方法是當前研究熱點[5,6],但已提出的眾多方法中部分存在易陷入局部極值、人工調節參數過多等弊端。本文為了解決上述弊端提出了一種動態衰變群優化方法,并將其應用于與疾病關聯的LncRNA預測中,該方法具有較好的LncRNA預測精度和速度。
1 與疾病關聯的LncRNA特征提取
本文主要從生物意義[7]、堿基對[7]、序列[8]和二級結構[8]這四個方面對LncRNA進行特征提取。其中生物意義包括ORF(Coverage)、ORF(Size)、Fickett(score)、Hexamer(score)和Coding(Potential);堿基對包括dp、AU-pair%、GU-pair%和GC-pair%;序列包括Tetra-nucleotides、Poly(A)-tail、(G-C)%、(A-U)%、(G+C)%和(A+U)%;二級結構包括MFEI2、MFEI3、MFEI4、dG和MFE/(G%+C%)。LncRNA加權特征提取因子ξ見公式1所示,其中ψi(i=1…20)為權重系數。與疾病關聯的LncRNA數據集選擇LncRNADisease數據庫中的數據。
2 疾病關聯LncRNA預測
2.1 異步消減系數
定義:異步消減系數Θ為了增加群優化方法優化群體的多元性,量化定義見公式(2)所示。
公式(2)中D表示群優化的進化代數,為異步消減的控制閾值,由公式(2)可知在Θ的控制下系數的效能是異步消減變化的。
2.2 異步消減群優化方法
異步消減群優化方法(Asynchronous subtractive group optimization method,ASGO)將公式(3)做為其適應度函數,ASGO優化策略有尋覓機制和追尾機制,其中尋覓機制為環顧四周尋找目標,追尾機制為追隨目標行進,ASGO優化算法流程圖見圖1所示。
2.3 疾病關聯LncRNA預測
與疾病關聯的LncRNA預測(prediction of lncRNA-disease associations,PIDA)的關鍵在于相似度計算,本文提出的相似度計算是在公式(1)的基礎上,采用ASGO完成的相似度計算,根據相似度值完成樣本的訓練。
3 實驗性能分析與討論
這個四個樣本特征值進行人工的數值化分級為:ε1=ORF(Coverage)分為三級(1,2,3級別遞增),ε2=dp分為三級(+,++,+++級別遞增),ε3=Tetra-nucleotides分為兩級(#,##級別遞增),ε4=MFE/(G%+C%)分為兩級(6,6+級別遞增)。計算范例見表2所示。
為了驗證本文方法的有效性,采用基本群優化算法(GO)和異步消減群優化(ASGO)進行對比,真陽率對比曲線見圖2所示,可明顯看出本文算法性能更優。此外,對GO和ASGO,50%特征和100%特征,分別進行了錯誤率對比分析,有圖3可知ASGO方法錯誤率最低,100%特征錯誤率最低。
4 結 論
本文采用計算智能中的群優化方法實現了對與疾病關聯的LncRNA預測,其中為了提高預測精度,對群優化方法進行了改進,提出了一種異步消減群優化方法,在對相似度計算過程中選擇了20個特征參考點,實驗結果表明本文方法預測準確率較高,是一種較通用的預測方法,具有很高的推廣價值。
參考文獻:
[1] Xiong,Yongfu;Wang,Rong;Peng,Linglong. An integrated lncRNA,microRNA and mRNA signature to improve prognosis prediction of colorectal cancer [J].ONCOTARGET,2017,8(49):85463-85478.
[2] Lan,Wei;Li,Min;Zhao,Kaijie.LDAP:a web server for lncRNA-disease association prediction [J].BIOINFORMATICS,2017,33(3):458-460.
[3] Hu,Huan;Zhu,Chunyu;Ai,Haixin. LPI-ETSLP:lncRNA-protein interaction prediction using eigenvalue transformation-based semi-supervised link prediction [J].MOLECULAR BIOSYSTEMS,2017,13(9):1781-1787.
[4] Chen,Xing;You,Zhu-Hong;Yan,Gui-Ying.IRWRLDA:improved random walk with restart for lncRNA-disease association prediction [J].ONCOTARGET,2017,7(36):57919-57931.
[5] Zhou,Meng;Zhang,Zhaoyue;Zhao,Hengqiang.A novel lncRNA-focus expression signature for survival prediction in endometrial carcinoma [J].BMC CANCER,2018,18:39.
[6] Ferlay,J. et al. Cancer incidence and mortality worldwide: sources,methods and major patterns in GLOBOCAN 2012 [J].International journal of cancer,2015,136:359-386.
[7] Ning S,Zhang J,Wang P,Zhi H,Wang J,Liu Y,Gao Y,Guo M,Yue M,Wang L and Li X. Lnc2Cancer:a manually curated database of experimentally supported lncRNAs associated with various human cancers. Nucleic Acids Research.2016,44:D980-D985.
[8] Zhou M,Wang X,Li J,Hao D,Wang Z,Shi H,Han L,Zhou H and Sun J. Prioritizing candidate disease-related long non-coding RNAs by walking on the heterogeneous lncRNA and disease network. Molecular Biosystems.2015,11:760-769.
作者簡介:王波(1980-),男,博士研究生,副教授。研究方向:生物信息學;通訊作者:張菁(1965-),女,博士后,教授,博士生導師。研究方向:計算分子生物學、虛擬現實、醫學圖像處理。