浦建宇,陳 蕾,2,3+,邵 楷
1.南京郵電大學 計算機學院,南京 210023
2.江蘇省無線傳感網高技術研究重點實驗室,南京 210023
3.南京航空航天大學 計算機科學與技術學院,南京 210016
疾病的發生與遺傳、生活環境等很多因素有關,其中很大一部分疾病的產生與特定的基因有著密不可分的關系。生活中常見的癌癥[1-3]、老年癡呆癥[4]、糖尿病[5]等都屬于多種基因缺陷導致的疾病。因此,發現疾病的致病基因,對于了解疾病發生原因、疾病的臨床診斷和早期的預防治療有著重要作用,也是人類基因組研究的重要目標,具有極大的科學與社會意義。另一方面,在當前的生物醫藥領域,率先發現疾病的相關致病基因,對于搶先研發出疾病的治療手段和治療藥物有著不可忽視的作用,其所帶來的經濟效益也是巨大的。
早期開展基因-疾病關聯研究都是基于臨床及生物實驗的方法進行的,這種方法通常會耗費大量的人力物力,不僅極大地限制了致病基因研究的發展,也嚴重影響著相關公共數據集的數據質量。例如,廣泛使用的人類孟德爾遺傳數據庫(online Mendelian inheritance in man,OMIM)[6]和遺傳關聯數據庫(genetic association database)[7]都只記錄了極少部分基因-疾病間已經確定存在的關聯關系,絕大部分基因-疾病間是否存在關聯關系并未可知,從而一方面導致數據集中基因-疾病間的已知關聯數據極為稀疏,另一方面導致數據集存在嚴重的數據偏斜問題,也就是說這些數據集只包含部分基因-疾病間確定的有關聯關系(本文稱之為Positive關系),并沒有包含任何基因-疾病間確定的無關聯關系(本文稱之為Negative關系)。對那些未知的基因-疾病關聯關系(本文稱之為Unlabeled關系),需要預測它們之間是否存在關聯。這類問題在機器學習領域通常稱之為PU(positive and unlabeled)學習問題,現有研究已經表明負類(Negative)關系的缺失將嚴重影響著PU學習問題的學習效果[8]。而近年來,通過高通量測序、生物醫學文本挖掘等手段,可以獲得大量如基因陣列信息、基因內在特性、基因間相似性信息、疾病間相似性信息等有用的生物信息。此類信息的出現,也為研究新的預測方法來緩解以上不足提供了契機。首先,開發出了Katz這種基于網絡相似度度量的方法,其通過融入基因間相似性信息、疾病間相似性信息和基因-疾病關聯信息構建基因-疾病異構網絡,通過在異構網絡上預測來緩解數據稀疏的缺陷。但該方法對于未連接到網絡中的節點無法進行有效預測并且會受到所構建的網絡質量的影響[9-10]。之后,Natarajan等人[11]轉而引入機器學習領域流行的歸納式矩陣補全(inductive matrix completion,IMC)方法來對基因-疾病關聯關系進行預測,該方法利用基因和疾病的特征信息,能夠有效克服冷啟動問題。然而,該方法不僅遭受著數據稀疏的影響,而且也受到PU問題的影響。
針對以上問題,本文提出了一種基于Katz增強歸納型矩陣補全的基因-疾病關聯關系預測(Katz boosted inductive matrix completion for gene-disease associations prediction,KIMC)模型。該模型的動機是利用傳統的Katz方法來優化新近提出的歸納式矩陣補全方法,本質上屬于步進式基因-疾病預測范型,包括基于Katz方法的預估計和基于歸納式矩陣補全方法的精化估計兩個步驟。具體地,首先利用Katz方法基于所構建的基因-疾病異構網絡對所有基因-疾病對進行Unlabeled關系的關聯預估計。由于所估算出的關聯評分數據中接近于1的數據可視為正關聯信息,接近于0的數據可視為負關聯信息,因此通過Katz預估計不僅緩解了數據稀疏缺陷,也緩解了PU問題對后續歸納式矩陣補全方法的影響。然而,受限于所構建的基因-疾病異構網絡質量,基于Katz方法預估計出的基因-疾病關聯信息不可避免地包含了一定程度的噪聲。為了克服這些噪聲對歸納式矩陣補全方法的影響,本文將彈性網正則化技術[12]引入新近提出的歸納式矩陣補全方法以增強其魯棒性,進而利用改進的彈性網正則化歸納型矩陣補全模型來精化基因-疾病關聯預測效果。OMIM數據集上的實驗表明,本文提出的KIMC方法與其他幾種競爭性方法比較,不僅在查全率和查準率上有顯著提高,同時也能解決基因-疾病關聯預測中常見的冷啟動問題。
本文的主要貢獻如下:
(1)提出了一種基于Katz增強歸納型矩陣補全的基因-疾病關聯預測模型。該模型不僅融合了Katz方法和歸納型矩陣補全方法的優點,而且通過引入彈性網正則化機制增強了模型的容噪性能,能有效緩解傳統方法易遭受的數據稀疏和PU問題的影響。
(2)采用近鄰前向后向分裂技術設計了一種有效的彈性網正則化歸納式矩陣補全優化算法,同時從理論上證明了該算法的收斂性。
(3)OMIM數據集上的多組實驗結果表明,所提出的KIMC模型不僅能夠取得比現有預測方法更好的預測效果,而且能解決針對新疾病或新基因進行有效預測的冷啟動問題。
在過去的十幾年間,已經提出了許多基于不同基因-疾病數據集的致病基因預測算法。主要分為基于網絡相似度度量的方法和基于機器學習的方法。
Wu等人[13]提出了CIPHER(correlating protein interaction network and phenotype network to predict disease genes)方法,其假設在相互作用網絡中更接近的兩個基因可能會導致更相似的疾病。可以用基因相似性來解釋疾病相似性,利用整個疾病相似性網絡和PPI(protein-protein interaction)網絡計算得到一個得分,通過這個得分衡量一個基因是特定疾病致病基因的可能性。Li等人[14]對隨機游走方法進行改進,提出基于異構網絡的隨機游走(random walk with restart on heterogeneous network,RWRH)模型。首先利用基因間相似性信息、疾病間相似性信息和基因-疾病關聯信息構建基因-疾病異構網絡,這個方法充分考慮到了整個網絡的全局信息。用一個隨機游走粒子沿著網絡連接關系進行擴散來捕獲節點間的相似性,從而計算基因和疾病間的關系。基于Li等構建的基因-疾病異構網絡,Singh-Blom等人[15]引入在社交網絡分析中廣泛使用的Katz方法,在異構網絡上利用兩個節點間不同步長的游走路徑數量來計算節點間的相似性,從而預測基因和疾病的關聯關系。Wang等人[9]以及Zou等人[10]對上述基于網絡相似度度量的方法進行了比較細致的分析比較,這些方法通過計算網絡中的候選基因和疾病節點之間的相似度來預測基因-疾病關聯。這類算法的優點是能夠將不同類型的基因相似性信息和疾病相似性信息融入到基因-疾病異構網絡中,增強數據信息量;其缺點也很明顯,對于那些沒有連接到異構網絡中的基因和疾病節點,不能有效預測,同時依賴于構建高質量的生物網絡模型。
基于以上方法的局限,一些研究者又提出了基于機器學習的方法。例如:Singh-Blom等人[15]提出了CATAPULT(combining data across species using positiveunlabeled learning techniques)方法。該方法是一種監督機器學習方法,通過訓練帶偏置的SVM(support vector machine)分類器,進行基因-表型關聯分類,從而挖掘出致病基因。接著,Natarajan等人[11]提出IMC方法,能夠從基因微陣列數據、基因功能相互作用數據、不同物種的同源基因-表型數據中提取基因特征;從疾病相似性網絡,疾病的臨床表現數據,大量的醫學文獻中獲取疾病特征,融入該方法中,彌補標準矩陣補全(matrix completion,MC)只能依賴于現有的可觀察到的關聯關系進行預測的局限,使得該方法具有一定的歸納性,能夠對新的基因和疾病進行預測,解決了MC方法會遇到的冷啟動問題,相較于之前提出的方法,預測效果有了很大的提升。
本章主要介紹現有的幾種不同的基因-疾病關聯預測方法。
本文的主要目標是預測疾病的潛在致病基因,現在所使用的基因和疾病數據集通常只有少量的已知基因-疾病關聯。通常,構建一個已知基因-疾病關聯矩陣P∈RNg×Nd,如下:

行和列分別對應基因和疾病,Ng表示基因總數,Nd表示疾病總數,Pij=1表示基因i與疾病j之間存在關聯,Pij=0表示基因i與疾病j之間關聯未知(可能存在關聯,也可能不存在)。由于該矩陣包含大量未知關聯,因此所構建的基因-疾病關聯矩陣是一個極度稀疏的矩陣,同時由于這里只有正關聯數據,因此該問題是一個典型的PU學習問題。主要的任務就是通過設計有效的方法,將其中的未知關聯預測出來,以達到預測致病基因的目的。
Katz方法類似于CIPHER[13]、RWRH[14]等算法,這些方法的本質都是基于網絡相似性度量的算法。具體說來,Katz方法是基于基因和疾病關系網絡計算基因和疾病間的相似性評分,并根據相似性評分對疾病對應的基因進行排序,選出合適的候選致病基因。Katz方法在社交網絡關系預測中有著很成功的應用[16],它利用兩個節點間不同步長的游走路徑數量來計算節點間的相似性,在基因和疾病關系網絡中,也是通過同樣的方法計算節點間的相似性評分。
這里,利用基因-基因相似性網絡、基因-疾病關聯網絡、疾病-疾病相似性網絡構建一個基因-疾病關系異構網絡,然后在異構網絡上利用Katz方法預測基因-疾病關聯。異構網絡結構如圖1。圖示異構網絡的鄰接矩陣表示為:

其中,G表示基因-基因相似性網絡;D表示疾病-疾病相似性網絡;P表示基因-疾病關聯網絡。

Fig.1 Structure of heterogeneous networks圖1 異構網絡結構
由于在網絡中基因Gi與疾病Dj之間有直接關聯的數量并不多,因此,需要通過計算節點間不同長度路徑的數量來表示基因與疾病之間的關聯關系。(Cl)ij表示基因Gi到疾病Dj之間路徑長度為l的路徑數量。在C上定義節點間相似性如下:

其中,β為一個非負常數,用來控制不同長度路徑的影響,β的取值范圍為(0,min{1,1/‖‖C2})。將式(3)轉換為矩陣形式,則相應的關聯評分矩陣可表示如下:

但是,在Katz方法中,沒有必要去考慮所有長度的路徑數量,因為較短路徑長度的路徑傳達的節點之間的相似性信息更多,而距離較遠的節點所傳遞的信息很少,所以只需要考慮有限路徑長度的和。已有研究結果表明[17],較小的k值(通常取k=3或k=4)能夠表現出很好的性能。在實驗中,取k=3,取出對應的基因-疾病相似性Katz評分矩陣可表示為:

利用式(5)求基因和疾病間的評分。該方法將基因-基因相似性網絡、疾病-疾病相似性網絡這類輔助信息融入到基因-疾病異構網絡中,有效提高了預測的效果。
由于Katz等基于網絡的關聯預測方法的明顯缺陷,提出利用矩陣補全理論進行基因-疾病關聯預測。最初,利用MC方法預測基因-疾病關聯關系,該方法將目標矩陣分解為兩個低秩矩陣W∈RNg×k和H∈RNd×k的乘積,其中k?Ng,Nd。因此,預測基因-疾病關聯可以寫成求解以下優化問題:


由于使用現有生物數據集構建的基因-疾病關聯矩陣P是非常稀疏的。從OMIM數據庫中獲取的數據集中,大多疾病只有一個已知相關基因,大多數基因沒有相關疾病。在這里,利用標準矩陣補全不能預測關聯矩陣中那些完全沒有元素的行和列,即遭遇冷啟動問題。
由于使用標準矩陣補全預測基因-疾病關聯時,所利用的數據類型單一(只利用已知基因-疾病關聯),諸如生物醫學文獻,功能注釋,蛋白質-蛋白質相互作用,不同物種的同源表型,基因微陣列等大量生物特征信息得不到有效利用。在預測時會遭遇冷啟動問題,預測效果也不理想。針對以上問題,需要尋找一種能夠有效利用這類基因和疾病的特征信息。Yu等人[18]提出的多標簽學習問題能夠很好地利用此類特征信息。在多標簽學習中,需要學習一個低秩線性模型Z∈Rd×L,其中每一個樣本(基因)由d個特征表示,并且有L個標簽(疾病)。如果x∈Rd表示一個基因的特征向量,對應疾病j的預測可表示為xTZj,其中Zj表示矩陣Z的第j列。
將IMC[19]模型應用于基因-疾病關聯預測問題,IMC假設通過將與其行和列實體相關的特征向量應用于低秩矩陣來生成關聯矩陣,用P中觀察到的元素來恢復Z。令分別表示基因i和疾病j的特征向量,表示Ng個基因的訓練特征矩陣,其每一行代表一個基因的特征向量,表示Nd個疾病的特征訓練矩陣,其每一行代表一個疾病的特征向量。IMC將建模為,需要恢復低秩矩陣Z,即Z=WHT,其中因此,基因-疾病關聯預測建模為解決如下問題:

一個在訓練數據中不存在的新疾病j′,如果有其特征向量yj′,那么對于所有基因i,能夠計算出其所有的關聯Pij′。同樣,對于一個新的基因也是如此,而且能夠有效解決MC方法所遭遇的冷啟動問題。當特征數量很大時,取一個較小的k值,此時需要學習的參數個數小于fg×fd,在標準矩陣補全中,需要學習的參數個數為(Ng+Nd)×k,不難發現,IMC中需要學習的參數不依賴于基因和疾病的數量,僅取決于基因和疾病的特征數量。
MC問題可以看成是IMC問題的一個特例,即當基因的特征矩陣X為一個大小為Ng的單位矩陣,疾病的特征矩陣Y為一個大小為Nd的單位矩陣。在這里,使用交替最小化(即固定W求H或固定H求W,交替迭代求解)求解式(7),目標函數是一個凸函數,當W或H中的一個固定時,求解只有一個變量(W或H)的凸函數時,使用共軛梯度下降法求解。
由于現有的基因-疾病數據的極度稀疏性以及基因-疾病數據庫中大多數只記錄確定基因-疾病關聯,現有的方法都會遭受數據稀疏和PU問題的影響。因此,需要尋求一種較為穩定的方法,能夠緩解基因-疾病關聯數據稀疏問題的影響以及PU問題的影響。
于是提出了集成Katz方法在基因-疾病異構網絡上的關聯預測和歸納型矩陣補全模型的KIMC方法。首先,在構建異構網絡時,能夠從被業界廣泛認可的數據庫中獲取已被證實的基因-基因相似性信息和疾病-疾病相似性信息,與基因-疾病關聯信息一起構成異構網絡。相比使用特征信息的方法,Katz方法使用的這類信息能夠更直接地傳達基因-疾病相關信息。融合IMC方法,增強預測效果的同時,又不會失去其具有歸納性的特點,將問題建模為:


由于受構建的網絡質量影響,引入殘差矩陣R會帶來一部分噪聲,直接使用歸納型矩陣補全求解會影響預測效果和穩定性,因此引入矩陣彈性網正則化[12]來緩解這個問題,將求解殘差R建模為:

進一步可將問題(10)轉換成等價的罰函數形式:

本文擬采用近鄰前向后向分裂(proximal forward backward splitting,PFBS)[20]技術對問題(11)進行優化求解。不妨令:

則問題(11)可形式化為如下一般形式:

根據PFBS規則,可對Z進行如下方式的迭代求解:

其中,δ為更新步長,且:

根據文獻[21],對于矩陣B∈Rfg×fd和常數τ>0,有:

因此,對Z的迭代更新可轉換為:

進一步,文獻[20]的定理3.4表明:
命題1若最優化問題(13)的最小值存在且0<δ<2/Lf,則對任意初始參數Z0,解序列(14)收斂到式(13)的最小值。其中Lf為函數F2(Z)的Lipschitz連續梯度,即對于一個凸函數F(X?),Lf>0,對?X1,X2,有如下不等式成立:

根據命題1,如果可以找到一個常數Lf>0并且使F2(Z)滿足式(18),則解序列(14)收斂,則KIMC算法收斂,根據文獻[22]引理1證明如下:

因此,Lipschitz常數為:

本文將無彈性網正則化項的KIMC模型和加入彈性網正則化項的KIMC模型分別表示為KIMC1和KIMC2,其中KIMC2求解過程如算法1所示。
算法1基于Katz增強歸納型矩陣補全
輸入:基因和疾病特征矩陣X、Y,關聯矩陣P,采樣下標集合Ω,基因相似性矩陣G,疾病相似性矩陣D,參數β、δ、ρ、λ以及迭代次數Maxiter。

在本章中,介紹實驗所用到的基因-疾病數據集和基因與疾病特征來源,以及基因-疾病關聯預測所通用的評價標準,并對實驗結果進行詳細分析,比較幾種方法的性能。
本文使用的基因和疾病信息來自OMIM數據庫,該數據庫不僅收錄了以孟德爾方式遺傳的所有單基因病的相關資料,而且還收錄了染色體病、多基因病、線粒體病方面的資料,涵蓋病種豐富。其還提供了已知有關致病基因的連鎖關系,染色體定位,結構與功能信息,同時描述了各種遺傳病的臨床信息,其信息更新及時,具有權威性。實驗使用文獻[15]所提供的基因-疾病數據集,該數據集包括從OMIM數據庫采集的基因-疾病關聯關系,其中有12 331個基因,3 209個疾病,共有3 954個已知基因-疾病關聯;12 331個基因的基因-基因相似性信息和3 209個疾病的表型-表型相似性數據(即疾病-疾病相似性數據)。另外,本文所需的基因特征和疾病特征可以從不同類型、不同來源的生物數據中提取。例如,從基因微陣列數據,基因功能相互作用數據,不同物種的同源基因-表型數據中提取基因特征;從疾病相似性網絡,疾病的臨床表現數據,大量的醫學文獻分析數據中獲取疾病特征。面對這類復雜的數據,通常會利用PCA(principal component analysis)進行降維來提取基因和疾病的主要特征,本實驗使用文獻[11]提供的基因和疾病特征。
與上文提到 Katz[15]、MC[11]、IMC[11]方法一樣,實驗使用3折交叉驗證進行評估。評價預測性能時,使用top-r排序的方法(即對預測結果中每一個疾病列對應的基因評分值由大到小排序,取前r個基因作為對應疾病的候選致病基因)與另幾種基因-疾病關聯預測方法比較。在評價不同方法性能時,通過取不同閾值r所對應的疾病相關的致病基因,對比測試集中記錄的已知關聯,比較每種方法的查全率(Recall)。計算公式如下:

同時,也需要對實驗結果的查準率(Precision)進行分析,其計算公式如下:

其中,TP表示測試集中已知基因-疾病關聯中被正確判定的關聯數量,FN表示測試集中已知基因-疾病關聯中沒有被正確判定的關聯數量,FP表示未知基因-疾病關聯中被判定為存在關聯的數量。在現在的生物學研究領域中,希望在一個較小的閾值范圍取得好的預測效果,通常取r≤100。其次,在評估預測方法全局性能同時,相較于一些被廣泛研究的基因和疾病,研究者更關注那些存在研究空白的新基因和新疾病,希望能夠不斷發現有價值的新的基因和疾病關聯,以促進醫學研究的發展。因此,這里也關注各種方法對于新基因(即在數據集中僅有一個已知關聯,但在訓練時沒有關聯的基因)和新疾病(即在數據集中僅有一個已知關聯,但在訓練時沒有關聯的疾病)的預測能力。同時,為進一步驗證本文所提出方法的有效性,選取8種常見病的前10個候選基因,與數據庫及文獻報道進行了對比分析。
實驗中對比了最近提出的幾種基因-疾病關聯預測方法:MC方法、IMC方法、Katz方法。3折交叉驗證的查全率(Recall)結果如圖2(a)所示,其中橫坐標表示不同閾值r的取值,縱坐標表示查全率。本文提出的KIMC1方法和KIMC2方法在取不同的閾值r時性能都優于其他幾種對比方法。在閾值取r=100時,幾種方法的查全率分別為:MC方法為6.7%,Katz方法為11.3%,IMC方法為23.2%,KIMC1方法為26.5%,KIMC2方法為27.6%。加入彈性網正則化的KIMC2方法相較于之前提出的集成基因疾病特征的IMC方法有了一定提高。本文提出的方法同時集成了Katz方法和歸納性矩陣補全方法的優勢,整體表現有了進一步提高,同時從圖中可以看出加入彈性網正則化,可以有效緩解數據噪聲的影響,提高了預測效果和穩定性。其次,這里同樣給出了實驗結果的查準率-查全率曲線圖(precision-recall curves)。如圖2(b),其橫坐標為查全率,縱坐標為查準率。從圖中可以發現,當查全率大于4%時,在相同的查準率下,KIMC1和KIMC2的查全率相較于其他3種方法都有一定提升。這里也對比了有/無彈性網正則化時不同閾值下的曲線,可以發現加入彈性網正則化后的KIMC2相較于KIMC1查準率也顯著提高。

Fig.2 Overall performance at different thresholdr圖2 取不同閾值r時的全局性能
在基因-疾病關聯關系預測中,往往會存在一個很容易被忽視的問題:現有的數據庫中記錄的多數都是認知度和關聯度很高的基因和疾病,只有少部分關聯單一的基因和疾病,因此在實驗評估時,這類認知度和關聯度較高的基因和疾病往往被預測出的幾率更大,而在現實中研究者更關注那些處于研究空白的基因和疾病。因此,這里僅關注那些在數據集中已知關聯單一的基因和疾病,在訓練時將這些已知關聯隱藏,以此來展現不同方法對新基因和新疾病的預測能力。在閾值r≤100的范圍內,新基因查全率如圖3(a)所示,其橫坐標表示不同閾值,縱坐標表示新基因查全率。在閾值范圍為0<r≤45時,Katz方法利用基因-基因相似性網絡和疾病-疾病相似性網絡作為輔助信息時,相較于IMC,預測效果更好。因為在異構網絡中,此類數據能夠更直接地反映出基因和疾病之間的關聯。而IMC將不同的基因和疾病數據提取特征使用時,在此閾值范圍內表現欠佳。當r>45時,IMC方法的預測效果明顯提高,利用特征信息進行預測的優勢得到體現。本文提出的KIMC1方法和KIMC2方法集成了Katz方法和IMC方法的優點,在提高預測效率的同時,使其在不同的閾值范圍內預測表現更穩定。當r=100時,KIMC2方法的新基因查全率為17.4%。新疾病查全率如圖3(b)所示,其橫坐標表示閾值,縱坐標表示新疾病查全率。從圖中可以發現,KIMC1方法和KIMC2對于新疾病的預測能力也優于其他幾種對比方法。

Fig.3 Recall at different thresholdrfor new genes and diseases圖3 取不同閾值r時的新基因和新疾病的查全率
上述對新基因的預測能力的分析僅在OMIM數據庫中的已知基因-疾病關聯數據集上進行驗證,對于一些沒有記錄在數據庫中的致病基因無法進行評估驗證,因此整體效果會偏低,同時對基因間的關聯性也無法進行分析。這里選取幾種現實生活中常見疾病排名前10的致病基因預測結果進行分析,對本文提出方法的效果進一步補充說明。這里選取了8種常見病,分別為:白血病(leukemia)、阿爾茲海默病(alzheimer disease)、抗胰島素癥(insulin resistance)、前列腺癌(prostate cancer)、精神分裂癥(schizophrenia)、乳腺癌(breast cancer)、胃癌(gastric cancer)、結腸癌(colorectal cancer)。實驗時,將訓練數據中這8種疾病的相關致病基因信息全部隱藏(即這8種常見病對應的列全部置“0”),預測的疾病前10個候選致病基因如表1所示,表中疾病后的數字(如MIM:601626)表示其在OMIM數據庫中對應編號,基因后的數字(如PAX6(5080))表示基因在NCBI數據庫中對應編號。表中基因順序按照預測評分由大到小排列。通過對表中候選致病基因的分析,可發現該方法預測出的致病基因并不僅限于基因-疾病關聯數據集中已記錄的基因,還能預測出一些后期研究發現的疾病相關基因。如與阿爾茲海默病相關的基因有PSEN1、PSEN2[4]等,這些已被證實的疾病相關基因在表中加粗顯示。其次,從表中可以發現,這8種疾病的前10預測基因之間有很高的重疊度,有些基因在8種疾病中相互共享,如TP53、KRAS、RAD51已被證實與多種癌癥的產生有密切關系[33],因此有充分理由相信,這些共享的基因實際上反映了不同疾病間的病因關聯。即這類共享的基因會導致多種疾病的發生。通過對這類共享基因的分析,進一步驗證了KIMC方法的預測結果能夠展現出一些基因的共性。因此,KIMC方法能夠為研究人員發現致病基因和研究致病基因間的關聯提供有效的參考。

Table 1 Prediction of top-10 candidate pathogenic genes for KIMC表1 KIMC預測前10個候選致病基因
本文提出了一種基于Katz增強歸納型矩陣補全(KIMC)模型的基因-疾病關聯預測算法。該算法融合Katz方法和IMC方法的優點,能夠有效緩解遭遇的PU問題的影響,面對極度稀疏的基因-疾病關聯數據,能夠有效緩解現有方法都會遭遇的數據稀疏性問題。其次,通過引入彈性網正則化緩解數據噪聲的影響,在提升預測效果的同時增強算法的容噪性。相較于現有預測方法,KIMC方法預測效果顯著提高,同時對于研究者比較關注的新基因和新疾病也能有效預測。該方法對于降低研究成本,幫助研究者深入研究不同疾病的致病基因和基因相關性有很大的意義。
基于本文提出的KIMC方法,后期的研究可以考慮融入更多不同類型的生物數據源,研究如何高效地從這些生物信息中提取關聯度更高的基因和疾病的特征信息,以幫助提高預測效果。