999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于協(xié)同作用網(wǎng)絡(luò)的特征模塊搜索算法

2022-12-31 00:00:00白嵩楠林曉惠周惠巍
計算機應用研究 2022年12期

收稿日期:2022-05-23;修回日期:2022-07-20" 基金項目:國家自然科學基金資助項目(61772109)

作者簡介:白嵩楠(1995-),女(蒙古族),遼寧沈陽人,碩士,主要研究方向為數(shù)據(jù)挖掘、機器學習(2339289149@qq.com);林曉惠(1967-),女,教授,博導,主要研究方向為數(shù)據(jù)挖掘、機器學習;周惠巍(1970-),女,副教授,主要研究方向為生物醫(yī)學信息處理.

摘 要:

如何利用數(shù)據(jù)挖掘領(lǐng)域的特征選擇技術(shù),從高維復雜的組學數(shù)據(jù)中提取關(guān)鍵特征一直是研究重點。對此,針對組學數(shù)據(jù)特征間存在的復雜關(guān)聯(lián)關(guān)系進行研究,提出了基于協(xié)同作用網(wǎng)絡(luò)的特征模塊搜索算法。該算法利用交互增益值構(gòu)建協(xié)同作用網(wǎng)絡(luò),通過衡量候選節(jié)點與當前特征模塊連接的緊密程度,同時結(jié)合節(jié)點自身分類性能實現(xiàn)模塊搜索,確定重要特征。在十個數(shù)據(jù)集上對該算法的性能進行了測試分析,在分類準確率、靈敏度、特異性三項指標上該算法與對比算法相比均有優(yōu)勢,這表明其所確定的網(wǎng)絡(luò)模塊性能更優(yōu)。

關(guān)鍵詞:特征選擇;分子間關(guān)聯(lián)關(guān)系;協(xié)同作用網(wǎng)絡(luò);交互增益

中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2022)12-008-3582-05

doi:"" 10.19734/j.issn.1001-3695.2022.05.0247

Feature module selection algorithm based on synergetic network

Bai Songnan, Lin Xiaohui, Zhou Huiwei

(School of Computer Science amp; Technology, Dalian University of Technology, Dalian Liaoning 116024, China)

Abstract:

Using feature selection technology in data mining to define the key features from high-dimensional and complex omics data has been the focus of research. This paper studied the complex correlation between features of the omics data, and proposed a feature module selection algorithm based on the synergetic network. It used the interaction gain to construct the weighted synergetic network. By measuring the closeness of candidate nodes to the current feature module and combining with the node’s own classification performance, important feature module could be obtained. It validated the algorithm on ten public data sets. The algorithm shows advantages over the comparison algorithms in classification accuracy, sensitivity and specificity, which indicates the feature modules selected by the algorithm have better performance.

Key words:feature selection; molecule relationship; synergetic network; interaction gain

0 引言

近年來,人類基因組計劃的完成,高通量測序技術(shù)的日臻完善,極大地促進了組學研究的發(fā)展,組學技術(shù)為不同分子系統(tǒng)水平上的生物學功能和組織研究提供了新的視角,同時為腫瘤發(fā)生、發(fā)展的研究提供了新的線索[1]。由于組學數(shù)據(jù)通常維數(shù)較高、樣本量較小,所以如何從高維復雜的組學數(shù)據(jù)中提取反應病變,揭示生物規(guī)律的關(guān)鍵信息對疾病診斷、亞型鑒定、藥物研發(fā)、個性化醫(yī)療等具有重要意義[2]。

組學數(shù)據(jù)往往包含大量的冗余特征,利用特征選擇技術(shù)可有效處理高維組學數(shù)據(jù),提取與疾病相關(guān)聯(lián)的生物標志物,從分子水平上認識腫瘤的發(fā)病機制。特征選擇方法一般包括單變量或多變量的形式[3],在生物信息學領(lǐng)域應用較為廣泛的包括mRMR(max-relevance and min-redundancy)[4]、FCBF(fast correlation-based filter)[5]、ReliefF[6]、SVM-RFE(support vector machine methods based on recursive feature elimination)[7]算法等。

然而,生命體本身是一個復雜的系統(tǒng),分子(基因、代謝物等)間相互關(guān)聯(lián)、相互作用共同反應生命現(xiàn)象的本質(zhì),若只關(guān)注單分子標志物往往會丟失大量信息,而以網(wǎng)絡(luò)的形式搜索模塊標志物,可以系統(tǒng)地分析生物特征,從而揭示生理、病理現(xiàn)象[8]。近年來,基于網(wǎng)絡(luò)的組學數(shù)據(jù)分析方法日益得到人們的關(guān)注。張元欣等人[9]通過構(gòu)建加權(quán)基因共表達網(wǎng)絡(luò),從網(wǎng)絡(luò)的層面挖掘與乳腺癌發(fā)生發(fā)展過程相關(guān)的關(guān)鍵模塊及hub基因。文獻[10]提出FSFCN(feature selection based on feature correlation network)算法,該算法基于斯皮爾曼相關(guān)系數(shù)構(gòu)建相關(guān)性網(wǎng)絡(luò),并通過聚類的方式形成若干個簇,從每個簇中選擇與類別相關(guān)性較強的特征集合,得到最后的特征子集。將該算法應用于阿爾茲海默癥的高維數(shù)據(jù)集,已成功識別出與該疾病相關(guān)的生物標志物。Su等人[11]提出DNB-HC(define the network biomarkers based on horizontal comparison)算法,通過分子的水平關(guān)系來表征疾病的生理狀態(tài),并通過差異網(wǎng)絡(luò)分析的方式提取差異網(wǎng)絡(luò)中度最大的關(guān)鍵節(jié)點及近鄰接點所形成的網(wǎng)絡(luò)標志物,成功篩選出與肝癌相關(guān)的潛在生物標志物。文獻[12]中的RSGSA(robust and stable gene selection algorithm)通過構(gòu)建皮爾森相關(guān)性網(wǎng)絡(luò)去除冗余特征,并通過改進SVM-RFE算法得到最終的特征子集,將該算法應用到10個基因表達數(shù)據(jù)集上取得較好的實驗結(jié)果。

以上方式普遍基于分子間的相關(guān)性構(gòu)建相關(guān)性生物網(wǎng)絡(luò)。然而除相關(guān)性外,還存在一種分子間的關(guān)聯(lián)關(guān)系——協(xié)同交互作用,即分子與類別的聯(lián)合互信息大于它們各自與類別的互信息之和,具有協(xié)同交互作用的分子結(jié)合,會產(chǎn)生更多與類別相關(guān)的信息。基于這一思想,本文提出了一種基于協(xié)同作用網(wǎng)絡(luò)的生物標志物篩選算法MSIG(module selection based on the interaction gain)。該算法利用交互增益IG[13]構(gòu)建協(xié)同作用網(wǎng)絡(luò)[14],在所構(gòu)建的網(wǎng)絡(luò)上進行特征模塊搜索過程中,通過衡量候選節(jié)點與當前網(wǎng)絡(luò)中節(jié)點所構(gòu)成的連邊重要性來判斷候選節(jié)點與當前網(wǎng)絡(luò)模塊連接的緊密程度,同時結(jié)合特征自身分類性能,綜合度量候選特征的重要性,從網(wǎng)絡(luò)層面與分子層面兩個角度來實現(xiàn)重要信息模塊的搜索。

1 基礎(chǔ)理論

令X={x1, x2, …, xn}代表樣本集合,設(shè)特征集合F={f1, f2, …, fm},類標集合為C={c1, c2},m為特征數(shù)量。

1.1 交互增益

交互增益IG[13]反應了特征(分子)fi(fj)與類別C的依賴關(guān)系由于fj(fi)的加入所發(fā)生的變化。對每一對特征fi與fj(1≤i≠j≤m),其IG計算如下:

IG(fi; fj;C)=I(fi; fj;C)-I(fi;C)-I(fj;C)(1)

其中:I(fi, fj; C)表示特征fi、fj與類別C的聯(lián)合互信息;I(fi; C)、I(fj; C)分別為特征fi、fj與類別C的互信息。若IG(fi; fj; C)gt;0,表明fi與fj與類別的聯(lián)合互信息大于各自與類別的互信息之和,fi與fj之間具有協(xié)同交互作用;若IG(fi; fj; C)lt;0,表明fi與fj與類別的聯(lián)合互信息小于各自與類別的互信息之和,即 fi與fj所提供的信息中包含冗余信息;同理當IG(fi; fj; C)=0時表明fi與fj相互獨立。

1.2 網(wǎng)絡(luò)拓撲指標

設(shè)定網(wǎng)絡(luò)G(V, E),V為網(wǎng)絡(luò)中頂點集合,E為網(wǎng)絡(luò)中邊集合,G所對應的鄰接矩陣A=(aij)|V|×|V|。

1)特征向量中心性

對于網(wǎng)絡(luò)中的節(jié)點i∈V,特征向量中心性[15]基于節(jié)點i在網(wǎng)絡(luò)G中的鄰接點的重要性計算其在網(wǎng)絡(luò)中的重要程度。設(shè)Ei為網(wǎng)絡(luò)中節(jié)點i的特征向量中心性值,其定義如下:

Ei=c∑nj=1aijEj(2)

其中:c為比例常數(shù);n為網(wǎng)絡(luò)中節(jié)點數(shù)量;若節(jié)點j與i之間有連邊,則aij=1,否則aij=0。因此一個節(jié)點的特征向量中心性值取決于其鄰接點數(shù)量及鄰接點特征向量中心性值大小,若與該節(jié)點相關(guān)聯(lián)的點越多且所連節(jié)點的特征向量中心性值越大,則該節(jié)點的特征向量中心性值越大,表明其在網(wǎng)絡(luò)中越重要。

2)邊聚集系數(shù)

邊聚集系數(shù)[16]由點聚集系數(shù)演變而來,在網(wǎng)絡(luò)中邊聚集系數(shù)表示為一條邊在網(wǎng)絡(luò)中所構(gòu)成的三角形數(shù)量,與該邊最多可形成的三角形數(shù)量之比。對于節(jié)點i、j所構(gòu)成的連邊e(i, j)∈E,e(i, j)的邊聚集系數(shù)ECC[15]的定義如下:

ECC(e(i,j))=zijmin(ki-1,kj-1)(3)

其中:zij表示節(jié)點i與j的連邊在網(wǎng)絡(luò)中所形成的三角形的個數(shù);ki、kj分別表示節(jié)點i與j的度數(shù)。邊聚集系數(shù)通過計算一條邊在網(wǎng)絡(luò)中所處位置的聚集程度大小從而來衡量該邊在網(wǎng)絡(luò)中重要程度。

2 基于協(xié)同作用網(wǎng)絡(luò)的特征模塊搜索算法MSIG

MSIG算法分為生物網(wǎng)絡(luò)構(gòu)建、特征模塊搜索兩個步驟。在網(wǎng)絡(luò)構(gòu)建階段,采用交互增益IG度量特征(生物分子)間的協(xié)同作用,建立生物網(wǎng)絡(luò)。在特征模塊搜索階段,針對所構(gòu)建的協(xié)同網(wǎng)絡(luò),通過衡量候選節(jié)點與當前網(wǎng)絡(luò)中節(jié)點所構(gòu)成的連邊重要性來判斷候選節(jié)點與當前網(wǎng)絡(luò)模塊的關(guān)聯(lián)性,同時結(jié)合特征自身分類性能,綜合度量候選特征的重要性,搜索與所研究問題相關(guān)的重要網(wǎng)絡(luò)模塊。

根據(jù)輸入的樣本集X,特征集合F={f1, f2, …, fm}和類標集合C={c1, c2},網(wǎng)絡(luò)構(gòu)建的主要步驟如下[14]:

a)利用式(1)計算F中每一對特征的交互增益,將大于零的交互增益值加入集合IG+。

b)根據(jù)Sreevani等人[14]的思想,利用極差的原理確定顯著性交互增益的閾值θ。首先對集合IG+中的值按升序排列得到集合IG1={p1, p2, …, pt},其中,t=|IG+|(即:交互增益值IG大于0的特征對數(shù)量),pt為IG1集合中的最大值(最大的交互增益值),p1為最小值。計算IG1中相鄰兩個元素的差值,得到集合IG2={mi| mi =pi-pi-1, pi, pi-1∈IG1, 2≤i ≤t}={p2-p1, p3-p2, … , pt-pt-1}。根據(jù)式(4)計算組距θ1:

θ1=pt-p1t-1(4)

計算集合IG2中值大于等于θ1的元素的平均值θ2,則集合IG2中滿足pi-pi-1≥θ2的最小下標i所對應的pi即為顯著性交互增益的閾值θ。

c)令G=(V, E, W)為所構(gòu)建的協(xié)同作用網(wǎng)絡(luò),則V=F,網(wǎng)絡(luò)中的節(jié)點與特征一一對應。對于每對特征fi, fj(fi, fj∈F, i≠j),利用步驟a)計算得到交互增益值IG(fi; fj; C),IG值大小表示特征對的協(xié)同作用強度,若該值大于步驟b)確定的顯著性交互增益的閾值θ,則在特征對fi與fj之間構(gòu)建連邊,得到邊集合E。

算法1 協(xié)同作用網(wǎng)絡(luò)構(gòu)建

輸入:數(shù)據(jù)集X, 特征集合F={f1, f2,…, fm},類別集合C。

輸出:協(xié)同作用網(wǎng)絡(luò)G=(V, E, W)。

IG+=; E=; W=;

for i=1 to |F|-1 do

for j=i+1 to |F| do

根據(jù)式(1)計算IG(fi; fj; C);

if IG(fi; fj; C)gt;0 then

IG+=IG+∪{IG(fi; fj; C)};

end if

end for

end for

t=|IG+|, IG+中的元素升序排序得到IG1={p1, p2, … , pt};

根據(jù)式(4)計算θ1;

IG2={mi =pi-pi-1|2 ≤ i ≤ t, pi, pi-1∈IG1};

計算IG2中值大于等于θ1的元素的平均值θ2;

a=min{i |mi≥ θ2, mi∈ IG2},則θ=pa;

for i=1 to |F|-1 do

for j=i+1 to |F| do

if IG(fi; fj; C)≥θ then

wij=IG(fi; fj; C);

W=W∪{wij};

E=E∪{(fi, fj)};

end if

end for

end for

return G.

2.2 特征模塊搜索

a)初始化:特征模塊集合MS=。

b)特征向量中心性[15]可以衡量網(wǎng)絡(luò)中節(jié)點的重要性。本文選擇特征向量中心性值最大的點作為初始種子節(jié)點,從種子節(jié)點出發(fā)進行模塊搜索。首先計算網(wǎng)絡(luò)中每個節(jié)點的特征向量中心性值,按其值降序排列得到特征列表F_list。

c)初始化當前特征模塊集合S={F_list中的第一個元素(特征向量中心性最大的節(jié)點,也是種子節(jié)點)},計算當前模塊S的AUC值。

d)令候選節(jié)點集S_nei為網(wǎng)絡(luò)G中與當前模塊S相鄰頂點的集合,即S_nei=Adj(S)-S,其中Adj(S)為S內(nèi)節(jié)點在網(wǎng)絡(luò)G中的鄰接點集。若S_nei=,則當前模塊搜索結(jié)束,執(zhí)行步驟e);若S_nei≠,則對每個候選節(jié)點fi∈S_nei,基于節(jié)點fi的自身性能及其與S中節(jié)點的關(guān)聯(lián)性計算其重要性綜合得分,計算公式如式(5)所示。

score(fi)=MIi+∑fj∈Swij×|(Nfi∩Nfj)∩S|+1|S|(5)

其中:MIi為fi與類別的互信息,反應特征fi自身的分類性能;wij為特征fi與fj連邊的權(quán)值;Nfi、Nfj分別表示fi、 fj在網(wǎng)絡(luò)G中的一近鄰節(jié)點集;|(Nfi∩Nfj) ∩S|為fi與fj在模塊S中公共鄰接點數(shù)量;|S|代表當前模塊中節(jié)點個數(shù);|(Nfi∩Nfj) ∩S|與|S|的比值表示fi與fj間的連邊與以S中特征為頂點形成的連邊,兩者構(gòu)成的三角形個數(shù)占當前模塊節(jié)點總數(shù)的比例,為防止該比值可能為0,分子加1,若候選節(jié)點fi與當前模塊中節(jié)點連邊的權(quán)值越大,且該邊與S中節(jié)點所形成的三角形數(shù)量越多,則該邊越重要。若候選節(jié)點fi與當前模塊中節(jié)點間的連邊越多,且邊重要程度越高,表明該節(jié)點與當前模塊連接程度越緊密,協(xié)同作用越強。式(5)將節(jié)點自身分類性能與網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息相結(jié)合,綜合衡量每一個候選節(jié)點的重要性。若將綜合得分最高的節(jié)點fmax加入到當前特征模塊子集S后,使得模塊的AUC值增加,則將fmax加入到S中,重復執(zhí)行步驟d);否則不加入節(jié)點fmax,當前模塊搜索結(jié)束,執(zhí)行步驟e)。

e)將搜索到的模塊S加入到特征模塊集合MS中,從F_list中刪除S中的特征,從網(wǎng)絡(luò)中刪除S所包含的特征及其鄰接邊。

f)重復上述步驟c)~e),直至網(wǎng)絡(luò)中節(jié)點集為,得到特征模塊集合MS。

g)保留MS中AUCgt;α的模塊,并根據(jù)AUC值降序排列,最后通過內(nèi)部交叉驗證的方式,選擇其中平均準確率最高的模塊集合作為最終所確定的模塊標志物ML。

算法2 特征模塊搜索過程

輸入:協(xié)同作用網(wǎng)絡(luò)G=(V, E, W),特征集合F={f1, f2, …, fm}。

輸出:特征模塊集合ML。

MS=;

for i=1 to m do

計算特征fi∈F的特征向量中心性;

end for

對所有特征向量中心性值降序排列得到對應的特征列表F_list;

while F_list≠ do

令fi為F_list中排名第一的特征;

S={fi};

while true do

S_nei=Adj(S)-S;

if S_nei= then

break;

else

for fj∈S_nei do

根據(jù)式(5)計算score(fj);

end for

fmax=arg maxfj∈S_nei(score(fj));

if AUC(S∪{fmax})gt;AUC(S) then

S=S∪{fmax};

else

break;

end if

end if

end while

MS=MS∪{S};

F_list=F_list-S;

for fa∈S or fb∈S do

remove edge (fa, fb) from E;

remove wab from W;

end for

end while

保留MS中AUCgt;α的模塊;

對MS中的特征模塊降序排列;

通過內(nèi)部交叉驗證選取MS中平均準確率最高的特征模塊集合ML;

return ML.

3 實驗結(jié)果及分析

3.1 實驗數(shù)據(jù)

本文所選10個數(shù)據(jù)集均為生物數(shù)據(jù),如表1所示。其中數(shù)據(jù)集1、2數(shù)據(jù)集選自UCI數(shù)據(jù)庫,3~8選自GEO數(shù)據(jù)庫,9、10選自Metabolomics Workbench數(shù)據(jù)庫,上述數(shù)據(jù)均從官網(wǎng)直接下載。數(shù)據(jù)集的特征數(shù)的變化為[22,1 145],樣本數(shù)的變化為[44,569]。

3.2 實驗設(shè)置

為驗證MSIG算法的有效性,將MSIG算法與高維小樣本數(shù)據(jù)集中性能較好的特征選擇算法FCBF[5]、ReliefF[6]、SVM-RFE[7]、FAST(fast clustering based feature selection algorithm)[17]、FSFCN(feature selection based on feature correlation networks)[10]在10個公共數(shù)據(jù)集上進行了對比。文中的連續(xù)型變量均采用5等寬離散化的方式。所有方法均使用R語言編寫,均采用30次10倍交叉驗證的方式。

在MSIG算法構(gòu)建網(wǎng)絡(luò)階段,首先根據(jù)算法1對每個數(shù)據(jù)集計算顯著性交互增益的閾值θ,構(gòu)建網(wǎng)絡(luò)。在特征模塊搜索階段,只保留MS中AUC大于0.7的模塊,即α=0.7,并根據(jù)AUC值降序排列,通過前向搜索的方式,選擇5次5倍內(nèi)部交叉驗證所得平均準確率最高的模塊集合,作為最終所選特征子集ML。

3.3 實驗結(jié)果分析與討論

MSIG算法與5個比較算法在10個公共數(shù)據(jù)集上所選特征子集的分類準確率、靈敏度、特異性三個指標及其標準差如表2~4所示,其中“*”表示相應的比較算法在相應數(shù)據(jù)集上的性能與MSIG算法相比具有顯著性差異(t-test, p-valuelt;0.05)。Avg行表示每一算法在10個數(shù)據(jù)集上相應指標的平均值。W/T/L行列出了每一比較算法勝、平、輸于MSIG算法的數(shù)據(jù)集個數(shù)。

通過分析表2~4可知,MSIG算法所確定的特征子集的分類準確率、靈敏度、特異性三個指標在大多數(shù)數(shù)據(jù)集上均優(yōu)于FAST、FCBF、ReliefF、FSFCN、SVM-RFE算法。此外,MSIG算法在10個公共數(shù)據(jù)集上所選特征子集的平均分類準確率為85.39%,平均靈敏度為85.12%,平均特異性為83.12%,在三個指標上均優(yōu)于其余對比算法。綜上實驗結(jié)果表明,與高維小樣本數(shù)據(jù)集中性能較好的特征選擇算法包括基于分子與網(wǎng)絡(luò)層面的算法相比,MSIG算法表現(xiàn)出了更優(yōu)的特征選擇性能。

此外,在GSE78775數(shù)據(jù)集上[18],分別選取全部特征與MSIG算法所得到的AUC值最高的模塊進行PCA分析,結(jié)果如圖1、2所示,其中橙色代表胃癌樣本,藍色代表正常樣本(見電子版)。GSE78775數(shù)據(jù)集發(fā)表于2016年9月[18],該數(shù)據(jù)包含28組胃癌組織和相匹配的正常胃粘膜組織樣本,共961個miRNA。分析圖1可知,原始數(shù)據(jù)PCA分析產(chǎn)生的得分圖中,胃癌樣本和正常樣本區(qū)分效果并不理想,難以區(qū)分。PCA的第一主成分與第二主成分貢獻率之和為0.31,較低。圖2表明,根據(jù)MSIG算法確定的AUC值最高的模塊得到的PCA得分圖中,胃癌樣本和正常樣本有明顯的分離趨勢,其中藍色的正常樣本大多集中分布在一、二象限中,橙色的胃癌樣本大多集中在三、四象限中。PCA第一個主成分與第二主成分貢獻率之和為0.817,貢獻率較高。由此可見MSIG算法所選擇的協(xié)同作用特征模塊具有較強的分類能力,使兩類樣本能夠較好地分離。

MSIG算法確定的AUC值最高的模塊中包含hsa-miR-27a、hsa-miR-575、has-miR-28三個特征。異常miRNA表達會與多種癌癥相關(guān)。近年來,已有研究發(fā)現(xiàn)hsa-miR-27a存在于人體19號染色體上,通過靶向抑制素誘導胃癌的發(fā)生[19]。此外,文獻[19]揭示hsa-miR-27a抑制ZBTB10 mRNA的表達,ZBTB10 mRNA通過干擾Sp1的激活而抑制胃泌素基因的表達,轉(zhuǎn)錄因子Sp1的表達和激活與胃癌細胞的存活、生長和血管生成密切相關(guān)。鑒于ZBTB10在Sp1表達中的重要性,Sun等人[19]推測hsa-miR-27a可能通過調(diào)節(jié)ZBTB10的mRNA水平在胃癌的發(fā)生發(fā)展中發(fā)揮作用。近年一項專利顯示,該模塊中另外一個特征hsa-miR-575已成為新型胃癌標志物,且已被作為用于檢測早期胃癌的試劑盒[20]。至于模塊中的第三個特征hsa-miR-98尚未有研究表明其與胃癌的致病因素有關(guān),因此有待進一步研究論證。綜上表明,MSIG算法可有效搜索富含生物學意義的重要特征模塊。

4 結(jié)束語

生物分子(基因、代謝物等)間通常具有關(guān)聯(lián)關(guān)系,通過構(gòu)建生物網(wǎng)絡(luò)的方式,以分子為網(wǎng)絡(luò)節(jié)點,利用分子間的交互關(guān)系構(gòu)建網(wǎng)絡(luò)連邊,可從中提取重要信息。基于此,本文提出了一種基于協(xié)同作用網(wǎng)絡(luò)的模塊搜索算法MSIG。該算法首先通過考慮分子間的協(xié)同交互作用構(gòu)建協(xié)同作用網(wǎng)絡(luò),之后在所構(gòu)建的網(wǎng)絡(luò)上,通過衡量候選節(jié)點與當前特征模塊連接的緊密程度,同時與特征自身分類性能相結(jié)合的方式來搜索重要信息模塊。在公共數(shù)據(jù)集上的實驗結(jié)果表明,MSIG算法能夠有效選擇富有生物學意義且具有較強分類能力的重要特征模塊,所選特征模塊的性能在多數(shù)情況下優(yōu)于其他對比的基于分子層面與網(wǎng)絡(luò)層面的特征選擇算法。

由于生物分子間存在錯綜復雜的關(guān)聯(lián)關(guān)系,不僅僅局限于相關(guān)性、協(xié)同性,所以如何進一步有效衡量分子間的關(guān)聯(lián)性,從而構(gòu)造生物網(wǎng)絡(luò),有待于日后的深入研究。

參考文獻:

[1]Misra B B,Langefeld C D,Olivier M,et al. Integrated omics: tools,advances and future approaches [J]. Journal of Molecular Endocrinology,2019,62(1): 21-45.

[2]Syal C,Wang Jing. Biomarker-guided drug therapy: personalized medicine for treating Alzheimer’s disease [J]. Neural Regeneration Research,2021,16(10): 2010-2011.

[3]Zhang Fan,Petersen M,Johnson L,et al. Recursive support vector machine biomarker selection for Alzheimer’s disease [J]. Journal of Alzheimers Disease,2021,79(4): 1691-1700.

[4]Peng Hanchuan,Long Fuhui,Ding C. Feature selection based on mutual information: criteria of max-dependency,max-relevance,and min-redundancy [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(8): 1226-1238.

[5]Yu Lei,Liu Huan. Efficient feature selection via analysis of relevance and redundancy [J]. Journal of Machine Learning Research,2004,5: 1205-1224.

[6]Robnik-Sikonja M,Kononenko I. Theoretical and empirical analysis of ReliefF and RReliefF[J].Machine Learning,2003,53(1-2):23-69.

[7]Guyon I,Weston J,Barnhill S,et al. Gene selection for cancer classification using support vector machines [J]. Machine Learning,2002,46(1-3): 389-422.

[8]Hayashida M,Akutsu T. Complex network-based approaches to biomarker discovery [J]. Biomarkers in Medicine,2016,10(6): 621-632.

[9]張元欣,杜正貴,李宏江. 加權(quán)基因共表達網(wǎng)絡(luò)分析法挖掘乳腺癌發(fā)生發(fā)展相關(guān)hub基因 [J]. 華西醫(yī)學,2020,35(9): 1074-1081. (Zhang Yuanxin,Du Zhenggui,Li Hongjiang. Mining hub genes related to the occurrence and development of breast cancer by weighted gene co-expression network analysis [J]. West China Medical Journal,2020,35(9): 1074-1081.)

[10]Savic M,Kurbalija V,Bosnic Z,et al. Feature selection based on community detection in feature correlation networks [J]. Computing,2019,101(10): 1513-1538.

[11]Su Benzhe,Luo Ping,Yang Zhao,et al. A novel analysis method for biomarker identification based on horizontal relationship: identifying potential biomarkers from large-scale hepatocellular carcinoma metabolomics data [J]. Analytical and Bioanalytical Chemistry,2019,411(24): 6377-6386.

[12]Saha S,Soliman A,Rajasekaran S. A robust and stable gene selection algorithm based on graph theory and machine learning [J]. Human Genomics,2021,15(1): article No.66.

[13]Zeng Zilin,Zhang Hongjun,Zhang Rui,et al. A novel feature selection method considering feature interaction [J]. Pattern Recognition,2015,48(8): 2656-2666.

[14]Sreevani,Murthy C A,Chanda B. Generation of compound features based on feature interaction for classification [J]. Expert Systems with Applications,2018,108: 61-73.

[15]Zhong Linfeng,Shang Mingsheng,Chen Xiaolong,et al. Identifying the influential nodes via eigen-centrality from the differences and similarities of structure [J]. Physica A: Statistical Mechanics and Its Applications,2018,510: 77-82.

[16]Wang Jianxin,Li Min,Wang Huan,et al. Identification of essential proteins based on edge clustering coefficient [J]. IEEE/ACM Trans on Computational Biology and Bioinformatics,2012,9(4):1070-1080.

[17]Song Qinbao,Ni Jingjie,Wang Guangtao. A fast clustering-based feature subset selection algorithm for high-dimensional data [J]. IEEE Trans on Knowledge and Data Engineering,2013,25(1): 1-14.

[18]Yu Beiqin,Lyu Xin,Su Liping,et al. MiR-148a functions as a tumor suppressor by targeting CCK-BR via inactivating STAT3 and Akt in human gastric cancer [J]. PLoS One,2016,11(8): e0158961.

[19]Sun Qingmin,Gu Haijuan,Zeng Ying,et al. Hsa-mir-27a genetic variant contributes to gastric cancer susceptibility through affecting miR-27a and target gene expression [J]. Cancer Science,2010,101(10): 2241-2247.

[20]Takaya S,Hiroyasu I,Shimura T,et al. New gastric cancer biomarker comprising microRNA or combination of Homo sapiens (HSA)-miR-6807-5p,hsa-miR-6856-5p and hsa-miR-575,useful in kit for examining gastric cancer (early onset of gastric cancer): USA,US2021269884-A1 [P]. 2022-03-23.

主站蜘蛛池模板: 亚洲人成人无码www| A级毛片无码久久精品免费| 97成人在线观看| 国产一级特黄aa级特黄裸毛片| 九九线精品视频在线观看| 女人av社区男人的天堂| 国产视频入口| 欧美精品v| 欧洲日本亚洲中文字幕| 永久免费无码日韩视频| 日本久久网站| 亚洲精品第五页| 国内精品免费| 日韩小视频网站hq| 浮力影院国产第一页| 国产成人无码播放| 天天躁夜夜躁狠狠躁躁88| 国产网站免费看| 农村乱人伦一区二区| 日韩在线1| 国产精品私拍99pans大尺度| 午夜a视频| 亚洲第一区欧美国产综合 | 国产精品美人久久久久久AV| 国产拍在线| 日韩精品视频久久| 无码免费的亚洲视频| 在线播放国产99re| 亚洲一级毛片在线播放| 久综合日韩| 亚洲人成网站色7799在线播放| 毛片网站在线播放| 国产一区二区精品福利| 97青草最新免费精品视频| 97国产在线播放| 久久久精品国产SM调教网站| 国产剧情国内精品原创| 国产自产视频一区二区三区| 免费无码又爽又刺激高| 国产成人综合亚洲欧美在| 精品视频福利| 亚洲天堂成人在线观看| 亚洲无码精品在线播放| 亚洲第一精品福利| 最新国产成人剧情在线播放| 国产激情无码一区二区APP| aaa国产一级毛片| 99久久精品免费看国产免费软件| 992tv国产人成在线观看| 国产成人福利在线视老湿机| 亚洲 欧美 日韩综合一区| 波多野结衣AV无码久久一区| 午夜福利视频一区| 成人午夜久久| 伊人中文网| 日本欧美精品| 亚洲成人在线免费| 亚洲一道AV无码午夜福利| 最近最新中文字幕在线第一页| 亚洲一区二区三区中文字幕5566| 久久人体视频| 少妇极品熟妇人妻专区视频| 夜夜操国产| 色噜噜综合网| 久久久久青草大香线综合精品| 日本午夜影院| 国产精品久久久久无码网站| 天天爽免费视频| 狂欢视频在线观看不卡| 啪啪永久免费av| 久草性视频| 亚洲AⅤ综合在线欧美一区| 亚洲国产亚洲综合在线尤物| 日本亚洲欧美在线| 特级aaaaaaaaa毛片免费视频| 免费在线成人网| 成人日韩精品| 国产丝袜丝视频在线观看| 亚洲精品少妇熟女| 中文字幕无码中文字幕有码在线| 四虎成人免费毛片| 免费高清自慰一区二区三区|