999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對抗網(wǎng)絡的基因數(shù)據(jù)生成方法

2022-04-12 09:24:30曹一珉蔡磊高敬陽
計算機應用 2022年3期
關鍵詞:特征方法

曹一珉,蔡磊,高敬陽

(北京化工大學信息科學與技術學院,北京 100029)

0 引言

基因變異廣泛存在于自然界中,部分基因變異可以導致細胞運作異常,進而誘發(fā)各種疾病,如癌癥[1]、孤獨癥、精神分裂癥[2]等。人類全基因組約2.5 萬個基因有近30 億個堿基對[3],但是發(fā)生基因變異的概率卻很小,比如:PIK3CA 磷酸肌醇3-激酶Alpha(Phosphatidylinositol-4,5-Bisphosphate 3-Kinase Catalytic Subunit Alpha)基因變異是人類乳腺癌中最常見的變異[4],但是它發(fā)生的概率僅為1.2%[5];原發(fā)性神經(jīng)母細胞瘤和嗜鉻細胞瘤中的NRAS(Neuroblastoma RAS)變異發(fā)生概率極低[6];在癌癥以及腺瘤中,含有17p 染色體拷貝的腫瘤中發(fā)生p53 基因突變的概率僅為17%[7]。由于基因變異的發(fā)生概率極小,因此無法獲取豐富的變異基因樣本,導致基因組數(shù)據(jù)中正負樣本嚴重失衡,給基因變異檢測帶來諸多挑戰(zhàn)。

隨著深度學習的在醫(yī)療領域的發(fā)展,越來越多的研究集中在醫(yī)療圖像識別研究上,例如:利用卷積網(wǎng)絡識別肺結節(jié)[8],利用3 維卷積神經(jīng)網(wǎng) 絡(3D Convolutional Neural Network,3DCNN)識別前列腺癌變區(qū)域[9]等;但是在生物基因?qū)用妫疃葘W習目前還沒有得到大量的運用。

在深度學習的圖像處理任務中,隨著卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的深度不斷增加,進行神經(jīng)網(wǎng)絡訓練所需的數(shù)據(jù)越來越多,但是由于基因變異概率較小,導致變異基因的圖像數(shù)據(jù)十分匱乏,嚴重影響了神經(jīng)網(wǎng)絡的訓練效果,為了解決這個問題需要進行數(shù)據(jù)擴增。基于圖形學的傳統(tǒng)數(shù)據(jù)擴增方法雖然能夠?qū)D像數(shù)據(jù)進行擴增,但得到的擴增圖像數(shù)據(jù)豐富度較低,對神經(jīng)網(wǎng)絡的性能提升有限。生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)是一種全新的深度學習框架,它可以從圖像中學習鑒別特征并生成真實樣本[10]。已經(jīng)有很多研究者將GAN 用于圖像的生成并且取得了不錯的效果,例如Wolterink 等[11]使用GAN 將MR(Magnetic Resonance)圖像生成CT(Computed Tomography)圖像并且取得與參考CT 相近的圖像;Calimeri等[12]使用GAN 合成人腦切片的MR 圖像。

基因圖像是指將基因測序的文本數(shù)據(jù)通過算法得到的圖像數(shù)據(jù),如DeepSV[13]、Google 的Deepvariant[14]等。基于前人所做的研究,本文提出了一種基于WGAN-GP(Wassrstein Generative Adversarial Networks-Gradient Penalty)進行數(shù)據(jù)生成的基因圖像擴增方法GeneGAN。使用該方法對圖像數(shù)據(jù)進行擴增,能得到類型豐富且樣本充足的變異基因樣本,解決變異基因樣本匱乏、正負樣本不平衡的問題;同時探討了GeneGAN 與傳統(tǒng)數(shù)據(jù)擴增方法對基因圖像分類的影響,并通過實驗驗證了其性能。

1 GeneGAN方法

數(shù)據(jù)擴增是解決樣本不平衡的主要手段,主要分為兩種形式:一種是傳統(tǒng)基于圖形學的數(shù)據(jù)擴增方法,如剪裁、平移、鏡像;一種是基于深度學習網(wǎng)絡的數(shù)據(jù)擴增方法,如特征空間增強、神經(jīng)風格轉(zhuǎn)換、基于GAN 的數(shù)據(jù)擴增等。其中最引人注目的是基于GAN 的數(shù)據(jù)擴增方法,如DCGAN(Deep Convolutional Generative Adversarial Network)[15]、WGANGP 等。

1.1 GAN的優(yōu)化和衍生模型

Goodfellow 等[16]所提出的基礎GAN 是一種受到“博弈論”啟發(fā)的擴充數(shù)據(jù)集的方法,常用于圖像的數(shù)據(jù)生成。GAN 規(guī)定由一個生成器G(Generator)和一個鑒別器D(Discriminator)進行參與。生成器G 將輸入的數(shù)據(jù)分布進行處理后產(chǎn)生了全新的數(shù)據(jù)分布,新的分布要求與真實的數(shù)據(jù)分布相似,并且生成器G 產(chǎn)生的數(shù)據(jù)分布越接近真實數(shù)據(jù)分布,則表示生成數(shù)據(jù)分布越真實。鑒別器D 的用途在于判定輸入到鑒別器中的數(shù)據(jù)分布是真實數(shù)據(jù)分布還是生成器產(chǎn)生的數(shù)據(jù)分布。訓練過程中,生成器與鑒別器的相互促進是極小極大博弈(Minimax game)的優(yōu)化過程,使得雙方達到納什均衡[17],即鑒別器難以正確將真實數(shù)據(jù)與生成器產(chǎn)生的非真實數(shù)據(jù)進行區(qū)分。該模型通過規(guī)避求解似然函數(shù)的問題,直接進行數(shù)據(jù)生成,最終擬合輸入的數(shù)據(jù)分布。

最基本的生成對抗網(wǎng)絡結構容易受到訓練過程中不穩(wěn)定因素的影響,出現(xiàn)模式崩潰[18]的現(xiàn)象,使產(chǎn)生的結果效果較差。DCGAN(Deep Convolutional GAN)是GAN 發(fā)展早期比較典型的一類改進,它用反卷積層代替了生成器中的全連接層,通過將GAN 與CNN 結合保證了生成圖像的完整性和清晰度,特別是圖像內(nèi)部的紋理與細節(jié)更豐富。DCGAN 在工程上取到了非常好的效果,適用于大部分場景,是使用率最高的模型,此后的GAN 結構在對比時一般以它為標準[19]。

Arjovsky 等[20]提出的WGAN(Wasserstein Generative Adversarial Network)在訓練的穩(wěn)定性上取得了良好的表現(xiàn),它使用Earth-Mover 距離代替Jensen-Shannon 散度[21]來衡量真實數(shù)據(jù)分布與生成器G 所產(chǎn)生的數(shù)據(jù)分布之間的距離,并且該網(wǎng)絡結構在生成器G 和鑒別器D 的迭代訓練過程中不要求保持雙方的平衡[22],WGAN 的可收斂性遠強于原始GAN,優(yōu)化了訓練過程不穩(wěn)定等問題[23]。WGAN 一經(jīng)提出就引起了極大的關注,而且生成的樣本具有多樣性,能夠提升擴增數(shù)據(jù)的豐富度。

Gulrajani 等[24]發(fā)現(xiàn)在某些情況下仍然會發(fā)生生成樣本質(zhì)量差與無法收斂的情況,這是因為網(wǎng)絡中使用了權值裁剪方法來強行限制Lipschitz 連續(xù)條件,因此導致了對網(wǎng)絡參數(shù)優(yōu)化的負面影響。WGAN-GP 提出了權值裁剪的另一種方法,使用梯度懲罰(gradient penalty)對損失函數(shù)的輸入進行處理,直接約束損失函數(shù)輸出關于其輸入的梯度范數(shù),為了避免可分性問題,WGAN-GP 對隨機樣本的梯度范數(shù)進行了處理,從而實現(xiàn)了軟約束,是目前使用最廣泛的GAN 變種之一[25]。

1.2 GeneGAN結構

原始WGAN-GP 模型的鑒別器D 中卷積層只有4 層,并且卷積層對特征圖進行卷積的過程中會丟失部分信息,影響了鑒別器D 對于輸入的基因圖像數(shù)據(jù)進行判斷,進而導致生成器G 生成圖像的過程受到影響。本文的GeneGAN 在原始WGAN-GP 模型基礎上增加了6 層卷積層,并且在卷積層之間增加了短路連接(shortcut connection),GeneGAN 的總體網(wǎng)絡結構如圖1 所示。因為卷積層中的卷積核較小,導致卷積神經(jīng)網(wǎng)絡的感受野較小,在學習過程中會丟失基因圖像的部分特征信息,但由于卷積層之間增加了短路連接,從而形成了殘差學習,使其他卷積層的基因圖像特征圖疊加到當前卷積層的基因圖像特征圖中,能夠使卷積層對基因圖像特征圖進行卷積的過程中保留更多基因圖像中的特征信息,有利于鑒別器D 和生成器G 的神經(jīng)網(wǎng)絡迭代訓練,使鑒別器D 能夠更加準確地區(qū)別真實基因圖像與擴增基因圖像,生成器G 生成的圖像能夠更加接近真實基因圖像的數(shù)據(jù)分布。

圖1 GeneGAN網(wǎng)絡結構Fig.1 GeneGAN network structure

原始GAN 及其他大多數(shù)GAN 都選擇在生成器G 和鑒別器D 的網(wǎng)絡結構中使用批規(guī)范化(Batch Normalization,BN)來幫助加快模型收斂,但是BN 改變了鑒別器G 的映射形式,從單個輸入映射到單個輸出改為從批輸入映射到單個輸出,這種情況下懲罰函數(shù)不再有效,因為WGAN-GP 的懲罰函數(shù)是作用在單個輸入,而不是批輸入。為了解決這個問題,WGAN-GP 在鑒別器D 中使用層規(guī)范化(Layer Normalization,LN)而省略了BN,發(fā)現(xiàn)效果更好。GeneGAN 繼承了這一特性,通過生成器G 生成基因圖像后,將其與真實基因圖像輸入到鑒別器D 中,由于鑒別器D 采用層規(guī)范化,懲罰函數(shù)可以作用于這些輸入的基因圖像數(shù)據(jù),能夠?qū)γ總€基因圖像數(shù)據(jù)進行單獨的處理,使鑒別器D 能夠提取到更多基因圖像的特征信息,進而促使生成器G 生成的基因圖像更加清晰,特征表達更加明確。

GeneGAN 在生成器G 中采用ReLU 函數(shù)用于解決深度卷積神經(jīng)網(wǎng)絡中梯度消失的問題,能夠讓GeneGAN 在稀疏的基因圖像數(shù)據(jù)上訓練時不至于過擬合,而且可以讓生成器G快速收斂從而使生成的圖像更加接近真實基因圖像;在鑒別器D 中采用了LeakyReLU 函數(shù)是因為它可以保證導數(shù)為非零值,降低了神經(jīng)元由于梯度消失而無法正常進行學習的概率,盡可能使模型中每個神經(jīng)元都發(fā)揮作用,可以讓鑒別器D 更好地區(qū)分生成器G 生成的基因圖像與真實基因圖像,使生成器G 下一輪生成的圖像更加接近真實基因圖像。

GeneGAN 的鑒別器D 中采用Dropout 層去緩解卷積層的過擬合問題,并且使用ZeroPadding 層進行零值填充。輸入到鑒別器D 中的基因圖像在經(jīng)過卷積操作后會發(fā)生尺寸變化,零值填充可以用來控制基因圖像特征圖的尺寸,便于后續(xù)Conv 層對基因圖像特征圖進行卷積操作。GeneGAN 的生成器G 中采用UpSampling 層進行上采樣操作來放大特征圖的尺寸,使特征圖最終達到與真實基因圖像相同的尺寸。

1.3 基于GeneGAN的基因數(shù)據(jù)分類算法

基于GeneGAN 的基因數(shù)據(jù)分類算法的總流程如圖2所示。

圖2 基于GeneGAN的基因數(shù)據(jù)分類算法流程Fig.2 Flowchart of gene data classification algorithm based on GeneGAN

本文設計了用于對基因圖像數(shù)據(jù)進行擴增的網(wǎng)絡模型GeneGAN,包含了生成器G 和鑒別器D 兩部分。首先使用GeneGAN 方法對Reads 堆疊方法產(chǎn)生的真實基因變異圖像進行數(shù)據(jù)擴增,得到正負樣本平衡且數(shù)量充足的數(shù)據(jù)集;然后使用該數(shù)據(jù)集訓練CNN;最終使用訓練完成的CNN 進行基因圖像分類處理。

在GeneGAN的網(wǎng)絡模型結構中,生成器G主要由3層卷積神經(jīng)網(wǎng)絡組成(如圖3 所示),最初輸入的是隨機分布的噪聲,將隨機噪聲變量多次傳入卷積層中,用于學習和捕捉真實基因圖像數(shù)據(jù)集的分布,并生成與之相似的擴增基因圖像數(shù)據(jù)。

圖3 生成器的網(wǎng)絡結構Fig.3 Network structure of Generator

首先將輸入噪聲通過Reshape 和Upsampling 操作轉(zhuǎn)為尺寸為50×50、通道為200 的特征輸出,然后將這個特征輸出作為下一層卷積層的輸入,經(jīng)過步長為1、大小為3×3 的卷積核進行卷積操作,生成大小為50×50、通道數(shù)為200 的特征輸出,并對此進行上采樣得到大小為100×100、通道數(shù)為200 的特征輸出。之后再經(jīng)過兩次步長為1、大小為3×3 的卷積核進行卷積操作,最終得到大小為100×100、通道數(shù)為3 的擴增基因圖像數(shù)據(jù)。

鑒別器D 主要由10 層卷積神經(jīng)網(wǎng)絡組成(如圖4 所示),輸入為真實基因圖像數(shù)據(jù)和生成器G 所生成的擴增基因圖像數(shù)據(jù),它們的尺寸都為(100,100,3)。首先經(jīng)過步長為2、卷積核大小為3×3 的Conv1 層生成大小為50×50、通道數(shù)為16 的特征輸出;然后將該特征輸出作為Conv2 層的輸入,使用Add 操作將Conv1 層與Conv3 層實現(xiàn)短路連接,經(jīng)過一次步長為2、卷積核大小為3×3 和兩次步長為1、卷積核大小為3×3 的卷積操作,在Conv4 層生成大小為25×25、通道數(shù)為32的特征輸出;同樣在Conv4 層與Conv6 層、Conv7 層與Conv9層實現(xiàn)短路連接,以此類推經(jīng)過多次卷積操作后得到大小為13×13、通道數(shù)為128 的特征輸出,將該特征輸出經(jīng)過Flatten層變?yōu)? 維數(shù)據(jù)后輸入全連接層,由sigmoid 函數(shù)來判斷當前樣本為真實基因圖像數(shù)據(jù)(標簽為1)或者為擴增基因圖像數(shù)據(jù)(標簽為0)。

圖4 鑒別器的網(wǎng)絡結構Fig.4 Network structure of Discriminator

訓練過程中,batch_size=64,初始學習率learning_rate=0.000 1,采用Adam 優(yōu)化算法訓練輪次epochs=100 000,目標函數(shù)如下:

其 中:x為真實樣本,為擴增樣本;=εx-(1-ε)且ε~U[0,1]。

GeneGAN 中的迭代算法流程如下所示。

算法1 GeneGAN 中的迭代算法。

參數(shù)設置:初始化鑒別器參數(shù)w0與生成器參數(shù)θ0,λ=10,ncritic=5,α=0.000 1,β1=0,β2=0.9,batch_size=64。

2 實驗與結果

為驗證GeneGAN 在基因圖像數(shù)據(jù)上的有效性,選取三類現(xiàn)有的數(shù)據(jù)處理方法和工具作為基線,在正負樣本比例嚴重不平衡的數(shù)據(jù)集下進行實驗。第一類是基于圖形學的傳統(tǒng)數(shù)據(jù)擴增方法,比如剪裁、平移、鏡像等,使數(shù)據(jù)集的正負樣本比例經(jīng)過傳統(tǒng)擴增方法后達到平衡,并進行基因圖像分類實驗;第二類是基于特征提取的傳統(tǒng)基因檢測工具,比如長讀取結構變異檢測工具(Structural Variant Identification using long reads,SVIM)[26]、Sniffles[27]等,傳統(tǒng)基因檢測工具不需要經(jīng)過數(shù)據(jù)擴增,直接對基因數(shù)據(jù)原始文件進行檢測;第三類是生成對抗網(wǎng)絡及其衍生和優(yōu)化模型,比如DCGAN、WGAN-GP 等,使數(shù)據(jù)集的正負樣本比例經(jīng)過生成對抗網(wǎng)絡擴增方法后達到平衡,并進行基因圖像分類實驗。

2.1 數(shù)據(jù)預處理

本文使用GIAB(Genome In A Bottle)發(fā)布的基因測序數(shù)據(jù)AshkenazimTrio,選擇HG002_NA24385_son 作為數(shù)據(jù)集來源,該數(shù)據(jù)可從GIAB 的GitHub 存儲庫(https://github.com/genome-in-a-bottle/giab_data_indexes)下載。使用Reads 堆疊方法生成基因圖像,根據(jù)基因Bam 文件與參考基因組的對比情況將基因圖像數(shù)據(jù)區(qū)分為正樣本(缺失組)和負樣本(非缺失組),圖中紅色像素點代表匹配模式為缺失,綠色像素點代表匹配模式為正常,藍色像素點代表匹配模式為軟切,黑色像素點代表匹配模式為插入,白色像素點為空白區(qū)域(如表1 所示)。缺失像素點與非缺失像素點比例為1∶4,原始基因圖像數(shù)據(jù)集的正負樣本為1∶25,從正負樣本組中隨機抽取4張基因圖像(如圖5 所示)。正樣本(缺失組)圖像中的紅色區(qū)域面積占圖像的比例明顯高于負樣本(非缺失組)圖像,而負樣本(非缺失組)圖像中綠色區(qū)域面積占絕大部分。

表1 基因圖像中四種像素點顏色所代表的意義Tab.1 Significance of four pixel colors in gene image

圖5 真實基因圖像正負樣本對比Fig.5 Comparison of positive and negative samples in original genetic images

使用GeneGAN 與CNN 的網(wǎng)絡結構參數(shù)如下:實驗采用的GPU 為Geforce RTX 2080 Ti 顯卡,顯存11 GB,所用深度學習框架為Keras,其他如表2 所示。

表2 網(wǎng)絡結構參數(shù)Tab.2 Network structure parameters

該實驗的主要評估指標為精確率(Precision,Pre)、召回率(Recall,Rec)和F1值(F1)。精確率即真正的正確樣本占預測為正確樣本的比例;召回率為預測為1 且正確預測的樣本數(shù)占所有真實情況為1 樣本的比例;F1值是統(tǒng)計學中用來衡量二分類模型精確度的一種指標,它同時兼顧了分類模型的精準度和召回率,可以看作是模型精準度和召回率的一種加權平均。F1值的計算公式如式(1):

2.2 擴增與未擴增對基因圖像分類結果的影響

2.2.1 原始數(shù)據(jù)直接進行基因圖像分類

為說明正負樣本的比例對實驗結果的影響,本節(jié)將基因圖像按照1∶25、1∶50 和1∶100 的正負樣本比例劃分后直接進行基因圖像分類實驗,結果如表3 所示。通過表3 可以看出,當正樣本和負樣本之間的比例差異太大時,所使用的分類網(wǎng)絡幾乎是無用的,無法進行區(qū)分。為了平衡正負樣本比例,接下來將采用多種數(shù)據(jù)擴增方法。

表3 不同正負樣本比例的原始數(shù)據(jù)實驗結果 單位:%Tab.3 Experimental results of raw data with different proportions of positive and negative samples unit:%

2.2.2 利用傳統(tǒng)擴增方法后的基因圖像分類

本節(jié)使用傳統(tǒng)擴增方法(左右翻轉(zhuǎn)與上下翻轉(zhuǎn))對基因圖像數(shù)據(jù)進行擴增,如圖6 所示,為了對比使用擴增方法將正負樣本比例差異降低與正負樣本比例完全平衡的效果,將正負樣本比例分別劃分為1∶15 與1∶1,擴增后的基因圖像分類結果如表4,可以看出1∶1 實驗組相較于1∶15 實驗組的精準度、召回率和F1值均有一定提升。

圖6 利用傳統(tǒng)擴增方法生成的基因圖像示例Fig.6 Amplified gene image examples generated by traditional ways

表4 不同正負樣本比例的傳統(tǒng)擴增數(shù)據(jù)實驗結果 單位:%Tab.4 Experimental results of traditional amplification data with different proportions of positive and negative samples unit:%

2.2.3 利用原始GAN擴增方法后的基因圖像分類

本節(jié)通過將真實基因圖像數(shù)據(jù)傳入原始GAN 中,經(jīng)過10 萬輪的迭代訓練得到擴增的基因圖像數(shù)據(jù),把正負樣本比例為1∶25 的原始數(shù)據(jù)集擴增為正負樣本比例分別為1∶1與1∶15 的實驗組。將實驗組分別按7∶2∶1 的比例劃分為訓練集、測試集和驗證集,結果如表5 所示,可以看出1∶1 實驗組相較于1∶15 的精準度、召回率和F1值均有提升。

表5 不同正負樣本比例的原始GAN擴增數(shù)據(jù)實驗結果 單位:%Tab.5 Experimental results of original GAN extended data with different proportions of positive and negative samples unit:%

從表3~5 的結果可以發(fā)現(xiàn):在正負樣本比例更加平衡的數(shù)據(jù)集上進行基因圖像分類實驗的各項指標更優(yōu);在正負樣本比例相同的情況下,使用GAN 擴增方法的效果優(yōu)于傳統(tǒng)擴增方法。

2.3 不同生成對抗網(wǎng)絡擴增方法對基因圖像分類的影響

本節(jié)對比了不同生成對抗網(wǎng)絡對基因特征圖擴增后的檢測結果。首先將真實基因圖像數(shù)據(jù)分別傳入基礎GAN、DCGAN、WGAN-GP、GeneGAN 中,各自經(jīng)過10 萬輪的迭代訓練得到擴增的基因圖像數(shù)據(jù)如圖7 所示。

圖7 四種GAN方法生成圖像Fig.7 Images generated by four GAN methods

由圖7 可以發(fā)現(xiàn),在進行迭代訓練的過程中,隨著迭代次數(shù)的增加,生成圖像的紋理逐漸清晰,但四種GAN 生成圖像的質(zhì)量卻有很大差別:基礎GAN 生成圖像的質(zhì)量最差,像素點的分布和真實樣本差異過大;DCGAN 生成圖像中出現(xiàn)了真實樣本所不存在的紫色和粉色區(qū)域;WGAN-GP 生成圖像中出現(xiàn)了大量不規(guī)則的低分辨率模糊區(qū)域;GeneGAN 生成圖像的質(zhì)量最好,最接近真實樣本的效果。

原始數(shù)據(jù)集正負樣本比例為1∶25,經(jīng)過不同對抗生成網(wǎng)絡擴增后分別得到正負樣本比例為1∶1、1∶15 的實驗組。將實驗組分別按7∶2∶1 的比例劃分為訓練集、測試集和驗證集,進行實驗后得到兩組數(shù)據(jù)集的CNN 學習過程見圖8,最終結果如表6 所示。由表6 可以看出,使用正負樣本比例為1∶25 的原始數(shù)據(jù)時,所得到的指標均為最差,使用基礎GAN、DCGAN、WGAN-GP、GeneGAN 進行基因圖像擴增后,正負樣本比例為1∶15 和1∶1 的實驗中,本文方法GeneGAN均取得了最優(yōu)的效果(表6 中數(shù)據(jù)加粗表示)。

圖8 CNN在多種GAN擴增數(shù)據(jù)集上的學習過程Fig.8 Learning process of convolutional neural network on multiple GAN amplified datasets

表6 不同正負樣本比例的四種GAN擴增數(shù)據(jù)實驗結果Tab.6 Experimental results of four kinds of GAN amplification data with different proportions of positive and negative samples

2.4 特征提取方法與生成對抗網(wǎng)絡擴增方法對比

基于特征提取的檢測方法需要人為定義多個特征,特征維度受算法空間限制,而生成對抗網(wǎng)絡與卷積神經(jīng)網(wǎng)絡能夠運用深度學習的自學習能力自動識別圖像特征并進行特征學習。本組實驗將本文方法與基于特征提取的檢測方法SVIM[26]、Sniffles[27]和Pbhoney[28]進行對比。

原始數(shù)據(jù)正負樣本比例為1∶25,使用GeneGAN 擴增方法進行基因圖像擴增,擴增后正負樣本比例為1∶1,將擴增后得到的數(shù)據(jù)集進行實驗,得到結果如表7 所示。可以看出,本文方法僅精確率比Pbhoney 要低,但召回率是Pbhoney的約兩倍,F(xiàn)1值明顯更優(yōu)。

表7 各特征提取方法的實驗結果對比 單位:%Tab.7 Experimental results comparison of different feature extraction methods unit:%

3 結語

本文針對于基因結果變異檢測中樣本數(shù)量少且正負樣本數(shù)量不平衡等問題,基于生成對抗網(wǎng)絡提出了基因圖像數(shù)據(jù)擴增方法GeneGAN,以提高變異基因圖像檢測的精確率和召回率。通過實驗證實了數(shù)據(jù)不平衡問題對分類結果影響很大,平衡正負樣本比例可以實驗得到更好的結果;而且實驗結果表明,與傳統(tǒng)擴增方法、生成對抗網(wǎng)絡擴增方法、特征提取方法相比,GeneGAN 方法的擴增數(shù)據(jù)質(zhì)量更高,分類結果更好。目前該方法僅適用于分辨率較低的基因圖像,為在分辨率較高的場景下使用,該方法還有待進一步的研究與改進;同時,由于GeneGAN 的網(wǎng)絡模型較為復雜且參數(shù)量較大,導致神經(jīng)網(wǎng)絡在訓練時所消耗資源較多,仍需進一步研究。

猜你喜歡
特征方法
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
學習方法
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 欧美日韩午夜视频在线观看| 精品无码一区二区三区在线视频| 久久精品无码一区二区日韩免费| 香蕉视频在线观看www| 99热这里只有精品5| 亚洲第一天堂无码专区| 国产精品亚洲αv天堂无码| 国产精品视频a| 激情网址在线观看| 日本免费一级视频| 亚洲区一区| 国产精品一区二区国产主播| 一边摸一边做爽的视频17国产| 亚洲人成影院午夜网站| 亚洲精品国产精品乱码不卞| 欧美亚洲国产精品第一页| 在线视频亚洲色图| 中文字幕在线日韩91| av在线无码浏览| 久久国产香蕉| 亚洲综合色吧| 特级毛片8级毛片免费观看| 国产麻豆91网在线看| 青草精品视频| 亚洲日韩在线满18点击进入| 久久综合色播五月男人的天堂| 精品国产一区二区三区在线观看| 午夜性刺激在线观看免费| 99久久精品国产自免费| 国产97视频在线| 97国产在线视频| 精品夜恋影院亚洲欧洲| 九色综合视频网| 成人福利在线观看| 免费一级毛片完整版在线看| 青青草原国产av福利网站| 午夜色综合| 国产亚洲欧美在线人成aaaa| 国产乱子伦一区二区=| 日本爱爱精品一区二区| 午夜三级在线| 亚洲热线99精品视频| 狂欢视频在线观看不卡| 日韩精品久久久久久久电影蜜臀| 日本91在线| 亚洲AⅤ综合在线欧美一区| 永久免费精品视频| 欧美成人精品一级在线观看| 日韩午夜福利在线观看| 国产精品网址在线观看你懂的| 最新国产精品第1页| 69av在线| 国产99久久亚洲综合精品西瓜tv| 久久久久久久久久国产精品| 免费一级α片在线观看| 久久精品无码一区二区日韩免费| 一本大道视频精品人妻 | 视频在线观看一区二区| 亚洲视频免费播放| 国产成人久久综合777777麻豆| 国产aaaaa一级毛片| 中文成人在线视频| 永久免费无码成人网站| 狠狠做深爱婷婷久久一区| 一级片一区| 啊嗯不日本网站| 在线观看国产小视频| 99精品热视频这里只有精品7| 日韩天堂视频| 第一区免费在线观看| 国产成人久久综合一区| 久久不卡精品| 在线观看无码a∨| 日韩视频免费| 国产中文一区a级毛片视频| 人人91人人澡人人妻人人爽| 97视频在线观看免费视频| 欧美日本在线播放| 不卡无码网| 国产成人综合久久精品下载| 2020国产免费久久精品99| 国产欧美日韩18|