999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CSPPNet與集成學習的人類蛋白質圖像分類方法

2020-08-19 07:01:02李培媛
計算機工程 2020年8期
關鍵詞:分類特征模型

李培媛,黃 遲

(1.太原理工大學 數學學院,太原 030024; 2.西南財經大學 信息與工程學院,成都 611130)

0 概述

圖像分類的應用極其廣泛,其在信息學、生物醫學、交通網絡分析、城市計算等領域均隨處可見。在醫學領域,蛋白質亞細胞定位是指確定某種蛋白質在細胞內的具體存在部位,如核內、細胞質內或細胞膜上等,這是一項重大挑戰,同時也是一個極具意義的課題。人類蛋白細胞圖譜描繪了人類不同組織和器官中的蛋白質表達情況。由于不同的細胞器有著自身獨特的環境,這些環境決定了細胞器的生理條件和相互作用情況,且蛋白質處于特定的細胞器中時才可正常參與人體的生命活動,因此在不同細胞器中,同一種蛋白質發揮的功能是存在差異的。蛋白質分類旨在確定蛋白質所處的細胞器,這樣有助于定義蛋白質的功能,且具有重要的意義[1]。例如正常細胞和腫瘤細胞中的分泌蛋白、膜蛋白在不同器官中的表達情況不同,蛋白質的錯誤定位通常與細胞功能障礙和疾病有關。然而,對蛋白質進行定位研究不僅耗時、耗力,且代價高昂。根據已有的顯微圖像數據,采用算法預測蛋白質所在細胞器名稱、實現信息自動化處理[2]是解決以上問題的關鍵。

雙線性卷積神經網絡(Bilinear Convolutional Neural Network,BCNN)[3]引入外積融合圖像整體及局部特征信息,端對端地實現了細粒度圖像分類,且提升了分類精度。文獻[4]提出空間金字塔池化(Spatial Pyramid Pooling,SPP)能將不同大小的特征圖轉化為固定維度,同時保留多維度信息。本文結合BCNN與SPP 2種結構的優點,搭建一個粗細結合的CSPPNet網絡模型,在模型部分卷積層上生成特征圖后加入SPP層,與模型后期卷積生成的特征圖相結合,能夠同時提取圖片的整體特征和局部特征,且可以動檢測圖片差異,對蛋白質分類的分類精度有較大提升,再利用集成學習的方法進一步提升準確率。

1 相關工作

1.1 蛋白質亞細胞定位

蛋白質亞細胞定位研究的方法普遍分為2類:一類是一維層面上基于蛋白質的氨基酸序列的定位方法;另一類是二維層面上基于圖像特征圖提取進行分類的方法。第一類將蛋白質序列中字母序列轉化為數值來表示蛋白質的序列,提取特征信息后使用數據挖掘算法定位蛋白質亞細胞[5],常見的使用機器學習方法的模型有SVM[6]、K階最近鄰[7]和隱馬爾科夫模型[8]等。第二類蛋白質預測算法稱為蛋白質亞細胞定位,其研究和實現需構建合適的深度學習模型來實現圖像分類任務。這項工作對細粒度要求高,且成果少。傳統的蛋白質定位使用氨基酸序列數據信息,很難確定蛋白質的轉移方向,而利用二維圖像中的視覺信息則能夠克服傳統方法中存在的不足[5]。

隨著高通量顯微鏡技術的進步,圖像生成的速度加快,且遠高于人工評估的速度。人類蛋白細胞圖譜收集的圖片不斷增加,為加速對人類細胞和疾病的理解,自動化分析生物醫學圖像的需求更為迫切。蛋白質的可視化圖像在生物醫學研究中被廣泛應用,蛋白質影像分析可能成為下一個醫學突破的關鍵。

瑞典提供的人類蛋白圖譜(Human Protein Atlas,HPA)數據庫致力于繪制細胞、組織和器官中所有的人類蛋白,有助于利用圖像探索感興趣的蛋白質,在更廣泛的背景下系統地分析轉錄組和蛋白質組,以增進對人類細胞的了解。隨著卷積神經網絡(Convolutional Neural Network,CNN)的發展,人類蛋白圖譜小組已經展示了科學和人工智能方法用于人類蛋白定位圖像的應用前景,但是目前的結果還沒有專業級的注釋[9]。

1.2 細粒度識別

深度學習網絡模型通過多層非線性變換從像素級的數據中逐層提取特征信息,具有強大的學習能力,為解決傳統的計算機視覺問題開拓了新的思路。隨著計算機視覺技術的不斷進步,基于圖像的蛋白質分類作為細粒度分類任務開始被人們關注。AlexNet[10]、VGGNet[11]和GoogLeNet[12]在ILSVRC[13]分類挑戰比賽中能夠大幅提升分類性能,成功應用于大規模計算機視覺任務中,如目標識別、定位、檢測以及圖像分割等。VGGNet將加深網絡結構,GoogLeNet創新性地拓寬網絡寬度,改進了CNN模型結構。傳統的CNN通過不斷增加卷積層和池化層來加深網絡,然而信息在層與層之間的傳遞過程中或多或少會丟失,造成信息損耗等情況,層與層的疊加還會導致梯度消失,使得較深的網絡無法訓練。文獻[14]提出ResNet模型,該模型設計了特有的殘差學習模塊,在一定程度上解決了梯度消失的問題。CNN的特征表達功能十分強大,網絡模型的改進提升了粗粒度圖像分類的精度,但在對細微差異的區分上存在一定局限性,細粒度的圖像分類滿足了人們進一步的需求,且其研究領域已經取得了很多研究成果[15-17]。

蛋白質分類屬于細粒度分類,細胞圖像的復雜性要求網絡能夠提取更加細致的信息,已有的多數成果都基于單標簽,存在很大的局限性,且許多工作嚴重依賴手工標注,無法包含全部細胞器位置,然而搭建端對端的粗細結合[18]的網絡能避開標注框,有效提升細粒度分類效果。

2 數據集描述與分析

本文利用HPA數據集對蛋白質實現任務分類,預測標簽為蛋白質所在的細胞器。本節詳細分析數據集及其特點,其為數據集處理和模型搭建的依據。

1)分析圖像數據。HPA數據集包含多數人類蛋白質的四通道共聚焦圖像,數據集有31 072個蛋白圖譜樣本,每個樣本由4張像素為512×512灰度圖(如圖1)以及1個或多個標簽組成。數據集標簽為28種不同的亞細胞器,表示蛋白質所在位置。圖1中四通道圖像表示4種染色方式,感興趣的蛋白質(綠色),加上其他3個重要細胞器表示:細胞核(藍色),微管(紅色),內質網(黃色)。圖2是細胞圖譜的說明性數據[9]。其中,1為2、3、4、5四通道合成圖像,2為感興趣的目標蛋白,用綠色標記,3為DAPI染色的細胞核,顯示為藍色,4為用抗微管蛋白抗體染色的微管,顯示為紅色,5為內質網,顯示為黃色。

圖1 HPA數據集原始圖像數據Fig.1 Original image data of HPA dataset

圖2 HPA中說明性圖像數據Fig.2 Illustrative image data in HPA

對原始圖片進行染色處理,如圖3所示,上面4張圖為屬于核質類的一個蛋白圖譜樣本染色情況,下面4張圖為細胞液類的染色情況。蛋白質分類任務難點一是圖像中沒有針對標簽細胞器的標注框,非專業人士難以辨別不同類蛋白質所在細胞器的不同位置及其區別,且難以對圖片分析進行人工干預,精細級識別使分類任務不能取得很好的效果。

圖3 訓練集中2組樣本染色后的對比圖

2)分析標簽數據。圖4統計了數據集標簽文件中各類別的數量,核質數量最多有12 885個。細胞質膜、細胞液和細胞核仁較為常見,過氧化物酶體、核內體、溶酶體和微管末端在訓練集中較為少見,而棒和環最少,只有11個。蛋白質分類難點二是樣本數據不平衡。由于細胞類型多樣性與不同細胞中蛋白質所在亞細胞器的差異性,蛋白質在核質等細胞器中出現次數較多,在棒和環等細胞器中出現次數少,導致標簽數量極度不均勻,稀少標簽類難以實現高精度預測。

圖4 訓練集中28種標簽數量的柱狀圖

圖5統計了每個樣本所含標簽的數量,每個樣本標簽量是不確定的,單標簽、2標簽、3標簽、4標簽、5標簽的細胞圖樣本分別占總樣本量的48.68%、40.18%、10.17%、0.96%、0.01%,這說明3個以上標簽的數量極少但仍存在。蛋白質分類難點三是樣本所含標簽量不同,無法設置固定的類數及閾值,需對不同類標簽設定不同閾值使得預測精度最高。

圖5 樣本中所含標簽數量統計Fig.5 Statistics on the number of tags contained in the sample

3 本文方法

3.1 圖像預處理

圖像識別的第一步是對圖像數據進行統計分析和預處理。數據分析有助于了解圖像的實際情況,更好地理解與改進圖像預處理方法。

實驗中每個樣本都有4種染色模式,為方便訓練,把4張圖片合成四通道(RGBY)圖像作為輸入。對圖片進行簡單地旋轉、水平鏡面翻轉、隨機剪裁、加高斯噪聲、對圖像的像素點進行加亮或減暗、圖像對比度改變、平移等圖像增強操作,以加強訓練魯棒性。蛋白質分類屬于細粒度分類,由于最常見的蛋白質細胞器成分屬于粗級特征,如細胞質膜、核仁、細胞液等,相比之下,核內體、溶酶體、微管末端、棒和環等細致成分非常少見。對此稀少類問題,需另外進行一些處理,如對少見標簽的所在圖片進行復制翻轉等操作,同時加入訓練集使其比例增加。對于多標簽而言,實驗采用二值化法對28個標簽進行one-hot編碼。

3.2 網絡結構設計

本文借鑒BCNN的雙線性匯合,利用空間金字塔池化搭建一個更為細化的網絡結構。BCNN是一個細粒度圖像識別的經典模型,該模型能夠同時提取局部和全局特征并進行融合,提取并結合網絡前期與后期的特征圖,通過外積融合可以達成相同的效果。將結合后的特征信息與全連接層相連并進行分類。

3.2.1 雙線性卷積神經網絡

BCNN的具體流程為:圖像首先經過CNN結構提取特征,然后通過雙線性層和池化層與固定長度的神經元連接產生輸出。將2個獨立的CNN(VGGNet與ResNet)提取的特征采用外積結合構成最簡單的雙線性層。外積包含了特征通道之間成對的關系,但BCNN由2個深度卷積神經網絡(DCNN)組成,模型復雜且計算量多,存在一定的局限性。

3.2.2 空間金字塔池化

從輸入的不同大小的圖片中提取信息,使其變為固定大小的特征向量。SPP層有以下優點:

1)SPP層將不同大小的輸入圖像進行一致化處理。

2)將一個特征圖從不同的維度進行特征提取再聚合,顯示了算法的穩定特性。

3)空間金字塔采用最大值池化函數對局部噪聲有較強魯棒性[19-20],提升目標識別的準確率。簡單來說,由于對特征圖進行了不同維度的特征提取,使提取特征多樣化,模型精度大幅提升。

圖6為SPP層結構,將任意大小的特征圖分別池化為4×4、2×2、1×1的表示,其中,4×4的特征拉伸成為16×x維。

圖6 SPP層結構Fig.6 Structure of the SPP layer

3.2.3 網絡結構搭建

創建一個分類精度高且可以根據細胞圖像自動分析預測蛋白質所在細胞器的系統,需要搭建一個適合的網絡結構。BCNN模型的特點是同時用到圖片局部特征信息和全局特征信息并將兩者相融合,以降低信息損耗。在該過程中,利用BCNN特征累加的特性,同時設計減少模型復雜度與計算量的方法,即基于經典CNN,本文設計了CSPPNet模型。CSPPNet提取并結合網絡前期與后期卷積層產生的特征圖,連接3層全連接層并進行分類。利用此方法,可構建端對端的網絡模型,不用人為干預就可以學習到圖像的細節特征差異。特征學習過程是利用一種粗細結合的方法抓取圖形的整體信息,并檢測出更多、更微小的細節部分。前期特征圖提取全局特征,用來表明整體線索,后期特征圖提取局部特征,用來描述細致差異。

SPP層具有將一個特征圖從不同的維度進行特征提取再聚合的特點,且從多角度來表達圖片紋理,描述不同細粒度的特征圖信息。SPP將任意大小的特征圖轉換成固定維度的特征向量,網絡輸入任意大小的圖像而不需要縮放或裁減,更好地保留了圖像的特征信息,最后融合各個分支網絡的特征作為最后的特征表達并輸入全連接層,本文稱這種結構為CSPPNet。VGG16-CSPPNet是在VGG16網絡結構的基礎上進行改進,在block2(第4層卷積層)、block4(第10層卷積層)、block5(第13層卷積層)提取的特征后加入SPP層,之后將SPP層提取的特征圖進行結合并連接3層全連接層,最后一層為28個輸出節點。ResNet34-CSPPNet是在ResNet34的基礎上進行改進,在128、32、16大小的特征圖后加入SPP層,然后同樣將SPP層提出的特征圖進行結合并連接3層全連接層。該模型兼具全局和局部模型高效性,局部高效性與其物體的位置及姿態無關。同樣,不同的連接方式將圖像特征無序組合,獲得平移無關性。另外,本文在模型中加入了dropout層,使得模型泛化能力增強。CSPPNet模型的參數可以被端對端的學習,結構如圖7所示。

圖7 CSPPNet網絡結構Fig.7 CSPPNet network structure

先將模型的全部可訓練參數訓練25次,之后對CSPPNet模型后7層參數進行微調,得到結果后進行閾值選擇,合理的閾值選擇會大幅提升預測精度。

閾值選擇算法的步驟如下:

步驟1預測得分valscore記錄驗證集預測的概率得分,預測值valpred記錄驗證集預測標簽,真實值vallabel記錄驗證集的真實標簽。閾值向量I記錄最終閾值,均為28維向量。閾值i從0到1(不包含1)變化,每次變化步長為0.001,即i=0+0.001×m,m=0,1,…,1 000。

步驟2將驗證集數據輸入保存的模型,得到valscore。

步驟3對閾值i,記錄valscore中大于i的元素所在坐標,valpred相同位置為1,其他為0。

步驟4定義f為維數為(1 000,28)的矩陣,f中元素(i,c)表示閾值為i時,第c(c=1,2,…,28)類的f1值。

步驟5計算f1值并列入矩陣f中。

步驟6觀察f的28個列向量,每列中的最大值對應的閾值i記錄為此類的最終閾值,得到28維閾值向量I。

3.2.4 集成算法

由于蛋白質分類是一個較為復雜的圖像分類任務,單個分類器的學習能力不足,而集成學習具有提高整體泛化能力的特性,因此本文除了網絡結構改進外,還結合幾個不同CNN、不同采樣法學習到的分類器組成一個強學習器。

集成學習需要解決2個問題:一是學習若干個分類器;二是選擇結合策略。實驗用5個不同的CNN(inceptionv3、vggnet、ResNet34、bninception、CSPPNet)訓練得到5個分類器,選擇的結合策略為投票法,該樣本5個分類器中某類別標簽數量過半(大于等于3)的為預測類。

3.3 評價指標

分類問題通常以準確率、召回率、F1值等多種評價指標進行評價,本文采用F1值為評價指標。預測值與真實值均為28維向量,每個點為0或1,有該細胞器記為1,無則記為0。對無邊界框的多標簽圖像分類而言,如果產生錯誤標簽則有以下2種情況:一是缺失的標簽(FN),二是額外的標簽(FP)。因此F1值更適用于多標簽情況,被用來描述分類效果。以第一類標簽細胞核為例:

TP(True Positive):在真實標簽中有細胞核,且被預測為有細胞核的樣本數量。

FP(False Positive):在真實標簽中沒有細胞核,但被預測為有細胞核的樣本數量。

FN(False Negative):在真實標簽中有細胞核,但被預測為沒有細胞核的樣本數量。

精確率(Precision)、召回率(Recall)和F1值的計算方法如下:

(1)

此外,多標簽的準確率(Accuracy)與單標簽計算方式不同,計算方法如下:

(2)

其中,ti為第i類預測正確的數量,ni為第i類總數,N為類數28。對28個標簽分別計算精度,然后對所有精度取平均值,即為準確率。

3.4 實驗結果與分析

圖8是驗證集的精度、損失值與F1值折線圖,實線顯示ResNet34-CSPPNet訓練過程,虛線顯示ResNet34訓練過程。由此可見,ResNet34-CSPPNet的訓練結果更好。

圖8 ResNet34與ResNet34-CSPPNet的訓練結果對比Fig.8 Comparison of training results of ResNet34 and ResNet34-CSPPNet

經過25次迭代后,部分模型的準確率與F1值對比結果如表1所示。從表1可以看出,相較于VGG16模型,VGG16-CSPPNet模型的F1值提高了0.227,準確率提高了0.016。ResNet的殘差模塊直接將輸入信息繞過卷積層映射到輸出,為了保護信息的完整性,整個網絡只需要學習輸入、輸出差別的部分,簡化了學習目標和難度,因此ResNet34的分類效果較好,且用時較短。相較于ResNet34模型,ResNet34-CSPPNet模型的F1值提高了0.031,準確率提升了0.003。由此可以看出,加入SPP層進行粗細結合考慮,對識別蛋白質問題有效。本文方法對CSPPNet進行微調并與其他分類器結果集成得分,表明本文粗細結合的CSPPNet與集成方法可以評估非均勻的數據集。

表1 5種模型的準確率和F1值的比較Table 1 Comparison of accuracy and F1 value of the five models

4 結束語

本文構建一個粗細結合的CSPPNet模型,端對端地實現蛋白質分類,在結合整體特征和局部特征自動檢測類內差異的同時降低了模型復雜度,并通過閾值選擇算法和集成學習方法得到更優的分類效果。下一步將從數據集和模型2個方向提升分類效果,在數據集方面考慮引入外部數據,增加稀少類樣本量,而在模型改進上引入注意力機制和壓縮雙線性池化,進一步提升模型對細節信息的提取能力。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产高清精品在线91| 日韩高清欧美| 国产69精品久久久久孕妇大杂乱 | 伊人久久大线影院首页| 亚洲第一视频免费在线| 久久精品人妻中文视频| 91网在线| 精品福利国产| 日韩欧美中文| 亚洲av综合网| 日本三级欧美三级| 九九九精品成人免费视频7| 国产精品自在在线午夜| 亚洲一区二区三区香蕉| 综合五月天网| 亚洲无码91视频| 久久精品嫩草研究院| 国产美女无遮挡免费视频网站| 欧美国产菊爆免费观看| 国产97视频在线| 日韩小视频在线观看| 黄色网站不卡无码| 亚洲国产成人精品一二区| 真实国产乱子伦视频| a级毛片免费看| 天天综合天天综合| 国产永久无码观看在线| 国产区网址| 国产网站一区二区三区| 亚洲视频在线网| 国产毛片网站| 亚洲嫩模喷白浆| 精品国产网站| 欧美成a人片在线观看| 2019国产在线| 久久6免费视频| 99久视频| 99久久成人国产精品免费| 黄片在线永久| 免费人成网站在线观看欧美| 在线国产综合一区二区三区 | 亚洲综合色吧| 亚洲成人在线网| 国产一区二区网站| 欧美成人a∨视频免费观看| 亚洲一区二区约美女探花| 日本午夜精品一本在线观看| 国产精品人成在线播放| 精品人妻无码中字系列| 18禁色诱爆乳网站| 欧美在线视频a| 99精品视频九九精品| 第一页亚洲| 免费A级毛片无码免费视频| 久久这里只有精品66| 91福利国产成人精品导航| 国产精品亚洲片在线va| 久99久热只有精品国产15| 婷婷六月天激情| 91色在线观看| 一级毛片无毒不卡直接观看| 一级毛片网| 免费观看亚洲人成网站| 国产丝袜无码一区二区视频| 国产精品免费入口视频| 欧美日韩在线亚洲国产人| 国产在线91在线电影| 夜夜拍夜夜爽| 国产精品女熟高潮视频| 国产福利一区二区在线观看| 欧美精品三级在线| 任我操在线视频| 亚洲一区精品视频在线| 日本在线免费网站| 亚洲第一av网站| 午夜国产大片免费观看| 精品亚洲麻豆1区2区3区| 99热这里都是国产精品| www欧美在线观看| 欧美成人h精品网站| 真实国产乱子伦高清| 人人看人人鲁狠狠高清|