999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于硬調整孿生網絡和代價敏感模型的恒星/星系識別

2021-12-14 01:36:00張士川鄭小盈
計算機應用與軟件 2021年12期
關鍵詞:模型

張士川 鄭小盈

1(中國科學院大學微電子學院 北京 100049)2(中國科學院上海高等研究院 上海 201210)

0 引 言

在天文科學領域,隨著數字圖像技術代替攝影圖像技術,以及大型巡天項目的開展,越來越多的天文數據被收集起來。對天文數據不斷地收集和分析使得天文科學發展到一個新的階段。海量的數據給天文科學的發展提供了基礎,而有效的數據處理和分析手段變得極其重要。在天文學中,合理地將點狀源(恒星)和擴展源(星系)分開是從光度圖像中提取其他天文數據的前提[1],所以恒星/星系識別一直是天文領域的一個基礎研究項目。在對源進行分析時,低分辨率高信噪比樣本給恒星/星系識別任務帶來了困難。到目前為止,已經出現了很多針對恒星/星系精確識別的研究,其中包括了基于形態和啟發式分割的方法[2-3],這兩類方法在識別暗星體(低分辨率高信噪比)時表現出明顯的不足。由于目前已經獲得了大量恒星和星系的觀測數據,所以最近很多研究將機器學習方法引入到恒星/星系識別任務中。

隨著計算機存儲和計算能力的發展,將機器學習和深度學習等方法的研究推向一個新的高潮。機器學習方法在諸多交叉領域的優勢日益突出,比如醫療、生物、金融以及安防等。隨著大型巡天項目的實施和開展,機器學習和深度學習方法逐漸應用到天文領域。Zhu等[4]應用深度學習方法進行脈沖星識別,有效提高脈沖星識別的召回率;Daniel等[5]將深度學習應用到實時的引力波檢測和參數估計中;Xu等[6]應用機器學習方法進行天文大數據歸檔,使得越來越多的天文任務可以用機器學習方法得到很好的解決。

斯隆數字巡天計劃(Sloan Digital Sky Survey,SDSS)[7]收集了大量的恒星和星系觀測數據以及光譜認證數據,為利用機器學習方法進行恒星/星系識別提供了條件。Vasconcellos等[8]用決策樹方法進行恒星/星系識別,并比較了13種決策樹的識別效果;李超等[9]總結了3種增強學習方法在恒星/星系上的識別效果,最終得出XGboost方法在暗星上的識別效果明顯優于其他方法;秦浩然等[11]運用堆疊降噪自編器提高了對SDSS數據集中暗星體的識別精確。除了對SDSS數據庫中星體觀測屬性值的研究,也有應用深度學習方法直接識別恒星和星系圖像的研究,比如Noble等[11]考慮環境因素的影響設計深度學習網絡模型提取全局特征,有效提高了暗星體的識別精準度,Edward等[12]充分利用深度卷積神經網絡的優勢,直接對恒星和星系圖片進行識別。在這些研究之前,也有應用自動聚類算法進行恒星/星系分類任務的研究工作[13]。

在之前的研究工作中對亮星體的識別準確率達到了較高水平,但對暗星體的識別效果相對較差,主要是因為暗星集中恒星和星系的特征表現差距較小,而且暗星集樣本數量較少,不利于模型的訓練。面臨這些挑戰,本文提出了用于恒星/星系分類的硬調整孿生網絡模型,極大地提高了暗星數據集的識別精度,而且還提出了用于亮星數據集的代價敏感模型,使亮星的識別精度也有所提高。

1 恒星/星系數據提取與分析

1.1 斯隆數字巡天

斯隆數字巡天(SDSS)是迄今為止最大規模的星系圖像和光譜巡天項目,獲得了上百萬天體的測光數據和光譜認證數據,SDSS各個階段的數據都以數據庫的形式加以公開,使得科研工作者可以使用(SQL)直接查詢獲得。SDSS的測光系統利用6組CCD(Charged-coupled Device)同時對天體進行五個波段的測量(u,g,r,i,z),所有的測量數據都存儲在數據庫相應的表中。在SDSS第三階段最新公開的數據集DR-12(Data Released 12)中包含了近5億條測光記錄。大量的SDSS測光數據對眾多天文工作提供了基本支持,比如恒星/星系分類、星體演化、恒星種群、銀河系的構成等,所以SDSS數據的公開極大地促進了天文領域的發展。SDSS共分為SDSS-1、SDSS-2和SDSS-3三個階段,本文研究中所用到的數據集為第二階段最后公開的數據集DR-7(Data Release 7)。

1.2 數據提取和劃分

DR-7數據集包含了大量的測光記錄,本文利用其中帶有光譜認證的部分數據,結合SDSS數據庫中PhotoObj和SpecObj兩個表,綜合得到所需數據。在所有的波段測量中使用了r波段數據,參照文獻[8]選擇了13條屬性作為每一條測光記錄的初始特征,從SpecObj中選擇一個光譜認證參數作為標簽,有助于最后對模型效果的測試。標簽信息是從SpecObj表中的SpecClass屬性中獲得的,SpecClass屬性的屬性值是0~7,8種數字分別代表了7種不同星體和一種未知類型的星體,其中數字“1”和“2”分別代表了恒星(Star)和星系(Galaxy)。

在選取實驗數據的過程中,刪除了含有屬性缺失值的記錄,在SDSS數據庫中缺失值以“-9999”形式呈現,最終得到了80多萬條實驗數據。根據屬性modelMag_r的取值范圍,將得到的80多萬條實驗數據分成亮星集、暗星集和極暗星集。把modelMag_r屬性值大于等于14并且小于19的記錄記為亮星集(Bright Set,BS)樣本,modelMag_r屬性值大于等于19并且小于20.5的記錄記為暗星集(Faint Set,FS)樣本,modelMag_r屬性值大于等于20.5并且小于等于21的記錄記為極暗星集(Extreme Faint Set,EFS)樣本[9]。

2 恒星/星系識別模型

針對BS、FS和EFS數據集,本文分別采用不同的算法模型。由于在亮星集BS中恒星和星系的類間距離較大,恒星和星系的差異比較明顯,用傳統的機器學習模型可以達到較好的效果。但在暗星集FS和極暗星集EFS中,由于受到環境影響使得恒星和星系之間的測光數據差異不明顯,很難將星系從眾多的星體中識別出來,所以在恒星/星系識別任務中,主要面臨困難樣本挖掘[14]問題。本文所提出的基于深度學習的代價敏感模型和帶硬調整手段的孿生神經網絡(Siamese Neural Networks,SNN)模型不僅能夠很好地解決暗星集中的恒星/星系分類問題,而且也適用于很多其他的困難樣本挖掘任務中。

2.1 深度神經網絡

在介紹深度神經網絡(Deep Neural Networks,DNN)之前,需要了解DNN的基本組成單元——感知機。感知機是沒有激活函數的神經元,一般用來處理線性可分問題。為了解決線性不可分問題,需要給感知機引入非線性因素—非線性激活函數。可以把感知機的作用過程看作是輸入的加權求和,而激活函數就是對求和后的結果進行非線性變換。目前已有很多對激活函數進行研究的工作[15]。在不同的任務和模型中,選擇合適的激活函數極其重要,考慮到常用激活函數的缺陷和不足,本文選擇了PReLU激活函數[16],可以解決梯度消失等問題,其表達式為:

(1)

式中:參數a是在模型訓練的過程中確定的,是可訓練參數。該激活函數增加了模型的參數量,增強模型的擬合能力。神經元包含了非線性因素,為了模擬和逼近任意的非線性函數,將多個神經元進行堆疊組成一層,然后再堆疊多層得到了包含多個隱含層的DNN,如圖1所示。

圖1 深度神經網絡(DNN)模型結構

若將該模型應用到恒星/星系分類任務上,輸入是長度為13的向量,即為網絡的輸入層,對于二分類任務輸出層長度為2,可以分別表示屬于兩個類別的概率或者得分。

2.2 用于EFS數據集的孿生網絡模型(SNN)

在恒星/星系識別任務中,最重要的挑戰是提高模型在極暗星集EFS中的識別效果。在EFS數據集中,受環境影響因素較大,恒星和星系并沒有表現出明顯的差異。如果從數據多維空間分布上考慮,恒星和星系存在較多重疊交叉。為了更好地可視化數據,利用主成分分析(PCA)將星體的13維測光數據進行降維,圖2(a)是兩類數據在二維平面上投影后的效果。可以看到,恒星和星系并沒有明顯的分界面,所以PCA這種降維的特征提取算法并不能使后續的分類模型達到很好的效果。

(a) PCA降維 (b) SNN圖2 PCA降維和SNN特征提取特征空間分布對比

在EFS數據集中還面臨著標注樣本數量少的問題,只有3 000多個。利用深度學習方法解決實際問題時,一個基本的條件是需要大量的有標注的訓練樣本,否則深度網絡模型會發生過擬合,表現為在訓練集的偏差過小,而在測試集的偏差過大。所以本文應用孿生網絡(Siamese Neural Networks,SNN)[18]模型對樣本數據進行特征提取,SNN的網絡結構是基于DNN的變形,其網絡結構如圖3所示。

圖3 孿生網絡(SNN)模型結構

孿生網絡是一種同構雙網絡結構,即并置的兩個部分網絡A和網絡B,其中A和B是具有相同結構的DNN模型,共享網絡參數ω。孿生網絡的輸入與傳統的網絡模型不同,不再是單個樣本數據,而是成對的樣本數據。如圖3所示,樣本數據x1和x2分別輸入到網絡A和網絡B中,在訓練前給這對樣本賦予新的標簽信息。成對的樣本輸入可以大大增加訓練樣本數量,在一定程度上解決了小樣本學習[17]問題,所以利用孿生網絡結構可以有效地提高在EFS數據集中的識別效果。在測試階段,應用訓練好的SNN的任意一個分支進行特征提取,提取出更具表達能力的樣本特征。

SNN的輸出和傳統的DNN不同,不再是樣本屬于各個類別的概率或得分,而是對樣本數據進行特征提取后新的特征向量。設置相同結構的兩部分網絡A和B,是為了在一次前向過程中處理成對樣本,即分別輸出兩個樣本的特征向量,通過比較兩個向量的相似性來優化網絡參數。成對樣本只有同類和不同類兩種情況,所以可以通過用兩個相同的網絡A和B處理一對樣本來學得樣本間同類和異類的信息。在訓練階段,網絡A和網絡B各有一個輸出a1和a2分別對應輸入x1和x2。在損失函數中通過比較a1和a2的距離來優化網絡參數ω。應用對比損失(Contrastive Loss,CL)[18]來調整網絡參數進行優化:

CL=yd2+(1-y)max(margin-d,0)2

(2)

式中:y為成對樣本的標簽,y由成對樣本x1和x2的原始標簽確定,如果x1和x2的原始標簽相同,則成對樣本標簽y為1,否則為0。d是網絡A和網絡B輸出a1和a2的距離度量。在對比損失中距離度量可以有很多形式,在實驗中應用歐氏距離。margin是設定的閾值,當成對樣本原始標簽不同即y為0時,只剩下一項max(margin-d,0)2,此時希望d越大越好,當d超過閾值margin時損失為0。當成對樣本原始標簽相同即y為1時,只剩下一項yd2,此時希望d越小越好,d越小損失越小。所以可以通過最小化如式(2)所示的代價函數來增大不同類樣本之間的距離,減小同類樣本之間的距離。用訓練完成的SNN對星體的觀測數據做特征提取,每一條觀測數據用提取后的特征向量表示,最后用K-近鄰算法(KNN)進行分類。

2.3 用于FS和BS數據集的代價敏感(CS)模型

應用SNN可以有效提高EFS數據集中的恒星/星系識別效果,有效解決了訓練樣本少和困難樣本挖掘兩個問題。而在BS和FS數據集中,樣本數量充足,但仍然面臨著困難樣本挖掘問題和類間不均衡問題。如果簡單應用SNN結構,大量的數據使得成對樣本組合方式爆炸式增長,利用SNN沒有辦法在短時間內充分學習所有樣本信息,所以本文選擇了簡單的DNN結構。這里借鑒集成學習中Boosting[19]的思想,增強對易分錯樣本的訓練,通過改變訓練過程中用到的代價函數,讓模型對易分錯樣本進行更充分學習,我們稱使用該代價函數的模型為代價敏感(Cost Sensitive,CS)模型。和傳統的集成學習相比,通過改進代價函數可以簡化訓練過程以及縮短訓練時間,在一定程度上提高識別效果。

(3)

(4)

3 實驗與結果分析

本節具體介紹實驗配置和具體過程,最后與其他相關工作進行實驗結果比較。本文應用深度學習工具Pytorch進行了網絡模型的構建,同時應用GeForce GTX 1080進行訓練加速。

3.1 數據處理

每一個星體樣本數據都是長度為13的向量,該向量的每一個分量都代表一個屬性,擁有不同的物理意義,所以每一個分量的量綱差距較大。表1所示是實驗數據的3條樣例,展示了每條樣例的3個屬性,每一個屬性的取值大小相差較大,取值范圍不同。如果使用原始的特征向量來訓練網絡模型,會嚴重影響模型的泛化性。本文按照屬性進行標準化,把每一種屬性的取值都控制在相同的取值區間內。標準化處理的計算式為:

(5)

表1 原始數據樣例展示

3.2 實驗配置

應用SQL查詢語言,從原始的SDSS數據庫中得到了約88萬條實驗數據,然后根據屬性modelMag_r取值范圍的不同將所有數據劃分為BS、FS和EFS三個數據集。表2統計了各個數據集恒星和星系的數量。

表2 數據集數據量信息

BS數據集約有762 788條星系數據,將近58 610條恒星數據;FS數據集共有62 782多條數據;EFS數據集共有約3 570條數據。為了和文獻[8]、文獻[9]做對比實驗,本文采用相同的數據集劃分方式,同樣做十折交叉驗證,將各個數據集平均劃分成10份,每次混洗后選擇不同的9份做訓練,另外1份做測試,如此重復10次,實驗結果取10次實驗的平均值。

在上述的三個數據集中都存在不同程度的類間不均衡問題,所以選擇了與文獻[8]、文獻[9]相同的實驗結果評價指標完備函數CP,其計算式表示為:

(6)

對于BS和FS數據集,本文直接選擇含有2個隱藏層的全連接網絡,每個隱藏層的單元個數為100,輸出層為2,即類別個數。用式(4)作為代價函數進行訓練,優化網絡參數,通過實驗調整超參數α和γ。對于BS數據集,設置α和γ分別為0.7和2.0;對于FS數據集,設置α和γ分別為0和2.0。對于EFS數據集,采用圖2所示的孿生網絡(SNN)結構,網絡A和B的結構同樣是含有2個隱藏層的全連接網絡,用式(2)作為代價函數進行訓練,優化網絡參數,其中超參數margin設置為1.5。

3.3 結果分析

對于BS數據集,恒星和星系之間有較明顯的差別,主要面臨的問題是類間不均衡問題。所以式(4)中不同的α所訓練出的模型,最終的識別效果不同,圖4給出了完備函數CP、準確率accuracy以及F1-score隨α的變化情況。可以看出通過調整參數α可以使得CP最高可達99.95%,當α取0.7時分類模型為最優狀態,在CP較高的情況下,保證accuracy和F1-score最高。

圖4 調整α對BS數據集識別效果的影響

對于FS數據集,由于類間的不均衡程度較小,直接設置α為0,根據實驗調節參數γ,圖5給出了完備函數CP和準確率accuracy隨γ的變化情況。從圖中可知當參數γ取2.0時完備函數CP和準確率accuracy都達到最高,分別是96.62%和96.56%。

圖5 調整γ對FS數據集識別效果的影響

EFS數據集由于識別難度較大,同時面臨著類間差距小、類間不均衡和小樣本數據三個問題。本文應用孿生網絡結構以及困難樣本挖掘的訓練技巧可以有效提高在EFS數據集中的識別效果。將數據成對輸入網絡參與訓練,可以有效增加訓練數據的多樣性。假設原始訓練集有q個樣本,從q個樣本中隨機選擇一對樣本輸入,則有q(q-1)/2種不同的輸入,即對于孿生網絡訓練集樣本量增加了q(q-3)/2。對于EFS數據集中的數據,分別通過PCA降維和孿生網絡提取2維特征,然后以坐標的形式在二維平面上展示出來,如圖2所示。通過圖2(a)、(b)的對比,可以明顯看出應用孿生網絡提取的特征使得類內距離減小類間距離增大,空間位置重疊樣本個數減少,兩類樣本呈現出明顯的分界線。

在EFS數據集中仍然存在類間不均衡問題,所以在孿生網絡訓練過程中,隨機抽取一對樣本作為網絡輸入,樣本對(恒星,星系)、(恒星,恒星)、(星系,星系)和(星系,恒星)出現的概率是不同的,為了使SNN在類間和類內充分學得樣本信息,手動控制這4類樣本對出現的概率相同。本文稱之為硬調整手段,此訓練方式加模型結構稱為H-SNN。

采用相同的評價指標完備函數CP,對比了之前的相關工作在相同數據集上的識別效果。如表3所示,在BS和FS數據集上本文的代價敏感(CS)模型對星系的識別效果有微小提升,本文H-SNN模型大幅提高了在EFS數據集上的星系識別效果,使得評價指標達到87.5%。

表3 各模型CP結果對比(%)

4 結 語

很多簡單傳統的機器學習方法在數據干凈、數據量大的亮星集中都可以達到很好的分類效果,所以目前針對恒星/星系識別的研究主要是為了提升模型對暗星的識別效果。本文針對極暗星集(EFS)數據量小、類間差距小的特點,提出利用硬調整孿生網絡(H-SNN)提取特征然后用KNN分類的方法,使得在EFS數據集中CP較之前最好結果提升了8%左右;針對暗星集(FS)數據量充足、部分數據難分的特點提出利用代價敏感(CS)模型進行識別分類,使得在FS數據集中CP較之前最好結果提升了1%左右;仍然將CS模型應用到亮星集(BS)中進行訓練和測試,使得在BS數據集中CP較之前最好結果仍有微小提升。雖然本文從識別算法著手大幅提升了對暗星體的識別效果,但其仍有較大的上升空間,今后還可以從另一個研究方向努力,即收集更多干凈有效的暗星體觀測數據[10]。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 孕妇高潮太爽了在线观看免费| 国产亚洲成AⅤ人片在线观看| 免费va国产在线观看| 这里只有精品免费视频| 国模在线视频一区二区三区| 国禁国产you女视频网站| 亚洲无码日韩一区| 伊人色天堂| 伊人五月丁香综合AⅤ| 亚洲丝袜中文字幕| 免费AV在线播放观看18禁强制| 综合社区亚洲熟妇p| 日韩AV无码免费一二三区| 伊人久久综在合线亚洲2019| 亚洲av无码久久无遮挡| 国产亚洲欧美日韩在线一区| 国产精品久久久久久影院| 久久99精品国产麻豆宅宅| 成人午夜久久| 国产精品嫩草影院视频| 在线观看免费黄色网址| 18黑白丝水手服自慰喷水网站| 国产精品午夜福利麻豆| 91久久青青草原精品国产| 国产91精品久久| 国产一级小视频| 一本大道视频精品人妻 | 欧美日韩午夜| 欧美一区二区福利视频| 日本妇乱子伦视频| 99免费在线观看视频| 国产精品深爱在线| 91在线视频福利| 国产成人精品视频一区视频二区| 久久综合色视频| 亚洲av日韩综合一区尤物| 在线观看国产小视频| 色综合久久久久8天国| 久久综合亚洲鲁鲁九月天| 91探花在线观看国产最新| 欧洲欧美人成免费全部视频 | 日本午夜三级| 久草性视频| 久久无码高潮喷水| av午夜福利一片免费看| 无码日韩人妻精品久久蜜桃| 亚洲一级毛片免费观看| 色综合中文| 大香网伊人久久综合网2020| 18黑白丝水手服自慰喷水网站| 无码aaa视频| 亚洲人成网线在线播放va| 国产精品流白浆在线观看| 国产免费久久精品99re不卡 | 欧美在线黄| 香蕉视频在线观看www| 毛片卡一卡二| 亚洲IV视频免费在线光看| 色婷婷久久| 亚洲国产日韩在线成人蜜芽| 在线观看国产黄色| 精品成人一区二区三区电影| 亚洲精品无码抽插日韩| 国产精品lululu在线观看| 中文字幕永久视频| 精品国产乱码久久久久久一区二区| 亚洲永久色| 色综合色国产热无码一| 亚洲成aⅴ人在线观看| 日韩高清欧美| 一级爆乳无码av| 欧美日韩免费| 久久夜色撩人精品国产| 爱色欧美亚洲综合图区| 女人18毛片久久| 中文一级毛片| 中国国产一级毛片| 亚洲aⅴ天堂| 国产精品视频猛进猛出| 一级全免费视频播放| 亚洲国产欧美国产综合久久| 日韩 欧美 小说 综合网 另类|