999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的食雙星光變曲線自動分類算法*

2019-04-19 08:58:36袁慧宇戴海峰楊遠貴
天文研究與技術 2019年2期
關鍵詞:分類

袁慧宇,趙 娟,戴海峰,楊遠貴

(1. 淮北師范大學信息學院,安徽 淮北 235000;2. 淮北師范大學,安徽 淮北 235000)

在信息與計算技術等新興科技的驅動下,天文研究領域已從傳統的單目標觀測和手工處理數據轉向多目標觀測和自動數據處理[1]。大量巡天項目的開展為天文學研究提供了海量數據,如ROTSE,ASAS,SuperWASP,MACHO,OGLE,SDSS,LAMOST和Kepler等,由計算機自動完成目標交叉證認[2]、觀測、實時數據處理和分析[3]等,獲得光譜、測光、周期以及類型等數據。隨著數據量的進一步增大,單服務器難以實時完成數據處理,分布式計算被應用到數據處理中提高處理效率[4]。面對海量天文數據,必須借助支持向量機、神經網絡、遺傳算法等人工智能算法對數據進行分析和處理,挖掘有用的信息[5]。例如:基于隨機森林方法對SDSS和XMM數據的天體進行分類[6];基于機器學習方法尋找射電脈沖信號[7];基于密近雙星的Roche勢對雙星進行分類[8]等,這些標志著天文學研究邁入了大數據時代。

通過觀測獲得的食雙星光變曲線,可以快速確定其類型,搜尋出具有特殊演化意義的雙星系統,為研究一些特殊天體和現象提供了重要的研究窗口。這對豐富和發展雙星的研究內容,通過食雙星認識星團和星系的形成和演化具有重要的意義。文[9]使用多項式擬合光變曲線,根據擬合后曲線的主極小和次極小的寬度和深度給出光變曲線類型;文[10-11]使用傅里葉變換提取光變曲線數據的頻率特征,根據所得頻率特征進行分類,但在算法實現上使用了軟件計算的完美光變曲線數據進行參數設置,使用特征量較少,未考慮儀器測試誤差、天氣原因等引起的數據波動影響,因此僅能完成對光變曲線進行初步分類,不能識別載有特殊天文現象的光變曲線。

本文提出一種基于支持向量機(Support Vector Machine, SVM)的食雙星光變曲線自動分類算法,以快速傅里葉變換所得的頻率信號為特征量,對支持向量機模型進行訓練獲得能自動分類的模型。

1 自動分類算法

食雙星光變曲線可分為EA,EB和EW 3種,針對分類需求提出分類方法如圖1。第1步對原始數據進行預處理,歸一化原始數據并減小其中噪聲;第2步通過快速傅里葉變換提取頻率信號作為特征數據;第3步使用支持向量機算法訓練分類模型并測試;第4步對流程優化,獲得最優的分類模型。

1.1 數據預處理

自動化全天巡視(All Sky Automated Survey, ASAS)用理論光變曲線所得特征進行分類,未考慮實測數據中的噪聲影響[12]。而本文使用食雙星目錄與圖集[注]http://caleb.eastern.edu(Catalog and AtLas of Eclipsing Binaries, CALEB)實測數據(包括相位和較差星等)。由于天氣因素以及儀器誤差等影響,實測數據不可避免地帶有噪聲影響。為了降低噪聲的影響,首先進行預處理。

(1)歸一化,相位數值在[0, 1]之間,不需要處理。較差星等可通過(1)式歸一化到[0, 1]之間。

(1)

其中,m′為歸一化后的較差星等;m為原始較差星等;mmax和mmin分別為較差星等最大值和最小值。

圖1 光變曲線分類方法

Fig.1 Automatic classification algorithm scheme for light curve

(2)

(3)

1.2 光變曲線特征提取

原始光變曲線為時間序列數據,需將其特征提取出來用于分析。常用特征包括主極小和次極小差值、主極小波谷半高全寬等。本文采用光變曲線的頻率特性作為特征值。實際實現時可用快速離散傅里葉變換將相位/較差星等變為頻域信號,將頻域信號與對應光變曲線類型組成特征數據集{f0,f1, ...,fd,T},其中fi(i=0, 1, ...,d)為頻率分量,T為光變曲線類型。

1.3 支持向量機分類算法

支持向量機是建立在統計學習理論和結構風險最小原理基礎上的一種有監督的機器學習算法,基本思想是將特征值映射到高維向量空間,獲得可將不同類數據分割的超平面,該算法常作為自動分類的機器學習算法。在實際使用中,通常將原始數據分為訓練集和測試集。使用訓練集訓練支持向量機模型,獲得映射函數和分割平面(即分類模型),使用測試集驗證所得模型。

2 實驗與結果分析

算法實現采用Python編程。Python是一種面向對象的解釋型計算機編程語言,由于其易用性、簡潔性和可擴展性,成為最受歡迎的程序設計語言之一。Python擁有大量的科學計算擴展庫,可用于實現本文提出的算法。

2.1 分類實驗實現

第1步進行原始數據下載和收集。本文使用Urllib3和BeautifulSoup庫自動分析CALEB網頁數據并存儲網站提供的300個變星的坐標、星名、類型及747條光變曲線,但網站未給出光變曲線類型。隨后通過變星坐標與變星總表[注]http://www.sai.msu.su/gcvs/gcvs/intr.htm(General Catalogue of Variable Stars new version, GCVS)數據交叉對比獲得光變曲線類型。

第2步實現光變曲線數據預處理。這里以BE Vul(EA),YY Cet(EB)和TW Cet(EW)3個變星的V波段數據為例。原始數據如圖2(a)。由圖2(a)可知,由于觀測設備等限制,觀測數據質量較差。表現為數據點個數不一致、浮動較大、數據較離散等。將相位均分為間隔0.005的新相位點,應用歸一化/均值濾波/線性插值后所得數據如圖2(b)。由圖2(b)可知,預處理保留了原始數據的變化趨勢,相對原始數據更加平滑。

圖2 原始數據(a)與預處理后數據(b)
Fig.2 Original data (a) and pre processed data (b)

第3步使用Numpy和Scipy庫對預處理后的數據進行快速傅里葉變換完成頻域變化。以上文所述3顆星數據為例,所得頻率值如圖3。其中橫坐標代表信號諧波頻率。

第4步進行支持向量機模型訓練。使用上述方法把747條光變曲線處理后獲得數據集{f0,f1, ...,fd,T}。首先測試頻率分量選擇對模型訓練的影響。用[fi,fj]表示從fi到fj的連續頻率分量集合,用{fx,fy}表示fx,fy獨立的頻率分量集合。支持向量機模型選用線性核函數,訓練集為373條數據,測試集為374條數據,懲罰因子設為1.0。其中,核函數是將輸入空間映射到高維空間的函數算法,懲罰因子是對錯誤分類的容忍度,降低容忍度能獲得更好的訓練結果,但也可能產生過擬合。最終的結果如圖 4。由圖4可知,選取偶次諧波作為特征值時,分類正確率較高(圖中數據a、b和c),即使僅用f0也可獲得78.6%的分類正確率(圖中數據a)。選擇奇次諧波分量作為特征值時,正確率最高僅為57.8%(圖中數據d、e),說明奇次諧波分量不適合作為特征值。比較圖中結果f到i,正確率隨著選取頻率數量的增多而上升,說明選擇更多頻率分量有助于優化分類結果。訓練集和測試集正確率相差小于2%,說明訓練結果有效,且未達到過度訓練。綜合以上結果,偶次諧波分量適用于作為特征值。

圖3 快速傅里葉變換的結果
Fig.3 Result of FFT

a{f0},b{f0,f2},c{f0,f2,f4},d{f1,f3},e{f1,f3,f5},f[f0,f2],g[f0,f4],h[f0,f6],i[f0,f8]

圖4 分類正確率與特征值的關系
Fig.4 Relationship between classifying accuracy and characteristic value

2.2 支持向量機優化

優化支持向量機參數設置以獲得更好的結果。支持向量機參數主要包括核函數選擇和懲罰因子設置。選擇不同核函數和懲罰因子,使用數據集{f0,f2,f4,f6,f8}作為特征值,所得結果如圖5。由圖5可知,4種核函數按優劣順序依次為linear,rbf,sigmoid和poly。提高懲罰因子初期能顯著提升linear,rbf和sigmoid的分類正確率,但在某一閾值后正確率達到穩定,懲罰因子對poly無影響。當選用linear核函數,懲罰因子設置為2.0時,獲得最優分類模型,分類正確率分別為89.8%(訓練集)和84.8%(測試集)。保存已訓練好的模型用于其他新的光變曲線數據分類與識別。

2.3 實驗結果分析與數據修正

由結果可知,訓練所得模型正確率高,能滿足分類需求,但仍有分類錯誤的數據。下面對分類錯誤的數據進行分析,找出分類錯誤的原因。

將分類錯誤的數據進行整理和分析,結果表明分類錯誤主要來自以下2方面:(1)兩個網站的光變曲線和分類信息不一致,如AU Pup和AW Lac兩個目標星的原始數據與預處理后數據如圖6(a),由圖可知該光變曲線類型應為EW型,但GCVS給出的光變曲線類型均為EB型,可修改原始光變曲線類型數據消除這種錯誤;(2)光變曲線類型分類缺乏明確的區分標準,如圖6(b),GCVS給出XZ Cmi和SW Lyn分別為EB和EA型,但CALEB所給光變曲線數據非常接近,所以必需明確分類標準,并對原始數據逐條進行手工分類與核對,由于該工作量較大暫未進行。

圖5 支持向量機參數與分類正確率關系
Fig.5 Relationship between SVM parameters and classifying accuracy

圖6 分類錯誤的光變曲線
Fig.6 Light curve of classification error

我們修正了上文所述光變曲線與分類不一致的錯誤,共計14個目標,重新進行支持向量機模型訓練和測試,結果如圖7。由圖5可知sigmoid和poly效果較差,這次僅進行linear和rbf兩種核函數的測試。由圖7可知linear核函數結果較好,當懲罰因子設置為5.8時,分類正確率為92.8%(訓練集)和89.0%(測試集)。如果使用rbf核函數,當懲罰因子設置為5.6時,分類正確率為90.9%(訓練集)和86.4%(測試集)。

使用linear和rbf兩種核函數訓練的模型對160條光變曲線數據[注]https://www.researchgate.net/profile/Y-G_Yang進行分類測試,分類正確率均為88.8%,檢查錯誤類型,主要是EA和EB兩種光變曲線分類錯誤。

圖7 基于修正數據支持向量機參數與分類正確率關系
Fig.7 Relationship between SVM parameters and classifying accuracy based on the modified data

3 總結和展望

本文提出一種基于機器學習的光變曲線自動分類算法,使用快速傅里葉變換提取目標數據的頻率,選用偶次頻率分量作為光變曲線特征值,使用所提取特征值訓練支持向量機模型獲得分類模型。采用Python編程實現上述算法并進行優化,實驗數據使用CALEB的實測光變曲線數據和GCVS的分類數據,結果表明,采用[f0,f2,f4,f6,f8]作為特征值時,選用linear核函數,懲罰因子設置為2.0可獲得最優分類結果,分類正確率為89.8%(訓練集)和84.8%(測試集),基本滿足分類需求。

對分類錯誤的數據進行分析,結果表明,分類錯誤的第1個原因是CALEB的光變曲線數據和GCVS分類信息不一致,該類錯誤可以通過修改分類信息消除,第2個原因是光變曲線類型分類缺乏明確區分標準,某些非常接近的光變曲線數據被分為不同類型,對最終測試結果造成干擾,需要制定明確的分類標準并對原始數據重新分類才可以避免該種錯誤。將第1種錯誤全部修正后,正確率提升到92.8%(訓練集)和89.0%(測試集)。由于未制定明確的分類標準,第2種錯誤還未修復。

在天文觀測中自動化技術應用越來越廣泛,獲取的數據量也越來越多,在常規的觀測數據中往往包含著我們感興趣的特殊數據,預示著特殊的天文現象如雙星合并等,需要篩選特殊數據,然后對該目標進行重點觀測,能獲得更有用的數據結果。如何從大量數據中快速篩選出特殊數據是一個難點。在隨后的研究中將特殊光變曲線數據整理為樣本數據,對支持向量機算法進行訓練,使所得模型能夠快速識別特殊光變曲線數據,從而能夠快速響應。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 热99精品视频| 啪啪免费视频一区二区| 色婷婷综合激情视频免费看| 免费看美女自慰的网站| 中文毛片无遮挡播放免费| 91视频首页| 免费国产不卡午夜福在线观看| 毛片最新网址| 国产网站在线看| 真实国产乱子伦视频| 色一情一乱一伦一区二区三区小说| 日本道中文字幕久久一区| 国产精品久久久久久久久久98| 国产浮力第一页永久地址| 久久这里只有精品国产99| 一级毛片基地| av天堂最新版在线| 久久精品人人做人人综合试看| 久青草国产高清在线视频| 欧美成人日韩| 久久精品国产在热久久2019| a天堂视频| 97影院午夜在线观看视频| 国产欧美日韩综合一区在线播放| 国产激爽爽爽大片在线观看| 全部免费特黄特色大片视频| 国产日本一区二区三区| 精品国产aⅴ一区二区三区 | 国产精品美人久久久久久AV| 国产爽歪歪免费视频在线观看| 九九线精品视频在线观看| 成人午夜免费视频| 国产在线小视频| 国产尹人香蕉综合在线电影| 欧美国产日韩在线| 91福利免费视频| 自拍亚洲欧美精品| 日韩欧美视频第一区在线观看| 成年人午夜免费视频| 特级aaaaaaaaa毛片免费视频| 91精品免费高清在线| 国产激情无码一区二区免费| 狠狠色噜噜狠狠狠狠色综合久| 亚洲精品男人天堂| 亚洲视频在线网| 亚洲AV无码一区二区三区牲色| 香蕉99国内自产自拍视频| 五月天久久综合国产一区二区| a亚洲天堂| 99热国产在线精品99| 国产成人欧美| 欧美在线综合视频| 日韩亚洲综合在线| 福利小视频在线播放| 欧美成人区| 国产在线欧美| 久久国产精品娇妻素人| 欧美一区二区人人喊爽| 日本一区高清| 天堂亚洲网| 色综合五月婷婷| 玖玖免费视频在线观看| 国产97区一区二区三区无码| 国产综合欧美| 国产福利在线观看精品| 色噜噜久久| 精品91自产拍在线| 国产日韩欧美在线视频免费观看| 亚洲一区二区三区国产精品| 久久久久国产精品嫩草影院| 日本国产精品| 亚洲欧美日韩高清综合678| 久久96热在精品国产高清| a级毛片毛片免费观看久潮| 亚洲黄网在线| 亚洲 日韩 激情 无码 中出| 亚洲天堂网2014| 久久一色本道亚洲| 久久亚洲欧美综合| 婷婷五月在线| 色香蕉网站| 四虎影视无码永久免费观看|