姜家濤 謝曉堯



摘要:為了對大規模脈沖星及暫現源數據處理技術運用研究的突破,為國家大科學工程 FAST實現提供有效的技術支持,加速在脈沖星和暫現源科學研究方面科研成果的產出。盡可能詳細記錄脈沖星科研數據處理結果,解決數據分析處理過程、科研結果不便于管理、共享等問題。FAST早期科學數據中心設計開發了面向FAST的脈沖星科學數據管理平臺。討論了系統平臺的架構設計、功能設計和數據設計,解釋了關鍵技術手段,展示了相關重要功能的實現?;窘ǔ擅嫦騀AST科學數據管理平臺(http://psrcat.net/),實現了FAST天文望遠鏡數據資源及相關基礎數據資源的科學存儲管理,實現了候選體數據與已知脈沖星比對分析和數據可視化展示,收錄了來自FAST的優質候選體記錄141條,已知脈沖星數據記錄2700條,望遠鏡設備數據20條,相關數據有望為FAST開展新脈沖星搜尋項目制定巡天計劃、認證提供數據支撐。
關鍵詞:FAST科學數據;數據管理;脈沖星;數據比對;可視化
中圖分類號:P315.69;P1? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)04-0001-04
Abstract:In order to make breakthroughs in the application of large-scale pulsars and transient source data processing technology, it provides effective technical support for the FAST implementation of national Science Project, and speeds up the output of scientific research achievements in the scientific research of pulsars and transient source.Record the processing results of pulsar scientific research data in detail as much as possible, so as to solve the problems of data analysis and processing process, and the inconvenient management and sharing of scientific research results.FAST Early Science Data Center Design develops a pulsar science data management platform for FAST.Built for FAST basic scientific data management platform (http://psrcat.net/), which has realized FAST telescope data resources and related basic data resources, scientific storage management, implement the candidate data comparison analysis and data visualization display and the known pulsars, and features high quality candidates from the FAST record 141, the known pulsars data record 2700 article, article 20 telescope equipment data, the relevant data is expected to provide FAST to start a new pulsar search project survey plan, certification to provide data support.
Key words: FAST scientific data;Pulsar; data manage; data comparison; visualization
500米口徑球面射電望遠鏡FAST(Five-hundred-meter Aperture Spherical radio Telescope)已于2016年9月落成啟用[1],在脈沖星搜索科學任務上取得豐碩成果。其中,脈沖星科學數據管理、處理分析及結果數據共享是脈沖星天文及整個射電天文中一個重要的基礎科研前沿領域。為對大規模脈沖星及暫現源數據處理技術運用研究的突破,為國家大科學工程 FAST 的順利運行、科學目標的實現提供有效的技術支持,加速國家科學裝置 FAST 、SKA在脈沖星和暫現源科學研究方面國際性和前沿性科研成果的產出。盡可能詳細記錄脈沖星科研數據處理結果,便于回溯科研歷程,解決數據分析處理過程、科研結果不便于管理、共享等問題。FAST早期科學數據中心決定研發面向FAST的脈沖星科學數據管理平臺。
依賴當前高度發達的信息化科學技術和智能化數據分析手段,面向FAST的脈沖星科學數據管理平臺完成以下研究目標:對FAST早期漂移掃描數據,Parkes 1997年至今PMPS數據管理;對科研基礎數據入庫,根據脈沖星屬性和科研、科普需要,建立脈沖星基礎數據庫;我們已經收集到截至目前的所有2700余顆的脈沖星數據(包括著名的兩次獲得諾貝爾獎的脈沖星),根據脈沖星屬性和科研、科普需要,建立脈沖星基礎數據庫;建立分析比對功能,基于基礎數據庫的分析統計和比對分析主題;基于基礎數據庫開展數據聚合、鉆取等統計比對分析,實現多維分析;對科研文獻資料管理,接收來自全球的脈沖星科學家及學者的新數據及文獻資料;對設備資料,記錄所有相關設備基礎數據;對巡天項目記錄管理,記錄所有脈沖星開展巡天項目。系統平臺將有利于數據留在本地,服務本土學者研究,加速FAST科研產出,提升本省天文科學、科普形象。論文闡述面向FAST的脈沖星科學數據管理平臺系統架構設計、功能設計和數據設計,討論了相關的關鍵技術,展示了部分重要功能的實現。平臺基本實現FAST天文望遠鏡數據資源及相關基礎數據資源的科學存儲管理,實現候選體數據與已知脈沖星比對分析和數據可視化,收錄了來自FAST的優質候選體記錄141條,已知脈沖星數據記錄2700條,望遠鏡設備數據20條,將為FAST開展新脈沖星搜尋項目制定巡天計劃、認證提供數據支撐。
1系統設計
1.1架構設計
如圖1,基礎資源層匯聚各類基礎數據資源,包括FAST早期漂移掃描數據、已知脈沖星數據、脈沖星候選體數據、巡天項目記錄、天文望遠鏡設備資料和科研文獻資料等其他基礎資料;數據匯總到數據中心,中心數據庫以MySql數據庫系統為基礎,構建標準元數據,清洗、過濾、再加工,建立各類主題,數據庫分OLTP和OLDP;后端服務器技術采用JAVA語言編程,Mybatis對數據庫訪問,軟件服務框架采用Spring MVC,軟件服務發布依賴Tomcat容器與Nginx代理系統;前端技術分為Web、App、H5和小程序,Web展示采用bootstrap,數據可視化展示使用Echarts,App依托Android平臺;平臺可部署多種應用如天文臺至早期數據中心數據傳輸管道、共享數據抓取、科學家候選體數據提交、日常使用業務工作流,主動收錄科研資源,天文科普、脈沖星候選體識別打標簽和脈沖星比對分析數據可視化等。為保證平臺數據安全性,系統啟用統一身份認證[4]和基于角色控制[3]機制,為保障系統高性能高可靠運行,系統部署在云平臺,系統服務器與數據庫物理分離,服務器集群部署,可實現負載均衡和熱備。
1.2功能設計
FAST科學數據管理平臺功能如圖2,主要分成3大塊和14個小塊。數據管理:脈沖星數據管理、候選體數據管理,FITS原始數據文件管理、巡天項目信息管理、文獻資料管理、觀測設施信息管理、FAST管道運行狀態記錄、巡天故事,Timing數據管理和巡天日志管理。數據分析:數據統計可視化,候選體與脈沖星比對;系統管理:用戶管理、系統權限管理、數據庫備份恢復。
1.3數據庫設計
FAST科學數據管理平臺的數據庫負責對來自FAST脈沖星漂移巡天候選體數據,ATNF已知脈沖星數據,Arecib望遠鏡脈沖星數據,LOFAR脈沖星數據,PALFA脈沖星數據、GBNCC脈沖星數據等,文檔文獻數據,天文設施運行記錄數據等的存儲功能。通過對需求分析,根據需要持續化存儲的數據提取實體結構,部分實體設計E-R如圖3。平臺數據庫的實體包括項目實體(Project),脈沖星實體(Pulsar),候選體實體(Candidate),發現故事(Discovery Story),Timing實體,Followup 實體,運行管道狀態實體(Pipline Status),文獻論文實體,用戶實體等。
2關鍵技術與算法
2.1 B/S架構
B/S架構是基于瀏覽器和服務器結構的Web信息系統架構,系統業務在服務器上發布,用戶直接通過瀏覽器就能夠訪問服務器中提供的資源,無須下載安裝軟件,用戶信息保存,直接提交到服務器,有服務器進行計算存儲。同時,B/S系統可以采用AJAX技術,異步無刷新式局部響應業務,給用戶帶來較好的體驗感。
對于技術選型,采用B/S架構技術有如下優勢:
軟件系統使用簡單。B/S架構系統業務主要存在服務器端,無須用戶安裝軟件,隨時隨地,只要擁有任意款式瀏覽器即能夠參與業務交互。用戶無須因為按照客戶端因為軟件版本與系統不兼容而困擾,用戶也無須安裝插件工具等,使用簡單,參與容易。
有利于系統擴展,維護升級。任何信息系統不可能一蹴而就,工作業務在發生變化,信息系統也必須隨之響應。當系統業務需求發生變化,只需要更新服務器端即可,用戶端隨著變更。
2.2 微服務
微服務是當前業界廣泛應用的全新軟件架構模式,通過將一個龐大而復雜的功能分解成一組小的服務,不同的服務直接可以相互協調、互相配合,共同完成一個復雜功能[5]。Spring Could是我們選取的微服務框架,具有高質量、高穩定性、可持續性等優點[6]。多服務分布部署,將龐大的功能應用分解成多個服務,各個服務之間低耦合且能協調交互;服務集中發布,需要建立一個或多個服務器注冊中心Eureka,將所有服務在此注冊中心注冊,所有客戶端的請求通過ZUUL網關判斷URL對應的處理服務,Ribbon負責協調網絡請求轉發負載均衡,多個服務之間也可以使用feign協調調用。高可靠性能保障,系統對每個服務接口添加Hystrix標簽,能夠對每個服務接口的運營監控,Turbine將監控信息匯總查看,方便管理精確定位故障,當某一服務出現故障時,熔斷器可以有效避免系統整體雪崩效應。
2.3 比對分析算法
系統基于基礎參數和采集到的基礎數據,提供多種不同比對匹配算法,對新的候選體進行在線比對、檢索分析,同時,基于已知脈沖星數據,聯合多種條件提供認證匹配檢索。比對算法有歐式距離法和三角相似度法。
3 平臺實現
FAST脈沖星科學數據管理平臺包括前端和后端兩部分組成,后端系統主要是數據的維護管理和系統運行管理,前端系統主要功能導航主界面包含:脈沖星、候選體、望遠鏡設備、巡天項目和脈沖星社區等。針對脈沖星、候選體及望遠鏡數據,集成多種比對分析方法和多維數據可視化結果展示,方便科研工作者直觀、量化分析相關科學目標。
3.1系統主要模塊實現
3.1.1數據儀表盤
系統數據管理員進入系統,呈現的是儀表盤式界面,系統在儀表盤塊,以圖表的形式展示各類數據統計。
3.1.2 Candidate數據管理
脈沖星巡天數據,經過PRESTO軟件加速搜索,產生大量脈沖星候選體數據,交給天文科學家群組討論論證正負性。其中包括重點關注的優質候選體、一般重要級別候選體。
可以關聯到候選體發現的故事。系統為該功能提供了添加,修改,查詢,刪除都能夠相關操作,如圖5。
3.1.3 數據比對分析
如圖6,提供脈沖星/候選體相關預定義參數60多個。如:色散量(DM)、周期(P0)及位置參數赤經(Declination)、赤緯(right ascension)等,用戶可根據科學目標在比對頁面參數列表中勾選相關參數,選擇比對方法。通過搜索/匹配功能可以快速去定位歷史數據,如通過ra、dec去找上次同一個位置區間的觀測結果,去比對是不是已知脈沖星,通過統計脈沖星的分布/參數分布研究統計特征等,并對比兩種數據結果展示方式:表格化和圖形化數據展示。
3.1.4統計可視化
針對脈沖星、候選體及望遠鏡數據,集成多種比對分析方法和多維數據可視化結果展示,方便科研工作者直觀、量化分析相關科學目標。
3.2系統部署
本項目作為天文計算機科研項目,遵循開源準則GPL,在技術選型和部署環境上盡可能使用開源技術與軟件。如圖8,系統部署在Linux操作系統,版本為Ubuntu18,數據庫軟件MySql,服務器采用Tomcat+Nginx部署, FTP文件服務器、數據庫服務器與Web服務器分離,雙Web服務器集群熱備,保障系統安裝穩定運行。
4 總結與展望
目前已經建成面向FAST科學數據管理平臺(可通過網絡訪問地址http://psrcat.net/在線訪問),基本實現FAST天文望遠鏡數據資源及相關基礎數據資源的科學存儲管理,建成候選體數據與已知脈沖星比對分析和可視化的專用數據庫系統。系統基本實現了對Pulsar數據、Candidate數據、漂移數據Fits文件、Followup Observation數據、搜索管道運行狀況記錄數據、Timing數據、發現故事(Discovery Story)、觀測日志數據等管理功能,實現了對脈沖星數據的自定義查詢和統計可視化,候選體與脈沖星比對功能。
下一步將持續通過獲取公開文獻、網絡數據庫等更新和豐富“FAST科學數據管理平臺”中數據記錄,收錄來自FAST脈沖星巡天及其他更多巡天項目的候選體數據,提供更為豐富的統計分析模型和工具,探索多種比對分析算法,開放數據接口,為AI脈沖星識別程序學習訓練和識別提供數據支撐。期望FAST科學數據管理平臺能夠長期服務于射電脈沖星科學領域研究者,成為射電天文領域有一定影響的專用工具。
參考文獻:
[1] 許余云,李菂,劉志杰,等.人工智能在脈沖星候選體篩選中的應用[J].天文學進展,2017,35(3):304-315.
[2] Wang Hongfeng,ZhuWeiwei,GuoPing,et al. Pulsar Candidate Selection with Ensemble Nets for FAST Drift-scan Suvery[J].SCIENCE CHINA,2016(5):9.
[3] 姜家濤,郭靜.基于RBAC的權限管理在實驗室信息管理中的研究[J].計算機技術與發展,2017(27):79-82.
[4] 姜家濤,謝曉堯,張輝.FAST科學管理平臺統一身份認證的研究與實現[J].電腦知識與技術,2020,10(29):13-16.
[5] 郄小明,張建君.基于微服務架構的終端服務平臺設計[J].數字技術與應用,2020(6):124-126.
[6] 陳娜,嚴張凌.基于Spring微服務架構的學生實踐平臺[J].信息與電腦,2020(13):127-129.
[7] 馮志勇,徐硯偉,薛霄.微服務技術發展的現狀與展望[J].計算機研究與發展,2020,57(5):1103-1122.
[8] 李娜.基于Spring Cloud微服務架構的應用[J].電子技術與軟件工程,2019(12):142.
[9] Hewish A, Bell S J, Pilkington J D H, et al. Observations of a rapidly pulsating radio source[J].Nature,1968,217:709.
[10] Li D, Wang P, Qian L, et al. Considerations for a Multi-beam Multi-purpose Survey with FAST[J]. IEEE Microwave, 2018,19(3):112-119.
[11] Weiwei Zhu, Di Li, Rui Luo, et al. A Fast Radio Burst discovered in FAST drift scan survey[J]. ApJL, arXiv:2004,14029.
[12] 劉鵬,王培,李菂,等. FAST 19波束脈沖星漂移掃描巡天模擬[J].天文學進展, 2018, 36(2): 173-188.
[13] Manchester R N , Hobbs G B , Teoh A , et al. The Australia Telescope National Facility Pulsar Catalogue[J]. Astronomical Journal, 2005, 129(4):1993-2006.
[14] A.Taylor, J.H.R.A. Hulse, J. H. Taylor. Discovery of a pulsar in a binary system[J]. ApJ, 1975,195:L51-L53.
[15] J. M.; Nice, D. J.; Taylor, J. H. Timing Measurements of the Relativistic Binary Pulsar PSR B1913+16[J]. Astrophysical Journal,2010, 722: 1030-1034.
[16] Levin L, Armour W, Baffa C, et al. Pulsar Searches with the SKA[J]. Proceedings of the International Astronomical Union, 2017, 13(S337).
[17] Manchester RN, Lyne AG, Camilo F, et al. The Parkes multi-beam pulsar survey– I. Observing and data analysis systems, discovery and timing of 100 pulsars[J]. 2001, 328(1):17-35.
【通聯編輯:代影】