劉高平+葉金印



摘要:優化多源異構氣象數據文件的檢索與傳輸方式可以縮短氣象信息查詢響應時間,提高天氣預報業務工作效率。基于安徽省氣象臺天氣預報計算機網絡系統環境,以氣象衛星、天氣雷達、閃電定位儀、自動氣象站觀測資料以及數值天氣預報產品等主要氣象數據文件為研究對象,對比分析不同檢索和傳輸方法的檢索時間和傳輸效率。結果表明,使用非規范技術元數據技術可有效提高氣象數據文件檢索效率,GridFTP數據傳輸方式效率最高;采用非規范技術元數據檢索與多文件壓縮傳輸的組合策略能有效縮短氣象信息查詢的響應時間。
關鍵詞:氣象數據文件;檢索;傳輸;對比分析
中圖分類號:P409
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2015.06.009
本文著錄格式:劉高平,葉金印,氣象數據文件檢索與傳輸方法對比分析與應用[J].軟件,2015,36(6):42-46
ComparativeAnalysisandApplicationoftheMeteorologicalDataFileRetrievalandTransmissionMethods
LIUGao-ping,YEJin-yin[Abstract]:Optimizingtheretrievalandtransmissionmodeofmulti-sourceheterogeneousdatacouldshortentheresponsetimeofmeteorologicalinformationqueryandimprovetheefficiencyofweatherforecast.Basedontheweath-erforecastcomputernetworkenvironmentofAnhuiMeteorologicalObservatorytheretrievaltimeandtransmissionefficiencyofdifferentretrievalandtransmissionmodeswerecomparedandanalyzedbytakingmainmeteorologicaldataasresearchob.jects,suchassatellitedata,radardata,lightninglocatordata,automaticweatherstationdataandnu-mericalweatherpredictionproducts.Theresultsindicatedthattheretrievalefficiencyofmeteorologicaldatacanbeimprovedeffectivelybyutilizingdenormalizationtechnologytomanagemetadata.GridFTPdatatransmissionmodehadthehighestefficiency.Theresponsetimeofthemeteorologicalinformationquerywasshortenedbythecombina-tionofthemetadataretrievalusingdenormalizationtechniqueandmulti-filecompressiontransmission.
[Keywords]:Meteorologicaldatafiles;Retrieval;Transmission;Comparativeanalysis
0引言
自動氣象站、閃電定位儀、雷達、衛星等自動觀測儀器在氣象業務中廣泛應用,這些儀器觀測頻率高且生成不同格式氣象數據文件,逐漸形成了結構復雜、文件格式各異、數量龐大的文件系統[1-2]。
由于氣象數據結構復雜,氣象數據文件檢索與傳輸是影響天氣預報工作效率的一個重要環節[3],特別是遇到突發天氣時,氣象監測預警數據能否及時到達業務系統直接影響到預報服務的效果[4]。氣象業務現行業務系統數據文件檢索與傳輸方案的效率已經不能滿足業務需要[5]。因此,本文通過對多源異構氣象數據文件檢索和傳輸方法進行對比分析,提出采用非規范技術元數據檢索與多文件壓縮傳輸的組合策略,以縮短天氣預報業務中氣象信息查詢的響應時間。
1文件系統概述
氣象臺站每日采集的氣象數據文件主要包括氣象衛星、數值預報產品、天氣雷達、閃電定位以及白動氣象站觀測資料,數據總量約為120G,大部分文件大小集中在2KB~60M。常用的幾大類氣象數據文件系統信息如表1所示。
2試驗環境
以安徽省氣象臺現行天氣預報業務系統計算機網絡為試驗環境,進行氣象數據文件檢索與傳輸方法對比分析。服務器端軟件均使用GridFTP.NET,主機信息見表2。
客戶機使用SSD硬盤,試驗時GridFTP的TCPBufferSize設置為128KB,設置為并行傳輸(parallelism=2),其他均為默認參數。在表2中IP為10.129.4.147的機器上建立了一臺FTP和SFTP服務器,測試FTP和SFTP傳輸效率。
3文件檢索方法對比分析
由于氣象數據文件命名規則的復雜性,天氣預報業務系統通過命名規則來定位文件存在困難[6],因此需要通過文件系統進行檢索。氣象數據文件傳輸一般采用NFS文件共享傳輸方式,其基本原理是通過TCP或UDP協議訪問和傳輸[7]。文件共享檢索方式由系統自動調整,雖然方便簡易,但共享的文件數量較大時,檢索效率隨之降低[8]。
元數據技術是解決大規模數據文件檢索的有效解決方案[9]。元數據是“關于數據的數據”,是一種規范法的描述信息,記錄了數據的來龍去脈,但隨著文件數量不斷增大,元數據的量隨之增加,使得元數據檢索效率降低[10]。利用非規范技術元數據可簡化邏輯、解除多個表之間的聯合查詢[11],從而提高檢索效率。因此,本文針對氣象數據文件多源異構、數據量大的特點,采用非規范技術設計元數據,建立目錄名、文件名、文件大小、數據類型、文件格式、數據日期等字段的非規范技術元數據表(表3)。元數據表名與文件系統的目錄名通過一定規則對應,在一張表中檢索所需氣象數據文件,簡化錄入和瀆取過程。
對文件共享檢索方式和非規范技術元數據檢索方式進行100次檢索試驗,對比分析兩種方式平均檢索耗時(圖1)。非規范技術元數據檢索方式的平均耗時大大低于文件共享檢索方式,兩種文件檢索方式的耗時都會隨著目錄中文件數量的增加而增長,但元數據檢索方式的耗時增長速度大大低于文件共享方式檢索。
4文件傳輸方式對比分析
本文將氣象數據文件傳輸分為單文件和多文件兩種情形,分別進行對比分析。
4.1單文件傳輸對比分析
現行天氣預報業務系統
圖1文件共享檢索方式與非規范技術元數據檢索耗時對比圖使用的數據傳輸協議主要有FTP、SFTP、GridFTP等[1,12]。FTP使用方便,但小文件傳輸效率不高;SFTP是安全強化版的FTP,常用于傳輸包含機密數據的小文件;GridFTP是網格環境中FTP的一種安全、快速、高效、可靠的擴展版本。通過對SK、50K、500K、SM、50M、500M的單文件進行傳輸速度對比分析。三種傳輸協議與文件共享方式傳輸速率對比結果見圖2。
GridFTP在大文件傳輸方面有一定優勢,尤其是文件在500K以上時;局域網文件共享和FTP方式速度相當。在傳輸大于500M文件時,FTP、GridFTP以及文件共享方式的傳輸速率都超過60Mbps,已經超過ATA硬盤的寫入速度。
4.2多文件傳輸對比分析
多文件傳輸時可采用無損壓縮技術對其進行壓縮,傳輸完成后再解壓縮。但壓縮后再傳輸是否能提升傳輸效率由網絡帶寬、壓縮速度和解壓縮速度三個參數共同決定。公式(1)成立時,使用壓縮傳輸可以提升效率。
Tzip+Tuzip+Ttzip
式中Tzip為壓縮時長,Tuzip為解壓縮時長,Ttzin為傳輸壓縮文件時長,Tt為不壓縮時傳輸時長。Tt和Tuzip由算法和傳輸機器的相關性能和壓縮解壓縮算法決定,而Tt:ip由文件大小、網絡速率、傳輸協議等參數決定。為了找到壓縮傳輸的臨界條件,定義:
γ=(Tmor-Tcom)/(Tnor+Tcom)(2)
式中Tcom為壓縮后傳輸方案耗時,Tnor為不壓縮傳輸方案耗時。γ越小,表明壓縮傳輸和不壓縮傳輸效率越接近。
傳輸對比試驗方案設計如下:根據文件平均字節數β,分7組文件進行測試,β∈(2KB、SKB、8KB、11KB,14KB、17KB、20KB)。傳輸方式采用GridFTP,得到壓縮傳輸與不壓縮傳輸效率相當的文件個數。第1次選取1個大小為β的文件進行壓縮傳輸和不壓縮傳輸測試,記錄γ;第2次選取2個文件平均大小為β的文件進行壓縮傳輸和不壓縮傳輸測試,記錄γ;依次類推進行測試,直至找到大于0的最小γ值,記錄此時文件個數。對于不同大小文件,壓縮與不壓縮傳輸效率相當時,文件大小與文件個數折線圖與擬合曲線如圖3所示。例如,當文件平均大小為SKB,個數為10個時壓縮傳輸與不壓縮傳輸相率相當。
可以看出壓縮傳輸方案與不壓縮傳輸方案效率相當時的文件個數隨所需傳輸的文件平均大小而增加,當文件個數N滿足:
N>0.23β2—0.8β3+7.4(3)
時,可以使用壓縮傳輸方案。式中,β為文件平均大小,單位為KB。
5檢索與傳輸組合方案試驗
試驗采用兩種方案:方案A為現行業務中文件共享方式檢索傳輸;方案B為組合方案使用試驗中效率較高的非規范技術元數據進行檢索和利用公式(3)判斷是否進行壓縮傳輸。使用方案A和方案B對表1中的5種氣象數據文件進行檢索傳輸試驗,試驗a為檢索船速每種氣象數據文件10個,試驗b檢索傳輸每種氣象數據文件100個,重復試驗100次得到圖4(a)和(b)所示的檢索傳輸平均耗時對比圖。
從圖4(a)和(b)中可以看出:方案A在檢索傳輸自動氣象站數據文件時,不論傳輸文件多少,用時均超過33秒,由于自動氣象站文件平均大小僅為2KB,傳輸時會間短,可見文件檢索占了整個過程絕大部分時間;方案B檢索傳輸10個和100個自動氣象站、雷達、閃電定位數據文件時耗時相差不大,這是由于在傳輸100小文件時,方案B滿足公式c3)使用了壓縮傳輸策略,說明壓縮解壓傳輸策略起到提升效率的作用;在數據文件數量不多且文件尺寸較大時兩者效率相當;總體而言,方案B傳輸效率明顯高于方案A,尤其在小文件傳輸方面。
6結論
本文以安徽省氣象臺天氣預報計算機網絡系統和氣象數據文件系統為應用背景,對比分析了文件共享和非規范技術元數據檢索效率、壓縮傳輸與不壓縮傳輸策略,得到如下結論:
(1)使用非規范技術元數據可大大提升氣象數據文件檢索效率。
(2)試驗的多種傳輸方法中GridFTP效率最高。
(3)本文采用非規范技術元數據檢索與公式(3)判斷是否壓縮傳輸的組合策略在自動氣象站、天氣雷達、閃電定位等小文件方面傳輸方面效率優勢明顯。
本文中的各項試驗均是在特定的網絡環境下完成應用對比,有待在不同的網絡環境下進行深入的研究分析。
參考文獻
[1]陸穎華,馬廷淮,曹浩,等.大量氣象數據小文件自適應優化傳輸[J].應用氣象學報,2014,25(5):629-637.
[2]薛勝軍,劉寅.基于Hadoop的氣象信息數據倉庫建立與測試[J].計算機測量與控制,2012,04:926-928+932.
[3]裴羽中,宋連春,吳可軍,等.我國綜合氣象觀測運行監控系統的設計與實踐[J].氣象,2011,02:213-218.
[4]馬渝勇,方國強,向繼濤,等.省級氣象信息網絡系統的整體設計與實現[J].計算機應用研究,2012,04:1374-1377.
[5]劉立明,王彬.氣象網格環境下大數據的端到端傳輸機制研究[J].計算技術與自動化,2014,01:122-126.
[6]高峰,王國復,喻雯,等.氣象數據文件快速下載服務系統的設計與實現[J].應用氣象學報,2010,02:243-249.
[7]胡曉曄,王能輝.網絡文件系統的安全性分析與改進[J].煤炭技術,2012,02:243-244.
[8]楊彬.分布式文件系統HDFS處理小文件的優化方案[J].軟件,2014,35(6):65-69.
[9]高沛鑫.論元數據及其作用[J]軟件,2014,35(3):201-202.
[10]趙丹.基于網格技術的分布式異構空間數據訪問及集成研究[J].軟件,2013,34(4):113-116.
[11]周敏,汪新慶.基于非規范化和數據字典的地學元數據管理[J].計算機技術與展,2015,03:175-179.
[12]王甫棣.國內氣象通信系統的設計與實現[J].計算機應用,2012,S2:220-225.