陳少斌 蘇 彥
(廣西崇左市氣象局,廣西 崇左 530001)
我國經濟和社會發展迅速,導致氣候和氣象災害對國家經濟和社會帶來很大影響,因此社會對氣象服務的質量需求就越來越高。氣象服務主要是對大量的氣象探測數據進行分析整理,氣象信息數據要保證規范化、準確化、豐富化和標準化,這是氣象工作的首要前提。最近幾年,地面自動氣象站觀測系統已經替代了原有的人工觀測站,自動氣象站成為氣象觀測主要方式,其探測的氣象信息數據也成為天氣預報和科研人員的數據來源。并且自動觀測數據和人工觀測相比時間和空間的密度都大幅度提升,在我國很多地區的氣象部門使用自動氣象站觀測數據,尤其是以數據挖掘技術對數據進行存儲和分析更受關注。
在如今的信息社會中大量數據中提取有用信息的能力是十分重要的,而數據庫的應用就應用而生,使用數據庫對數據存儲、統計和查詢等,但是數據庫卻無法發現數據間的聯系和遵守的規則,也不能預測未來發展情況。主要是因為缺乏數據挖掘技巧,所以數據挖掘技術就逐步發展起來,主要對信息材料進行數據處理。
數據挖掘也成為對數據庫中知識的發現,目前被大多數人認同的定位是U.M.Fayyad等人提出的:從大量模糊、不安全、大量、隨機的數據中,提取人們不知道、潛在的有用信息的過程,提取的有用信息主要為規則、概念、規律或模式等。數據挖掘技術主要對各組織原來就具有的數據進行分析,并整理、歸納和推理,從而為相關人員提供幫助和支持,實際上是一種決策支持的過程。
數據挖掘過程包括在某個特定的數據庫中提取模型,并圍繞數據挖掘進行的結果表現和預處理過程,該過程具有反復性。對知識發現和提取的過程是由多個挖掘步驟構成,其中數據挖掘是一個重要步驟。而完整的步驟由目標定義階段、數據準備階段和數據挖掘階段組成。
目前國際上對于氣象數據應用在數據挖掘的技術是數據庫信息系統研究的主要方向,這也引起了氣象和學術界的重點關注,同時也吸引了很多研究人員和商業公司的關注。但是數據挖掘技術還需要面臨很多無法避免的問題,為了保證數據挖掘的有效性,要檢查數據挖掘的期望特性,還要考慮將面臨的挑戰:對并行挖掘的高度結構和分布式的數據挖掘算法的探究;保證數據挖掘結果的確定性、可用性和解釋性;數據挖掘、數據倉庫和分析處理結合的開發;在多層知識面和多個抽象等級上進行交互挖掘;數據挖掘建模語言和應用規范的統一性、靈活性和開放性。
氣象數據的時間和空間特性比較強,所以利用時間分析、空間分析和時間空間結合對氣象數據分析,能夠有效避開復雜的非線性動力學機制的數據,是分析氣象信息數據很好的出發點。對于氣象特征,要先通過空間分析,得到氣象特征的描述,再進行時間分析,做出氣象特征的提前預報。空間分析的過程為:首先,利用聚類分析手段對空間站點的數據信息進行分析,并通過地理位置進行劃分;然后再使用主成份分析法對數據分析,獲取氣象特征明顯的地區;最后使用聚類分析方法對非正常現象進行分析。時間分析的過程是:首先利用回歸分析、趨勢預測和奇異分析對數據分析;然后跟蹤數據演變,最終得出結論。
能夠影響氣象的因素很多,并且關系很復雜,目前的氣象預報基本是通過衛星、臺站觀測和雷達獲取數據,然后通過復雜的計算得出,計算能力要求非常高,需要高性能的大型計算機才可以承受。所以,如果對預測結果精確度沒有影響的前提下,將數據維度有效降低,并降低對計算機資源的依賴,這樣能夠實現利用一般計算機對數據處理的目標。降維分析主要分為近似降維和精確降維兩種,近似降維主要是主成分分析方法,主要是對數據進行簡化,降低數據維數的同時保證數據集中對方差最大,分析中對高階成分忽略而保留低階成分,也就是保留數據的最重要部分,因此不夠精確;精確降維主要是粗糙集分析方法,直接對數據推理并分析,獲取潛在的知識和規律,其基本思想是將數據特性分為條件和結論兩種,然后根據特性分為不同子集,然后對子集和結論劃分子集之間形成近似空間,如果特性子集忽略某一屬性而對結論屬性乜有影響,那么就忽略此特性,這樣能夠精確降低數據維數。
氣象信息數據挖掘就是從復雜大量的氣象數據和資料中,建立可描述的復雜非線性氣象系統模型,對數據隱藏的知識和規律進行分析,并且對未來的氣象信息進行預測,更好的為相關部門和研究人員提供數據。分類預測主要分為連續值預測和離散值預測兩種,其中連續值預測是利用回歸分析和神經網絡對降雨量、溫度等進行預測;離散值預測主要利用決策樹、SVM分類算法、粗糙集、神經網絡和分類統計等方法,對降雨、降霜、臺風和暴雨等進行預測。
關聯分析主要是多個事物間如果存在關聯,那么利用其中一個事物能夠對其他事物進行預測,達到對數據間隱藏的關系進行挖掘。由于氣象信息數據的多維性和時空性,所以氣象信息數據的關聯分析要從兩方面進行分析:第一降低頻繁集個數,對特定屬性關聯分析;第二是不同時空中對同一屬性的關聯分析。對于某一時空的氣象會受到周圍氣象因素的干擾,而且具有時間上的連續性,所以頻繁集的選取就要求跨地域、跨時間。對于氣象信息的數據庫中,氣象要素字段非常多,考慮所有字段的關聯就會導致頻繁集很多,而這樣復雜大量的頻繁集只有一部分具有價值,所以要找到關鍵字段,將該字段和其他字段同時發生的頻率進行分析,這樣研究價值更高。
總之,氣象信息數據的領域和容量不斷拓寬并增長,如何對氣象數據進行利用和挖掘已經成為氣象領域研究人員面臨的重要問題。本文對氣象信息數據挖掘技術進行分析,希望對相關人員有所幫助。
[1]李一平.數據挖掘技術在天氣預報中的應用研究.內蒙古大學.2003
[2]韓濤.陜西省區域自動氣象站觀測資料分析系統研究與實現.西安電子科技大學.2012