鄭忠仁,程 勇,王 軍,,鐘水明,徐利亞
(1.南京信息工程大學 計算機與軟件學院,南京 210044; 2.南京信息工程大學 信息化建設與管理處,南京 210044;3.九江學院 信息科學與技術學院,江西 九江 332005)(*通信作者電子郵箱zrzheng@foxmail.com)
基于遺傳算法的氣象觀測數據區間值屬性約簡算法
鄭忠仁1*,程 勇2,王 軍1,2,鐘水明1,徐利亞3
(1.南京信息工程大學 計算機與軟件學院,南京 210044; 2.南京信息工程大學 信息化建設與管理處,南京 210044;3.九江學院 信息科學與技術學院,江西 九江 332005)(*通信作者電子郵箱zrzheng@foxmail.com)
針對氣象觀測數據采集目的性弱、數據冗余度較高以及觀測數據區間化中單值較多、等價類劃分精度低的問題,提出一種基于遺傳算法的氣象觀測數據區間值屬性約簡算法(MOIvGA)。首先,通過改進區間值相似度,使其能夠同時適用于單值等價關系判斷和區間值相似度分析;其次,通過改進自適應遺傳算法,提高其收斂性;最后,通過仿真實驗證明,相對于運行自適應遺傳屬性約簡(AGAv)算法求解最優值,所提算法迭代代數減少了22代;在區間長度為1 h降水分類中,基于依賴度的區間值決策表λ-約簡(MOIvGA)平均分類準確率比RIvD算法提高了6.3%,對無雨的預測準確率提高了7.13%;同時約簡后的屬性子集顯著提高了分類準確率。由此可見,MOIvGA在區間值氣象觀測數據分析中能夠提高收斂速度以及分類準確率。
氣象觀測數據;屬性約簡;區間值相似度;遺傳算法; 屬性子集
隨著信息化進程的加快和現代化探測儀、傳感器等信息采集技術不斷更新,以及人們對氣象服務的需求迅速增加,氣象監測的密度和頻率也隨之大幅增加,數以萬計的氣象觀測數據成倍地增長,氣象大數據的格局已經形成[1]。氣象觀測數據規模的迅速增長,不僅表現在數量上的增加,同時數據的維數也在急劇增加,即形成所謂的高維數據[2]。
由于氣象觀測數據在采集時目的性較弱,同時天氣現象的發生往往是由屬性集中的一部分的變化引起的,因此在氣象觀測大數據中屬性的冗余度較大。粗糙集理論作為一種處理模糊、不確定信息的數學工具,其核心內容之一就是屬性約簡[3]。屬性約簡是指在保持知識庫分類能力不變的前提下,刪除冗余的屬性,簡化信息系統,從而方便知識獲取[4]。氣象數據作為一種典型的時間序列行為數據,在相當一段時空范圍內相關性較大。然而屬性約簡處理對象都是離散型的,必須將氣象要素數據離散為單值數據,但這樣往往會造成處理結果在一定程度上物理意義不明確,造成知識的遺漏[5]。
因此,本文提出一種基于氣象數據離散化的區間值信息系統分析方案。相比于單值數據,屬性區間化不僅可以減少計算量,還可以反映氣象要素在該段時間內的變化情況;由于溫、濕度等氣象要素在相當長的時間內變化較小,隨著采樣頻率的增加,屬性區間化可以有效地降低相鄰時間內同一屬性的值變化不大以及個別屬性值缺失對分類的影響;并且對于溫、濕度等連續性屬性可以根據區間值的長度判斷該段時間內是否存在異常數據。
1982年粗糙集理論提出,經過幾十年的發展,粗糙集理論廣泛應用于各領域,并取得了豐碩的成果[6-12],例如模式識別與分類[10]、股票預測分析[11]、決策分析[12]等。屬性約簡作為粗糙集理論研究的重點,已有證明求解最小屬性約簡是一個NP-hard問題,即當數據量增大時,問題復雜度將以指數增長[13],這也給傳統的屬性約簡算法帶來了挑戰。因此,當前屬性約簡的研究主要集中在基于啟發式的屬性約簡。
目前,基于啟發式的單值信息系統的屬性約簡已經很多。許多學者已經逐漸意識到傳統屬性約簡的不足,開始深入研究區間值信息系統的屬性約簡。文獻[14]以一種優勢關系來判定區間值的優劣,一定程度上提高了算法的準確率。文獻[15]提出基于屬性依賴度和互信息的區間值啟發式約簡,并將其應用于電力大數據中;但該文中僅依靠單個閾值限制等價類的劃分,誤分率較高。文獻[16]提出了一種α-極大相容類的概念,有效地提高了分類的近似精度;但其求取兩個區間的相似率分類粒度較粗,容易造成知識遺漏。文獻[17]提出了容差關系的概念,該方法有效利用區間值的特性,一定程度上降低了誤分率,提高了分類精度。
為了進一步提高屬性約簡的效率,融通其他優化算法顯得十分必要。遺傳算法作為一種模擬生物進化的啟發式搜索算法,具有極好的全局搜索能力,同時具有自組織性、自適應性以及并行性等特點;隨著多年來不斷地發展與完善,效率也大大提高,也使其在應用領域都取得令人滿意的效果。而標準的遺傳算法交叉概率和變異概率通常使用常量系數,導致收斂速度慢和容易早熟等問題。
基于此,本文提出了基于遺傳算法的氣象觀測數據區間值屬性約簡算法(Meteorological Observation data Interval-value attribute reduction algorithm based on Genetic Algorithm, MOIvGA)。針對氣象觀測數據的時空相關性,提出將屬性值域區間化,從而討論區間值信息系統,增強算法的實用性;針對氣象觀測數據采集量大、屬性冗余度高等特點,利用遺傳算法的并行性和全局搜索能力等優勢,將自適應遺傳算法和粗糙集理論相結合應用于氣象觀測數據進行屬性約簡,提高了約簡算法的性能。
2.1 區間值決策表的概念和性質
2.1.1 區間值決策表概念

2.1.2 區間值決策表的相容類
粗糙集理論的核心是等價關系,對于單值決策表往往通過屬性值的等價關系實現對論域的劃分[15]。而與經典粗糙集中的決策表(屬性值為單值)不同,在區間值決策表中,條件屬性值很難滿足完全等價,因此,通過等價關系對論域進行劃分就不再適用。為此,將區間值相似度引入到區間值決策表,用兩個區間的共同部分的大小來衡量區間的相似程度,從而通過區間值相似度實現對論域的劃分。
區間化的氣象觀測數據不同于其他區間值決策表,由于氣象觀測數據中存在一部分的隨機性數據,例如降雨量、能見度等,當這些氣象要素作為條件屬性時,可能存在恒為單值的情況,例如降水量為條件屬性時,無雨的天氣屬性值均為0。如果忽略這種情況,勢必影響分類的質量。因此,本文將區間值相似度定義如下:

(1)
(2)
其中,card(*)表示區間值的長度。式(1)將單值數據視為區間值數據中的一個特例,此時的相似度公式同樣能夠滿足判斷單值屬性的等價關系。相似度作為衡量兩個區間值的近似等價程度,為區間值決策表論域的劃分提供了一種有效的度量標準。
文獻[16]中,算法僅通過α一個閾值來限制等價類的劃分可能導致某些知識被遺漏。例如α=0.7時,對象xi和xj的相似度為(0.9,0.9,0.9,0.69),這時依據文獻[16],對象xi和xj是不相容的。而事實上這種情況下的相容概率并不比(0.7,0.7,0.7,0.7)差,因此本文將近似等價關系的限制條件中加入了聯合相似度。定義如下:
定義3 設區間值決策表S=(U,C∪D,V,f),屬性子集A?C,α∈[0,1]為給定閾值,將區間值決策表中對象xi和xj關于屬性A的α-近似等價關系定義為:


(3)



2.1.3 區間值決策表的屬性依賴度
上面介紹的定義和性質都是圍繞區間值決策表的條件屬性,并沒有涉及到決策表的決策屬性。定義區間值決策表的決策屬性D關于條件屬性子集A的正域為:
定義4[18]設區間值決策表S=(U,C∪D,V,f),α∈[0,1],決策屬性D對論域的劃分為{ω1,ω2,…,ωn},任意條件屬性子集A?C,則決策屬性D關于A的正域為:

(4)



定義5[15]正域的大小反映了分類問題在給定屬性空間中的可分離程度。為了度量條件屬性與決策屬性關系的重要程度,定義決策屬性D相對于條件屬性子集A的α-依賴度為:
(5)
定義6[15]設區間值決策表S=(U,C∪D,V,f),A?C,α∈[0,1],如果屬性子集A滿足以下條件,則稱屬性子集A是條件屬性C的一個α-約簡:

條件1)要求屬性子集保持決策表的分類能力不變;條件2)要求約簡中刪除冗余屬性。這與粗糙集屬性約簡的定義完全一致。

2.2 遺傳算法
遺傳算法以模擬生物進化過程來尋找最優解,其一般由編碼、適應度函數、選擇算子、交叉算子以及變異算子五部分組成[19]。
2.2.1 編碼方式
本文采用二進制染色體定長編碼的方式,即每個染色體都對應一個條件屬性子集,染色體的每一位基因對應一個條件屬性。基因位取“0”和“1”分別表示不選擇和選擇對應的條件屬性。例如,在決策表S中,每個對象有6個條件屬性{a1,a2,a3,a4,a5,a6}。若求得一個可能的約簡為{a2,a3,a5,a6},則染色體應表示為011011。
2.2.2 適應度函數
適應度函數是遺傳算法的關鍵步驟,控制著群體的進化方向,也是評價和選擇染色體的重要依據。根據粗糙集屬性約簡的定義可知,適應度函數的目標是在滿足原分類質量不變的同時使得染色體屬性個數盡可能少,因此,本文將屬性依賴度和條件屬性個數引入到適應度函數中,定義如下:

(6)

2.2.3 選擇算子
選擇算子是指以何種方式選擇群體中的染色體來進行交叉和變異操作。本文采用適應度比例選擇方法,即輪盤賭的方式選擇染色體,即每個染色體vi的適應度值占所有染色體適應度值總和的比例。具體定義如下:

(7)
以此作為染色體vi被挑選出來進行下一步操作。
2.2.4 交叉算子和變異算子
傳統遺傳算法的交叉概率和變異概率均是常量,很容易導致收斂速度慢和早熟等問題。自適應遺傳算法則采用動態的交叉概率和變異概率一定程度上避免了這些現象[20]。算法早熟主要是因為種群中優良染色體大量繁殖,以致占據整個種群,破壞了群體的多樣性。標準自適應遺傳算法采用種群中最大適應度值和平均適應度值的差作為衡量收斂性的度量,而早熟往往是由適應度值較大的染色體引起的,為了降低較差染色體對收斂性的影響,提出用最大適應度值與適應度值大于平均適應度值染色體的平均適應度值差值作為衡量標準。同時從算法的進化過程來看,隨著算法的進行交叉概率和變異概率應該逐漸變小。
基于此,本文將交叉概率Pc和變異Pm分別定義如下:
(8)
(9)
其中:fmax為當代種群中最大的適應度值,ftmax為當代種群中適應度值大于平均適應度值染色體的平均適應度值;G為種群的進化代數;b1、b2分別代表交叉概率和變異概率關于進化代數的變化曲率,通常均取最大遺傳代數的倒數;C1和M1分別為交叉概率和變異概率的收斂極限;l1為控制因子,通常取0.2。
2.3 MOIvGA
屬性依賴度作為條件屬性對決策屬性重要性的度量,描述了條件屬性對分類的貢獻,因此可以作為屬性約簡中屬性重要程度的評價標準。而遺傳算法作為一種隱含并行性的啟發式搜索算法,常用來解決復雜的優化問題。根據屬性約簡的定義將屬性依賴度和條件屬性個數作為遺傳算法適應度函數的參數,控制種群的進化方向。從而將粗糙集理論和遺傳算法相結合,借助遺傳算法模擬生物的進化過程,可使得種群不斷優化,并在優化過程中尋找全局最優解。
算法1 基于遺傳算法的氣象觀測數據區間值屬性約簡算法(MOIvGA)。
輸入:S=(U,C∪D,V,f),α、b1、b2、C1、M1、l1、λ;
輸出:屬性約簡red。


步驟3 對任意ak∈C,若ak∈Core(C),即為核屬性,則對應的染色體基因位為1;若ak?Core(C),則可隨機選擇,對應的染色體基因位為0或1。
步驟4 根據式(5)分別計算決策屬性對群體中每個染色體的條件屬性依賴度值,再由式(6)計算每個染色體的適應度值,并將染色體按適應度值的大小進行排序,以淘汰概率np淘汰適應度值較差的個體。
步驟5 進行選擇操作;并根據式(8)的交叉概率Pc選擇配對的染色體進行等基因片段交換操作。
步驟6 基本位變異,根據式(9)的變異概率Pm決定染色體是否進行變異操作,如果需要進行變異操作,則隨機選擇變異的基因位,當選擇的屬性為核屬性時不發生變異,重新選取染色體其他屬性進行變異操作。
步驟7 判斷是否達到最大迭代次數和群體連續三代適應度是否滿足||Fi-2-Fi-1|-|Fi-1-F||<ε,如果滿足一個則停止執行,并輸出最優染色體;否則轉步驟4。
α值需要根據數據的具體情況設定,其值的大小直接影響了分類的結果。α值越大,要求越嚴格,即相容類元素個數越少。為了檢驗MOIvGA的性能,對氣象觀測數據中影響降水量的相關因素進行屬性約簡測試,并且與文獻[15]中的基于依賴度的區間值決策表λ-約簡(λ-Reduction in Interval-valued decision table based on Dependence, RIvD)算法在算法性能方面進行了比較與評價。
3.1 實驗數據
氣象觀測數據是一種典型的時間序列數據,每年的降水多集中在4—7月份,為了降低地域等因素對降水的影響,本文實驗僅采用相近四個氣象站點2016年4—7月份采集的10萬余條數據集,除去區站號、經緯度以及時間,共有26個屬性(均為數值型)。并根據表1降水量等級劃分表將觀測數據中降水量改為對應的等級,形成決策屬性,從而得到一個大型的決策表。

表1 降水量等價劃分表
屬性約簡是在不改變知識庫分類能力的前提下,刪除冗余屬性,因此評價約簡算法的性能還需用約簡的屬性子集進行分類預測,根據分類結果判斷約簡算法的優劣。在分類預測時,測試數據與訓練數據時間間隔相同,將測試結果與測試數據實際的決策屬性進行比較,統計預測正確的個數,整個過程采用十折交叉計算分類準確率。MOIvGA中C1、M1分別取0.12、0.01。
3.2 結果與分析
3.2.1 遺傳算法收斂度
首先,為了驗證MOIvGA中改進的自適應遺傳算法的性能,與標準的自適應遺傳屬性約簡(Adaptive Genetic Attribute Reduction, AGAv)算法對區間長度為2 h的觀測數據運行比較。為了直觀地比較算法的收斂過程,將算法的終止條件設置為滿足最大迭代次數。由于種群初始化時,除核屬性外是隨機產生的,因此并不能保證兩種算法的初始最佳個體相同;同時數據集的屬性約簡往往不止一個,因此需要對兩種算法進行多次實驗,選取約簡屬性子集相同的兩次進化過程進行比較。選取的兩次進化過程如圖1所示。

圖1 最佳個體適應度值變化過程
由圖1可知,MOIvGA和AGAv算法分別在23代和45代收斂到最優解。根據圖中平均適應度值變化過程可以看出,MOIvGA的進化也優于AGAv算法。
為了更直觀比較兩種算法的進化過程,提出用遺傳算法收斂率來比較兩種算法的尋優效率,收斂率為當代最佳個體適應度值和第一代最佳個體適應度值的差值與最終收斂值的比值。兩種算法的收斂率變化如圖2所示。

圖2 兩種算法收斂率比較
由圖2可知,兩種算法最終的收斂率并未重合。這是由于兩種算法的初始化結果不同,即第一代最佳個體不同。從圖2還可以看出在進化的初期,兩種算法的收斂率差異不大,但隨著進化過程的進行,MOIvGA以更快的收斂率達到最優解。這是由于前期種群多樣性復雜,種群中染色體變化較大。但隨著進化的進行,MOIvGA的保優操作以及選擇操作的優勢逐漸突顯出來,從而提高了算法的收斂速度。
3.2.2 不同時間間隔約簡的準確率
為了考察MOIvGA在氣象觀測數據中的有效性,將MOIvGA和文獻[15]中RIvD算法分別對時間間隔為30 min、1 h、2 h、3 h、6 h、12 h數據集進行約簡操作,并對約簡的屬性子集在K最近鄰(K-Nearest Neighbor,KNN)(K=3)分類器中進行分類預測,兩種算法的區間相似度均取0.7。結果如圖3所示。

圖3 不同時間間隔下的平均分類準確率
從圖3可以看出在時間間隔小于3 h的情況下,平均分類準確率均都能達到70%以上,間隔為1 h的情況下兩種算法的分類準確率均達到最高,并且 MOIvGA比RIvD算法提高了6.3%。而在6 h和12 h的時間間隔下,兩種算法的分類準確率都明顯下降。主要是由于氣象數據在相近時間內的時空相關性較大,隨著時間間隔的增長,變化性因素較大,時空相關性的特征有所減弱;同時隨著間隔的增長,數據量大量減少。從圖中還可以看出MOIvGA整體的平均分類準確率都優于RIvD算法,這是由于氣象數據在區間化后仍然有較多的單值數據,而RIvD算法并不能處理單值數據,以及MOIvGA中加入了聯合相似度的限制,使得MOIvGA約簡效果更好。
3.2.3 約簡前后數據準確率
為了進一步比較約簡后的屬性子集與原數據的分類能力,選取MOIvGA和RIvD算法對時間間隔為1 h約簡結果在KNN(K=2)分類器中進行降水等級分類預測,兩種算法的約簡結果如表2所示。在分類預測過程中的測試數據和訓練數據均為同一數據集。分類結果如圖4所示。
由表2可知,MOIvGA剩余屬性個數少于RIvD算法。由于RIvD算法采用的是以屬性重要度為指標的前向搜索算法,即每次從屬性重要度中選擇最大的屬性逐個加入約簡集合中。而MOIvGA則用屬性依賴度和屬性個數兩個因素控制進化方向,并借助遺傳算法將多個個體作為可能解,從而在全局范圍內尋找最優解。因此一般情況下MOIvGA的約簡結果優于RIvD算法。

表2 MOIvGA和RIvD算法的約簡結果
由圖4可知,兩種算法約簡的屬性子集的分類準確率均高于原數據。在無雨預測中,本文算法的分類準確率比RIvD算法提高了7.13%,比原數據提高了14.24%。但隨著降水等級的增加,分類準確率逐漸降低。這是由于分類預測準確率和樣本數據有著顯著的關系,隨著降水等級的增加,對應的樣本數目大量減少,蘊含的信息量也大幅度減少,因此分類準確率也就很低。

圖4 KNN分類準確率
本文針對氣象觀測數據時空相關性較強的特點,提出將氣象觀測數據區間化,并借助改進的自適應遺傳算法尋找全局最優解。通過實驗證實,MOIvGA能夠以較快的速度收斂到最優解。對不同區間長度的氣象觀測數據降水影響因素約簡中,MOIvGA在間隔為1 h的情況下優勢最明顯。與原數據的分類預測算法相比,MOIvGA約簡的屬性子集有明顯的提高。MOIvGA在不影響數據的分類能力下,有效地降低了屬性維度,但單個節點的運算能力仍然有限,后期將圍繞如何在Map-Reduce分布式平臺下實現算法的并行化處理,從而應用在實際的氣象大數據環境。
References)
[1] 白雪.氣象領域事件挖掘相關問題的研究[D].上海:復旦大學,2013:1-10.(BAI X. Research on relevant issues of event mining in meteorological field [D]. Shanghai: Fudan University, 2013: 1-10.)
[2] 趙方霞.基于氣象數據的數據挖掘算法研究[D].北京:北方工業大學,2011:1-14.(ZHAO F X. Research on data mining algorithm based on the meteorological data[D]. Beijing: North China University of Technology, 2011: 1-14.)
[3] LI P, WU J, QIAN H. Groundwater quality assessment based on rough sets attribute reduction and TOPSIS method in a semi-arid area, China [J]. Environmental Monitoring and Assessment, 2012, 184(8): 4841-4854.
[4] CHANG S. A novel attribute reduction method based on rough sets and its application [J]. International Journal of Advancements in Computing Technology, 2012, 4(3): 99-104.
[5] 于瑩瑩,曾雪蘭,孫興星.優勢關系下的區間值信息系統及其屬性約簡[J].計算機工程與應用,2011,47(35):122-124.(YU Y Y, ZENG X L, SUN X X. Interval-valued information system based on dominance relation and its attribute reduction [J]. Computer Engineering and Applications, 2011, 47(35): 122-124.)
[6] ZENG A, PAN D, ZHENG Q L, et al. Knowledge acquisition based on rough set theory and principal component analysis [J]. IEEE Intelligent Systems, 2006, 21(2): 78-85.
[7] JEON G, KIM D, JEONG J. Rough sets attributes reduction based expert system in interlaced video sequences [J]. IEEE Transactions on Consumer Electronics, 2006, 52(4): 1348-1355.
[8] SINHA D, LAPLANTE P. A rough set-based approach to handling spatial uncertainty in binary images [J]. Engineering Applications of Artificial Intelligence, 2004, 17(1): 97-110.
[9] KAYA Y, UYAR M. A hybrid decision support system based on rough set and extreme learning machine for diagnosis of hepatitis disease [J]. Applied Soft Computing, 2013, 13(8): 3429-3438.
[10] ASHARAF S, MURTY M N. A rough fuzzy approach to web usage categorization [J]. Fuzzy Sets & Systems, 2004, 148(1): 119-129.
[11] CHENG C H, CHEN T L, WEI L Y. A hybrid model based on rough sets theory and genetic algorithms for stock price forecasting [J]. Information Sciences, 2010, 180(9): 1610-1629.
[12] GRECO S, MATARAZZO B, SLOWINSKI R. Rough sets theory for multicriteria decision analysis [J]. European Journal of Operational Research, 2001, 129(1): 1-47.
[13] ZHAO H, MIN F, ZHU W. Test-cost-sensitive attribute reduction based on neighborhood rough set [C]// Proceedings of the 2011 IEEE International Conference on Granular Computing. Piscataway, NJ: IEEE, 2011: 802-806.
[14] 楊青山,王國胤,張清華,等.基于優勢關系的區間值粗糙集擴充模型[J].山東大學學報(理學版),2010,45(9):7-13.(YANG Q S, WANG G Y, ZHANG Q H, et al. The interval-valued rough set extended model based on the dominance relation [J]. Journal of Shandong University (Natural Science), 2010, 45(9): 7-13.)
[15] 徐菲菲,雷景生,畢忠勤,等.大數據環境下多決策表的區間值全局近似約簡[J].軟件學報,2014,25(9):2119-2135.(XU F F, LEI J S, BI Z Q, et al. Approaches to approximate reduction with interval-valued multi-decision tables in big data [J]. Journal of Software, 2014, 25(9): 2119-2135.)
[16] 張楠,苗奪謙,岳曉冬.區間值信息系統的知識約簡[J].計算機研究與發展,2010,47(8):1362-1371.(ZHANG N, MIAO D Q, YUE X D. Approaches to knowledge reduction in interval-valued information systems [J]. Journal of Computer Research and Development, 2010, 47(8): 1362-1371.)
[17] 陳子春,秦克云.區間值信息系統在變精度相容關系下的屬性約簡[J].計算機科學,2009,36(3):163-166.(CHEN Z C, QIN K Y. Attribute reduction of interval-valued information system based on variable precision tolerance relation [J]. Computer Science, 2009, 36(3): 163-166.)
[18] 賈凡,薛佩軍,許嘉.決策區間值信息系統的交互相容關系及屬性約簡[J].計算機科學,2012,39(s3):245-248.(JIA F, XUE P J, XU J. Interactive tolerance relation in interval-valued decision table and attribute reduction [J]. Computer Science, 2012, 39(s3): 245-248.)
[19] 鄧剛鋒,黃先祥,高欽和,等.基于改進型遺傳算法的虛擬人上肢運動鏈逆運動學求解方法[J].計算機應用,2014,34(1):129-134. (DENG G F, HUANG X X, GAO Q H, et al. Solution method for inverse kinematics of virtual human’s upper limb kinematic chain based on improved genetic algorithm [J]. Journal of Computer Applications, 2014, 34(1):129-134.)
[20] 孫越泓,魏建香,夏德深.基于自適應遺傳算法的B樣條曲線擬合的參數優化[J].計算機應用,2010,30(7):1878-1882.(SUN Y H, WEI J X, XIA D S. Parameter optimization for B-spline curve fitting based on adaptive genetic algorithm [J]. Journal of Computer Applications, 2010, 30(7): 1878-1882.)
Interval-valueattributereductionalgorithmformeteorologicalobservationdatabasedongeneticalgorithm
ZHENG Zhongren1*, CHENG Yong2, WANG Jun1,2, ZHONG Shuiming1, XU Liya3
(1.SchoolofComputer&Software,NanjingUniversityofInformationScienceandTechnology,NanjingJiangsu210044,China;2.InformationConstructionandManagementDepartment,NanjingUniversityofInformationScienceandTechnology,NanjingJiangsu210044,China;3.SchoolofInformationScienceandTechnology,JiujiangUniversity,JiujiangJiangxi332005,China)
Aiming at the problems that the purpose of the meteorological observation data acquisition is weak, the redundancy of data is high, and the number of single values in the observation data interval is large, the precision of equivalence partitioning is low, an attribute reduction algorithm for Meteorological Observation data Interval-value based on Genetic Algorithm (MOIvGA) was proposed. Firstly, by improving the similarity degree of interval value, the proposed algorithm could be suitable for both single value equivalence relation judgment and interval value similarity analysis. Secondly, the convergence of the algorithm was improved by the improved adaptive genetic algorithm. Finally, the simulation experiments show that the number of the iterations of the proposed algorithm is reduced by 22, compared with the method which operated AGAv (Adaptive Genetic Attribute reduction) algorithm to solve the optimal value. In the time interval of 1 hour precipitation classification, the average classification accuracy of the MOIvGA (λ-Reduction in Interval-valued decision table based on Dependence) algorithm is 6.3% higher than that of RIvD algorithm; the accuracy of no rain forecasting is increased by 7.13%; at the same time, the classification accuracy can be significantly impoved by the attribute subset
by operating the MOIvGA algorithm. Therefore, the MOIvGA algorithm can increase the convergence rate and the classification accuracy in the analysis of interval value meteorological observation data.
meteorological observation data; attribute reduction; interval-value similarity; genetic algorithm; attribute subset
2017- 03- 17;
2017- 04- 25。
國家自然科學基金資助項目(61402236, 61373064); 江蘇省“六大人才高峰”項目(2015-DZXX-015); 賽爾網絡下一代互聯網技術創新項目(NGⅡ20160318)。
鄭忠仁(1991—),男,江蘇淮安人,碩士研究生,主要研究方向:大數據; 程勇(1980—),男,重慶人,高級工程師,博士,CCF會員,主要研究方向:無線傳感器網絡、大數據; 王軍(1970—),男,安徽銅陵人,教授,博士,CCF會員,主要研究方向:無線傳感器網絡、大數據;鐘水明(1971—),男,江西瑞金人,講師,博士,CCF會員,主要研究方向:人工神經網絡、模式識別、數據挖掘; 徐利亞(1984—),男,江西九江人,講師,博士,主要研究方向:無線傳感器網絡、大數據。
1001- 9081(2017)09- 2678- 06
10.11772/j.issn.1001- 9081.2017.09.2678
TP18; TP301.6
A
This work is partially supported by the National Natural Science Foundation of China (61402236, 61373064), the “Six Talent Peaks Project in Jiangsu Province (2015-DZXX-015), CERNET Innovation Project (NGⅡ20160318).
ZHENGZhongren, born in 1991, M. S. candidate. His research interests include big data.
CHENGYong, born in 1980, Ph.D., senior engineer. His research interests include wireless sensor network, big data.
WANGJun, born in 1970, Ph. D., professor. His research interests include wireless sensor network, big data.
ZHONGShuiming, born in 1971, Ph. D., lecturer. His research interests include artificial neural network, pattern recognition, data mining.
XULiya, born in 1984, Ph. D., lecturer. His research interests include wireless sensor network, big data.