999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop下基于樸素貝葉斯的氣象數(shù)據(jù)挖掘研究

2019-07-08 02:59:36陳宇娥童瑩郁清蔡玉珍
計算機時代 2019年4期
關鍵詞:數(shù)據(jù)挖掘

陳宇娥 童瑩 郁清 蔡玉珍

摘? 要: 如何從海量數(shù)據(jù)中挖掘出氣象信息和潛在的大氣規(guī)律,成為氣象挖掘研究的重點。為了提高數(shù)據(jù)挖掘 的準確性和效率,在分析了MapReduce和貝葉斯分類的基礎上,提出了在Hadoop平臺上利用MapReduce編程模型與樸素貝葉斯算法相結合的方法來選取預測屬性,預測一天中的最高溫度。在Hadoop平臺上的實驗結果表明,該并行數(shù)據(jù)挖掘方法能夠有效的處理海量氣象數(shù)據(jù),提高了運算效率并具有良好的擴展性。

關鍵詞: Hadoop; MapReduce; 樸素貝葉斯; 數(shù)據(jù)挖掘; 氣象預測

中圖分類號:TP301.6? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)04-09-05

Abstract: With the continuous improvement of meteorological informatization, how to excavate meteorological information and potential atmospheric laws from massive data has become the focus of meteorological mining research. In order to improve the accuracy and efficiency of data mining, by analyzing MapReduce and Bayesian classification, a method combining MapReduce programming model with Naive Bayesian algorithm is proposed to select prediction attributes and predict the highest temperature in a day. Experiments have been carried out on Hadoop platform, and the results show that the parallel data mining method can effectively process massive meteorological data, improve computing efficiency and has good scalability.

Key words: Hadoop; MapReduce; Naive Bayesian; data mining; weather forecast

0 引言

當前氣象預測在社會經(jīng)濟發(fā)展及人們日常生產(chǎn)生活中所發(fā)揮的作用日益突出,社會大眾對氣象預測[2]的準確性、時效性則提出了更高的要求[3]。

貝葉斯分類是一種基于貝葉斯決策理論的最優(yōu)分類器,具有錯誤率小、算法時間空間開銷小、算法較穩(wěn)定、健壯性好等優(yōu)點。樸素貝葉斯分類[2]假設屬性之間相互獨立,假設每個屬性獨立地對分類結果發(fā)生影響,使得從有限的訓練樣本中直接估計而得。另一方面氣象數(shù)據(jù)規(guī)模急劇膨脹變大,傳統(tǒng)的處理數(shù)據(jù)的效率已不滿足適應現(xiàn)代天氣預測的要求。

根據(jù)以上情況,本文提出了Hadoop[4]下基于樸素貝葉斯算法的氣象數(shù)據(jù)預測算法。該算法以樸素貝葉斯為理論依據(jù),在Hadoop[5]平臺下利用MapReduce[6]進行數(shù)據(jù)預處理、模型訓練、精度評估三個過程并行處理,使得海量數(shù)據(jù)得到充分利用,最終取得更好的預測效果。

1 樸素貝葉斯

1.1 樸素貝葉斯分類器

在眾多的分類算法中,樸素貝葉斯分類器[7]是最早應用于實踐中的有效方法之一。一般情況下,基于貝葉斯定理可以衍生出來很多相關技術,而貝葉斯分類就是基于這些技術對數(shù)據(jù)分類的方法,樸素貝葉斯分類器就是基于貝葉斯方法構造的分類模型,雖然簡單,但其性能不遜色于其他分類算法,并且擁有自己的特點。由于貝葉斯公式是用先驗推算后驗的公式,所以樸素貝葉斯分類技術也多用于對未知可能性的預測。其基本原理:首先獲得對象的先驗概率,然后利用公式計算出其后驗概率,也就是該對象屬于某一類的概率,最后把具有最大后驗概率的類作為該對象的預測結果。

在貝葉斯分類器諸多的算法中,樸素貝葉斯分類器具有算法邏輯簡單,運算速度快,塑造分類模型精煉,穩(wěn)定性強,高效率和高精度等優(yōu)點,在實際生活中得到了廣泛的應用,樸素貝葉斯的結構圖如圖1所示。

1.2 樸素貝葉斯的拉普拉斯修正

在由樣本數(shù)據(jù)得出的先驗概率中,當某個分量在總樣本某個分類中(觀察樣本庫或是訓練集)從來沒出現(xiàn)過,會導致整個測試實例的計算結果為0。為了避免其他屬性攜帶的信息被訓練集中未出現(xiàn)的屬性值“抹去”,在估計先驗概率時要進行“平滑處理”常用“拉普拉斯修正”(Laplacian correction)。具體來說,令N表示訓練集D中可能的類別數(shù),Ni表示第i個屬性可能的取值數(shù),則修正后的公式為:

2.1 數(shù)據(jù)預處理

2.1.1 氣象數(shù)據(jù)集準備

原始氣象數(shù)據(jù)集是源于江蘇省南京國家基準氣候站提供的氣候資料日值數(shù)據(jù)集,該數(shù)據(jù)集是自2013年以來的日值數(shù)據(jù)集,包括:最高氣壓、最低氣壓、海平面氣壓、平均溫度、最高溫度、最低溫度、濕球溫度、水汽壓、能見度、降水量、蒸發(fā)量、極大風速、極大風速風向、淺層地溫、深層地溫、日照時數(shù)等21個特征屬性。

2.1.2 數(shù)據(jù)清洗

氣象數(shù)據(jù)質量的好壞,直接影響氣象預測的精度,原始數(shù)據(jù)集中存在數(shù)據(jù)格式不一致、缺省漏測的數(shù)據(jù)值,這嚴重影響到數(shù)據(jù)挖掘算法的效率,也嚴重影響了數(shù)據(jù)挖掘的結果,所以對數(shù)據(jù)進行清洗。

首先,據(jù)中國氣象數(shù)據(jù)網(wǎng)顯示,除了蒸發(fā)量和極大風速這兩個屬性的可疑率在1%左右,其他屬性的可疑率都在0.1%以下,這些相對于數(shù)據(jù)總量可以忽略不計。

其次,基于MapReduce編程模型下,統(tǒng)計缺省的數(shù)據(jù)集,發(fā)現(xiàn)缺省數(shù)據(jù)集占總數(shù)據(jù)集的不到1%,所以直接將數(shù)據(jù)缺省的剔除總數(shù)據(jù)集;然后,基于MapReduce編程模型下,對數(shù)據(jù)格式不一致的數(shù)據(jù)進行數(shù)據(jù)格式轉換,使得最終的數(shù)據(jù)集中每一條數(shù)據(jù)都是可靠且完整統(tǒng)一的。

2.1.3 預測屬性的選取

預測屬性的選取直接影響到分類器的訓練結果,在訓練之前依據(jù)特征屬性之間的相關性大小的選取預測屬性,直接影響到算法的效率。基于MapReduce編程下完成日最高溫度和其他氣象屬性間的相關性的分析,對于任意兩個氣象屬性X和Y,其相關系數(shù)rxy的計算公式為:

2.1.4 數(shù)據(jù)離散化處理

根據(jù)氣溫在一年中的分布情況,把日最高氣溫按照高低分為嚴寒(3℃以下),寒冷(3℃~9.6℃),溫涼(9.6℃~18.5℃), 暖和(18.5℃~30.4℃),炎熱(30.4℃以上)5個級別。

數(shù)據(jù)預處理分為兩個任務,一個是離散化預測屬性[8],另一個是輸出整理數(shù)據(jù)與溫度等級標識,這兩個任務是獨立的可以采用MapReduce并行處理,步驟1負責預測屬性的區(qū)間離散化,步驟2負責輸出數(shù)據(jù)的整理與溫度等級標識。

2.2 模型訓練

按照算法流程,把氣象數(shù)據(jù)集按照4:1的比例分成訓練集和數(shù)據(jù)集,訓練集用于樸素貝葉斯分類器的訓練,測試集用于后期的精度評估。模型訓練MapReduce過程中,需要統(tǒng)計預測屬性和決策屬性在各個離散區(qū)間的樣本數(shù),計算其先驗概率和聯(lián)合概率。

2.3 精度評估

精度評估是利用測試集驗證樸素貝葉斯分類器的合理性,在MapReduce過程中,將測試集數(shù)據(jù)通過分類模型對溫度級別預測,得出的預測結果與測試集中真實的情況進行對比,對預測結果的正確與否進行標識,計算出正確率和預測率,計算公式如下:

3 實驗分析

3.1 實驗環(huán)境與數(shù)據(jù)

本文實驗環(huán)境是Hadoop云平臺[10],是具有計算機節(jié)點的偽分布式集群,其效果與完全分布式集群一樣。電腦配置為2.4G雙核CPU、8G內存、100G磁盤、Linux CentOS7.0、Hadoop1.0.2版本。

實驗數(shù)據(jù)采自于江蘇省南京國家基準氣候站從2013年以來的數(shù)據(jù)[11],包括日最高溫度、日最低溫度、降水量、蒸發(fā)量、海平面氣壓、相對濕度、日照時數(shù)、淺層地溫、深層地溫等21個因素。

3.2 實驗結果與分析

3.2.1 相關性系數(shù)

通過對數(shù)據(jù)的清除處理,將原數(shù)據(jù)缺省的,格式不正確的數(shù)據(jù)全部刪除于總數(shù)據(jù)集。然后計算各個預測屬性與日最高氣溫之間的相關系數(shù)。計算結果如表2所示。

3.2.2 精度評估

本文的實驗預測率與準確率如表3所示,其中V0代表嚴寒,V1代表寒冷,V2溫涼,V3暖和,V4炎熱。

由表3可以看出,采用樸素貝葉斯分類器在預測寒冷、溫涼、暖和、炎熱四種級別時,預測率和正確率都達到不錯的效果,說明預測日最高氣溫的級別與真實情況相符;而在寒冷中的預測率和正確率都不是很高,這主要是因為數(shù)據(jù)集中寒冷的天氣太少,在一定程度上影響了測試的結果。

4 結束語

本文對Hadoop下基于樸素貝葉斯對氣象數(shù)據(jù)進行挖掘研究,采用了將樸素貝葉斯與Hadoop相結合的處理數(shù)據(jù)的新方法,在預測日最高氣溫中具有較高的預測率和正確率。該方法具有以下特點:①可以充分利用海量數(shù)據(jù),有效地避免了信息的丟失;②在大量樣本下,用較為簡單的算法達到了不為遜色的結果;③能夠處理不完全、不精確的訓練數(shù)據(jù)集;④對連續(xù)數(shù)據(jù)的離散化采用較為簡單的PKI算法,對氣象數(shù)據(jù)某些分布不是很均勻的屬性來說,離散效果還有待提高。在數(shù)據(jù)量海量增加的今天,此方法提供了在海量數(shù)據(jù)中挖掘有用的信息的新思路,可在移動互聯(lián)網(wǎng)、電子商務等諸多領域的應用中進一步去研究。

參考文獻(References):

[1] 喬梁.數(shù)據(jù)挖掘在氣象服務中的應用研究[J].信息通信,2016.2:96-97

[2] 張碩.張永寧.大數(shù)據(jù)時代氣象數(shù)據(jù)新聞的探索與實踐—以中國天氣網(wǎng)為例[J].NEW MEDIA RESEARCH,2017.22:120-122

[3] 張晨陽,劉利民,馬志強.云計算下基于貝葉斯分類的氣象數(shù)據(jù)挖掘研究[D].內蒙古工業(yè)大學,2014.

[4] 苑立民,郝成亮,劉昶,徐峰,潘建宏,張凱.基于Hadoop生態(tài)環(huán)境的大數(shù)據(jù)平臺在電網(wǎng)公司海量數(shù)據(jù)準實時處理中的應用[J].大眾用電,2017增刊.1:38-41

[5] 李斌,張建平,劉學軍.基于Hadoop的不確定異常時間序列檢測[J].傳感技術學報,2015.28(7):1066-1072

[6] 陳堅釗.MapReduce的工作機理及其應用研究[D].華僑大學,2013.

[7] 趙力.基于貝葉斯壓縮感知的說話人識別方法[J].電子器件,2015.38(5):1135-1137

[8] 謝作將.面向樸素貝葉斯算法的離散化方法研究[D].北京交通大學,2008.

[9] Yang Y,Webb G I.Proportional k-Interval Discretizationfor Bavie-Bayes Classifiers[J]. Proc.of the Twelfth European Conf.on Machine Learning,2001.2167:564

[10] 劉君.基于Hadoop技術的氣象數(shù)據(jù)采集及數(shù)據(jù)挖掘平臺的研究[D].天津理工大學,2015.

[11] 閆永剛.基于Hadoop的KNN分類的氣象數(shù)據(jù)預測研究[D].南京信息工程大學,2012.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘在高校圖書館中的應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 高清不卡一区二区三区香蕉| 国产无码网站在线观看| 91精品专区| 免费看美女自慰的网站| 福利姬国产精品一区在线| 亚洲三级色| 亚洲成在线观看 | 人妻21p大胆| 久操中文在线| 日日拍夜夜操| 92午夜福利影院一区二区三区| 国产激情在线视频| 91丝袜美腿高跟国产极品老师| 伊人91在线| 青青国产在线| 久久国产精品影院| 欧美精品在线看| 综合亚洲网| 无码国产偷倩在线播放老年人| 国产视频欧美| 日韩亚洲综合在线| 欧美成人国产| 又大又硬又爽免费视频| 日韩在线永久免费播放| 米奇精品一区二区三区| 欧美精品一区在线看| 亚洲久悠悠色悠在线播放| 呦系列视频一区二区三区| 午夜毛片免费观看视频 | 欧美日韩激情| 中文无码日韩精品| 99热这里只有精品免费| 中文字幕亚洲电影| 亚洲高清中文字幕| 中文字幕啪啪| 国产亚洲高清视频| 欧美日韩国产综合视频在线观看 | 国产剧情无码视频在线观看| 亚洲欧洲综合| 日韩毛片基地| 欧美午夜视频在线| 高清乱码精品福利在线视频| 国产三级成人| 囯产av无码片毛片一级| 毛片久久网站小视频| 亚洲精品中文字幕无乱码| 萌白酱国产一区二区| 午夜国产在线观看| 欧美不卡二区| 黄色a一级视频| 97se亚洲综合| jizz国产视频| 国产精品美人久久久久久AV| 97视频精品全国在线观看| www亚洲天堂| 波多野结衣AV无码久久一区| 久久黄色免费电影| 91亚洲精品第一| 久久先锋资源| 亚洲欧美成人影院| 久久久成年黄色视频| 欧美不卡视频在线观看| 国产精品久久久久鬼色| 欧美精品色视频| 91福利一区二区三区| 国产精品综合色区在线观看| 免费无遮挡AV| 国产一级毛片高清完整视频版| 久久伊人操| 天堂va亚洲va欧美va国产| 日韩精品欧美国产在线| 亚洲午夜18| yjizz视频最新网站在线| 亚洲成在人线av品善网好看| 日本高清有码人妻| 日韩国产亚洲一区二区在线观看| 国产无人区一区二区三区| 亚洲天堂啪啪| 精品亚洲欧美中文字幕在线看| 色综合久久无码网| 久久久久亚洲av成人网人人软件| 亚洲伊人久久精品影院|