999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

k近鄰算法在空氣質(zhì)量測定方面的應(yīng)用—臭氧日判斷

2019-03-15 01:30:04呂昊芝
電子制作 2019年4期
關(guān)鍵詞:模型

呂昊芝

(山東省濰坊第一中學(xué),山東濰坊,261000)

1 概述

1.1 重要性和意義

臭氧(O3)又稱為超氧,是氧氣的同素異形體,大氣中的臭氧層可以吸收太陽釋放出來的絕大部分紫外線,使人免遭紫外線造成的侵害。然而,超標(biāo)的地表臭氧會(huì)對人體造成傷害,它會(huì)強(qiáng)烈刺激人的眼睛和呼吸道,還會(huì)造成人的神經(jīng)中毒,對人體皮膚中的維生素E也會(huì)起到破壞作用。因此,測定地標(biāo)臭氧濃度是否超標(biāo)必須引起人們的高度重視。

國內(nèi)外的許多專家投身于對該指標(biāo)的分析和預(yù)測中,臭氧日一詞隨之誕生,本文選用臭氧八小時(shí)作為臭氧日污染衡量標(biāo)準(zhǔn),即一天中臭氧最高的連續(xù)8小時(shí)的平均濃度值。相較于過去落后的針對空氣質(zhì)量的人工推算,利用機(jī)器學(xué)習(xí)分析大氣問題可以極大提高預(yù)測的準(zhǔn)確率,同時(shí)也可以縮短分析預(yù)測所需時(shí)間,從而保證空氣質(zhì)量預(yù)報(bào)的時(shí)效性,因此該研究具有極其深刻的現(xiàn)實(shí)意義。

1.2 國內(nèi)外研究現(xiàn)狀

隨著我國科技水平的快速提高、大氣領(lǐng)域數(shù)據(jù)量的增多,傳統(tǒng)空氣質(zhì)量測定方法的弊端不斷暴露,傳統(tǒng)法易出現(xiàn)主觀判斷失誤、分析預(yù)測速度較慢等一系列問題。相對比而言,人工智能應(yīng)用于空氣質(zhì)量預(yù)測能夠?qū)Υ髿庀嚓P(guān)的海量數(shù)據(jù)進(jìn)行極其有效的處理,并且其本身在進(jìn)行數(shù)據(jù)挖掘時(shí)的高效性和準(zhǔn)確性都成為了它獨(dú)特的優(yōu)勢。

由于“人工智能+空氣測定”前景廣闊,政府部門及企業(yè)都紛紛布局該領(lǐng)域。比如,由微軟亞洲互聯(lián)網(wǎng)工程院在2014年發(fā)布的人工智能機(jī)器人能夠收集能夠整合來自全國3000多個(gè)站點(diǎn)的數(shù)據(jù),在極短的時(shí)間內(nèi)作出對霧霾的預(yù)測;IBM推出的“綠色地平線”項(xiàng)目也能夠通過機(jī)器學(xué)習(xí)方式對數(shù)據(jù)進(jìn)行學(xué)習(xí),完善對不同地區(qū)污染程度的預(yù)測;騰訊公司也在2017年與深圳市氣象局?jǐn)y手打造了“互聯(lián)網(wǎng)+氣象”的新模式,它能夠依托騰訊擁有的海量用戶基礎(chǔ),打造面向個(gè)人的定制化氣象服務(wù)。 由此可見,人工智能與環(huán)境科學(xué)的結(jié)合正在一步步走進(jìn)我們的生活。

1.3 本研究創(chuàng)新點(diǎn)

本研究在空氣質(zhì)量領(lǐng)域?qū)崿F(xiàn)了與機(jī)器學(xué)習(xí)的融合,通過已知的臭氧日數(shù)據(jù)集和k近鄰機(jī)器學(xué)習(xí)算法來構(gòu)建概率模型,之后收集某一天天氣狀況和大氣各項(xiàng)指標(biāo)的輸入信息,通過該機(jī)器學(xué)習(xí)模型對輸入數(shù)據(jù)進(jìn)行分析,從而判斷該天大氣臭氧是否超標(biāo),即是否為臭氧日,極大提高了大氣預(yù)測的準(zhǔn)確度和時(shí)效性。

2 機(jī)器學(xué)習(xí)和訓(xùn)練數(shù)據(jù)集介紹

2.1 機(jī)器學(xué)習(xí)背景知識(shí)介紹

本文通過機(jī)器學(xué)習(xí)算法對某天是否為臭氧日進(jìn)行分析和預(yù)測,是個(gè)典型的二分類監(jiān)督學(xué)習(xí)問題。

機(jī)器學(xué)習(xí)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,從而使自身擁有更強(qiáng)大的預(yù)測能力,它是使計(jì)算機(jī)具有智能的根本途徑。監(jiān)督式機(jī)器學(xué)習(xí)是從標(biāo)記的訓(xùn)練數(shù)據(jù)來構(gòu)建概率模型的機(jī)器學(xué)習(xí)方法,在監(jiān)督學(xué)習(xí)中,每個(gè)實(shí)例都是由一個(gè)輸入對象即該實(shí)例的特征向量和一個(gè)期望的輸出值即該實(shí)例的標(biāo)簽組成。

2.2 訓(xùn)練數(shù)據(jù)集介紹

本文利用的數(shù)據(jù)集來自UC Irvine Machine Learning Repository 網(wǎng) 站 (http://archive.ics.uci.edu/ml/index.php),數(shù)據(jù)集名稱為《Ozone Level Detection Data Set》,該數(shù)據(jù)集包含七年內(nèi)(1998至2004年)美國Houston、Galveston以及Brazoria地區(qū)每一天的大氣相關(guān)數(shù)據(jù)。其中共有2536個(gè)樣本,每個(gè)樣本具有73個(gè)特征,其中第1項(xiàng)特征為日期,不包含在機(jī)器學(xué)習(xí)建模內(nèi);其余特征值為大氣相關(guān)特征指標(biāo),均為連續(xù)值,用于機(jī)器學(xué)習(xí)建模。該數(shù)據(jù)集的目的為預(yù)測某天是否為臭氧日,其中標(biāo)簽0表示該日不是臭氧日,1表示該日為臭氧日。

臭氧日數(shù)據(jù)集中各特征極其特征解釋如表1所示。

表1 特征名稱及含義

RH85 在850hpa環(huán)境下的相對濕度U85 在850hpa環(huán)境下的東西方向的風(fēng)速V85 在850hpa環(huán)境下的南北方向的風(fēng)速HT85 在850hpa環(huán)境下的位勢高度T70 在700hpa環(huán)境下的氣溫RH70 在700hpa環(huán)境下的相對濕度U70 在700hpa環(huán)境下的東西方向的風(fēng)速V70 在700hpa環(huán)境下的南北方向的風(fēng)速HT70 在700hpa環(huán)境下的位勢高度T50 在500hpa環(huán)境下的氣溫RH50 在500hpa環(huán)境下的相對濕度U50 在500hpa環(huán)境下的東西方向的風(fēng)速V50 在500hpa環(huán)境下的南北方向的風(fēng)速HT50 在500hpa環(huán)境下的位勢高度KI K指數(shù)TT 氣溫總值SLP 海平面氣壓SLP_ 海平面氣壓相較于前一天的變化Precp 降水量

3 k近鄰模型

3.1 k近鄰算法介紹

3.1.1 算法原理

k近鄰法于1968年由Cover和Hart提出,是一種基本分類與回歸方法,它的優(yōu)點(diǎn)是易于理解、精度高、理論成熟。其原理為:將新樣本數(shù)據(jù)點(diǎn)輸入到包含所有訓(xùn)練數(shù)據(jù)集所有樣本點(diǎn)的n維空間中,利用距離度量計(jì)算所有訓(xùn)練集樣本點(diǎn)與新樣本點(diǎn)之間的距離,選取k個(gè)最近點(diǎn),最后利用某種分類決策規(guī)則確定新樣本所屬類別。

圖1 為k近鄰算法的原理圖。

圖1 算法原理圖

K近鄰算法的一個(gè)例子可以從圖1中看到,未知點(diǎn)有兩類:三角形或方形。如果K=3,新樣本點(diǎn)就被分為三角形類,因?yàn)樵谂c它距離最小的3個(gè)點(diǎn)中,有2個(gè)三角形和1個(gè)方形;而如果k=5,新樣本點(diǎn)就被分為方形類,因?yàn)樵谂c它距離最小的5個(gè)點(diǎn)中,有2個(gè)三角形和3個(gè)方形;當(dāng)k=9時(shí),新樣本點(diǎn)就會(huì)被分為三角形類,因?yàn)榇藭r(shí)與它距離最小的9個(gè)點(diǎn)中有5個(gè)三角形和4個(gè)方形。

3.1.2 基本要素

針對以上原理,可見k近鄰算法包含三個(gè)基本要素,即k值的選擇、距離度量、分類決策規(guī)則。

①k值的選擇會(huì)對k近鄰算法的結(jié)果產(chǎn)生很大影響,如果k值過小,即使用較小鄰域內(nèi)的訓(xùn)練樣本點(diǎn)對新樣本進(jìn)行預(yù)測,則會(huì)使預(yù)測結(jié)果依賴近鄰的個(gè)別實(shí)例點(diǎn),從而產(chǎn)生過擬合現(xiàn)象;相反,如果k值過大,即使用較大鄰域內(nèi)的訓(xùn)練樣本點(diǎn)對新樣本進(jìn)行預(yù)測,則容易忽略訓(xùn)練樣本中與新樣本相似的樣本點(diǎn)的大量有用信息,使得k近鄰模型過于簡單,從而產(chǎn)生欠擬合現(xiàn)象。本文利用交叉驗(yàn)證法來選取對于該預(yù)測問題的最優(yōu)的k值。

②距離度量衡量兩個(gè)實(shí)例點(diǎn)之間的距離,用于判斷兩個(gè)點(diǎn)的相似程度。本文使用的是歐式距離,公式為:

其中,d(x,y)表示點(diǎn)x與點(diǎn)y的歐式距離,xi表示點(diǎn)x的第i項(xiàng)特征,yi表示點(diǎn)y的第i項(xiàng)特征。

③分類決策規(guī)則的作用為決定新輸入樣本點(diǎn)x的類別y,本文所采用的是多數(shù)表決,公式為:

其中 i=1,2,...,N ;j=1,2,...,K,Nk(x)為涵蓋k個(gè)最近的訓(xùn)練樣本點(diǎn)的x的鄰域。I為指示函數(shù), yi為新樣本標(biāo)簽,cj為第j類,當(dāng)yi=cj時(shí)I為1,否則為0。

3.2 基于k近鄰算法的模型構(gòu)建

k近鄰算法的模型是包含訓(xùn)練數(shù)據(jù)集所有樣本點(diǎn)的n維空間,其中n為樣本特征數(shù)。本文構(gòu)建該模型即把臭氧日數(shù)據(jù)集中2536個(gè)樣本根據(jù)其特征值輸入到維數(shù)為72的特征空間中。

3.3 利用模型對新數(shù)據(jù)進(jìn)行分析和預(yù)測

通過信息采集得到一個(gè)某天的天氣相關(guān)數(shù)據(jù)指標(biāo),后將該數(shù)據(jù)傳入上文構(gòu)建完成的k近鄰機(jī)器學(xué)習(xí)算法模型中,計(jì)算出所有樣本點(diǎn)與新樣本點(diǎn)的歐式距離,并將距離由小到大排序,取與新本點(diǎn)距離最近的k個(gè)訓(xùn)練集樣本點(diǎn),所選取樣本點(diǎn)中哪個(gè)類別出現(xiàn)的頻率最多,新樣本點(diǎn)就被歸為哪個(gè)類別標(biāo)簽。

3.4 交叉驗(yàn)證衡量模型準(zhǔn)確率

將臭氧日數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,分別為70%和30%,樣本個(gè)數(shù)分別為1775和761。其中,訓(xùn)練集用來構(gòu)建模型,測試集用來測試模型的準(zhǔn)確率。本研究k值在10至50內(nèi)選取,針對k的每個(gè)取值構(gòu)建模型,因此k近鄰模型個(gè)數(shù)為41,利用交叉驗(yàn)證計(jì)算每個(gè)模型的預(yù)測準(zhǔn)確率,選擇準(zhǔn)確率最高的模型作為本研究的臭氧日預(yù)測評估模型,其中準(zhǔn)確率表達(dá)式為:

其中m表示測試集被正確分類的樣本,m′為測試集總樣本。

3.5 試驗(yàn)結(jié)果及評價(jià)

本研究利用Python的sklearn機(jī)器學(xué)習(xí)庫來訓(xùn)練模型并得到模型的準(zhǔn)確度,將當(dāng)k取10至50時(shí)的模型訓(xùn)練結(jié)果即準(zhǔn)確率保存在名為kvalues的列表中,將列表中的最大值保存在max_value變量中,機(jī)器執(zhí)行結(jié)果如圖2所示。

圖2 執(zhí)行結(jié)果圖

由圖2可知,當(dāng)k取不同值時(shí),k近鄰模型準(zhǔn)確率在0.92和0.96之間,最好的準(zhǔn)確率為95.8%,程序運(yùn)行時(shí)間約為7.89秒,很好地體現(xiàn)了人工智能應(yīng)用于空氣質(zhì)量測定的高準(zhǔn)確度和及時(shí)性的優(yōu)點(diǎn)。

4 研究整體過程總結(jié)

本研究流程圖如圖3所示。

圖3 總流程圖

整體流程分為兩大部分,即模型構(gòu)建階段和預(yù)測分析階段。

①模型構(gòu)建階段:本研究從臭氧日訓(xùn)練數(shù)據(jù)集出發(fā),利用k近鄰機(jī)器學(xué)習(xí)算法對該數(shù)據(jù)進(jìn)行建模分析,得到該系統(tǒng)的核心,即臭氧日預(yù)測概率模型。

②預(yù)測分析階段:收集某一天的大氣相關(guān)數(shù)據(jù),總結(jié)出數(shù)據(jù)集中所包含的72項(xiàng)特征,接著系統(tǒng)自動(dòng)將該特征值進(jìn)行格式化,即利用Excel電子表格進(jìn)行封裝。之后將封裝好的新樣本的特征傳入到第①階段所構(gòu)建的臭氧日預(yù)測概率模型中,經(jīng)過系統(tǒng)模型的分析,最終預(yù)測出樣本的標(biāo)簽(1或0),即表示該日是否臭氧超標(biāo)的結(jié)果。

5 結(jié)語

隨著近年來人們生活水平的提高,人們對空氣質(zhì)量預(yù)測的要求也越來越高,但如今氣象預(yù)測不準(zhǔn)確、有延遲的弊端嚴(yán)重影響了人們的生活質(zhì)量。本研究從該角度入手,將人工智能與氣象領(lǐng)域進(jìn)行結(jié)合,以提高氣象預(yù)測的準(zhǔn)確率和時(shí)效性,從而使人們能夠享有較高質(zhì)量的生活。

但是,受到科技水平的限制,使得供機(jī)器學(xué)習(xí)使用的數(shù)據(jù)集不夠充分,格式也不夠規(guī)范,這兩個(gè)因素共同導(dǎo)致了本文機(jī)器學(xué)習(xí)模型預(yù)測不能達(dá)到完全正確。不過,隨著我國科技發(fā)展和國家政府對于氣象預(yù)測領(lǐng)域的重視,筆者相信,機(jī)器學(xué)習(xí)終將登上歷史的舞臺(tái),對人們的生活做出不可忽視的貢獻(xiàn)。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产网站一区二区三区| 国产激爽爽爽大片在线观看| 日本国产一区在线观看| 中国黄色一级视频| 亚洲日韩精品伊甸| 久久伊人久久亚洲综合| 亚洲热线99精品视频| 伊在人亚洲香蕉精品播放| 亚洲一级色| 色婷婷成人| 国产成人精品优优av| 国产精品大尺度尺度视频| 好紧好深好大乳无码中文字幕| 欧美.成人.综合在线| 97青草最新免费精品视频| 欧美午夜理伦三级在线观看| 成人国产免费| 国产精品尤物铁牛tv | 99国产在线视频| 日本免费一级视频| 国产91高清视频| 国产精品毛片一区视频播| 狠狠色噜噜狠狠狠狠色综合久| 中文字幕无码中文字幕有码在线| 国产精品成| 亚洲嫩模喷白浆| 麻豆精品在线播放| 女人18毛片久久| 99er这里只有精品| 九月婷婷亚洲综合在线| www.国产福利| 91综合色区亚洲熟妇p| 国产精品一区二区无码免费看片| 97在线免费| 久久青草免费91观看| 国产在线98福利播放视频免费| av午夜福利一片免费看| 日韩美毛片| 在线播放国产99re| 成年人久久黄色网站| 久久国产拍爱| 99草精品视频| 国产乱子伦视频在线播放| 亚洲开心婷婷中文字幕| 欧美国产菊爆免费观看| 亚洲大尺码专区影院| 久久九九热视频| 视频在线观看一区二区| 日韩欧美国产中文| 亚洲天堂久久久| 国产日韩欧美一区二区三区在线 | 免费一级毛片完整版在线看| 国产91成人| 麻豆AV网站免费进入| 漂亮人妻被中出中文字幕久久| 日韩国产亚洲一区二区在线观看| 亚洲欧美在线综合一区二区三区| 99久久亚洲精品影院| 亚洲无码视频一区二区三区| 欧美精品在线观看视频| 福利片91| 亚洲精品男人天堂| 亚洲 日韩 激情 无码 中出| 操操操综合网| 97在线公开视频| 欧美怡红院视频一区二区三区| 欧美A级V片在线观看| 国产丰满大乳无码免费播放 | 婷婷丁香在线观看| 毛片网站观看| 8090成人午夜精品| 最新无码专区超级碰碰碰| 精品人妻一区二区三区蜜桃AⅤ| 国产亚洲欧美日韩在线一区二区三区| 国产精品永久久久久| 免费观看国产小粉嫩喷水| 国产精品xxx| 精品一区二区三区自慰喷水| 精品少妇人妻一区二区| 国产成人精品亚洲77美色| 亚洲婷婷丁香| 99人妻碰碰碰久久久久禁片|