999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相關性分析和數據均衡的能見度分層預測模型

2022-09-07 03:20:18陸冰鑒
計算機應用與軟件 2022年8期
關鍵詞:分類模型

陸冰鑒 周 鵬 王 興, 周 可

1(南京信大氣象科學技術研究院 江蘇 南京 210044)2(南京信息工程大學大氣科學與環境氣象國家級實驗教學示范中心 江蘇 南京 210044)

0 引 言

大氣能見度(Visibility)是反映大氣透明度的一個指標。一般定義為具有正常視力的人在當時的天氣條件下還能夠看清楚目標輪廓的最大地面水平距離。大氣能見度是氣象監測中的一項重要指標,在道路通行、航海、航空和環境保護監測等領域應用較廣[1]。20世紀60年代第二次工業革命以來,隨著人類生產生活對化石能源的消耗劇增,排放到大氣中的顆粒物如PM2.5、PM10越來越多,這些顆粒物凝結核形成的氣溶膠降低了大氣能見度,影響了交通運輸業的安全運行,是導致交通事故的主要氣象影響因子。在海洋和內河運輸業中,大約三分之一的船舶相撞事故都是由能見度低導致的。雖然現代航船上有先進的導航系統,但低能見度仍然是一個不可忽視的隱患[2]。例如:2018年1月16日8:00“豐海18”輪與“惠豐6799”輪發生碰撞,“惠豐6799”輪沉沒,后又有5艘船舶與“惠豐6799”輪相撞,據調查最主要是因為霧霾籠罩,水域能見度不良。所幸此次事故無人員傷亡,但是也造成了重大經濟損失。因此,對于大氣能見度的預測顯得尤為重要。

當前,能見度預報仍以天氣圖分析預報、經驗預報和數值預報為主。隨著數值預報的發展,現在也有數值釋用和霧模式預報等。數值釋用要先了解污染物濃度和變化規律,再計算能見度。由于影響污染物濃度變化的因素和變化規律較難掌握,加上計算量較大,該方法在業務應用中開展緩慢[3]。而霧模式僅有一定的機理分析用途,難以進行實際預報[4]。近年來,學者們引入了神經網絡[5]、支持向量機、線性與非線性回歸[6]等方法。如梁之彥等[7]分別以徑向神經網絡和統計回歸預報方程預報能見度,驗證了徑向神經網絡在能見度低于10 km時預報準確率更高。由于能見度的影響因素有多種,需要尋找多元要素與能見度的關系,如蔡仁等[8]利用大氣溫度、相對濕度、風速等要素應用SVM和Elman神經網絡方法分別建立烏魯木齊市3 h能見度預報模型;馬楚焱等[9]將7種氣象因子和6種污染物濃度因子首先做主成分分析,再基于遺傳神經網絡模型預測輸出8:00和14:00的能見度。這些方法改進能見度預報,但應用成果尚不理想,且在低能見度天氣的預報上仍然薄弱。

為了解決樣本不均衡、低能見度預報不準確等問題,本文提出一種基于相關性分析和數據均衡的能見度分層預測模型,主要通過相關性分析挑選主要相關因子,去除不相關因子的干擾;通過隨機下采樣進行數據均衡,通過先分類再回歸的分層思想預測能見度。提高了網絡的泛化能力,從而提高能見度類別預測的準確率,降低能見度預測的誤差。

1 數 據

本文研究數據來自江蘇省區域地面氣象觀測站,采用2000年1月至2018年12月逐日的觀測數據作為實驗數據,其中,將2018年之前的數據用作訓練,將2018年的數據用作測試。其實驗數據的主要組成如表1所示。其中數據要素主要包含45項輸入因子和一項輸出,45項輸入因子主要包含地面因子、近地面因子和主觀因子三類。

表1 數據總體構成

2 方 法

2.1 相關性分析

在本文數據總體構成中,采用45項因子作為輸入項。但是考慮到在45項因子中,存在與輸出項相關性很小或者不相關的因子,這些因子會干擾網絡的學習,最終影響網絡預測結果。因此增加對所有因子項和能見度做相關性分析,通過相關性分析結果,挑選出顯著相關的因子作為輸入項。

本文的相關性分析是通過SPSS軟件計算Pearson相關系數分析得出,其Pearson相關系數計算結果如表2所示。表2中各要素縮寫含義如表3所示。表2中數字后面帶有*和**的表示顯著相關,**在0.01水平(雙側)上顯著相關,*在0.05水平(雙側)上顯著相關。因此,挑選這樣的因子作為輸入因子,最后總共挑選出輸入項34項。

表2 各項輸入因子與能見度的Pearson相關系數

續表2

表3 各項英文縮寫含義

2.2 數據均衡

由于在多數類樣本中存在大量重復信息,一方面影響了樣本的平衡,另一方面影響分類器的分類效果,因此需要剔除多數類樣本中的冗余樣本。本文采用隨機下采樣算法隨機地選取一些多數類樣本,再將這些樣本從多數類中剔除,從而起到均衡原始數據的作用。

對采集的江蘇省區域內各氣象站點的樣本數據進行統計,統計標準及統計結果如表4所示。

表4 能見度統計標準及結果

可以看出,能見度的各個范圍的數據是嚴重不均衡的,這種不均衡會使得網絡分類結果偏向于數量較大的那一類,影響預測準確性。因此,對總體數據樣本進行均衡,即對第2和第3類樣本進行隨機下采樣,使得第2、第3類的樣本個數與第一類的樣本個數相對均衡。實驗中,第2和第3類樣本下采樣后的樣本個數為20 000。

2.3 長短期記憶神經網絡LSTM

LSTM是一種特殊的RNN類型,是由Hochreither等[10]提出的長短期記憶神經網絡,采用記憶單元代替RNN隱含層的神經單元,用于解決RNN梯度消失的問題。LSTM記憶單元的內部結構如圖1所示,包含輸入門(Input gate)、輸出門(Output gate)、遺忘門(Forget gate)和記憶細胞(Memory cell)。

圖1 LSTM記憶單元結構

圖1中,xt、ht分別為t時刻網絡的輸入和輸出。LSTM記憶單元通過以下公式迭代計算輸出:

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

ot=σ(Wo·[ht-1,xt]+bo)

(3)

Ct=ft×Ct-1+it×tanh(WC·[ht-1,xt]+bC)

(4)

ht=ot×tanh(Ct)

(5)

式中:ft、it、ot和Ct分別為遺忘門、輸入門、輸出門和記憶細胞的輸出;Wf、Wi、Wo和WC分別為遺忘門、輸入門、輸出門和記憶細胞的權重矩陣;bf、bi、bo和bC分別為遺忘門、輸入門、輸出門和記憶細胞的偏置;σ為Sigmoid函數。

2.4 能見度分層預測模型

2.4.1模型總體設計

本文搭建了基于相關性分析和數據均衡的能見度分層預測模型,通過相關性分析挑選主要相關因子,去除不相關因子的干擾;通過隨機下采樣進行數據均衡,再通過先分類再回歸的方法預測能見度。模型的第一層是基于LSTM的分類模型,第二層是基于LSTM的回歸模型。該模型的總體結構如圖2所示。

圖2 基于LSTM的能見度分層預測模型結構

具體建模流程如下:

(1) 采集江蘇省區域內氣象站觀測數據,處理為45項輸入項及能見度輸出項,并將2017年及以前的數據用作訓練,2018年的數據用作測試,各因子如表1所示。

(2) 對45項輸入項及能見度輸出項做相關性分析,挑選出與能見度相關性較大的因子,其相關性分析如2.1節。

(3) 對上述處理后的樣本,按照類別劃分標準進行統計分析,通過隨機下采樣的方法均衡各類樣本。

(4) 通過第一層長短期記憶神經網絡(LSTM)分類模型進行樣本分類。

(5) 將分類結果及對應的類別訓練樣本輸入第二層基于LSTM的回歸模型中,選擇每類對應的子類樣本,最終回歸出能見度。

2.4.2分 類

將2017年及以前的數據做相關性分析后,提取相關因子,將原始數據形成如式(6)所示數據樣本。

fi=[xi1,xi2,…,xi34,xi35]

(6)

式中:i表示樣本個數;xi1,xi2,…,xi34表示第i個樣本的34個輸入項;xi35表示第i個樣本的輸出項。

根據能見度的分類標準,將上述數據樣本處理成分類所需樣本,如式(7)所示。

(7)

式中:Xi是輸入項,Yi是類別標簽。yi由式(8)得出。

(8)

將上述樣本中2016年及以前的數據確定為訓練樣本:

S={(X1,Y1),(X2,Y2),…,(Xm,Ym)}

(9)

2017年的數據確定為測試樣本:

S′={(Xm+1,Ym+1),(Xm+2,Ym+2),…,(Xi,Yi)}

(10)

式中:Xi表示第i個樣本;Yi表示第i個樣本的標簽,即能見度的類別。

按照能見度類別,對訓練樣本進行隨機下采樣,均衡各類樣本數量,使得各類樣本數量相對均衡,此時訓練樣本如下(n

S={(X1,Y1),(X2,Y2),…,(Xn,Yn)}

(11)

本文采用LSTM建立能見度分類模型,其分類模型如圖3所示。

圖3 基于LSTM的能見度分類模型

該網絡模型隱含層包含2個LSTM層和一個Dense層。采用堆疊的LSTM結構是為了防止過擬合,提高網絡泛化能力。再通過Dense層可以了解特征數據與預測結果之間的函數關系。經過隱含層運算后得到該隱含層的輸出hDt。網絡的輸出為能見度的類別,即:

yt=softmax(Wyh·hDt+b)

(12)

式中:Wyh為隱含層和輸出層之間的權重矩陣;b為輸出層的偏置量。

2.4.3回 歸

基于LSTM的能見度回歸模型,根據能見度的不同類別,分別訓練了三種不同的回歸模型用于三類能見度的回歸。本文基于LSTM的能見度回歸模型結構與分類模型的結構基本一致,輸出層的激活函數采用Sigmoid,即第c類的網絡輸出為:

yct=sigmoid(Wcyh·hcDt+bc)

(13)

式中:c表示類別,c=0,1,2;Wcyh為c類回歸模型隱含層和輸出層之間的權重矩陣;hcDt為c類回歸模型中經隱含層運算后得到該隱含層的輸出;bc為c類回歸模型輸出層的偏置量;yct為回歸出的c類能見度。

3 實驗與結果分析

3.1 改進分類方法效果對比

本次實驗采用江蘇省區域內氣象站2018年的觀測數據作為測試數據,去除缺失站點數據,總共樣本為21 944個。分別進行了SVM模型、LSTM模型、引入相關性分析和引入下采樣均衡數據四個實驗,統計了分類結果的準確數、空報數和漏報數,計算了每種方法每個類別的TS評分。四個實驗的對比結果如表5所示。表5中,準確數、空報數、漏報數及TS評分是本次實驗結果的評價指標。準確數表示實際結果和預測結果同為c類的個數Right_c;空報數表示實際非c類預測為c類的個數Empty_c;漏報數表示實際為c類預測為非c類的個數Missing_c。c類的TS評分的計算公式為:

(14)

表5 基于LSTM的能見度分類結果

表5中,方法1為SVM,方法2為LSTM,方法3為相關性分析及LSTM,方法4為相關性分析、數據均衡及LSTM。對比發現,相關性分析后,提取相關性較大的因子作為輸入因子能夠改善網絡預測結果,但由于數據不均衡,效果還是不好。當通過下采樣的方式進行數據均衡后,可明顯看出效果提升,雖然1.5 km~10 km的準確率降低了,但是數據均衡后,1.5 km~10 km的訓練樣本大幅度減少,預報準確的個數肯定會有所下降,即漏報會增多,但同時會增加另外兩類的準確數,從而均衡了三類的結果,提高整體的預測效果。尤其是在0~1.5 km的低能見度天氣的預測上,TS準確率能達到0.29。

3.2 回歸與分類回歸(分層)結果對比

本次實驗采用江蘇省區域內氣象站2018年的觀測數據作為測試數據,去除缺失站點數據,總共樣本為21 944個。分別進行了基于LSTM的能見度回歸預測模型和基于LSTM的能見度分層預測模型兩個實驗,圖4和圖5是江蘇省區域內某站點2017年的測試結果。

圖4 站點1能見度兩種方法測試結果

可以看出,當觀測值為低能見度時,采用分類回歸(分層)預測的結果與觀測值更接近。同時,采用分類回歸(分層)預測方法,對于能見度的峰值和谷值的預測結果更加準確。而采用直接回歸方法預測在峰值和谷值處表現不佳,尤其是低能見度。

本文對江蘇省區域所有站點2018年數據進行測試,統計了兩種方法分類結果的TS評分及誤差。兩個實驗的對比結果如表6所示。

可以看出,采用分層的方法在能見度0~1.5 km的預測準確率提升0.13,在大于10 km的預測準確率提升0.06,僅在1.5~10 km的區間內有所下降,這是因為分層預測模型提高了直接回歸模型的泛化能力,一定程度上優化了0~1.5 km和大于10 km區間的預測準確率,犧牲了1.5~10 km的準確率。

采用分層預測方法在能見度0~1.5 km的誤差比直接回歸的結果降低了0.92 km,在大于10 km的誤差降低了0.34 km。僅在1.5~10 km的區間內增大了0.56 km。可見,該方法一定程度上減小了預測的平均絕對誤差,尤其在低能見度的表現上更好。

4 結 語

由于能見度的影響因素有多種,因氣象場、排放源等因素的影響,傳統模式預測能見度與實況存在較大誤差,尤其是對低能見度的預測,準確率普遍不高。本文將傳統氣象統計預報方法與人工智能技術相結合,提出一種基于相關性分析和數據均衡的能見度分層預測模型,并通過實驗得出以下結論:

(1) 改進的能見度分層預測模型能夠較好地擬合實際能見度,驗證了本文方法的有效性。

(2) 改進的能見度分層預測模型改善了樣本不均衡問題的影響,提高了模型的泛化能力,防止了模型過擬合現象對于能見度預測的不利影響,預測結果更接近實際能見度,具有更小的誤差,有較高的應用價值。

該模型受神經網絡機理的限制,盡管能夠有效提高各個預報時效內的能見度均值,但對于能見度的峰值及谷值的預報,其準確性還有待提高,在進一步的研究中,考慮加入能見度空間特性及污染物濃度特征。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产一区免费在线观看| 影音先锋丝袜制服| 亚洲swag精品自拍一区| 久久精品中文字幕免费| 欧美日韩中文国产va另类| 亚洲国产日韩一区| 尤物成AV人片在线观看| AV色爱天堂网| 国产熟女一级毛片| 在线精品自拍| 欧美精品成人一区二区在线观看| 久久永久精品免费视频| 久久这里只有精品66| 日日拍夜夜操| 久久96热在精品国产高清| 九九热视频在线免费观看| 高潮毛片无遮挡高清视频播放| 99久久精品免费视频| 六月婷婷激情综合| 毛片久久久| 最新国语自产精品视频在| 亚洲视频二| 国产精品视频导航| 四虎永久免费网站| 欧美天堂在线| 国产成人精品日本亚洲77美色| 亚洲品质国产精品无码| 99在线观看视频免费| 亚洲bt欧美bt精品| 在线欧美国产| 一本大道香蕉高清久久| 欧美a在线| 国产网站黄| 99久视频| 尤物视频一区| 波多野一区| 激情在线网| 丁香六月激情综合| 精品国产免费人成在线观看| 超清人妻系列无码专区| 高清码无在线看| 国产亚卅精品无码| 成人中文在线| 国产v精品成人免费视频71pao| 中文字幕在线永久在线视频2020| 亚洲精品无码专区在线观看| 被公侵犯人妻少妇一区二区三区| 国产一区二区三区夜色| 91在线无码精品秘九色APP| 欧美97欧美综合色伦图| 亚洲精品无码不卡在线播放| 午夜国产精品视频| 欧美色香蕉| 激情午夜婷婷| 久久青青草原亚洲av无码| 亚洲日韩欧美在线观看| AV熟女乱| 日本成人福利视频| 国产欧美网站| 国产美女久久久久不卡| 91丝袜美腿高跟国产极品老师| 伊人蕉久影院| 一级成人a毛片免费播放| 欧美一区福利| 中文字幕有乳无码| 日本亚洲成高清一区二区三区| 福利片91| 亚洲美女一级毛片| 精品国产成人国产在线| 免费一级成人毛片| 99久视频| 成人精品区| 国产亚洲视频免费播放| 国产真实乱子伦视频播放| 91在线激情在线观看| 国产国模一区二区三区四区| 欧美亚洲另类在线观看| 国产成人综合日韩精品无码不卡 | 日本三级欧美三级| 日韩av高清无码一区二区三区| 亚洲婷婷六月| 国产精品林美惠子在线观看|