999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Cotraining-LSTM空氣質量校準算法①

2020-04-24 02:21:08祁柏林欣1魏景鋒杜毅明金繼鑫
計算機系統應用 2020年4期
關鍵詞:模型

祁柏林,張 欣1,,劉 閩,魏景鋒,杜毅明,金繼鑫

1(中國科學院大學,北京 100049)

2(中國科學院 沈陽計算技術研究所,沈陽 110168)

3(遼寧省沈陽生態環境監測中心,沈陽 110000)

4(遼寧省醫療器械檢驗檢測院,沈陽 110000)

空氣環境的好壞和人們的生活密切相關,越來越多的環境問題也開始引起我們的關注.早在70年代,日,美,西歐國家的環境監測技術已經達到了較高水平,儀器種類齊全,但內部器件成本較高.通過幾十年的不斷發展,發達國家的環境保護工業已經進入了成熟階段.相比較來說國內監測起步較晚.之前我國重視工業發展,忽視了空氣質量這方面的問題.如今空氣質量問題提上日程.2014年國務院下發的《國務院辦公廳關于加強環境監管執法的通知》中就提到要全面加強環境監管執法,并在2015年年底落實對環境的網格化監管.而在國外,對于空氣環境質量的監測早已過渡到了逐點位指標評價,但是國外的逐點指標評價無法體現各點位的具體參考數據.所以目前來看,國家對環境實現全面網格化監管必然是一個艱巨的任務.雖然國家投放的標準站點監測的數據準確,但是公建費用較高,監測設備儀器昂貴,而且在點位布施上不夠靈活,遠遠達不到當前網格化監管的政策需求,而且在局部污染以及污染細節監測方面的能力稍顯不足[1].對應這些問題,市場上涌現出很多方便布施成本又低廉的監測空氣質量污染指數PM2.5,PM10,NO,SO2,CO,O3的微型監測儀器.在北京,石家莊等地都有該微型監測儀器的應用.但是這些監測儀器存在一個共同的缺點:傳感器自身的物理特性導致了監測到的數據存在一定的偏差.低精準度的傳感器在監測污染物濃度時會很容易受到污染物結構形狀等一些客觀因素的影響.研究人員嘗試用標準氣體對儀器進行校準,但是傳感器的物理特性的缺點仍是我們需要解決的一個難題.中國環境科學研究院副研究員高健表示:目前各地網格監控取得了很大進步,下一步需在精細化方面做出突破.目前國內關于這種微型監測儀器數據校準的技術領域存在很大的缺口.本文就是從優化微型監測儀器的精確度的角度出發,提高微型監測儀器的測量精度,從而使這些微型監測儀器可以更為廣泛的為社會服務.

1 研究方法

根據傳統校準方法以及數據特征,本文采用了基于半監督學習的協同訓練的長短期記憶網絡(Long Short-Term Memory,LSTM).半監督學習方式相比于監督學習方式可以解決數據遺棄問題.監督學習中會丟棄大量的未標定的數據,這會造成很大一部分的數據損失,本文利用半監督學習的方法在一定程度上可以避免數據中存在大量未標定的數據而造成數據的浪費的問題,從而提高數據的利用率.半監督學習將大量未標記數據利用起來,避免了以往數據浪費的問題.通過協同訓練,本文把標記數據(x,y)復制成兩個完全相同獨立的數據集1,2,同時將未標記( xμ,yμ)的數據集也分成兩部分數據集1,2,然后分別利用有標記的數據對LSTM 模型進行訓練,將訓練好的模型應用到未標記的數據集.未標記的數據在通過相對應的LSTM 模型預測之后會得到一個相應的結果.未標記的數據集中的數據經過模型訓練后會得到預測的結果,這樣就實現了給未標記數據打上label 的目的.接下來對未標記的數據集中的數據逐條分析.針對未標記數據集中的數據 xμ,找出 xμ在標記數據中K-鄰近值,將這些鄰近值組合成新的鄰近數據集合.鄰近數據集集合中的數據按照y 與 yμ的差值進行降序處理.將處理好的鄰近數據集合進行置信度的檢測,即:在該集合中找到一條可以是該模型的損失函數(loss function)最小,則將此條數據加入到標記數據集2 中 篩選出K 個組成新的鄰近值數據集.整體的算法流程圖如圖1 所示.

圖1 算法流程圖

1.1 數據預處理

本文主要研究的數據對象是小時數據.來源是國家標準站市控小時數據.國家標準站的標準數據是我們最終想要學習到的一個結果.通過學習得到的結果越接近國家標準站的數據就表明實驗中模型學習的越好.本文截取了從四月底到五月底之間的小時數據,將它們作為訓練數據的標簽,為了減少環境因素對儀器的影響,這里本文選取了和國家市控站儀器處于同一環境的微型監測儀器設備,并截取相同時間段的數據作為訓練的輸入數據.通過分析發現:數據在監測時也存在大量的噪聲數據,這些噪聲數據會導致我們學習模型的好壞,所以在前期要進行數據的去噪處理.

去噪即去除噪聲數據(異常數據).微型監測儀器正常監測數據的變化應該是平滑有過渡的,通過觀察部分數據可以發現某些時間段的數據出現大幅度的波動,出現這種情況可能是儀器設備在進行自我的校準.所以,為了保證實驗中訓練的學習模型能夠有更好的擬合性和泛化能力,必須要去掉這些噪聲數據.原始數據如圖2 所示.

圖2 原始數據

通過圖2 的原始數據可以看出數據有很多高峰值.事實上,在實際的監測中,微型監測儀器采集的數據是平穩的,數據之間的變化也是一個平穩的過渡.去除噪聲數據的方法很多.比如針對電信號數據,很多人會采用小波去噪,傅立葉去噪,針對分類問題,會用到聚類等.本文的數據與前述這些數據略有不同,它的異常數據不是離散點,是相鄰數據之間存在大的波動.由于我的數據類型比較單一簡單,太復雜的模型應用反而會達到適得其反的效果.本文的數據去噪主要是處理那些浮動過大的數據,避免其造成模型訓練的不準確性.實質上我們處理數據主要考慮相鄰數據之間的差異大小,從而對數據進行一定的處理.

針對監測數據是平滑過渡的特點,參考小波閾值去噪的閾值思想[2].在去除異常數據之前先設定閾值,然后讀取數據進行相鄰比較,一旦兩者差值超出設定的閾值,通過加減閾值將異常數據拉回至正常范圍.本實驗數據選擇標準就是以第一條數據為基準,之后數據之間的閾值差不超過之前設定的閾值.如此不斷往后滾動計算,直至遍歷完整個的數據集.通過該方法處理后的數據相比之前數據的波動得到了一定的緩和.之間比較尖銳的數據有所下降.圖3 是處理后的數據與原始數據的對比.

1.2 置信度檢測

這里的置信度檢測是要在每次訓練的時候,選取一條最符合我們要求的數據.通過每次對標記數據1的訓練,可以得到新的訓練模型1,我們將每次訓練得到的模型1 用于未標記數據1 中,這樣未標記數據集1 中的數據就有了標簽即數據形式為( xμ,yμ).對未標記數據集1 中的數據 xμ我 們在標記數據集中找到 xμ的K-近鄰,讓后選取這些近鄰值重新組成新的集合,記作:Z.集合Z 里面數據按照y 與 yμ的距離差進行排序.每次從集合中選取一條可以使訓練模型的損失函數最小的一條數據,該條數據就是我們認為的置信度最大的數據,可以將此條數據加入到標記數據集2 中.標記數據集2 中的數據進行同樣的操作將選取的未標記數據集2 中的數據添加到標記數據集1 中,如此交叉進行.直到最后沒有符合置信度要求的數據加入,此時模型達到穩定狀態.置信度高的的數據加入到訓練數據中可以使模型訓練的損失函數降低,模型訓練結果會更加準確.

圖3 處理前后數據對比

2 Cotraining-LSTM 整體模型

2.1 模型整體框架

Cotraining-LSTM 是一種結合了協同訓練和LSTM 模型的混合模型.它的特點在于對數據進行訓練時采用了協同訓練的方式.從不同角度對模型各參數進行優化,同時又充分將未標記的數據利用起來.在不斷交叉訓練的過程中,增加了訓練的數據量同時也在不斷動態的優化模型[3].最終的模型具有一定的泛化能力.本文研究的課題涉及的數據不存在多維度,所以過于復雜的模型反而得不到理想的效果,采用上述協同訓練的方式進行訓練在運行效率上也有一定的優勢.

2.2 協同訓練

協同訓練(contrainning)算法是半監督學習的一種.半監督學習顧名思義,即可監督可不監督.它集合二者的優點,能夠充分利用未標記數據和已標記數據來提升學習性能[4].協同訓練方法采用標記數據分別在兩個學習器上進行學習訓練,再利用訓練好的學習規則對未標記數據進行預測,選取置信度較高的數據,然后將選中的數據加入已有的標記數據集,重新對分類器進行訓練[5].協同訓練的方法可以有效利用未標記數據來提高模型精準度.雖然現在人們處在一個信息化豐富的數據社會,但是,想要獲得真正能夠為我們利用的數據并不容易,帶有標記的數據事實上并不是很多.如果只用極少的標記數據進行模型的訓練,那么訓練出來的模型勢必存在準確度不高的問題.所以,面對這些不可逆因素,本篇論文選取了協同訓練方法.它是當前比較流行的一種算法,利用標記數據進行模型訓練,將訓練好的學習規則應用到未標記數據集中,然后計算未標記數據集中篩選出的鄰近數據集的置信度,將置信度大的數據添加到另一個訓練模型的標記數據集中,不斷迭代,直到訓練的模型參數穩定.協同訓練從多角度對模型進行反復訓練,充分利用了已有數據,在提高了數據利用率的同時對問題的解決也有很大的幫助.

2.3 LSTM 模型

LSTM 最早由 Hochreiter 和Schmidhuber 在1997年提出,設計初衷是希望能夠解決神經網絡中的長期依賴問題[6].LSTM (長短期記憶)模型是RNN 的典型代表,本質上來看是一種RNN 結構的變形.圖4 是RNN結構展開圖,從圖中可以看出從RNN 可以說在每次輸入會結合之前的輸出,相當于擁有了記憶功能.但是RNN 不能記憶太久遠的信息,所以會存在一定的梯度消失和梯度爆炸的問題.這一問題導致了LSTM 的盛行.

圖4 RNN 結構展開圖

如圖5 的LSTM 結構圖可以看出,它在傳統RNN的隱藏層各神經單元中增加了記憶單元,然后通過可控門控制之前信息和當前信息的記憶和遺忘程度,這樣可以讓時間序列上的記憶信息可以選擇性地保留下來,從而使RNN 網絡具備了長期記憶功能[7].

LSTM 結構中通過設計兩個門來控制記憶單元狀態的信息量,他們分別是遺忘門 (forget gate)和輸入門(input gate).forget gate 的功能就是”丟棄”.因為我們不可能將所有信息特征全部記住,必須有所取舍,forget gate 就實現這一功能.它決定了上一時刻的單元狀態有多少“記憶”可以保留到當前時刻;input gate 決定了當前的時刻輸入有多少被保存到單元狀態.這兩個門都是通過一個權重來決定留下信息的多少.LSTM 在最后設計了一個輸出門 (output gate)來控制單元狀態有信息輸出.這三個門的功能特點就是LSTM 相比傳統RNN 的優勢所在.

圖5 LSTM 結構圖

1)forget gate:遺忘門是以上一個單元的輸出ht-1和本單元的輸入 Xt為輸入的Sigmoid 函數,為Ct-1中的每一項產生一個在[0,1]內的值,來控制上一單元狀態被遺忘的程度.

2)input gate:輸入門結合tanh 函數來控制有哪些新的數據信息可以被加入.tanh 函數會產生一個新的候選向量,輸入門為中的每一項產生一個在[0,1]內的值來控制新信息有多少可以加入.在這之前,我們得到了forget gate 的輸出 ft,用來控制上一單元被遺忘的程度,也有了輸入門的輸出it用來控制新信息被加入的多少,我們就可以更新本記憶單元的單元狀態了.

3)output gate:輸出門的作用是用來控制當前的單元狀態有多少被過濾掉.先將單元狀態激活,輸出門為其中每一項產生一個在[0,1]內的值,控制單元狀態.

被過濾的程度.

3 實驗結果

3.1 評價指標

在這里本文利用均方根誤差來衡量測試值和估計值之間的差異程度.本篇論文研究的目的就是想得到與標準站數據更接近的數據值.選擇均方根誤差在本次實驗中更能貼近應用的需求.均方根誤差可以反映觀測值與預測值之間的接近程度,并且對測量數據中差異明顯的數據非常敏感.所以,均方根誤差能夠很好地反映出測量的精密度.一般情況下均方根誤差越小越好.

3.2 實驗結果分析

為了能夠體現出模型的效果,驗證模型的可行性和有效性,在進行實驗得出結果的同時,利用同樣的數據通過其他模型進行了訓練,對比結果如表1.

表1 不同模型訓練結果

1)LSTM

單純只利用LSTM 進行模型訓練,通過表中的結果可以看出它的均方根差是16.20,損失值為0.0678.僅僅只利用LSTM 模型,造成大量未標記的數據浪費,事實上參與到模型訓練的數據不是很多,自然模型訓練起來在準確度上相比較而言會有一定的偏差.此處在實驗室經過多次探索,利用兩層layer 實現如表中最優的結果.

2)Regression

在已經應用的項目中采用的算法是一元回歸.從實際應用效果來看,有很多偏差的數據需要人為的手動校準,必須給數據設定上限值.這種設置上限值的做法存在一定的主觀性,對此想到利用神經網絡進行多元回歸分析.但由于標記數據不是很多,數據很離散,多維空間提升了數據復雜度,反而使其效果不符合我們實際需求.

3)Cotraining-LSTM

基于協同訓練的半監督LSTM 訓練模型,相比較單純的LSTM 模型,我在此基礎上加了一個協同訓練.這種半監督的學習方法非常適合那種標記數據比未標記數據少的數據集.它兼具了LSTM 模型的記憶功能,同時基于協同訓練的半監督模型可以從多視角上充分利用兩種類型的數據進行訓練,可以說是兼顧得更全面.通過表格數據對比我們可以看出,從RMSE 這一評價指標可以看出,Cotraining-LSTM 模型訓練效果更好.協同訓練模塊的加入提升了LSTM 模型的訓練精度.

3.3 實驗結果應用

從上述實驗結果的分析上來看,由于我們獲得的帶標記數據有限并且數據大量離散所以單純使用LSTM 模型和Regression 模型進行訓練存在數據利用率不高,可參與訓練數據量不足,訓練結果多維分散,誤差大等問題.Cotraining-LSTM 模型解決了上述方法存在的缺點:提高了數據利用率,同時,使用Cotraining-LSTM 模型算法校準之后的數據與國家標準數據十分接近.同時我們將該算法應用到空氣質量微型監測實時項目中,通過對微型站儀器設備的校準所得到的結果數據其誤差在應用級范圍之內,在運用此數據進行后續預測等相關操作結果也是一樣的.

4 結論

本文針對當前很受大家關心的空氣環境問題出發,針對目前市場上關于監測儀器存在由于傳感器本身精度不高而存在的測量精度不準確的問題進行了改進,在基于當前現有的測量數據的情況下,提出了一種Cotraining-LSTM (基于協同訓練的半監督LSTM)模型.實驗結果通過和其他模型的對比可以看出該模型在處理儀器由于自身傳感器物理特性而導致監測的結果數據存在偏差這類相關問題上有更好的處理效果.為今后相似領域的問題解決方案提供一定的參考價值,并且在此類設備投入生產之后,將會帶來可觀的商業價值.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 夜精品a一区二区三区| 日韩东京热无码人妻| 国产精品内射视频| 亚洲精品无码AV电影在线播放| www欧美在线观看| 思思99思思久久最新精品| 在线国产综合一区二区三区| 亚洲第一黄片大全| 国产va在线观看免费| 中字无码av在线电影| 亚洲日韩高清在线亚洲专区| 大乳丰满人妻中文字幕日本| 国产亚洲视频中文字幕视频| 亚洲人成网站日本片| 伊人天堂网| 特级毛片免费视频| 久久久精品国产SM调教网站| 国产成人1024精品下载| 久久综合干| 国产三级韩国三级理| 毛片最新网址| 毛片久久久| 亚洲男人的天堂网| 免费观看男人免费桶女人视频| 国产激情无码一区二区免费| 在线免费无码视频| 不卡无码h在线观看| 国产精品3p视频| 波多野结衣无码中文字幕在线观看一区二区 | 久久中文字幕2021精品| 亚洲色图在线观看| 色亚洲成人| 在线毛片网站| 玖玖精品在线| 国产chinese男男gay视频网| 欧美影院久久| 在线观看国产精美视频| 69av在线| 国产精品自在在线午夜区app| 午夜视频www| 色综合五月| 国产视频大全| 国产原创第一页在线观看| 国产精品美女在线| 国产精品成人AⅤ在线一二三四| 亚洲一区二区黄色| 国产欧美又粗又猛又爽老| 亚洲精品成人福利在线电影| 久久综合丝袜日本网| 国产成人精品男人的天堂| 日韩A级毛片一区二区三区| www.99在线观看| 亚洲无码精品在线播放| 成人国产精品视频频| 欧美高清三区| 国产99在线观看| 中文字幕在线看| 一级爱做片免费观看久久| 免费一级成人毛片| 国产精品亚洲а∨天堂免下载| 国产网站黄| 久久久亚洲色| 97se亚洲综合| 亚洲无码37.| 玖玖免费视频在线观看| 精品国产一二三区| 丰满人妻中出白浆| 69av在线| 一级毛片免费播放视频| 欧美精品一区二区三区中文字幕| 青青久视频| 日韩专区欧美| 国产香蕉在线视频| 99久久免费精品特色大片| 欧美激情第一欧美在线| 亚洲AV无码一二区三区在线播放| 国产精品欧美在线观看| 欧美在线一级片| 国产高清毛片| 亚洲三级影院| 亚洲中文字幕精品| 日韩123欧美字幕|