999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM的水質預測模型研究與應用

2023-01-31 00:15:16歐陽群文
智能城市 2022年11期
關鍵詞:水質特征模型

歐陽群文

(廣州市城建規劃設計院有限公司,廣東廣州 510000)

廣州以河長制為“統領”,深入開展清四亂和源頭控污工作,全市水環境治理水平及治理成效實現了根本性提升,完成了對原有黑臭河湖的治理。然而河道水安全和水環境依然較為脆弱,各類問題有反彈風險,治水成效難以鞏固,河湖水質存在返黑返臭風險。隨著廣州河長制工作的不斷深入,以信息化為主要手段的河長管理機制不斷更新迭代,并積累了大量數據[1-3]。但現有的廣州河長信息管理系統主要功能是收集整理和發布河湖管理方面的基本信息,缺乏對數據的深入分析與挖掘,并沒有結合實際需求進行模型的開發,例如如何進行水質預警、如何根據預報結果進行針對性治理等[4]。利用數據資源指導實際工作是河長制信息化推進的主要方向。鑒于此,文章利用廣州河長管理信息系統中的數據(下稱“系統數據”),通過對數據進行深入挖掘與分析,基于擅長挖掘數據縱深的LightGBM(light gradient boosting machine)算法建立水質預測模型。通過建模型預測水質等級,并據此分析河湖水質變化趨勢及系統數據的重要程度,從而提高河長對河湖事件的預測能力以及河湖管理的執行能力,全面促進河長制實施。

1 模型目標及算法選擇

模型中,采取廣州河長管理信息系統數據(河涌問題數據、河長行為數據等)、河涌上月水質數據作為特征數據,河涌本月水質數據作為標簽數據,通過多分類機器學習算法深入挖掘特征數據與標簽數據之間的映射關系,得到一個可以根據上月特征數據預測當月水質的機器學習模型,即LightGBM的水質預測模型。通過內業模型輸出結果指導外業對于水質較差以及有變差趨勢的河涌,并執行定向巡查,通過多分類機器學習算法實現水質預測的目標。

2 基于LightBGM的水質預測模型構建

模型構建環節包括數據整合、樣本劃分、數據預處理、特征工程、模型訓練及參數優化、模型結果分析評價、變量重要性評分及內外業融合分析。

2.1 數據整合

根據廣州河長管理信息系統中的不同數據源,將不同來源的數據整合成一張建模寬表。由于每條河涌對應多個河長,故河涌對應的河長行為數據采用均值平滑方法處理,即采用多個河長的行為數據均值作為特征數據。

2.2 樣本劃分

考慮到樣本數據比較有限,為了保證模型能夠充分地訓練,需要擴大訓練集的占比,所以采取9∶1的比例將1 771條樣本數據劃分成訓練集及測試集,其中訓練集1 593條,測試集178條。

2.3 數據預處理

鑒于設備故障、網絡通信等不可控因素的影響,原始數據中可能存在臟數據、缺失數據等情況。因此,首先對原始數據進行預處理。預處理工作主要包括數據清洗、特征分類、缺失值處理、異常值檢測等,包括數據清晰、特征分類、數據缺失值處理、數據異常值處理。

2.4 特征工程

特征工程是指將預處理后的數據進行加工,轉變為模型所需要的特征數據,同時將原有特征通過計算、組合等方式轉換為新的特征[5-9]。研究中,對于河涌問題數據進行了縱向(多級河長)與橫向(同級河長上報的不同問題)的特征工程處理,共得到31個特征數據。

2.5 模型訓練及參數優化

將上月特征數據作為輸入,當月水質等級預測作為輸出,構建基于LightGBM的水質預測模型。采用LightGBM算法在訓練集中訓練模型,并通過模型在驗證集上的表現進行算法參數優化。初步訓練時,設置參數如下:決策樹的數量設置為200,樹最大深度設置為3,其他參數均使用默認參數。初步訓練的準確率為48.31%,參數優化效果以此基準模型作為參考。

LightGBM模型參數較多,研究選取LightGBM最重要的7個參數進行算法優化,以準確率為評價指標通過網格搜索法選取最優參數。優化的結果如圖1所示,評價指標均為測試集上的準確率。

圖1 LightGBM模型參數調優結果

由圖1可知,將決策樹的數量初始值設為20,準確率為0.48,當決策樹的數量取50時,準確率變為0.51,繼續增大決策樹的數量到100、200、300、400、500、600,準確率呈現下降趨勢。將浮點數設定為0.6~1.0的調整范圍,當浮點數取值為0.7、0.8、0.9時,準確率趨于穩定。當樹最大深度取值小于4時,準確率上升,當取值大于4時,準確率呈上下波動變化,但均小于取值為4的準確率。最小樣本數量在4種取值下(10、30、50和100)的準確率分別為0.51、0.52、0.47和0.47。將正則化系數設定為0~3.0的調整范圍,隨著參數增大,模型預測效果反而變差,調參后最優解仍保持為0。選擇兩種正則化系數進行調參,正則化系數1.0與正則化系數2.0參數取值范圍相同,調參后最優解為1。對于學習速率,0.1為最佳取值。由以上分析可知,參數決策樹的數量、浮點數、樹最大深度、最小樣本數量、正則化系數1、正則化系數2.0、學習速率的最優取值分別為50.0、0.9、4.0、30.0、0、1.0、0.1。特征選擇結果如表1所示。

表1 特征選擇結果

2.6 模型結果分析評價

研究采用“準確率”為評價指標。將上述尋優的參數代入模型,輸出預測結果。通過混淆矩陣可以得出,Ⅱ類、Ⅵ類(劣五類)水質的河涌預測比較準確,Ⅱ類、Ⅲ類水質容易相互混淆。總體準確率為53.37%。除了準確率之外,還可以通過針對某一類別的查準率、查全率分析模型的分類結果。對于重點關注的Ⅴ類、Ⅵ類(劣五類)水質,計算其查準率、查全率。Ⅴ類查準率為40%,Ⅴ類查全率為11.76%,Ⅵ類查準率為63.16%,Ⅵ類查全率為68.57%。因此,5類水質河涌的查準及查全表現較低,尤其是查全率,原因在于訓練樣本中Ⅴ類水質河涌的樣本數過少,模型無法學習到相應特征。雖然Ⅴ類水質的模型效果并不理想,但Ⅵ類水質的查準和查全比較理想,查全率達到68.57%,Ⅵ類水質的模型效果對于河涌黑臭預警、水質惡化預警有重要意義。

2.7 特征重要性分析

研究中采用Gini Importance方法得到重要性評估結果如圖2所示。

圖2 變量重要性評價結果

由圖2可知,責任一般河湖數量、上月水質、連續打卡式巡河的次數是影響水質的3個重要特征。責任一般河湖數量是指河涌對應河長所管轄的一般河湖數量,反映出河涌管理者的精力分散程度,由此結果可以推測,河涌管理者的精力分散程度對水質有較大影響,此結論對于河長的人手分配、河涌分配具有指導意義。連續打卡式巡河次數反映出河長巡河行為對水質的影響,此結論對河長管理、培訓、督導具有指導意義。另外,特征重要性分析結果表明,所有問題、問題上報率、一般河湖巡河率等特征對河涌水質也會產生較大影響。此外,可以發現在眾多河涌問題中,工業廢水排放是影響水質的最大問題。

3 模型驗證及模型應用

3.1 模型驗證

為了進一步驗證模型效果,采用后一個月具有水質數據的河涌共計422條作為驗證樣本,將河涌的前一個月特征數據輸入訓練好的模型中,輸出各河涌后一個月水質預測數據,根據輸出的預測結果與實際結果進行比對,對模型進行驗證。

驗證結果顯示其總體準確率為53.10%,基本不變。對于重點關注的Ⅴ類、Ⅵ類(劣五類)水質,計算其查準率、查全率分別為:Ⅴ類查準率為40%、Ⅴ類查全率為18.60%、Ⅵ類查準率為63.63%、Ⅵ類查全率為67.96%。與測試集的模型效果相比,總體準確率略有下降,但Ⅴ類查全率有明顯提升、Ⅵ類查準率略微提升,Ⅵ類查全率略微下降,模型錯分樣本大部分集中在Ⅱ、Ⅲ、Ⅳ類水質。總體來說,模型效果與測試集上相當,說明模型比較穩定、泛化能力強,具有應用價值。

3.2 模型應用

根據LightGBM水質預測多分類模型輸出結果,可以構建兩個重點河涌庫,其一是Ⅵ類(劣Ⅴ類)水質河涌庫;其二是水質惡化河涌庫,根據預測的水質等級與河涌上月水質等級做對比,等級衰退兩個以上的河涌應被列為“有水質惡化傾向”的河涌。在實際工作過程中,根據模型分析結果,分別對南沙區、荔灣區相關河涌進行現場調研反饋,從現場調研情況看,其河涌存在的問題能夠反映出河涌存在一定的黑臭風險。從而得出,基于LightGBM水質預測模型能有效指導外業定向巡查、定向督導河長,防患于未然,對于重點河涌進行提前干預,提前發現問題,防止河涌水質惡化以及反黑反臭。

4 結語

以廣州河長管理信息系統中2020年3月—11月的樣本數據為例,基于LightGBM的水質預測模型輸出結果,在訓練集和測試集上,準確率都超過了53%,重點類別河涌Ⅵ類(劣Ⅴ類)的查準率達到63%以上、查全率達到68%以上,模型整體預測效果較好,具有應用價值。同時將水質等級預測與重要性評估的內業工作成果相結合,針對性地對水質有變差趨勢的河涌及疑似劣Ⅴ類河涌開展外業專項巡查工作,找出重大污染源的來源以及分析河涌流域污染源的分布、特性。通過內業數據挖掘,并結合外業專項的巡查,能夠彌補內業發現問題的局限性,在有限的資源利用背景下,達到最優化分配,減少資源浪費,提升督導巡查效率和準確性,實現了對河長的定向督導,進一步壓實河長履職責任,提升履職水平。

猜你喜歡
水質特征模型
一半模型
水質抽檢豈容造假
環境(2023年5期)2023-06-30 01:20:01
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
一月冬棚養蝦常見水質渾濁,要如何解決?這9大原因及處理方法你要知曉
當代水產(2019年1期)2019-05-16 02:42:04
抓住特征巧觀察
3D打印中的模型分割與打包
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 一本大道香蕉高清久久| 欧美综合中文字幕久久| 日韩精品无码免费专网站| 成AV人片一区二区三区久久| 91精品专区国产盗摄| 亚洲三级网站| 日韩免费视频播播| 欧美日韩精品在线播放| 国内黄色精品| 欧美三级日韩三级| 激情午夜婷婷| 99在线视频免费观看| 亚洲乱码精品久久久久..| 国产农村妇女精品一二区| 欧美色图久久| 久久亚洲综合伊人| 麻豆国产精品视频| 最新国产网站| 国产91丝袜| 国产一级无码不卡视频| 国产手机在线观看| 亚洲国产看片基地久久1024| 日本精品中文字幕在线不卡 | 免费视频在线2021入口| 国产精品女在线观看| 日韩在线第三页| 免费一级α片在线观看| 91丝袜在线观看| 一级黄色网站在线免费看| 国产香蕉在线视频| 国产精品美女在线| 国产地址二永久伊甸园| 99视频有精品视频免费观看| 亚洲国产天堂久久综合| 国产色爱av资源综合区| 无码精品国产dvd在线观看9久| 成人午夜天| 婷婷综合在线观看丁香| 精品国产Ⅴ无码大片在线观看81| 欧美天堂在线| 国产午夜无码片在线观看网站| 操操操综合网| 2019国产在线| 日本精品影院| 伊人久久综在合线亚洲2019| 久久综合亚洲色一区二区三区| 欧美天堂久久| 成人免费黄色小视频| 老司国产精品视频91| 亚洲国产理论片在线播放| 久久久久亚洲精品成人网| 三上悠亚精品二区在线观看| 成人午夜免费观看| 国产无码精品在线播放| 国产成人综合久久精品下载| 国产欧美精品一区aⅴ影院| 免费观看无遮挡www的小视频| 潮喷在线无码白浆| 国产精品v欧美| 日韩在线播放欧美字幕| 漂亮人妻被中出中文字幕久久| 欧美成人午夜视频| 一级香蕉人体视频| 丁香婷婷在线视频| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美午夜小视频| 国产一区二区三区在线精品专区| 国产99视频在线| 久热这里只有精品6| 欧美成人影院亚洲综合图| 色噜噜狠狠狠综合曰曰曰| 精品久久久久久久久久久| 国产成人91精品免费网址在线| 三上悠亚一区二区| 国产一线在线| 中国黄色一级视频| 亚洲最新网址| 日本精品影院| 亚洲三级a| 亚洲人成电影在线播放| 2019国产在线| 亚洲高清中文字幕在线看不卡|