999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

水資源消耗預測的異常值檢測及缺失數據填補方法

2018-09-21 05:42:42宋曉娜薛惠鋒王海寧
統(tǒng)計與決策 2018年16期
關鍵詞:模型

張 峰,宋曉娜,薛惠鋒,王海寧

(1.山東理工大學 管理學院,山東 淄博 255012;2.中國航天系統(tǒng)科學與工程研究院,北京 100048;3.泰山學院 商學院,山東 泰安 271000)

0 引言

水資源消耗預測是根據水資源消耗量、社會、經濟等相關歷史時序數據,挖掘水資源消耗動態(tài)演化規(guī)律及其影響要素之間的作用機理,并構建水資源消耗預測模型,辨識水資源消耗程度未來變動趨勢。因此如何實現(xiàn)高精度的水資源消耗預測對于保障水資源綜合規(guī)劃、水資源管理等政策制定的科學性與合理性至關重要。而要達到上述目標,需以完整、高質量的歷史時序數據為基礎,但是限于現(xiàn)有監(jiān)測指標與統(tǒng)計手段等因素的約束,其歷史數據收集中難免存在數據異常、缺失等狀況。其中,數據的異常可主要分為實際突變異常和待修正異常2類,前者是指標數據由于實際消耗等而產生的實際改變,檢測與統(tǒng)計過程中需對其進行保留,而后者主要是在人為操作、設備使用、統(tǒng)計口徑差異等因素影響而導致數據出現(xiàn)“存在而不正?!爆F(xiàn)象;缺失數據則是監(jiān)測設備的損壞、數據資料的遺失等造成的“數據空白”[1]。對于待修正異常與缺失數據均需要采取有效的檢測與填補方法進行完善,以支撐水資源消耗預測建模的要求。考慮由于水資源的自然與社會經濟雙重屬性而導致影響水資源消耗的因素具有復雜多樣性與不確定性,本文在現(xiàn)有研究成果的基礎上,應用偏最小二乘(Partial least squares,PLS)與最小殘差回歸法、粒子群(Particle swarm optimization,PSO)與最小二乘支持向量機(Least squares support vector machine,LSSVM)分別對水資源消耗預測的異常值進行適用性研究,為提升水資源數據管理水平提供一定的方法支持。

1 模型構建

現(xiàn)有諸多研究成果中對水資源消耗與社會經濟發(fā)展之間的強相關性進行了論證[2,3],同時鑒于社會經濟指標可通過其統(tǒng)計年鑒取得較高可信度的數據,對此考慮選取偏最小二乘法對年均水資源消耗量與社會經濟發(fā)展指標之間的主成分進行提取處理。毛李帆等[4]認為該過程中基于相關指標數據構建的回歸模型會受異常值的擴大影響,對主成分的貢獻水平顯著高于常規(guī)數據,并在電力負荷異常數據分析中得到驗證。因此本文利用統(tǒng)計數據樣本對提取的主成分貢獻程度的方法檢測水資源數據異常值。

1.1 基于PLS-Q2的異常值檢測模型

設因變量Y和 p個自變量構成自變量集合 X=(x1,x2,...,xp),觀測n個樣本點,并構成n維因變量向量(y1,y2,...,yn)n×1和自變量構成n×p觀測矩陣X=(x1,x2,...,xp)n×p。PLS 回歸的基本原理是逐次對自變量 X提取主成分qα,α=1,2,...,α ,盡可能多地概括自變量集合 X 中的信息,同時與因變量Y的相關性可以達到最大值。對此,定義Q為數據樣本i對第v主成分qv的貢獻度,即:

可推出,若:

則可判定數據樣本i對主成分qv的貢獻度偏大。多數情況下對于樣本信息可通過2個以內的主成分進行概括提取,對此本文假設主成分數目為2,即α=2,則將判定條件轉為:

1.2 基于最小殘差的異常值修正

考慮傳統(tǒng)最小二乘回歸對于其方差的非穩(wěn)健性,易導致其擬合效果偏向突變數據擴散,本文擬采用最小殘差的回歸方式修正最小二乘回歸目標函數,削弱突變數據對擬合模型的影響。其函數為:

其中,Wi指水資源數據樣本值;Hi指影響要素指標;?是待估系數;υi指數據樣本擬合誤差。對于上述公式,可假設:

即:

將式(8)代入到模型(6)中,求解規(guī)劃解:

根據上述模型,可知利用一次函數作為基于最小殘差異常值修正的目標函數,可有效控制其模型對水資源異常值的敏感度達到修正效果。

1.3 基于LSSVM的缺失數據填補

考慮數據樣本的規(guī)模及LSSVM在解決非線性、小樣本等方面問題的擬合優(yōu)勢[5],本文選取該方法對水資源缺失數據進行補充。同時,利用粒子群算法優(yōu)化LSSVM核函數的參數。步驟如下:

其中,ρ(x)指非線性變換映射函數;ω指權系數;b是偏置量。據此,LSSVM目標函數可寫為:

其中,θ是誤差變量;γ為懲罰因子(γ>0)。引入Lagrange函數求解:

式中?i指Lagrange乘子。按照Karush-Kuhn-Tucker條 件[6],分 別 測 算 ?L ?ω =0 、?L ?b=0 、?L ?θ =0 和?L??i=0,取得方程組:

鑒于RBF核函數處理非線性輸入與輸入關系的適用性,本文采用其作為LSSVM的核函數:

1.4 基于PSO的LSSVM參數優(yōu)化

通常對LSSVM模型參數γ與?的優(yōu)化多采取參數空間窮盡搜索算法,但該方式難以參數的閾值范疇進行合理界定,對此,本文利用PSO優(yōu)化其參數,同時為避免PSO收斂陷入局部極值,在初始粒子群選取時利用平均粒距函數對其離散程度進行測定[7]:

其中,ο為種群粒子數;L為搜索區(qū)域對角最大距離;aid表示粒子i的d維坐標,而指其平均值。

此外,對于PSO粒子是否出現(xiàn)早熟收斂的判定,可依據種群粒子適應值的改變來分析種群狀態(tài),即設定粒子適應度為Ri,種群平均適應度,定義其適應度方差:

選取參數優(yōu)化后的LSSVM模型,將除了存在數據缺失以外的社會經濟指標作為模型輸入,而水資源消耗值作為模型輸出進行樣本訓練擬合,進而根據擬合結果對水資源消耗缺失值進行補充。

2 算例分析

2.1 水資源數據異常值檢測算例與分析

以廣東省2000—2015年社會經濟發(fā)展與水資源消耗量為例①社會經濟指標主要源于《廣東省統(tǒng)計年鑒》(2000—2016),水資源消耗量通過求解地區(qū)用水總量與再循環(huán)水資源量之差而得,由于再循環(huán)水資源量測算過程較為復雜,需要對計算結果進行二次檢查,其數據源于《廣東省水資源統(tǒng)計公報》(2004—2015)、《廣東省環(huán)境統(tǒng)計公報》(2000—2015)。,其指標數據見表1。利用PLS-Q2模型對其2000—2012年歷史數據進行函數擬合,同時檢測水資源異常數據,根據擬合結果完成異常值修正并預測2003—2015年數據,檢驗模型預測有效度。

按照表1中數據,利用PLS模型對其指標數據進行主成分提取處理,并利用模型(2)測算各數據樣本的累計貢獻度Q,見表2。其中,r1、r2分別表示主成分1與主成分2。

根據表2可知,2007年、2011年和2012年的數據樣本累計貢獻度Q均已突破0.25水平,并分別達到0.390802、0.259432和0.268102,與其他樣本之間數值差異相對顯著。對此,參考時序歷史數據,選取模型(3)顯著水平τ=0.15。按照模型(7)測度Q2橢圓式:

表1 廣東省社會經濟與水資源消耗指標

表2 主成分r1與r2測度結果

按照式(19)及表2,可繪制其Q2橢圓分布圖,見圖2。

圖2 異常值修正前Q2橢圓圖

圖2所示的2007年、2011和2012年數據樣本點靠近Q2橢圓的邊緣,需對其進行核定。經對于統(tǒng)計數據重新測算核定,發(fā)現(xiàn)2007年和2012年水資源消耗量數據應分別為450.8936和459.2454,而2011年數據(442.6194)與核定數據相一致,即為實際突變數據。如果按照水資源消耗均值數據±5%水平作為劃分依據,則處于(411.278,454.570)以外數據均被列為異常值,即2000—2002年、2007年、2009—2010年和2012年為異常點;而若以±10%水平為標準,(389.6315,476.2163)為其正常區(qū)間,除了2007年、2011年和2012年以外,2000—2001年也被誤列為異常值點??梢?,利用傳統(tǒng)均值±5%與±10%水平的評判方法雖然在操作上具有簡便性,但易造成較大的誤判,而PLS-Q2模型表現(xiàn)出了較強的實用性。

對于重新核定的數據,建立Q2橢圓式,見模型(20),而其主成分與Q2橢圓分布見圖3。

圖3 異常值修正后Q2橢圓圖

觀測異常修正前后Q2橢圓圖,可知2007年、2012年數據樣本點向圓心靠攏,表明由于人為操作等主觀因素造成的異常值已被修正。而2011年數據為水資源消耗實際突變數據,仍置于橢圓邊界處,對其無需進行調整。

考慮異常值對擬合方程的影響,利用傳統(tǒng)最小二乘法與本文構建的最小殘差的異常值修正模型分別對數據修正前與修正后樣本進行回歸分析,依次記為?1(x )、?2(x),再預測2013—2015年水資源消耗量。各擬合模型如下:

其中,x1,x2,…,x4分別指表 1中各產業(yè) GDP 與人均GDP量。據其取得水資源消耗量預測值,見表3。

表3 ?1()x、?2()x回歸預測結果

據表3,可知傳統(tǒng)最小二乘法測度的?1(x)相對誤差均大于0.15水平,而基于最小殘差的異常值修正模型?2(x)的預測相對誤差最高值為0.063434,其余均低于0.04水平(0.038418、0.039577)。這說明通過對水資源消耗量異常值進行修正,構建基于最小殘差的異常值修正模型在對其進行預測分析中具有相對較高的精度,可滿足對水資源消耗數據時序動態(tài)規(guī)律挖掘的需求。

2.2 水資源數據缺失填補算例與分析

以廣州市2004—2015年水資源消耗與社會經濟相關指標數據為例,并假設其2008年與2013年水資源消耗量為缺失值,見表4。

表4 廣州市社會經濟與水資源消耗指標

根據表4,將社會經濟指標作為PSO-LSSVM輸入,而水資源消耗量作為輸出。其中,進行PSO測算時,懲罰因子γ∈[0 . 1,100] ,∈[0 . 1,10],對此參考樣本數據設置 γ=30,=2,粒子數ο=30,最大迭代次數tmax=100;平均粒距可反映種群分布的多樣特征,隨機粒子產生的粒距D(t)均不低于?,設其閾值?=0.001;適應度方差表征粒子聚集水平,設其閾值ε=0.01。而表4中各指標歸一化模型如下:

其中,xij指社會經濟與水資源消耗原始數據;ij指歸一化后指標值;xj表示xij所在 j列數值。利用RBF核函數,結合模型(15)對除2008年、2013年外的其他數據分別進行LSSVM、PSO-LSSVM模型樣本訓練?;谟柧殧M合模型對其缺失數據點進行填補,結果見表5與下頁圖4。

表5 模型擬合結果

圖4 水資源消耗量模擬曲線

據表5和圖4可知,通過LSSVM模型可對水資源消耗量達到一定水平的擬合效果,樣本測度期內最大相對誤差為0.027541,平均相對誤差0.0036,而基于PSO-LSSVM的水資源消耗量擬合模型通過引入逐步尋優(yōu)參數與更新粒子位置,避免了對γ、選擇的盲目性和隨機性而陷入局部極值的弊端。通過圖5對比LSSVM和PSO-LSSVM的相對誤差,除于2004年以外,PSO-LSSVM模型在其余樣本年份數據的測度中均呈現(xiàn)較高精度擬合,平均相對誤差為-0.0006。通過上述兩種方法分別對2008年、2013年水資源消耗量缺失數據進行填補,LSSVM擬合值為680047萬m3、613497萬m3,PSO-LSSVM擬合值分別為683713萬m3、604572萬m3,而實際水資源消耗統(tǒng)計值為689216萬m3和602272萬m3,相對誤差對比中LSSVM達到0.005391、-0.014548,PSO-LSSVM則為-0.001177、0.003819,該結果進一步印證了PSO-LSSVM模型在水資源消耗擬合中可實現(xiàn)更精準的數據填補效果。

圖5 擬合誤差對比

3 結論

在基于社會經濟相關指標具有較高可信度的前提下,本文運用PLS-Q2方法對水資源消耗預測中的歷史時序數據所存在的異常值進行檢測辨識,基于最小殘差的異常值修正模型對擁有實際突變異常數據序列進行了預測驗證,再通過PSO-LSSVM模型對水資源消耗數據缺失樣本進行了擬合填補。結果表明:(1)利用PLS方法提取水資源消耗及社會經濟指標數據主成分及其累計貢獻度的Q2橢圓圖,可合理辨識出水資源消耗時序數據中異常點;(2)相比傳統(tǒng)最小二乘回歸,基于最小殘差的異常值修正模型可有效緩解實際突變數據對水資源消耗預測的拉伸影響,其回歸預測精度更高;(3)對于水資源消耗缺失數據的填補,LSSVM與PSO-LSSVM均呈現(xiàn)出較高的擬合效果,但同比之下PSO-LSSVM相對誤差更小,對其缺失的數據填補更加準確。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 广东一级毛片| 国产男人的天堂| 精品三级在线| 亚洲Av综合日韩精品久久久| 狠狠做深爱婷婷久久一区| 国产精品女人呻吟在线观看| 欧美一区福利| 久久精品国产在热久久2019| 亚洲成年人片| 国产成人av一区二区三区| 午夜啪啪网| 欧美激情综合一区二区| 亚洲AⅤ永久无码精品毛片| 91av成人日本不卡三区| 国产成人成人一区二区| 免费aa毛片| 特级精品毛片免费观看| 国产亚卅精品无码| 精品少妇人妻av无码久久| 亚洲,国产,日韩,综合一区 | 久久精品无码中文字幕| 成年人国产网站| 久久永久免费人妻精品| 97人人模人人爽人人喊小说| 99久久国产综合精品2023| 国内精品小视频在线| 极品私人尤物在线精品首页 | 国产精品无码在线看| 久久精品中文无码资源站| 成人看片欧美一区二区| 亚洲天堂免费观看| 特级毛片8级毛片免费观看| www.亚洲一区二区三区| 无码一区18禁| 99久久亚洲综合精品TS| 在线播放国产一区| 日韩欧美亚洲国产成人综合| 免费高清毛片| 毛片三级在线观看| 在线不卡免费视频| 久草青青在线视频| 国产成人综合亚洲欧洲色就色| 香蕉eeww99国产精选播放| 国产亚洲精| 欧美亚洲第一页| 久久久久中文字幕精品视频| 2021国产在线视频| 久久男人资源站| 99视频精品在线观看| 女人18毛片久久| 99激情网| 国产探花在线视频| 一级爆乳无码av| 无码专区在线观看| 国产免费看久久久| 国产成人亚洲精品色欲AV| 国产va在线| 视频一本大道香蕉久在线播放| 亚洲欧美一区在线| 啪啪永久免费av| 在线中文字幕日韩| 国产精品偷伦在线观看| 国产精品视频系列专区| 国产麻豆福利av在线播放| 国产97区一区二区三区无码| 国产无码精品在线播放| 欧美日韩资源| 亚洲AV免费一区二区三区| 国产91蝌蚪窝| 欧美日在线观看| 天天色天天操综合网| 青草午夜精品视频在线观看| 波多野吉衣一区二区三区av| 亚洲第一区在线| 欧美在线一级片| 最新亚洲人成无码网站欣赏网| 亚洲高清在线播放| 日韩无码白| 亚洲一区二区三区中文字幕5566| 亚洲国产天堂久久综合226114| 国产91高跟丝袜| 高清免费毛片|