999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

PDTR模型對(duì)城市流動(dòng)人口的預(yù)測

2021-11-12 02:17:12孫宏宇孫明辰王洪君
關(guān)鍵詞:模型

吳 宇,孫宏宇,孫明辰,王洪君

(吉林師范大學(xué) 計(jì)算機(jī)學(xué)院,吉林 四平 136000)

0 引 言

人口遷移這一社會(huì)現(xiàn)象目前已經(jīng)引起多學(xué)科交融研究領(lǐng)域?qū)W者的關(guān)注,從圖1、圖2可以看出,各個(gè)省份的凈人口流動(dòng)數(shù)量與自然增長率趨勢(shì)截然不同。數(shù)據(jù)表明各地區(qū)的人口數(shù)量變化情況是受條件影響的,并不完全取決于人口基數(shù),受人口遷移的影響也十分顯著。進(jìn)行人口遷徙預(yù)測可以更好的把握地區(qū)人口變化情況以及地區(qū)城市化情況,對(duì)社會(huì)經(jīng)濟(jì)發(fā)展具有重要指導(dǎo)意義。因此,進(jìn)行人口遷徙預(yù)測研究勢(shì)在必行。但目前研究上存在一些不足,一方面城市參數(shù)眾多,應(yīng)用現(xiàn)有技術(shù)將其統(tǒng)計(jì)可以輕易實(shí)現(xiàn),但其中摻伴的無效數(shù)據(jù),不僅無形中提高了實(shí)驗(yàn)的能耗,也造成了數(shù)據(jù)混淆;另一方面,傳統(tǒng)的人口流動(dòng)預(yù)測方法大多是根據(jù)經(jīng)濟(jì)、政策等理論來總結(jié)人口流動(dòng)規(guī)律加以預(yù)測。如:流動(dòng)人口的規(guī)模總量和結(jié)構(gòu)形式隨經(jīng)濟(jì)體發(fā)展變遷的規(guī)律、城市收入水平和公共服務(wù)能力差異,是吸引外來人口流入的首要因素等等[1]。但無論使用什么方法,其根本在于分析人口流動(dòng)情況和其影響因素之間的關(guān)系,并通過該關(guān)系構(gòu)建模型或形成理論預(yù)測未來人口變化情況。

數(shù)據(jù)來源:國家統(tǒng)計(jì)局發(fā)布

數(shù)據(jù)來源:國家統(tǒng)計(jì)局發(fā)布

隨著科技的發(fā)展,通過人工智能的方法進(jìn)行大數(shù)據(jù)分析預(yù)測城市人口,可以節(jié)省大量的時(shí)間以及資源的消耗。數(shù)據(jù)的獲取以及預(yù)測算法的選擇在很大程度上影響著預(yù)測結(jié)果的精確性,不同模型對(duì)于人口的預(yù)測結(jié)果也不同[2]。本文旨在提出一種PDTR預(yù)測模型,通過使用人工智能算法,總結(jié)出人口流動(dòng)與影響其發(fā)生變化的城市參數(shù)之間的關(guān)系并形成模型,以進(jìn)行對(duì)各省份未來人口流動(dòng)情況的預(yù)測。

1 PCA原理

PCA方法可以利用降維思想抓住所要研究問題的主要矛盾,簡化復(fù)雜問題,使研究效率得到提高[3]。

本文從燃?xì)狻⒐┧⒐帷⒐步煌ā⒊鞘惺腥荨⒕G地園林等7個(gè)方面中,選取46項(xiàng)城市參數(shù)指標(biāo),由于在選擇訓(xùn)練樣本時(shí),各個(gè)樣本指標(biāo)之間的可能相關(guān)性較高, 所以可能導(dǎo)致樣本信息過度重復(fù)的情況 , 這時(shí)就需要借助 PCA 方法來概括諸多信息的主要方面 ,對(duì)樣本指標(biāo)信息進(jìn)行降維。通過這些綜合指標(biāo)相互獨(dú)立地代表某一方面的性質(zhì) , 從而改進(jìn)訓(xùn)練樣本的有效性[4]。

將現(xiàn)有m個(gè)城市指標(biāo)參數(shù)組成的原始數(shù)據(jù)集,分別用I1,I2,...,Im表示,由這m個(gè)城市參數(shù)指標(biāo)組成了m維隨機(jī)向量I=(I1,I2,...,Im),設(shè)α為隨機(jī)向量I均值;隨機(jī)向量I線性變換成新的綜合變量,用D表示。新綜合變量D與原始變量I線性關(guān)系由公式(1)表示[5]:

(1)

式中:系數(shù)αij可以根據(jù)下面幾個(gè)原則來確定:

(1)α112+α122+...+α1m2=1(i=1,2,…,m);

(2)Di與Dj(i≠j;i,j=1,2,…,n)線性無關(guān);

(3)D1為I1,I2,...,Im所有線性組合中方差最大者;D2為與D1不相關(guān)的I1,I2,...,Im的所有線性組合中方差最大者;Dn為D1,D2,...,Dn-1都不相關(guān)的線性組合中方差最大者。

這樣確定的新變量指標(biāo)D1,D2,...,Dn分別稱為原變量指標(biāo)I1,I2,...,Im的第1主成分,第2主成分,...,第n主成分。其中,D1,D2,...,Dn的方差依次減小。實(shí)際問題分析時(shí),常挑選前面幾個(gè)最大的主成分,這樣既可以減少變量的數(shù)目,又抓住了問題的主要矛盾,簡化了各變量之間的關(guān)系[6]。

本文最終使用PCA的fit方法,對(duì)全部訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到訓(xùn)練好的PCA模型。輸入格式為fit(X),其中X是預(yù)處理后的訓(xùn)練集數(shù)據(jù)樣本。通過PCA的transform方法將全部訓(xùn)練數(shù)據(jù)進(jìn)行變換,得到經(jīng)過主成分分析后的特征。輸入格式為transform(X),其中X是待轉(zhuǎn)換的數(shù)據(jù),也是后續(xù)決策樹分析的輸入數(shù)據(jù)。

2 PDTR模型構(gòu)建

決策樹是一種樹形結(jié)構(gòu)的分類與回歸方法[7],其目的是通過對(duì)訓(xùn)練集進(jìn)行學(xué)習(xí),找出特征和類別之間的關(guān)系。一旦這種關(guān)系被找出,就能用其來預(yù)測未知類別數(shù)據(jù)的類別。本文使用決策樹回歸分析方法進(jìn)行回歸分析,所謂“決策”就是進(jìn)行一次選擇,每進(jìn)行一次選擇實(shí)質(zhì)上就是對(duì)特征空間進(jìn)行一次劃分,每劃分出一個(gè)單元該單元就會(huì)有一種特定的輸出[8]。而劃分或做“決策”的過程就是建立決策樹的過程。本文使用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化和主成分分析(PCA)進(jìn)行數(shù)據(jù)與處理,對(duì)預(yù)處理后的數(shù)據(jù)使用決策樹回歸模型(Decision Tree Regression)進(jìn)行回歸分析,以得到預(yù)測模型。具體流程如圖3所示。

圖3 PDTR模型的總體設(shè)計(jì)方案流程圖

實(shí)現(xiàn)步驟如下:

(1)對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,其中包括數(shù)據(jù)清洗和標(biāo)準(zhǔn)化;

(2)對(duì)處理后的數(shù)據(jù)進(jìn)行主成分分析,得到降維后數(shù)據(jù);

(3)使用降維后數(shù)據(jù)訓(xùn)練決策樹模型;

(4)對(duì)測試數(shù)據(jù)進(jìn)行預(yù)測得到結(jié)果,若結(jié)果達(dá)到標(biāo)準(zhǔn)則保存模型對(duì)真實(shí)數(shù)據(jù)進(jìn)行預(yù)測,否則修改主成分分析和決策樹回歸模型的參數(shù),返回步驟(3)繼續(xù)進(jìn)行第三步操作。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)數(shù)據(jù)來源于2006~2017年《中國統(tǒng)計(jì)年鑒》,從各年的數(shù)據(jù)中選取供熱、供水、燃?xì)狻⒊鞘惺腥荨⒐步煌ā⒕G地園林等6大類城市參數(shù)指標(biāo),共45小項(xiàng)數(shù)據(jù)類別進(jìn)行分析,將各年的出生率、死亡率、年增長率和6大類城市參數(shù)指標(biāo)進(jìn)行了集成用于預(yù)測實(shí)驗(yàn)。詳細(xì)情況見表1。

表1 城市參數(shù)數(shù)據(jù)集

3.2 實(shí)驗(yàn)及結(jié)果

數(shù)據(jù)的完整性很重要,會(huì)影響到后續(xù)的數(shù)據(jù)處理。本文對(duì)于重要的數(shù)據(jù),使用的是相對(duì)于丟棄更常用的補(bǔ)全。首先利用Pandas的fillna方法,將原始數(shù)據(jù)集中的缺省值部分填充為相應(yīng)特征下樣本的平均值(df.fillna(df.mean()['chas':'rm']));再利用StandardScaler對(duì)上一步處理后的數(shù)據(jù),采用公式(2)進(jìn)行數(shù)據(jù)去均值和方差,實(shí)現(xiàn)數(shù)據(jù)歸一化,以便更好地對(duì)數(shù)據(jù)進(jìn)行特征提取。

(2)

式中:μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。

將歸一化后的6個(gè)指標(biāo)(x=(x1,x2,...,x6))作為PDTR模型的自變量,將流動(dòng)人口(10萬人)y作為因變量。

本文共采集46項(xiàng)城市參數(shù)指標(biāo),為了更好的保存數(shù)據(jù)信息且提高實(shí)驗(yàn)效率,使用PCA時(shí)選取了前24項(xiàng)主成分,將數(shù)據(jù)從46維降維24維;在使用Decision Tree Regression時(shí),本文針對(duì)2016年數(shù)據(jù),將max_depth參數(shù)即決策回歸樹的最大深度設(shè)置為從1開始,通過不斷迭代直至達(dá)到極限,得到圖4所示結(jié)果。將min_weight_fraction_leaf參數(shù),即最小權(quán)重系數(shù)設(shè)置為從0開始,通過不斷迭代直至達(dá)到極限,得到圖5所示結(jié)果。

圖4 2016年均方誤差變化情況

圖5 2016年均方誤差變化情況

圖4中藍(lán)色折線代表2016年份的原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理后,對(duì)設(shè)置了不同max_deep值的決策樹回歸模型進(jìn)行訓(xùn)練,得到的均方誤差值。從圖4中可以看出,將max_deep值設(shè)置為14時(shí),預(yù)測的絕對(duì)誤差相對(duì)較小。因此,本文在使用決策樹回歸模型時(shí)將該參數(shù)設(shè)置為14。

圖5中藍(lán)色的折線代表2016年份的原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理后,使用處理后的數(shù)據(jù)對(duì)設(shè)置了不同min_weight_fraction_leaf值的決策樹回歸模型進(jìn)行訓(xùn)練,得到的均方誤差值。當(dāng)min_weight_fraction_leaf值設(shè)置為0時(shí),代表不使用權(quán)重。從圖5中的趨勢(shì)可以看出,當(dāng)該參數(shù)值設(shè)置為0.01時(shí),均方誤差達(dá)到最小。因此,本文將該參數(shù)的值設(shè)置為0.01。

本文從研究總體中選擇2013年的數(shù)據(jù)作為訓(xùn)練集,將2014~2017年的數(shù)據(jù)作為測試集。將預(yù)測值與真實(shí)值進(jìn)行比較,并計(jì)算平均絕對(duì)誤差(MAE)、均方誤差(MSE)、中值絕對(duì)誤差(MDAE)、可解釋方差值(EVS)和R方值(R2),與進(jìn)行過數(shù)據(jù)標(biāo)準(zhǔn)化和PCA處理的SVR算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表2。

表2 模型評(píng)價(jià)

由于本文進(jìn)行對(duì)比分析的數(shù)據(jù)樣本數(shù)量相同,因此R2值可以很好地反映出本文所使用的回歸模型擬合程度效果的好壞。從表2可以看出,本文提出的算法與SVR相比,平均絕對(duì)誤差、均方誤差、中值絕對(duì)誤差的值更接近于0,可解釋方差和R方值更接近于1,證明PDTR模型性能良好。從圖6~圖9可看出,模型對(duì)2014~2017這4年預(yù)測的結(jié)果變化趨勢(shì)與真實(shí)值近乎相同。

圖6 2014年對(duì)比圖

圖7 2015年對(duì)比圖

圖8 2016年對(duì)比圖

圖9 2017年對(duì)比圖

4 結(jié)束語

本文探究了國內(nèi)各城市人口流動(dòng)情況與城市參數(shù)之間的關(guān)系,選取了6種城市參數(shù)(燃?xì)狻⒐┧⒐帷⒊鞘惺腥荨⒐步煌ā⒕G地園林)共45項(xiàng)指標(biāo)。由于不是所有指標(biāo)都對(duì)人口流動(dòng)有影響,因此對(duì)原始數(shù)據(jù)進(jìn)行特征提取,選出有效特征進(jìn)而進(jìn)行數(shù)據(jù)分析。本文提出的PDTR模型通過實(shí)驗(yàn)分析,可以很好地解決上述問題。本文采用主成分分析方法(PCA)進(jìn)行特征提取。該方法可以在很大程度不損失數(shù)據(jù)信息的條件下,對(duì)原始高維度數(shù)據(jù)進(jìn)行降維,即通過變換映射到低維空間中。通過實(shí)驗(yàn)驗(yàn)證,PCA的n_components超參數(shù)為24,對(duì)原始數(shù)據(jù)進(jìn)行去燥和降維;Decision Tree Regression的max_depth超參數(shù)為14、min_weight_fraction_leaf超參數(shù)為0.01時(shí),可以很好的進(jìn)行預(yù)測,得到的結(jié)果相對(duì)準(zhǔn)確。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品无码日韩国产不卡av| 91精品免费久久久| 亚洲第一网站男人都懂| 在线免费观看AV| www中文字幕在线观看| 激情视频综合网| AV熟女乱| 91久草视频| 国产在线一区视频| 日韩av手机在线| 国产在线一区视频| 中文成人在线| 无码一区二区三区视频在线播放| 久久久久久尹人网香蕉 | 国产老女人精品免费视频| 国产成人亚洲无码淙合青草| 国产成人免费手机在线观看视频 | 亚洲综合色婷婷| 国产成人综合亚洲网址| 欧美国产日韩在线观看| 亚洲精品高清视频| av在线手机播放| 日韩欧美国产精品| 国产区福利小视频在线观看尤物| 欧美精品1区2区| 国产剧情一区二区| 亚洲区一区| 亚洲高清在线播放| 一级毛片高清| 久操线在视频在线观看| 中文国产成人精品久久| 国产一级片网址| 无码中文字幕乱码免费2| 色综合天天娱乐综合网| 婷婷综合在线观看丁香| 91国内视频在线观看| 色播五月婷婷| 亚洲综合天堂网| 免费无码又爽又黄又刺激网站| 538国产在线| 97色伦色在线综合视频| 欧美日本激情| 成年女人a毛片免费视频| 91年精品国产福利线观看久久| 91毛片网| 国产第一页免费浮力影院| 日本成人精品视频| 日本道综合一本久久久88| 99久久无色码中文字幕| 国产91全国探花系列在线播放| 久久国语对白| 国产成人亚洲毛片| 成人午夜久久| 免费A级毛片无码免费视频| 国产乱肥老妇精品视频| 91福利免费视频| 国产日韩精品欧美一区灰| 国产主播一区二区三区| 中文字幕无码电影| 香蕉国产精品视频| 午夜日本永久乱码免费播放片| 国产成人精品无码一区二| 欧美一区精品| 国产在线一区视频| 成年人国产网站| 亚洲欧洲日韩国产综合在线二区| 欧美亚洲中文精品三区| 成年A级毛片| 国产91视频观看| 中文字幕天无码久久精品视频免费| 亚洲精品免费网站| 性色一区| 久久一级电影| 九色国产在线| 亚洲精品波多野结衣| 国产精品无码作爱| 国产黄色片在线看| 成人夜夜嗨| 54pao国产成人免费视频| 夜夜操天天摸| 亚洲精品老司机| 亚洲经典在线中文字幕|