王森, 蔡小莉, 鮑云飛, 詹邦成
(1.武漢大學信息管理學院, 武漢 430072; 2.河南大學河南省大數據分析與處理重點實驗室, 開封 475004; 3.北京空間機電研究所, 北京 100094)
近十年來,由于數據共享政策和傳感器的快速發展,夜光遙感成為了遙感領域的熱門分支之一。夜光遙感已經被廣泛應用于人文地理、區域經濟、地緣政治等研究領域,甚至金融行業也開始利用夜光遙感數據。由于數據豐富和成本低廉,衛星遙感是夜光遙感的主流手段。遙感方法是從空間角度對社會經濟發展狀況進行測繪和分析的最有效和最廣泛使用的手段之一。遙感影像以其覆蓋面廣、效率高、客觀性強等優點,為人類提供了海量的空間信息,在建成區提取、土地擴展探測、土地利用制圖、土地覆蓋變化分析、城市景觀結構檢測、城市空間結構分析方面有豐富的應用。在這些研究方向中,利用直接探測到的長時間序列夜間燈光進行國內生產總值(gross domestic product,GDP)的估算是最具代表性的衡量人類社會活動的發展方向。
夜間燈光(nighttime light,NTL)遙感影像通過傳感器記錄地球表面的夜間光,可以探測來自城市、城鎮和工業區的燈光,在人類社會經濟活動檢測方面顯示出良好的性能。GDP可以有效地反映一個國家的國力和財力[1],準確的像素級GDP數據是了解區域經濟動態的基礎,是定量分析不同行政區劃、不同自然屬性和人文屬性地區經濟差異的基礎。不同地區的發展模式呈現出更加突出的地區差異。當今世界上大多數國家或地區根據當地需求獨立制定GDP統計口徑,導致無法直接比較國家/地區之間的統計數據,這會影響使用效率,很難有效客觀準確地反映GDP的時空演化規律和精細化的區域發展研究[2]。當使用經濟統計方法測算GDP時,會存在以下局限性:①統計尺度不一致、統計單位內部數據不統一等問題,難以在精細尺度上反映區域經濟發展的差異;②在一些偏遠地區,其經濟資料難以獲取,且數據的可靠性不高;③對于少數地方、少數企業、少數單位在GDP統計時存在弄虛作假和統計造假行為、統計違法違規的現象,也成“擠水分”等現象。傳統的方法在預測GDP時,提取模型的建立方法時大多為簡單的線性回歸模型、冪函數回歸模型、二次函數模型、多項式法等模型,模型在構建時太傳統,因此難以給出準確地預測。準確地計量GDP,對于了解區域經濟的動態變化,滿足跨學科研究的需要具有重要意義。
夜間燈光數據可以彌補上述所說的不足,與傳統的社會經濟普查相比,遙感影像在描述GDP預測方面具有明顯的優勢。首先,夜間燈光數據不受區域間價格因素的困擾。目前,中國僅在地級城市之間計算各種價格指數,如果把每個縣的GDP數據進行之間比較,就無法消除在地區之間產生的價格因素。其次,夜間燈光數據包括的市場經濟的商品和服務不僅是以GDP衡量的,而且還包括市場不提供的商品和服務的價值,因此它對于反映一個國家或地區的經濟發展是很真實的。夜間燈光數據作為一種全球無差別的夜間觀測量,以其獨特的方式描述地球經濟活動強度。它可以覆蓋整個世界,并且不由于行政區域的差異而產生差異,因此,夜間燈光數據可以用作獨特的時空輸入,在預測GDP方面得到了廣泛的應用[3]。Nataliya等[4]利用DMSP/OLS(defense meteorological satellite program/operational linescan system)數據研究證實了利用夜間光衛星測量數據重建經濟活動地理格局的可行性,且夜間光強度往往隨著人口密度和人均GDP的增加而增加。范強等[5]通過構建多項式預測模型,分析了比較長時間序列燈光集和GDP之間的關系。Zhou等[6]定量研究了NTL與GDP和人口之間的相關性,研究結果表明夜間燈光與GDP和人口具有顯著的正相關。并通過一系列不平等系數,得出中國中西部存在明顯的區域差異。研究使用的夜光遙感數據是柵格數據,每個圖像中蘊藏著大量的數據信息。從夜間燈光數據中可以看到光亮度的變化和分布,從而提供更多的時間和空間信息。
目前利用Suomi國家極軌伙伴關系(national polar-orbiting partnership,NPP)衛星攜帶的可見紅外成像輻射計套件(visible infrared imaging radiometer,VIIRS)的數據進行估算經濟參量的研究相對較多,但很少有研究使用VIIRS數據利用機器學習算法進行GDP預測。為此,利用長時序夜間數據建立長三角地區GDP智能預測模型,以此對該地區的GDP進行及時有效地預測,并進一步分析不同地區的經濟差異。研究結果為夜光數據的應用領域和應用方式,以及地區的可持續規劃和發展提供了決策依據。
隨機森林(random forest,RF)模型是一種Bagging集成算法,具有靈活度高、不易過擬合、準確率高的特性,有廣闊的應用場景[7]。隨機森林的有關理論可參考李倩倩等[8]的研究。隨機森林可以用來解決回歸問題和分類問題,當它被用來做回歸問題時,原理是通過對樣本進行隨機抽取并放回,生成對個決策樹,并把決策樹的結果進行平均作為模型輸出[9]。因此,隨機森林能夠對高維特征數據進行評估及處理的能力[10]。
隨機森林有兩個重要的參數:樹的數目和分割的特征數。與多元線性回歸、地理擴展回歸和人工神經網絡方法相比,隨機森林算法不需要考慮多重共線性問題,可避免過度擬合問題,運算速度高且適合處理高維特征數據等優點[11-13],因此在人口模擬,生態學,經濟學,醫學等領域均運用較廣泛。對于隨機森林來說其算法的核心步驟如下。
步驟1使用Bootstrap方法選擇可替代的樣本,依次選擇m個集合作為樣本。共生成ntree棵樹的訓練集。
步驟2對ntree棵樹進行訓練并產生相應的模型。
步驟3根據分區索引為每個拆分選擇最佳特征。
步驟4每個決策樹都是獨立拆分的,并且在決策樹的拆分過程中不需要修剪,直到該例程的所有訓練示例都屬于同一類別為止。生成的多個決策樹形成一個隨機森林,并且將每個決策樹的分類或預測結果進行整合。
算法流程圖如圖1所示。

C1為學習集S1產生的模型;C2為學習集S2產生的模型;C3為學習集S3產生的模型;X為模型的最佳特征圖1 隨機森林算法流程圖Fig.1 Algorithm flowchart of random forest
中國的長江三角洲(117°29′E~123°01′E,27°64′N~34°33N)地區是指上海,浙江,江蘇和安徽省(三省一市)。地勢主要包括安徽蘇濱河平原、長江三角洲平原和里下河平原。根據2019年長三角區域一體化發展規劃,長三角城市群包括214個縣。它的面積為22.5×104km2,總人口約為2.43億,研究區域如圖2所示。

圖2 研究區域Fig.2 Study area
VIIRS原始數據采用WGS1984坐標系,其夜光影像獲取時間為凌晨1:30,VIIRS空間分辨率為15″[14],這會造成影像隨著緯度的增大而減小的問題。為了避免影像由于坐標系發生的變形影響及便于方便計算影像面積,將所有的NPP/VIIRS影像數據都轉換為Albers等積投影坐標系。最后將影像重采樣為0.5 km×0.5 km大小的網格。研究中使用的第一版VIIRS月合成數據并沒有處理如極光、火光和其他短暫性光源的影響,因此存在背景噪聲,燈光輻射率值存在負值、極小值、極高值的特點,這些噪聲和異常值數據的存在會影響數據模擬精度。針對這種情況,根據Shi等[15]的方法做了以下處理:把小于零的值設為0.001(近似為0,對統計分析沒影響),把背景值設為0;將大于235的數值設為235,以刪除一些異常值。由于原始獲取的 NPP/VIIRS 夜間燈光數據產品時間尺度為月度產品,進行空間化時需要使用合成后的全年數據,采用平均值法對其進行合成獲取得到2012—2018年長三角區域NPP/VIIRS年度數據。研究區VIIRS影像如圖3所示。
除NPP/VIIRS夜間燈光數據之外,研究區還采用建成區面積、戶籍人口、全社會用電量等其他輔助數據。其中經濟統計數據從《中國城市統計年鑒》中查找并收集了長三角地區214個縣的2012—2018年GDP數據(單位:億元)。表1列出了所使用的數據。

DN(digital number)表示像元,DN值越大,亮度越亮圖3 處理后的研究區夜光數據Fig.3 Processed nighttime data of the study area

表1 其他輔助數據Table 1 Other auxiliary data
貝葉斯優化算法是所有優化算法中較高效的一種優化算法,許多研究表明貝葉斯優化可以替代解決復雜問題中的其他優化算法。它使用先前搜索到的點的信息來確定下一個搜索點。其原理是在不知道目標函數時,充分利用已存在的采樣點來預測函數的最大值[16]。
在數學上,可以統一替換問題描述為替代目標功能的替代最優解,可表示為[17]

(1)
式(1)中:x為要進行優化的參數;X∈R;x*為要進行優化的參數集合;f(x)為要預測最大值的目標函數。
算法的思路是首先生成一個初始候選解集合,然后根據這些點尋找下一個有可能是極值的點,將該點加入集合中,重復這一步驟,直至迭代終止。最后從這些點中找出極值點作為問題的解。
這里的關鍵問題是如何根據已經搜索的點確定下一個搜索點。貝葉斯優化根據已經搜索的點的函數值估計真實目標函數值的均值和方差(即波動范圍),如圖4所示。由圖4(a)可以看出,兩條虛線所夾區域為在每一點處函數值的變動范圍,在以均值即紅色曲線為中心,與標準差成正比的區間內波動。在搜索點處,紅色曲線經過搜索點,且方差最小,在遠離搜索點處方差更大,這也符合的直觀認識,遠離采樣點處的函數值估計的更不可靠。根據均值和方差可以構造出采集函數,即對每一點是函數極值點的可能性的估計,反映了每一個點值得搜索的程度,該函數的極值點是下一個搜索點,如圖4(b)所示。
算法的核心由兩部分構成:對目標函數進行建模即計算每一點處的函數值的均值和方差,通常用高斯過程回歸實現;構造采集函數0,用于決定本次迭代時的采樣位置。

紅色曲線為估計出的目標函數值即在每一點出處的目標函數值的均值;兩條虛線所夾區域為在每一點處函數值的變動范圍圖4 貝葉斯優化的原理Fig.4 Bayesian optimization principle
3.1.1 高斯過程
高斯過程(Gaussian process,GP)是把多個維度的高斯在無限維上進行擴展,它是隨機性的,高斯過程通過均值函數和協方差來進行定義的。
m(x)=E[f(x)]
(2)
k(x,x′)=E{f(x)-m(x)[f(x′)-m(x′)]}
(3)
式中:m(x)為均值函數;E為期望,k(x,x′)為協方差函數,當x=x′時,k(x,x′)=1,x和x′相差越大,k越趨向于0。
則高斯過程可表示為
f(x)~GP[m(x),k(x,x′)]
(4)
式(4)中:GP為高斯過程(Gaussian process)。
在計算時為了方便,通常將均值初始函數值設為0,當知道{(xi,fi)|i=1,2,…,n}時,則必然有一個高斯分布存在,其中(xi,fi)為第i個函數值,且滿足:
f~N[0,K(X,X)]
(5)
式(5)中:N為聯合分布;高斯過程的協方差矩陣K(X,X)和協方差函數k(x,x′)可分別表示為
(6)
(7)
因此,加入新樣本X*,并利用協方差矩陣生成一個新的高斯分布,可表示為
f*~N[0,K(X*,X*)]
(8)
由高斯過程的性質可得,訓練輸出f和測試輸出f*的聯合分布為

(9)
則f*的聯合后驗分布滿足:
f*|X*,X,f~N[K(X*,X)K(X,X)-1f,
K(X*,X*)-K(X*,X)K(X,X)-1K(X,X*)]
(10)
3.1.2 采樣函數
通過采樣函數可以確定下一個要評估的點,減少重復次數,大大降低優化成本。對采樣點函數進行選擇時,有兩方面需要考慮,一個是利用一個是探索。利用就是利用當前的最優解,在最優解附近尋找下一步的最優解,探索是對未評估過的點進行探索,避免只在局部探索而造成的不全面的搜索。
對于采樣函數,常用的有:期望的改進函數EI、改進的概率函數PI以及上限置信區間UCB。本實驗選擇UCB作為采用函數,函數公式為
UCB(x)=μ(x)+εδ(x)
(11)
式(11)中:μ(x)和δ(x)分別為利用高斯過程并結合后驗分布函數得到的均值和協方差;利用式(11)可以對參數ε進行修剪和調節。
將實驗數據集中的2012—2017年長時間序列數據為訓練集,2018年數據為測試集,將訓練集進行訓練。并且通過交叉驗證確定參數以獲得最佳的模型效果。
為了提高預測精度,利用貝葉斯優化對參數進行優化,貝葉斯優化作為調參利器的一種,它是一種黑盒優化算法,用于求解表達式未知的函數的極值問題。算法根據一組采樣點處的函數值預測出任意點處函數值的概率分布,這通過高斯過程回歸而實現。根據高斯過程回歸的結果構造采集函數,用于衡量每一個點值得探索的程度,求解采集函數的極值從而確定下一個采樣點。最后返回這組采樣點的極值作為函數的極值,優化流程如圖5所示。
超參數是進行模型訓練時用于控制算法行為的參數。由于這些參數并不能從常規訓練中得到。因此在進行訓練模型前,需要為它們分配值。
對于隨機森林,當“子模型數”的值增加時,它對減少模型的總體方差具有顯著作用,但對子模型的偏差和方差沒有影響。但是,由于改變是為了減少模型方差公式的第二項,因此提高精度存在上限。在不同條件下,“分裂準則”對模型的準確性有不同的影響,并且在實際使用中需要靈活調整此參數。如果希望模型具有較低的偏差和較高的方差,則需要制作更多的葉節點或樹的深度變的更深;同時,通過調整“min_samples_leaf”和“min_weight fraction_leaf”,這意味著子模型結構較為復雜,一般情況下,使用bootstrap進行子采集可以減少樣本之間的相關性。在分割過程中,適當減少考慮的最大特征數量“max_features”,或者將其他的隨機性考慮到子模型中也能使子模型之間相關程度降低。但是,如果盲目地對此參數進行減少是不行的,因為在拆分過程中的可選功能比較少,因此會導致模型的偏差逐漸增大。圖6中,可以看到上述參數對隨機森林模型的整體性能的影響。
本實驗主要對max_depth、min_samples_leaf、n_estimators、min_samples_split這4個主要參數進行貝葉斯優化以提高預測精度。其中,將max_depth的值設置為None。貝葉斯優化過程主要包括先驗函數和采集函數,PF是利用高斯過程來實現的,采集函數包括EI、PI、UCB[18-19]
構建貝葉斯優化改進的隨機森林模型使用sklearn庫以及scikit-optimization的BayesSearchCV,模型的超參數范圍設max_depth[5,15],n_estimators[10,250],min_samples_split[2,25],min_sam-ples_leaf[1,10]。使用sklearn 中的貝葉斯搜索函數對上述函數設置的區間進行搜索,同樣以RMSE作為精度評價指標,進行最優參數組合。偽代碼如下。
輸入:f,x,s,m
輸出:一組最近的超參數
1.begin
2.D←initsamples(f,x)
3.fori←|D|toTdo
4.p(y|x,D)←fitmodel(m,D)
6.yi←f(xi)
7.D←D∪(xi,yi)
8.end for
其中,f為所謂的黑盒子,即輸入一組超參數,得到一個輸出值;T為目標函數;x為超參數搜索空間;s為采集函數;m為對數據集D進行擬合得到的模型;D←initsamples(f,x)這一步驟就是初始化獲取數據集D=(xi,yi),(xi+1,yi+1),…,(xn,yn),其中yi=f(xi),這些都是已知的;每次選出參數x后都需要計算f(x),因此一般需要固定選參次數(或者是函數評估次數),p(y|x,D)←fitmodel(M,D),預先假設M服從高斯分布,且已知了數據集D,因此可通過模型函數表示;xi為一組超參數;yi←f(xi)表示由xi去得到超參數yi;D←D∪(xi,yi)表示更新數據集。
貝葉斯參數優化過程如表2所示。

a表示對模型性能的影響;p表示參數的遞增;o為原點坐標圖6 隨機森林參數對整體模型性能的影響Fig.6 The influence of random forest parameters on overall model performance
可以看出,僅迭代了30次,貝葉斯優化就得到了最優參數組合。
從圖7可以看到,在前面15次迭代時,R2變化較大,但是迭代15次后,R2就很穩定,這說明貝葉斯優化已經找到相對較好的參數組合。最后得到最優的參數組合如表3所示。
優化結果顯示當4個超參數的值分別取以上值時可以取得最小均方根誤差(root mean squared error, RMSE),將參數 max_depth、min_samples_leaf、min_samples_split、n_estimators取14.43、1.289、2.828、241.3時預測精度最高,編譯函數采用fit(·)。

表2 貝葉斯參數優化Table 2 Bayesian parameter optimization
網格搜索即通過對所有的參數進行循環遍歷,最終選擇使得機器學習模型表現最好的參數或參數組合,也稱為“窮舉法”,無確定的函數公式與之相照應。它的關鍵是調優搜索。通過構建參數候選集合,對所有候選參數進行選擇時,通過循環嘗試各種可能性,具有最佳性能的參數是最終結果,它類似于手動調整。對于連續型的超參數,對其可行域進行網格劃分,選取一些典型值進行計算。假設需要確定的超參數有2個,第1個的取值為[0,1]之間的實數,第2個的取值為[1,2]之間的實數。則可以按照如下的方案得到若干離散的取值,以這些值運行算法:將第1個參數均勻的取3個典型值,將第2個參數均勻的取3個典型值。對于所有的取值組合運行算法,將性能最優的取值作為超參數的最終取值,這種方法如圖8所示。
網格搜索隨著參數數量的增加呈指數級增長,因此對于超參數較多的情況,該方法面臨性能上的問題。著名的支持向量機(support vector machine,SVM)開源庫libsvm使用了網格搜索算法確定SVM的超參數。

圖7 迭代結果曲線Fig.7 Curve of iteration results

表3 最優參數組合Table 3 Optimal parameter combination

圖8 網格搜索的原理Fig.8 Principle of grid search
網格搜索的基本原理是,首先設置參數的值范圍,然后通過特定步長將參數的可行區間劃分為網格,然后通過搜索每個網格將參數的值控制在一定范圍內。并根據特定規則搜索所有交點,并以此方式找到每個最佳目標函數的交點。此時,最佳參數是交點處的參數[20-21]。
當徑向基函數(rodial bosis function, RBF)的核函數選擇后,懲罰因子C和核函數參數σ也要確定,以提高故障識別率。在網格搜索方法中,懲罰因子C的間隔為C∈[C1,C2](其中,C1為懲罰因子最小值,C2為懲罰因子最大值),其改變步長為CS,核函數參數的間隔為σ∈[σ1,σ2](其中,σ1為核函數參數最小值,σ2為核函數參數最大值),其改變步長為σS。網格搜索方法對網格區間中的每對參數(C′,σ′)執行模型訓練和故障識別率計算,最后把識別率最高的參數作為模型的參數。網格搜索實際上是一個n層循環(n為參數的數量),其計算步驟如下。
步驟1初始化精度為0和參數C,σ的初始值C1、σ1。
步驟2固定步長C增長CS,C=C+CS。
步驟3固定步長σ增長σS,σ=σ+σS。
步驟4引入參數(C,σ)建立支持后量機(support vector machine,SVM)模型,使用測試樣本計算預測準確率,與上一步準確率的進行比較,如果準確率得到提高,則將該參數C、σ替換上一步C、σ,反之亦然。
步驟5判斷σ是否增加到σ2,如果是,則跳至步驟6;如果不是,則執行步驟3。
步驟6判斷C是否增長到C2,如果是則執行第7步,如果不是,則執行第2步。
步驟7當前C和σ作為為最優參數,計算結束。
通過上述循環找到RBF函數的最佳參數之和就足夠了。
為了對預測算法的精度進行提高,需要對參數進行優化,提出一種基于袋外數據估計的回歸誤差,采用改進的網格搜索算法對隨機森林(random forest,RF)模型進行參數調優,流程圖如圖9所示。設隨機森林樹的數量為n_estimators, 范圍設置為[50,100,150,200],樹的高度為max_depth, 范圍設置為[3,4,5,6],拆分內部節點所需的最小樣本數為min_samples_split,范圍設置為[2,3,4,5]。葉子節點所需的最小樣本數為min_samples_leaf,范圍設置為[1,2,3,4]。采用網格搜索算法根據步長對參數進行依次調整,對參數范圍依次遍歷找到使精度最高的參數,并利用5折交叉驗證對其進行評估。5折交叉驗證是通過將數據集平均分為5份,隨機選擇4份作訓練集,1份作測試集,一共進行5次訓練和測試,采用精度等評分方法計算平均值,然后找到評分最大的參數組合,得到預測精度最高的一組最優參數。
考慮到隨機森林算法中決策樹數k′和候選分裂屬性數mtry為離散值,提出的基于網格搜索改進的隨機森林模型進行參數優化時目標函數值選用袋外數據估計誤差。隨機森林模型在構建過程時存在隨機性,回歸誤差也會在一定范圍內存在波動,因此為減小不確定性對參數選擇的影響,在計算回歸誤差時選取多個結果的平均值作為隨機森林模型回歸誤差。當搜索完畢時輸出最優參數,其搜索過程用流程圖(圖10)來表示。
構建網格優化改進的隨機森林模型采用sklearn庫中的sklearn.ensemble模塊,從模塊中調用RandomForestRegressor函數對參數進行網格優化,模型的超參數及范圍設置如表4所示。在本次實驗中,它總共構建了256個不同的模型。

圖9 優化的隨機森林算法整體流程Fig.9 Overall flow of the optimized random forest algorithm

圖10 基于改進的網格搜索算法的隨機森林參數尋優流程圖Fig.10 Flow chart of random forest parameter optimization based on improved grid search algorithm
在利用網格搜索算法對隨機森林模型進行改進時采用的函數是sklearn中的grid search函數[sklearn.Model_selection.GridSearchCV()],通過對上述設置的區間范圍進行搜索,以尋求模型精度最大時的最優參數組合。各參數與結果表現關系如圖11所示。圖11(a)為樹的最大深度與擬合優度R2的關系,圖11(b)為葉子節點所需的最小樣本數與擬合優度R2的關系,圖11(c)為拆分內部節點所需的最小樣本數與擬合優度R2的關系,圖11(d)為隨機森林樹的數目與擬合優度R2的關系。

表4 設置需要調整的參數及范圍Table 4 Set the parameters and ranges that need to be adjusted

test_score表示模型精度即擬合優度R2圖11 各參數與結果關系圖Fig.11 Relationship between parameters and nesults
調參結果顯示當n_estimators,min_samples_split,max_depth,min_samples_leaf′的取值分別為150、2、6、1時可以得到最小均方根誤差(root mean squared error,RMSE)和最大的擬合度R2值,將參數調整后的最優參數組合輸入模型,使用predict函數來預測。此時得到的最優R2值為0.961 8,RMSE值為0.039 5,平均絕對誤差(mean absolute error,MAE)值為0.021 6。
模型預測性能對比分析如表5所示。經過貝葉斯優化和網格優化后的R2分別從0.951 0提高至0.975 3和0.961 8,同時參考其他幾個評價指標,都顯示預測效果有明顯提高。其中基于貝葉斯優化改進隨機森林模型預測精度最高,且有明顯提高,均方根誤差值也最小。預測結果對應的柱狀圖如圖12所示。

表5 模型預測性能對比分析Table 5 Comparative analysis of model prediction performance

圖12 改進前后模型預測對比柱狀圖Fig.12 Histogram of comparison of model predictions before and after improvement
可以看出,網格優化改進隨機森林模型后運行時間T由原來的4.95 s提高至3.23 s。貝葉斯優化改進隨機森林模型后運行時間由原來的4.95 s提高至3.12 s,比網格優化提升更高且參數搜索范圍大大增加。
為了更形象生動的比較上述算法的預測精度,將改進前后的3種模型的預測結果與真實值進行比較,如圖13所示,可以看出,基于貝葉斯優化和網格優化調整超參數改進后的模型的預測結果基本和零誤差線y=x重合,說明貝葉斯優化改進的隨機森林模型和網格優化改進的隨機森林模型預測的結果和真實值基本一致;其預測精度在所有算法中達到最大。

圖13 不同模型測試集真實值與預測值相關性Fig.13 Correlation between the true value and the predicted value of the test set of different models
采用機器學習算法并結合NPP/VIIRS夜間燈光數據進行長三角地區GDP的智能預測研究,通過對數據集的一系列處理,對隨機森林算法進行了貝葉斯優化和網格搜索自動調參,對算法中的超參數調優,該優化方法將預設的模型參數自由組合,對所有參數組合進行遍歷搜索,通過對3種指標的分析,比較不同模型的特征并對模型進行評估。結果表明,預測效果最好的是貝葉斯優化改進的隨機森林模型,R2達到了0.97,優化后的隨機森林模型有明顯提高。后續的研究可以圍繞著擴展模型的訓練樣本集、采用更長年限的長時間序列數據集、改進目前使用的模型等方面進一步開展,促使模型更加健壯和可靠。