汪 濤,林 川,郭生偉
(1.華北計算技術研究所,北京 100083;2.中電太極(集團)有限公司 國際部,北京 100083)
隨著社會科學技術水平的飛速發展,很多領域都需要有預測工具來輔助人們進行相關決策,比如天氣變化[1]、股票市場[2-4]、學校招生[4-7]等。1993年,Qiang和Chissom[8]將模糊集理論應用到時間序列分析中,并分別研究了時不變模糊時間序列模型和時變模糊時間序列模型對Alabama 大學入學人數的預測情況。提出了四步驟的預測框架:1)定義和劃分論域區間。2)定義模糊集,對時間序列模糊化。3)建立模糊推理規則。4)預測和去模糊化得到推理結果。使用最大最小組合來處理模糊規則,當模糊規則矩陣很大時,需要大量的計算時間。隨著研究的不斷深入,研究者們發現影響模型預測精確度和效率的主要有以下兩個因素。1)論域的定義和劃分:Huarng[9]研究了論域區間長度和預測精度的關系,并提出了基于分布和基于平均值的啟發式方法對區間進行非等分劃分。Huarng 的研究打破了早期對區間均分的束縛,此后不少研究者基于遺傳算法[10]、粒子群優化算法[4,6-7]、人工魚群算法[11]對論域進行非等分劃分。2)去模糊化預測方法:Kuo[6]開發了一種將全局模糊邏輯關系和最新的模糊波動LFF 的局部信息相聚合的方法來尋找預測值,使用均方誤差MSE 來衡量預測精度。Guan[2]和Alyousifi[12]提出了基于模糊集理論和馬爾可夫鏈的模糊時間序列預測模型,在預測股票指數變化中都取得了較好的效果。
基于混合策略改進鯨魚優化算法的高階模糊時間序列分析混合預測模型,在針對鯨魚優化算法[13](Whale Optimization Algorithm,WOA)求解高維多目標優化等復雜問題時,存在收斂速度較慢、求解精度低、容易陷入局部最優解等問題,引入混沌初始化[14]、非線性參數變化、萊維飛行[15]、記憶行為和貪婪策略進行優化算法,用混合策略改進的鯨魚優化算法(Mix-Improved Whale Optimization Algorithm,MWOA)在論域空間中尋優,從而優化模糊區間的劃分。模糊邏輯推理規則定義參考Chen[4-5,10]提出的模糊關系和模糊邏輯關系組。混合模型在訓練過程中使用Kuo 提出的基于下一狀態EBN[7](Estimating Based On Next State)方法;在測試過程使用一種改進的基于有序加權平均的OWA[16](Ordered Weighted Averaging)方法。為驗證混合模糊時間序列模型的有效性,通過Alabama 大學入學人數數據集進行仿真實驗,并與國內外現有模型進行對比分析,采用評估指標均方根誤差RMSE 和平均絕對百分比誤差MAPE 作為評價指標,在訓練和預測階段,混合模型獲得了最小的RMSE 和MAPE 值。
鯨魚優化算法WOA 是由Mirjalili 和Lewis[13]在觀測座頭鯨的狩獵行為后,提出的啟發式優化算法,其尋優過程主要分為包圍獵物、泡泡網捕食和隨機捕食三部分。
1.1.1 包圍獵物
WOA 算法假定目標獵物位置或附近就是當前的最優解,其他鯨魚都會嘗試游動靠近最優解,鯨魚個體位置移動更新的數學表達式為:
1.1.2 泡泡網捕食
WOA 算法假定收縮包圍和螺旋運動兩種概率均等,各為0.5。在螺旋運動向獵物靠近時,位置關系更新公式為:
1.1.3 隨機捕食
1.2.1 混沌初始化和透鏡反向學習
在智能優化算法中,初始化種群的多樣性、普適性程度對算法收斂速度有一定影響:種群初始化分布越均勻,越具有普適性,越有利于算法尋優過程,減少迭代次數。常規算法中通常用隨機數生成初始種群,這樣不夠充分均勻的種群分布,在尋優中難以覆蓋整個搜索空間,容易陷入局部最優解,部分解可能遠離最優解,影響算法收斂速度。
低差異的Sobol[17]序列和混沌映射[18]都具有分布均勻、收斂速度快的特點。Tent 混沌映射較常用的Logistic 映射具有更優越的混沌特性,在解空間分布更具有混沌特性,Tent混沌映射表達式為:
其中,α∈[0,1]。假設鯨魚種群規模為POP_NUM,搜索空間為DIM 維歐式空間。
Tizhoosh[19]提出了反向學習,其中的透鏡成像反向學習可以基于當前解,尋找基于透鏡成像過程對應的反向解,綜合評估當前解種群和反向解種群,篩選出適宜度更高的POP_NUM 只個體,組成初始種群,可更好地脫離局部最優解。
混合策略改進鯨魚優化MWOA 算法中,拋棄了傳統隨機初始化方法,采用一種混合初始化策略:生成POP_NUM 維度的Sobol 序列s={si,i=1,2,3,…,POP_NUM},再利用具有優越混沌特性的Tent 混沌映射將Sobol 序列生成POP_NUM·DIM 維的混沌映射t={ti,i=1,2,3,…,POP_NUM},ti={tij,j=1,2,3,…,DIM}。將混沌映射t映射到解空間得到混沌解空間,使用透鏡成像反向學習得出反向解空間,采用精英策略聯立混沌解空間和反向解空間,建立初始解空間。在擴大了可行解范圍的同時,保留了優質解方法,提高了種群適宜度的質量,可更好引導個體尋找最優解,降低了迭代次數。
1.2.2 非線性收斂因子
在WOA 算法中,收斂因子a→隨著迭代次數線性遞減至0,決定是全局探索還是局部開發。但是收斂因子的線性變換并不能夠很好地模擬座頭鯨的捕獵策略,可能導致算法全局搜索不夠徹底,局部開發收斂較慢。MWOA 算法采用一種非線性變化收斂因子,更新公式為:
其中,ITER 為最大迭代次數。

圖1 改進收斂因子對比
1.2.3 萊維飛行
萊維飛行[20]是基于數學家萊維(Levy)提出的萊維概率分布實現的一個隨機移動過程,在大概率短距離游走的同時,可能有較大步長的跳躍,不僅能夠增強深入局部搜索的能力,還有利于跳出局部最優。由于傳統WOA 算法易陷入局部最優,MWOA給最優個體引入萊維飛行機制:小步長可以加快對最優解的探索過程,大步長能夠幫助脫離局部最優解。萊維飛行步長L(λ) 服從Levy 分布,數學模型為:標準Gamma 函數。給當前迭代中最優個體引入萊維飛行,位置更新關系為:
1.2.4 記憶行為
MWOA 在傳統WOA 算法基礎上,增加一種記憶尋優移動行為,在位置關系中引入歷史全局最優個體,可有效利用之前迭代獲得的信息用于之后的搜索過程,記憶行為位置更新關系為:
其中,rand 為-1 到1 之間的隨機數,值得注意的是,式(13)和式(14)得到新種群個體位置后,計算適應度后采用貪婪策略,如果優于原位置,就更新該個體坐標,若全局最優個體發生了變化,也應該實時更新全局最優個體位置及其適應度。
模糊時間序列最早由Qiang 和Chissom[8]于1993 年提出,與傳統時間序列的差異主要在于模糊時間序列值是基于對論域進行模糊區間劃分后定義的,定義U為論域,U由有限個互斥元素構成,即U={u1,u2,…,un},則論域U上的模糊集合A可表示為:
其中,fA是關于U上定義模糊集A的隸屬函數,xi是A中元素,fA(xi)表征xi對模糊集A的隸屬程度,并且滿足fA(ui)∈[0,1]。
定義1:設定論域U(t)(t=0,1,2…)為R上一任意子集,fi(t)(t=0,1,2…)為論域U(t)上的模糊集,且若有F(t)={f0(t),f1(t)…},稱F(t) 為U(t) 上的模糊時間序列[8],其中F(t)表示t時刻的語言變量,fi(t)是所有可能的語言變量取值。
定義2:設有模糊時間序列F(t)(t=0,1,2…),若滿足F(t)由其前n(n≥1)個模糊序列確定,即:
則稱其為n階模糊時間序列模型。若F(t-n)=Ai,F(t-n+1)=Aj,…,F(t-1)=Am,F(t)=Ak,則 稱Ai,Aj,…,Am→Ak為一個n階模糊邏輯關系。Ai,Aj,…,Am稱為前件,Ak稱為后件,當前件相同,后件不同時,可用模糊邏輯關系組合并表示[8]。
影響模糊時間序列預測模型準確度的主要因素之一是論域的劃分問題,混合模型將MWOA 算法用于論域劃分,為尋得更合理的模糊區間分割點。以Alabama 大學1971—1992 年的入學人數數據集為例,建立三階模糊時間序列預測模型,圖2 為具體算法流程。

圖2 混合策略改進鯨魚優化算法的模糊時間序列模型預測流程
步驟1:劃分數據集和初始化參數
混合模型分為訓練階段和測試階段,以Alabama大學1971—1992 年入學人數作為樣本數據說明。首先要確定論域U的上下界,在以前的工作中,都是適當擴大實際數據集的上下界作為論域區間,這樣并不能真實反映數據的變化范圍。混合模型使用MWOA 算法尋找更合理的論域上下界,因此當決定把論域U劃分為n個模糊區間時,劃分點的個數D=n+1。設置鯨魚個體數為POP_NUM,算法最大迭代次數為ITER,其中參數設置為D=8,POP_NUM=100,ITER=100 。采用真實觀測值和模糊預測值的均方根誤差RMSE 作為鯨魚個體的適應度,計算公式為式(17),并用RMSE 和平均絕對百分比誤差MAPE 作為評價指標,MAPE 計算公式為式(18)。
依靠MWOA 算法把論域非等分劃分為t個區間,分別為:
步驟2:建立模糊集和模糊邏輯關系
混合模型沿用Chen[4]提出的方法和隸屬度函數確定對應模糊集,表1 為將實際觀測值模糊化得到的模糊數據序列和建立的三階模糊邏輯關系。
步驟3:去模糊化并求預測值
表1 中每個模糊邏輯關系都可以創建其對應模糊預測規則,該規則為去模糊化預測方法,在訓練階段采用Kuo[7]提出的基于下一狀態的EBN 預測方法。由于模糊時間序列中,預測值的確定與過去的觀測值呈強相關關系,離預測值時間越近的觀測值對預測值影響越大[6]。
在測試階段,對有序加權平均(Orderd Weighted Averaging,OWA)[16]算子進行改進,提出一種基于次序和時序的混合非線性加權平均(Mixed Nonlinear Orderd Weighted Averaging,MN_OWA)算子 來計算歷史觀測值對應權重,以此計算t時刻的預測值F(t) 。
1)EBN 方法
據式(20)計算預測值F(t),其中,n為該模糊邏輯關系組中模糊邏輯關系個數,midk為模糊邏輯關系后件對應模糊區間的中點,submidk是對應模糊區間均分為三個小區間后,模糊邏輯關系后件實際觀測值對應小區間的中點值。
2)MN_OWA 算子
混合模型定義了一種基于次序和時序的平均加權MN_OWA 算子,其計算方法為:
①創建評估矩陣
統計F(t)之前的所有歷史數據模糊化后對應模糊集Ai重要性:將模糊集Ai按出現頻率升序排列,若出現頻率一致時,按時間先后排列,并給每個模糊集賦予非線性變化的評估系數μ(Ai)。如某模糊時間序列每個模糊集出現頻率升序排列為Ai,Aj,Ak,…Ap,Aq,以非線性變化加權確定模糊集的評估系數,表2 為其相關評估系數矩陣,n為歷史數據中所有出現過的模糊集種數。

表2 評估系數矩陣
②計算MN_OWA 算子權重
為集結盡可能多的語言量詞,獲得較好的魯棒性,定義MN_OWA 算子的權重計算公式為:
③去模糊化計算預測結果
為求t時刻的預測值F(t),前兩步可計算MN_OWA 算子權重ω=[ω1,ω2,…,ωn],計算t時刻之前n個觀測值模糊化對應的模糊集中點向量mid=[mid1,mid2,…,midn],通過式(22)去模糊化得到data 值,則t時刻預測值F(t)為data 所在模糊區間的中點值。
以三階模型中預測F(t) 需要集結三個觀測值F(t-3)、F(t-2)、F(t-1)為例,演示MN_OWA 算子的預測流程。當t=1 990 時,由表1 可知,t-3、t-2、t-1時刻對應模糊集分別為A4、A5、A6,按出現頻率和時間先后對1990 年之前的模糊集進行升序排序有A5、A6、A3、A0、A1、A4、A2,據表2 計算各模糊集的評估系數,可得A4、A5、A6的評估系數分別為μ(A4)=0.975、μ(A5)=0.223、μ(A6)=0.434,據式(21)計算模糊集A4、A5、A6對應權重向量ω=[0.076 1,0.137 0,0.786 9]。
據式(19)可知,模糊集A4、A5、A6中點向量mid=[16 622.5,17 899.0,19 139.0],據式(22)可計算data=mid×ωT=16 622.5×0.076 1+17 899.0×0.137 0+19 139.0×0.786 9=18 697.0。據式(19)和Chen[4]的模糊集隸屬函數可知,data 隸屬于A6模糊集,則預測值,即采用MN_OWA 算子預測1990 年入學人數為19 144,真實觀測值為19 328,此時的均方根誤差RMSE 為184,平均絕對百分比誤差MAPE為0.95%。
Alabama 大學入學人數數據集在Qiang 等[8]研究者首次提出模糊時間序列分析模型就被使用,有較多的基線實驗。混合模型使用Python3.7 編寫仿真程序,操作系統為Windows11,處理器為Intel i7-9750H 2.60 GHz,內存16 GB。使用式(17)定義的均方根誤差RMSE 為種群適應度,將論域空間劃分七個區間,建立三階模糊邏輯關系。為比較MWOA優化效果,與傳統鯨魚算法WOA[13]、遺傳算法GA[10]、粒子群算法PSO[6,21]、精英反向黃金正弦鯨魚算法EGolden_SWOA[22]、混合改進鯨魚優化算法LGWOA[23]就論域劃分進行比較。表3 為各算法的參數設置和獨立運行20 次的仿真結果,其中各算法的種群數和迭代次數均為100,圖3 為各算法結果平均值的收斂曲線。

表3 各算法參數設置及仿真結果

圖3 算法收斂過程對比
從表3 中可觀察出,MWOA 算法具有良好的尋優能力和魯棒性,其最小最優解、最大最優解、平均最優解和最優解方差四項指標均優于其他算法。雖然平均運行時間略高于LGWOA 算法,但也獲得了更高的優化精度,并且從圖3 可看出,MOWA 算法平均10 次迭代左右就到達了最優解,實際尋優搜索耗時并不高。
MWOA 算法種群初始適應度遠低于WOA、GA、PSO、EGolden_SWOA 和LGWOA 算法的種群初始適應度,說明改進的初始化方法取得了較好的作用;迭代過程中MWOA 算法種群適應度下降速率較快,率先迭代至最優解,表明引入的非線性收斂因子、萊維飛行機制和記憶行為具有較好增強全局搜索的能力,避免陷入局部最優解,具有優異的全局尋優能力、優化精度和高效的迭代速率,明顯優于GA、PSO、傳統鯨魚算法WOA 和改進的EGolden_SWOA和LGWOA 算法。
圖4 為Alabama 大學入學人數數據集上的訓練階段預測結果。為對比MWOA 算法建立的模糊時間序列模型在訓練階段預測效果,選取了通過質心法預測的加權累積概率分布模型WCPDA[24]、加權最小化熵模型WMEPA[24],模糊聚類CMeans 劃分論域建立的馬爾可夫加權模糊時間序列模型MWFTS[12],以及分別使用改進人工魚群算法、改進粒子群算法、改進狼群算法劃分論域,都采用式(19)的EBN 方法預測的HAFSA[11]、HPSO[6]和IWPA[25]模型。所有基線模型與混合模型論域都被劃分為七個子區間,并與采用EBN 方法預測的訓練階段仿真結果對比,表4 是與基線工作的對比,以驗證混合模型的實際預測能力。可觀察出混合模型獲得了最小的RMSE 和MAPE,在訓練階段有著優質的表現效果。訓練階段的目的是得到一個高效劃分的論域空間,隨后在測試階段檢驗該論域空間的表征能力。

表4 訓練階段預測結果對比

圖4 訓練階段預測值和真實值對比
HPSO[6]、AFPSO[21]、HAFSA[11]和IWPA[25]基線模型雖在訓練階段采用不同的方法劃分論域空間,但在測試階段去模糊化預測都是如下處理:將論域空間劃分為七個子區間,Alabama 大學1971 年至1989 年的數據建立三階模糊關系,創建模糊邏輯關系和推理規則,采用MV(Master Voting)[6]方法對1990 年至1992 年入學人數進行預測,計算公式為式(23),其中mti(i=1,…,λ)為預測時刻前第i個觀測數據對應模糊區間的中點值,λ為預測時所需的與預測時刻相鄰的前面時刻數據的個數,即模型階數,Wh表示鄰近時刻數據對預測數據的影響程度,其中λ=3,Wh=15。
為驗證MWOA 算法對論域空間的高效劃分效果,以及MN_OWA 算子對未來數據的預測能力,在測試階段與基線實驗做相同處理,分別采用MV 方法和MN_OWA 算子對1990 年至1992 年的數據預測,表5 為測試階段預測結果對比。

表5 測試階段預測結果對比
從表5 可知,使用MWOA 算法劃分論域,采用 MV 方法預測的結果僅優于HPSO 模型,遜色于HAFSA 和IWPA 模型,且有一定差距,但是使用MN_OWA 算子得到預測值最為精準,預測效果較現有模型有了較大的提升,對照基線最優模型指標,RMSE 減少了21.1%,MAPE 降低了0.28%,有效論證了MN_OWA 在模糊時間序列預測中的有效性。
較國內外相關研究對比,基于混合策略改進鯨魚優化算法的高階模糊時間序列預測模型具有以下特點:
1)改進的混合策略改進鯨魚優化算法,提高了尋優能力。首先,使用Sobol 序列和混沌初始化獲得分布均勻普適的初始種群;其次,引入非線性變化的收斂因子和萊維飛行變異,幫助種群增強全局搜索能力,還能提高局部搜索尋優的效率;最后,通過全局信息和貪婪策略保持種群多樣性的同時有效減少了迭代次數,成功應用于解決模糊時間序列論域劃分問題。
2)基于次序和時序的混合線性平均加權算子MN_OWA 可在去模糊化過程中對權重參數進行重新優化分配。在Alabama 大學入學人數數據集上,混合模型與其他現有模型相比,獲得了最小的均方根誤差RMSE 和平均絕對百分比誤差MAPE 值。
實驗結果表明,混合模型針對模糊時間序列分析中影響預測精度兩大因素——論域劃分和去模糊化預測方法,均提供了一種可行高效的思路,在合理劃分論域的同時,還可以集結歷史數據信息用于提高預測精度,更好地表示模糊邏輯關系,對比基線工作,還具有算法所需參數少、迭代速率快、預測精度高等優點。但是模糊集理論可以描述元素對某集合的隸屬程度,但不能表示對集合的中立程度,對客觀世界的模糊性本質刻畫還不夠;在MN_OWA 算子建立評估矩陣時,非線性賦權方法只能表示離預測值越近的觀測值對預測值影響越大,不能保證在所有場景都可以獲得出色的預測性能。因此接下來有兩個重點研究方向:1)引入猶豫度因子建立直覺模糊時間序列。2)采用基于博弈論的混合策略為MN_OWA算子賦權,進一步改進算子預測流程,提升去模糊化預測能力,提高模型預測精度。