段洪濤,曾繁聲,李景春
(國家無線電監測中心,北京100037)
無線電頻譜資源是稀缺資源,頻譜占用度測量數據對于無線電管理工作至關重要。在國際電聯(ITU)出版的文獻中,頻譜占用度的作用可以歸納為:反映頻段內的頻率使用情況;為頻率的分配和指配提供參考依據;反映一個地區特定頻段的頻率使用變化趨勢。自2007年開始,無線電管理部門重點開展了頻譜占用度監測月報工作,對測試方法和統計方法都進行了規范,上報數據的分析和挖掘工作也凸顯重要性。
目前對于頻譜占用情況的掌握都是直接采用測量結果,這種測量一般都是根據實際工作目標的短期測量行為,實際上是將測量結果作為現在和未來一段時間內的頻譜占用情況,前提是認為頻譜占用度情況平穩變化[1,2]。如果長期開展測量工作,則可以得到更為精確的預測結果和變化趨勢。
信道占用度:使用監測接收機或頻譜分析儀對特定的信道進行測量,信號大于某一門限電平值的時間與總測量時間的百分比。
頻段占用度:在測量時間內,用監測接收機或頻譜分析儀對某一頻段用固定步長(信道)進行順序測量,大于某一門限電平值的信道數與總信道數的百分比[3]。
在頻譜占用度測量工作中有2個方面的問題需要深入研究:①測量本身的問題,即如何測量頻譜占用度,在此方面應保證測試過程的合理性、測試數據的真實性,測量結果的準確性和可靠性,涉及信號檢測、儀器原理以及統計學的相關知識;②頻段占用度數據分析的問題,即怎樣分析這些占用度數據,能得到什么結果,這個方面涉及數據分析和挖掘的相關知識。
占用度數據的第1個作用通過測量本身體現,第2個和第3個作用從嚴格意義上來講,都屬于占用度的預測和分析范疇。舉個例子:為了在某個頻段指配若干個頻率,進行了一段時間的專項監測,得到了頻段占用度數據,然后根據占用度數據進行了頻率指配。要知道占用度數據僅是針對過去特定時間的統計值,如果根據其進行頻率指配,則隱含了預測分析的內容。
頻率占用度測量的一般過程是:用接收機順序掃描頻段內的若干個信道,在大量掃描后對每個信道都有一組測試數據作為分析基礎數據,通常情況下這些測試數據在時間上都是等間隔分布的。這些基礎數據經過統計分析形成了每個信道以及整個頻段的占用度數據,這些占用度數據可以是測試時間內的,通常是一天的;也可以是每周的,或者是每月的占用度統計數據[4]。
時間序列是按時間次序排列的隨機變量序列。在實際問題中所能得到的數據只是時間序列的有限樣本。時間序列分析的主要任務就是根據觀測數據的特點為數據建立盡可能合理的統計模型,然后利用模型的統計特性去解釋數據的統計規律,以期達到控制或預報目的。
在頻率占用度的測量中,無論從基礎數據獲得的微觀時間角度,還是從每月上報數據的宏觀時間角度,這些占用度數據都自然構成了時間序列[5]。需要說明的是時間序列分析對數據也有一定的要求,具體地說就是數據的數量和質量,數據數量太少則不能完全反映數據之間的聯系,一般來說常見的時間序列分析數據數量都在20個以上。數據的質量指的是數據的獲得應該在同一條件下。對于頻譜占用度的時序分析來說,這一點尤其重要,因為測試數據由于測試設備、門限電平、統計方法、甚至是測試人員的不同而有較大的變化。計算所使用的占用度數據是在連續的一段時間按內由同一位測試人員使用同一套設備獲得的,基本可以認為測試條件相同。2009年北京某站上報的針對450~470MHz測試的頻段占用度上報數據如表1所示。

表1 450~470 MHz頻段占用度數據
任何時間序列經過合理的函數變換后都可以認為是由3個部分疊加而成,這3個部分是趨勢項部分、周期項部分和隨機噪聲項部分,表示為:

式中,{Tt}為趨勢項;{St}為季節項;{Rt}為隨機項。時間序列{Xt}是這3項的疊加。時間序列分析的首要任務是通過對觀測樣本的觀察分析,把時間序列的趨勢項、季節項和隨機項分解出來。對于趨勢項和季節項,一般可以用非隨機的函數進行刻畫,比較簡單。當時間序列在適當的去掉趨勢項和季節項后,剩下的隨機部分通常會有某種平穩性,而平穩時間序列的歷史X1,X2,…Xn中往往含有Xn+1的信息,這就使得利用歷史樣本X1,X2,…Xn預測將來Xn+1成為可能,這也是時間序列進行預測的本質[5]。
ARIMA模型有3種基本類型:自回歸(AR)模型、移動平均(MA)模型和自回歸移動平均(ARIMA)模型。
如果時間序列yt是它的前期值和隨機項的線性函數,即可表示為:

則稱該時間序列是自回歸序列,p為自回歸模型的階數,記為AR(p),隨機項ut是相互獨立的白噪聲序列,記 Bk為k步滯后算子,即

則模型可以表示為:

令

模型可以簡寫為:

AR(p)過程平穩的條件是滯后多項式 φ(B)的根均在單位圓外,即 φ(B)=0的根大于1。
如果時間序列 yt是它的當期和前期的隨機誤差項的線性函數,即可表示為:

則稱該時間序列是移動平均序列,q為移動平均模型的階數,記作MA(q)。
引入滯后算子,并令

yt可以簡寫為:

移動平均過程無條件平穩要求,但通常希望AR過程與MA過程能相互表出,即為可逆過程。因此要求滯后多項式θ(B)的根都在單位圓外。
如果時間序列yt是它的當期和前期的隨機誤差項以及前期值的線性函數,即可表示為:

則稱該時間序列是自回歸移動平均序列,記作ARIMA(p,q),該模型是由博克思(Box)和詹金斯(Jenkins)于20世紀70年代初提出的一著名時間序列預測方法,所以又稱為box-jenkins模型、博克思-詹金斯法。這種方法具有較高的預測精度,適用于短期預測。其中ARIMA(p,d,q)稱為差分自回歸移動平均模型,AR為自回歸,p為自回歸項;MA為移動平均,q為移動平均項數,d為時間序列成為平穩時所做的差分次數[6]。
下面將分成以下幾個步驟對上面所提模型進行性能分析:①時間序列的平穩性識別;②對非平穩的時間序列數據進行平穩化處理;③選取適用的模型及參數;④模型檢驗;⑤利用已通過檢驗的模型進行預測。
為了檢驗預測效果,將第10個觀測值留出,作為評價預測精度的參照對象。建模的樣本期為2009年3月—2009年11月,在具體應用模型過程中可以使用EViews軟件幫助計算和分析。
平穩時間序列的一般概念是時間序列的統計特征不隨時間變化而變化,寬平穩的定義是:序列的均值和方差都是與時間 t無關的常數,協方差僅與時間間隔有關,與t無關。關于頻譜占用度的預測問題首先要從判定時間序列的平穩性開始,單從定義來看序列的平穩性比較抽象,不容易判斷,其實在實際工作中時間序列的平穩性有完備的判斷理論和簡單方法。
最簡單的方法是通過時間序列的時序圖來判斷時間序列是否存在周期性或趨勢性。這種方法的優點是簡單直觀,對于那些明顯是非平穩的時間序列很容易判斷。缺點是對于一般的時間序列,特別是不帶有明顯特征的時間序列,不容易判斷準確。占用度隨時間變換的時序圖如圖1所示。
從圖1可以明顯看出占用度呈現緩慢上升的趨勢,應該不是平穩序列。

圖1 時序圖
判斷時間序列平穩性比較理論化的方法是單位根檢驗(Unit Root Test,或稱為迪基——福勒檢驗)。這種方法在實際中比較常用,但是數據計算量較大。可以利用時間序列分析中常用的分析軟件(Eviews)對表1的數據進行單位根的計算。
經過計算:時間序列檢驗統計值為-0.983 937,大于顯著水平為10%的臨界值-2.801 384,所以不能拒絕原假設,序列存在單位根,是非平穩的。
通過時序圖和單位根檢驗,基本可判斷原序列不平穩,下面就是對序列進行平穩化處理。在時間序列分析中,如果一個時間序列是非平穩的,更一般的方法是通過取差分的方法而形成平穩序列。
經過計算:一階差分后的時間序列在1%的顯著水平下拒絕原假設,即99%的置信水平下不存在單位根,該序列是平穩的。
所謂隨機時間序列模型的識別,就是對于一個平穩的隨機時間序列,找出生成它的合適的隨機過程或模型,即判斷該時間序列是遵循一純AR過程、還是遵循一純MA過程或ARIMA過程。
所使用的工具主要是時間序列的自相關函數(Autocorrelation Function,ACF)及偏自相關函數(Partial Autocorrelation Function,PACF)。ARIMA(p,q)的自相關函數可以看作MA(q)的自相關函數和AR(p)的自相關函數的混合物。
當p=0時,具有截尾性質;
當q=0時,具有拖尾性質;
當p、q都不為0時,具有拖尾性質。
從識別上看,通常ARIMA(p,q)過程的偏自相關函數(PACF)可能在p階滯后前有幾項明顯的尖柱(spikes),但從 p階滯后項開始逐漸趨向于零;而它的自相關函數(ACF)則是在q階滯后前有幾項明顯的尖柱,從q階滯后項開始逐漸趨向于零。一階差分后的時間序列自相關與偏相關計算結果如表2所示。

表2 一階差分時間序列相關性計算結果
模型的參數估計和檢驗結果如表3所示。由表3可以看出自相關函數在滯后2期和3期都明顯不為零,之后逐漸表現為拖尾性,偏相關函數也在滯后2期后表現為拖尾特性。所以對于差分后的時間序列可初步選用 ARIMA(2,1)、ARIMA(2,2)、ARIMA(3,1)和ARIMA(3,2)模型。

表3 模型的參數估計和檢驗結果
從表3可以看出,ARIMA(3,1)模型的多項式倒數根都落在單位圓內,滿足過程平穩的基本要求,其他模型的倒數跟都出現了在單位圓外的情況,所以可以認為ARIMA(3,1)模型是合適的。
模型檢驗主要是指對模型的合適性進行驗證,通常是對模型的殘差序列et進行白噪聲檢驗。若殘差序列不是白噪聲序列,意味著殘差序列還存在有用信息沒被提取,還需要進一步改進模型。通常側重于檢驗殘差序列的隨機性。殘差序列樣本的自相關系數應該近似為零。殘差自相關檢驗結果如表4所示。表4表明殘差近于白噪聲,模型已經提取了有規律的信息,模型的擬合效果較好。

表4 殘差自相關檢驗結果
根據ARIMA(3,1)模型對頻段占用度進行預測結果如圖2所示。實線表示預測值,虛線表示預測值2倍標準誤差帶。經過計算,均方根誤差為0.188 120,平均絕對誤差為0.162 667,平均絕對百分誤差為59.639 49,表明預測精度較好。預測的12月份頻段占用度為14.094 276,而實際的測試值為14.13,可以看出預測值很準確。

圖2 占用度預測圖
通過實際運用可以看出:對于頻段占用度測量工作,測試及統計條件的一致性能是后續分析的基礎,也是發現頻段占用度精確變化規律的前提條件,沒有準確的采集數據也就沒有后續的有價值的分析。就拿本例來說,該站后來更換了靈敏度更高的設備,450~470MHz頻段的占用度測量結果大幅度增加到50%左右,這種變化不是由于頻率使用量激增的結果,而是由于能夠更精確地區分小信號和噪聲的結果。
長時間積累數據很有價值。對于本例的分析,原想找到更多的數據進行分析,因為占用度測量工作具有一定的階段性,每次任務時間一般是幾個月到半年,數據樣本點比較少,通常間隔一段時間后占用度數據還會有比較明顯的變化,經過咨詢多數情況是測試人員變化造成的,因為門限電平設置、信道被占用判斷都是根據經驗,可以考慮用軟件固定設置值解決此類問題。
利用EViews分析軟件對監測站上報的頻段占用度監測數據進行分析,重點介紹了ARIMA模型在分析和預測頻段占用度數據方面的應用過程。關于頻率占用度數據的分析、挖掘有很多東西需要研究,特別是結合頻段劃分和業務劃分的研究,如果有可能結合臺站數據庫進行分析比對可以更好地預測占用度變化情況,體現日常監測工作的價值,對無線電管理工作發揮更大的作用。
[1]MCHENRY MD.ROBERSON M,D,MACDONALDJ.Chicago Spectrum Occupancy Measurements[R].Report for the WIL of IIT,2006.
[2]ELLINGSON S W.Spectral occupancy at VHF:Implication for Frequency-agile Cognitive Radios[C].In Proc.of IEEE Vehicular Technology Conference(VTC),2005:1397-1382.
[3]SPAULDING A D,HAGN,G H.On the Definition and Estimation of Spectrum Occupancy[J].IEEE Trans.on EMC,1977,19(3):269-280.
[4]CEPT/ERC Recommendation 01-10 E.Frequency Channel Occupancy Measurements[S],2000.
[5]朱照宣.關于時間序列分析[J].力學實踐,1989,11(1):22-26.
[6]何書元.應用時間序列分析[M].北京:北京大學出版社,2009.