王家馨,侯韶華
(南京郵電大學,江蘇 南京 210023)
近年來,相干光傳輸技術取得較大進展,通過對相互關聯參數(比如,調制格式,碼元速率等)的微調,使得大量的光纖鏈路可行方案成為可能。在具體的鏈路規劃部署之前,評估光纖鏈路的傳輸質量是極其重要的一步[1]。
傳統的光路傳輸質量評估使用復雜分析模型和近似公式[2]。前者能夠非常精確地評估光路的傳輸質量,但其計算量很大,不能得到推廣。后者因為計算速度快,模型簡單,被廣泛采用,但引入了較多鏈路冗余,造成資源浪費[3]。
機器學習憑借能夠解決耗時復雜的非線性分類或回歸問題,廣泛應用于光網絡和光通信的各個方面[4]。機器學習利用已經部署光路的歷史測量數據評估光路的傳輸質量,避免了之前兩種傳統方法的缺點,能得到傳輸質量高精度評估結果[1,5]。目前,許多評估光路傳輸質量的方法基于二分類器,如隨機森林(RF),K近鄰(KNN),支持向量機(SVM)三種分類器對光路傳輸質量進行二分類,SVM獲得最高0.9915分類準確度[6];KNN,SVM,人工神經網絡(ANN),邏輯回歸算法(LR)分類器對光路的剩余冗余進行二分類,通過比較準確率,F1分數,得到ANN是獲得最佳泛化能力的模型,兩個指標分數均達到0.99以上[7]。除了經典的機器學習算法,在機器學習中,集成學習也是研究的熱點。集成學習利用一定的規則組合不同的學習器構建具有很強的魯棒性和泛化能力的集成模型,具備高精度評估光路傳輸質量的潛力。本文提出基于不同集成學習算法的三分類器。
在網絡線性拓撲中,假設相鄰節點間是9個信道,信道間隔為50GHz,符號速率為32GBaud,噪聲帶寬為32GHz的偏振復用相干未補償系統[6]。系統采用標準單模光纖(光纖損耗系數0.22dB/km,非線性系數1.3 1/w*km,色散系數21ps^2/km),構成等跨度的透明傳輸的同質鏈路[8],摻鉺光纖放大器(EDFA)完全彌補上一個跨度的損耗,噪聲指數為5dB,節點由具有波長選擇開關(WSS)技術的可重構光分插復用器構成。
由于缺乏真實的網絡監測歷史數據,本文使用文獻[6]中傳輸質量評估工具和上述系統模型生成數據。此傳輸質量評估工具是根據加性高斯白噪聲模型,將光路中總的非線性光信噪比(OSNR)作為關于信道發射功率(PTx)和線性噪聲(PASE),非線性(PNLI)貢獻的函數,誤碼率(BER)作為關于Eb/N0(每比特的能量與噪聲功率譜密度之比)和調制格式的函數[9]。

(2)式中,a和d通過誤碼率與調制格式的關系計算[9]得出,Eb/N0 通過文獻[6]中公式得出。
生成數據集所需的鏈路系統參數[2]如表1所示:
數據集特征選擇鏈路長度,跨度長度,調制格式,數據速率,信道發射功率。數據集標簽為BER。
基于MATLAB2020a平臺,利用傳輸質量評估工具生成數據集。根據ITU-TG.975.1建議的前向糾錯標準,preBER 閾值為4*10^(–3)。本文將BER 分為小于4*10^(–5),大于4*10^(–5)且小于4*10^(–3),大于4*10^(–3),分別對應傳輸質量優良,合格,不合格。通過對數據集中樣本類別數量適當均衡,得到32991個樣本,其中8722個小于4*10^(–5)的樣本,4391個大于4*10^(–5)且小于4*10^(–3)的樣本,19878 個大于4*10^(–3)的樣本。
將數據集中BER小于4*10^(–5)的樣本標簽設為0,大于4*10^(–5)且小于4*10^(–3)的樣本標簽設為1,大于4*10^(–3)的樣本標簽設為2。分類器的分類過程如下。首先將數據集按比例8∶2隨機分成訓練集和測試集,然后標準化訓練集特征,接著將標準化后的訓練集輸入分類器,分類器利用訓練集進行超參數網格搜索,最后測試集輸入具有最好超參數的分類器,得到預測值。
機器學習算法中,集成學習擁有重要的地位,選取六個經典集成學習算法。
2.2.1 集成學習算法[10]
a.投票分類器(Voting Classifier)
硬投票法:聚合不同分類器的預測,然后票數最多的結果作為預測類別。一般,投票分類器的準確率高于集成中最好的分類器。
軟投票法:如果每個分類器能夠估算出類別的概率,然后計算出平均概率,那么平均概率高的作為預測。
軟投票通常比硬投票獲得更高的精度,因此本文采用軟投票法。
b.隨機森林(RandomForest)
隨機森林是決策樹的集成,實現分類和回歸。在隨機森林中,許多決策樹同時被訓練,但是每棵樹只接受一個樣本,并且每個節點在確定最佳分裂時只考慮全部特征的一個子集。隨機森林通過投票決定樣本的預測分類。
c.極端隨機樹(Extra Trees)
極端隨機樹是由極端隨機的決策樹組成,由于每個特征都使用隨機閾值,所以,生成出的決策樹得更加隨機。極端隨機樹與隨機森林的性能需要通過交叉驗證甚至網格搜索超參數才能進行比較。
d.自適應增強(AdaBoost)
AdaBoost:循環訓練分類器,每一次都對前一次分類器評估的欠擬合訓練示例進行關注,實例權重不斷更新,使新的分類器越來越專注于難纏的問題。
本文AdaBoost集成的分類器為單層決策樹。
e.梯度提升(GradientBoosting)
梯度上升與AdaBoost一樣,逐步在集成中添加預測器,但不同的是,它是讓新分類器對前一個分類器的預測值與實際值的差值進行擬合。本文梯度上升分類器使用的基礎分類器為決策樹。
f.極端梯度上升(XGBoost)
XGBoost是梯度提升的優化實現,速度快,可移植與可擴展。
多分類指標分為兩種:
(1)多分類轉化成二分類的評估
a.準確率(Accuracy),b.宏平均F1,微平均F1,加權平均F1。(Macro F1,Micro F1,Weighted F1)
(2)直接定義的多分類指標
a.Kappa系數,b.海明距離,c.杰卡德相似系數(jaccrd_similarity_score):根據平均方式分為jaccrd_macro, jaccrd_micro, jaccrd_weighted。
基于Sklearn機器學習python應用程序接口實現算法調優和訓練,測試,評估。6種集成學習算法進行超參數調優后,得到的模型為:
a.Gamma為0.2,C為2000的高斯核SVM,C為200,penalty為l2的邏輯回歸,500個估計器的隨機森林集成的投票分類器;
b.500個估計器,最大深度為20的隨機森林分類器;
c.500個估計器,最大深度為20的極端樹分類器;
d.1500個估計器,學習率為1的AdaBoost分類器;
e.500個估計器,學習率為0.01,最大深度為10的梯度上升分類器;
f.91個估計器,學習率為0.01,最大深度為20,subsample為1,gamma為0.001,min_child_weight為0.01的XGBoost分類器。
3.2.1 集成算法性能比較
圖1和圖2是6種分類器關于性能指標的對比圖。由圖1可知所有分類器性能分數都在0.89以上,其中投票分類器的所有性能指標分數都高于其他分類器,都在0.97以上。投票分類器集成的分類器都是超參數最優的分類器,SVM和KNN經過超參數調優,性能指標分數都在0.94以上,由于邏輯回歸的性能指標分數低于SVM和KNN很多,最高只有0.90,因此導致投票分類器總體性能稍遜于SVM。實驗表明,只有當投票分類器中的性能指標分數均衡,投票分類器才能性能指標分數高于集成中所有分類器。

圖1 集成算法分類器性能比較

圖2 算法分類器海明距離比較
極端樹分類器與隨機森林分類器各指標柱狀高度相近,極端樹分類器各指標分數稍微高于隨機森林分類器。極端樹分類器性能指標分數在0.95以上,隨機森林分類器在0.94以上。梯度提升分類器與XGBoost分類器各性能指標分數一樣,最低為0.94。AdaBoost分類器各性能指標分數均低于其他分類器。
圖2海明距離指標與圖1指標相反,海明距離指標分數越接近0,性能越好,越接近于1,性能越差。圖2中分數投票分類器最低,非常接近于0;隨機森林分類器與極端樹分類器分數很接近,在0.014附近;梯度提升分類器與XGBoost分類器分數為0.175;AdaBoost分類器分數最高,高于投票分類器0.02差值。
分類器性能除了比較性能指標系數,還需要比較訓練,測試時間。
圖3是關于分類器的訓練時間與預測時間的比較。從圖可見,梯度上升分類器的訓練時間最長,隨機森林分類器的訓練時間最短。在具有相同的性能指標情況下,XGBoost分類器的訓練時間比梯度上升分類器短約95秒,測試時間短約5秒,表明XGBoost分類器是對梯度上升分類器的提升優化。六種分類器的預測時間最短為XGBoost 0.062秒,最長為AdaBoost 0.81秒。
結合圖1,圖2,圖3,投票分類器分類性能指標分數最優,訓練時間中等,預測時間偏短;極端樹分類器與隨機森林分類器分類性能指標分數次優,訓練時間最短,預測時間較短;梯度上升分類器與XGBoost分類器性能指標分數相同,但XGBoost分類器訓練和預測速度更快;AdaBoost分類器分類性能指標分數最低,訓練和預測時間都較長。

圖3 集成學習分類器訓練與預測時間比較
綜上可知,在光纖鏈路傳輸質量多分類評估時,6種集成學習算法中可取的是投票分類器,隨機森林分類器與極端樹分類器,三種分類器都能得到高性能。
本文提出評估鏈路傳輸質量的6種經典集成學習算法三分類器并分析兩種類型的多分類指標。通過生成綜合數據來訓練分類器,利用多分類指標評估分類器。實驗表明,6種基于集成學習算法的三分類器的性能指標分數都能達到0.89以上,漢明距離低于0.03。其中投票分類器,隨機森林分類器,極端樹分類器在計算時間和分類性能達到很好的平衡。結果證明,基于集成學習算法的三分類器能夠很好地評估光纖鏈路傳輸質量,與二分類器相比較,三分類器對傳輸質量進一步分類評估,滿足現實傳輸所需的鏈路傳輸質量要求。