999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM算法的基站小區(qū)智慧節(jié)能研究

2021-09-09 07:36:22李飛裴明麗周源林雪勤
現(xiàn)代計算機 2021年19期
關鍵詞:特征模型

李飛,裴明麗,周源,林雪勤

(安徽科大國創(chuàng)云網(wǎng)科技有限公司,合肥 230088)

0 引言

伴隨著通信業(yè)務的多樣化和泛在化,使得通信網(wǎng)絡能耗快速增長。無線通信網(wǎng)絡能耗主要來源于通信基站,為了保證通信行業(yè)的正常、高效運行,運營商投入的通信基站數(shù)量越來越多、范圍越來越廣,其耗電量也隨之增加,甚至成倍增長[1]。這不僅給企業(yè)帶來更多的經(jīng)濟壓力,同時也污染了人類的生存環(huán)境,而且存在大量的能源浪費。因此,節(jié)能降耗一直是通信行業(yè)長期關注并研究的課題而且是節(jié)能減排的重點工作[2]。

有數(shù)據(jù)統(tǒng)計顯示,基站站點能耗費用(電費)占到網(wǎng)絡運營成本的16%之多,為優(yōu)化成本結構和促進社會效益,針對基站站點的節(jié)能減排已成運營商的一大努力目標?;竟?jié)能主要從兩個方面入手,一方面是優(yōu)化基站的硬件結構,硬件廠家研發(fā)各種節(jié)能的硬件產(chǎn)品[3];另一方面是優(yōu)化基站的運行控制,應用人工智能技術,基于歷史運行數(shù)據(jù),預測基站的業(yè)務量承載低谷,觸發(fā)載波關斷等節(jié)能策略,減少設備運行時間,實現(xiàn)節(jié)能[4-5]。

1 LightGBM算法介紹

微軟亞洲研究院在2016年公開了一款基于決策樹算法的提升框架LightGBM (Light Gradient Boosting Machine)[6-7],它是一種快速、高效、開源框架,支持分布式、高效率的并行訓練,被廣泛應用于回歸、分類、排序等多種機器學習應用領域。

1.1 LightGBM相關理論基礎

(1)梯度提升(Gradient Boosting)

它是由一系列子模型的線性組合來完成學習任務的,可劃分為兩種基本類型:Gradient Boosting和AdaBoost。其中LightGBM屬于Gradient Boosting[8-9]。梯度提升的主要思想是一次性迭代變量,迭代過程中,逐一增加子模型,并且保證損失函數(shù)不斷減小。假設fi(x)為子模型,復合模型為:

Fm(x)=?0f0(x)+?1f1(x)+…+?mfm(x)

損失函數(shù)為L[Fm(x)],Y,每一次加入新的子模型后,使得損失函數(shù)不斷朝著信息含量次高的變量的梯度減?。?/p>

L[Fm(x),Y]

(2)梯度提升決策樹(Gradient Boosting Decision Tree)

GDBT是一種迭代的決策樹算法[10],該算法由多棵決策樹組成,所有樹的結論累加起來做最終結果。在機器學習領域中,它是一個經(jīng)久不衰的模型,簡稱GBDT,即:

GBDT=Gradient Boosting+Decision Tree

GBDT具有Gradient Boosting和Decision Tree的功能特性,其主要優(yōu)點是訓練效果好、不易過擬合且泛化能力較強。近些年,GBDT在行業(yè)中被廣泛關注和使用,通常用于諸如點擊率預測和搜索排名之類的機器學習模型任務。GBDT還是各種數(shù)據(jù)挖掘比賽中的致命武器。

1.2 LightGBM應用

LightGBM是對GBDT的一種高效實現(xiàn),主要用于解決GBDT在大規(guī)模數(shù)據(jù)處理上遇到的問題。采用帶深度限制的Leaf-wise的葉子生長策略[11],其計算代價小,且避免了過擬合。為了減小存儲成本和計算成本,LightGBM選擇了基于Histogram的決策樹算法。此外LightGBM直接支持類別特征處理,使其性能得到較好的提升。LightGBM主要通過以下幾個參數(shù)實現(xiàn)算法控制與優(yōu)化:

(1)num_leaves:每棵樹的葉子數(shù)量;

(2)num_iteration:迭代次數(shù);

(3)learning_rate:學習率;

(4)max_depth:最大學習深度,主要作用是防止過擬合;

(5)min_data:一片葉子中數(shù)據(jù)的最小數(shù)量,也可以防止過擬合;

(6)feature_fraction:選擇特征與總特征數(shù)的比值,取值范圍介于0、1之間,如果feature_fraction值小于0,那么LightGBM在每一次迭代時會隨機選擇部分特征。feature_fraction不僅控制選擇總特征數(shù)的比例,且能夠加快訓練速度,同時防止過擬合。

(7)bagging_faction:選擇數(shù)據(jù)與總數(shù)據(jù)量的比值。取值范圍也介于0、1之間,與feature_fraction類似,能夠加快訓練速度,同時防止過擬合,但是隨機并且不重復選擇的是相應比例的觀測,必須要將其設置成大于0的比例。

2 一種基站小區(qū)節(jié)能的預測方法

為了預測基站小區(qū)在將來一天的各個時間段(時間粒度為1個小時)是否可以節(jié)能,本文通過特征工程構建,將時間序列問題[12]轉換成分類預測問題,采用機器學習算法中的LightGBM算法進行建模,訓練有監(jiān)督的基站小區(qū)節(jié)能預測模型。整個建模流程框架如圖1所示。

圖1 模型流程框架圖

2.1 數(shù)據(jù)收集與預處理

本次建模使用的數(shù)據(jù)來源于2020AIIA杯人工智能5G網(wǎng)絡應用大賽,主辦方提供了5個可用的數(shù)據(jù)文件,文件名稱及其文件內(nèi)容如表1所示。

表1 數(shù)據(jù)文件及其內(nèi)容描述

2.2 特征工程

特征工程[13]主要是把原始數(shù)據(jù)轉化為模型可以訓練的數(shù)據(jù)集,經(jīng)過特征工程得到的數(shù)據(jù)可以決定機器學習的上限,會直接影響到模型的預測性能,在機器學習過程中占有舉足輕重的地位。本文特征工程一般包括以下三個部分,分別是特征選擇、特征構建、特征提取。

(1)特征選擇

特征選擇是刪除冗余或者不相關的特征,使得有效特征個數(shù)減少并減少模型訓練時間,從而提高模型訓練的精確度。

基站小區(qū)基礎信息表和基站基礎信息表反映了基站小區(qū)和基站基本信息,這些基本信息不回隨著日期的變化而變化,因此刪除了兩個表中的日期pm_date字段并進行去重。另外基站小區(qū)基礎信息表中存在單一值域的字段,如所屬扇區(qū)編號related_sectorid、PLMN標識的列表plmnidlist等字段,刪除這些僅有單一值的類別字段,并對其進行獨熱編碼操作。

(2)特征構建

特征構建是指通過研究原始數(shù)據(jù)樣本,結合機器學習專業(yè)知識及建模經(jīng)驗,思考問題的數(shù)據(jù)結構和潛在形式,人工構造出新的特征,并且這些新構造的特征能夠提高模型訓練的效果,同時具有一定的工程意義。

根據(jù)提供的基站小區(qū)每個時段節(jié)能表可知,本文建模的目標是預測基站小區(qū)未來一天內(nèi)每個時間段(時間粒度為1小時)的節(jié)能標識。但是基站小區(qū)資源信息表主要描述了每個基站小區(qū)的每15分鐘的資源使用情況的匯總數(shù)據(jù),都是量化的指標,因而針對基站小區(qū)資源信息表,構建基站小區(qū)每天每個小時的各項資源指標的均值,然后在其基礎上進一步構建基站小區(qū)每個小時的均值、中位數(shù)、最大值、最小值、總和以及方差等六項指標,以此來標識基站小區(qū)在每個小時各項指標的穩(wěn)定性特征。并將待預測日期的前1天、前2天、前3天的各項資源指標作為基站小區(qū)每個小時的前序特征加入特征寬表,標識其近期資源特征情況。此外,進一步分析各項指標之間的關系后,可進一步構建業(yè)務量占比、業(yè)務量總和等其他特征。

分析基站小區(qū)的歷史節(jié)能標簽數(shù)據(jù),可構建基站小區(qū)在每個時刻的節(jié)能次數(shù)、節(jié)能比率等特征,并可將前一天、前兩天、前三天同時刻的節(jié)能標簽作為基站小區(qū)每個小時的前序特征。考慮節(jié)能的時序特征,針對構建得到的基站小區(qū)每個時刻的節(jié)能比率特征,對時間進行前后滑動,可得到前后3個時刻的環(huán)比節(jié)能特征,如圖2所示。

圖2 基于時間窗口滑動的特征構建示意圖

(3)特征提取

特征提取是一個將機器學習算法不能識別出來的原始數(shù)據(jù)轉變成可以識別到數(shù)據(jù)特征的過程。本文采用兩種方法進行特征取,分別基于PCA方法[14]和基于時間窗口映射?;跁r間窗口映射是指定義不同大小的映射窗口,將原始時間映射到相應的窗口區(qū)間,再基于映射后的時間塊構建相應的基站小區(qū)節(jié)能比率、平均節(jié)能次數(shù)等特征,如圖3所示。

圖3 基于時間窗口映射特征提取示意圖

基于PCA方法指的是分別從日期維度和小時維度出發(fā)后構建各基站小區(qū)的節(jié)能比率,再使用PCA方法進行特征提取,如圖4所示,其中M代表基站小區(qū)數(shù), T代表提取周期內(nèi)天數(shù),P表示降維后的維數(shù)。

圖4 基于PCA方法特征提取示意圖

2.3 數(shù)據(jù)集構建

基于上述的特征工程操作,可以基于一定周期的基站小區(qū)歷史數(shù)據(jù)可以完成數(shù)據(jù)寬表的構建,為了實現(xiàn)對未來一天各基站小區(qū)各時刻(小時)的節(jié)能標識進行預測,傳統(tǒng)的做法是使用待預測前一天(N-1)的節(jié)能標識作為標簽,第N-1天之前的M天歷史數(shù)據(jù)構建特征,得到訓練數(shù)據(jù)集,再使用第N天之前的M天歷史數(shù)據(jù)構建特征得到測試數(shù)據(jù)集,這種做法可在數(shù)據(jù)周期樣本較少的時候完成模型的構建與節(jié)能標簽預測,即M最小等于1,最少需要兩天的歷史數(shù)據(jù)。

但是當樣本周期較多時,該方法則不能充分挖掘時間周期性的特征,從而限制了模型準確率的提升。因此本文提出了一種同周期的數(shù)據(jù)集特征構建方法,同周期是指預測的日期如果屬于周一,那么訓練數(shù)據(jù)集的標簽也都取周一的樣本數(shù)據(jù),然后都基于標簽日期的前M天歷史數(shù)據(jù)構建特征,該方法構建的訓練集和預測集,樣本的特征和樣本的標簽都是同一個時期,保證了數(shù)據(jù)的分布一致性,在實驗中也發(fā)現(xiàn)能夠明顯提升模型的準確率。同周期數(shù)據(jù)集構建如圖5所示,待預測的樣本是2020-08-31,該日期屬于周一,那么確定三個周一(2020-08-10/2020-08-17/2020-08-24)作為標簽,取待預測標簽的前M(M=8)天歷史數(shù)據(jù),應用特征工程的操作構建數(shù)據(jù)集寬表,合并同周期的訓練數(shù)據(jù)并打亂后得到最終的訓練數(shù)據(jù)集,待預測歷史數(shù)據(jù)集構建的特征寬表作為測試數(shù)據(jù)集,至此完成了訓練數(shù)據(jù)集和測試數(shù)據(jù)的構建。

圖5 基于同周期法的數(shù)據(jù)集構建示意圖

2.4 模型訓練與評估

本文研究了2種最常用的機器學習算法GBDT和LightGBM的區(qū)別和特點,通過對預測精度和復雜度的比較,最終整個模型的核心算法采用LightGBM,并使用Python語言編程實現(xiàn)數(shù)據(jù)處理和模型訓練過程。其中,LightGBM參數(shù)設置如表2所示。

表2 模型參數(shù)設置表

由于對基站小區(qū)節(jié)能預測模型的研究是一個二分類任務,因而采用F1-score作為本次建模的模型評估指標。為了說明該指標的計算方式,引入混淆矩陣表,如表3所示。

表3 混淆矩陣

真陽例(TP):樣本本身是正樣本,預測結果也是正樣本;

真陰例(TN):樣本本身是負樣本,預測結果也是負樣本;

假陽例(FP):樣本本身是負樣本,預測結果是正樣本;

假陰例(FN):樣本本身是正樣本,預測結果為負樣本;

精確度(Precision):表示預測結果中正樣本中真實標簽也是正樣本所占的比率,計算公式如下:

召回率(Recall):表示真實結果為正樣本中預測結果為正樣本所占的比率,其計算公式如下:

F1-score:精確度與召回率的調(diào)和平均數(shù),其計算公式如下:

2.5 實驗結果與分析

(1)同學習率、不同迭代次數(shù)時不同模型F1值對比

圖6 同學習率、不同迭代次數(shù)時不同模型F1值對比

圖6展示了在學習率相同、迭代次數(shù)不同時不同模型下F1值的對比情況,其中,橫坐標表示迭代次數(shù),縱坐標表示F1值。從圖中可以得出,隨著迭代次數(shù)的不斷增加,LightGBM和GBDT算法的F1值呈現(xiàn)出先增后減的趨勢,并且在迭代次數(shù)為3000時,兩個算法都達到各自的最優(yōu)值,另外,可以看出在同樣的迭代次數(shù)下,LightGBM的訓練效果始終優(yōu)于GBDT算法,其平均預測精度比GBDT高出19%。

(2)同迭代次數(shù)、不同學習率時不同模型F1值對比

圖7展示了同迭代次數(shù)、不同學習率時不同模型的F1值對比情況,其中,橫坐標表示學習率,縱坐標表示F1值。該圖反映了隨著學習率的不斷遞減,LightGBM和GBDT算法的F1值也呈現(xiàn)出先增后減的趨勢,并且在學習率為0.007時,F(xiàn)1值最大,兩個算法都達到各自的最優(yōu)效果,另外在同樣的學習率下,LightGBM模型下訓練結果RMSE值始終優(yōu)于GBDT,其平均預測精度比GBDT高出20.7%。

圖7 同迭代次數(shù)、不同學習率時不同模型F1值對比

3 結語

本文提供了一種采用機器學習算法LightGBM預測基站小區(qū)節(jié)能的新思路,從多個角度構建了豐富的特征工程,并對比了LightGBM和GBDT算法在模型預測準確率的差異,通過以上實驗結果表明,該算法效果顯著。對于本文實驗的優(yōu)化方向,主要從以下幾個方面進行優(yōu)化。

(1)將研究CatBoost[15]、TabNet[16]等先進算法并進行模型融合,進一步提高模型的預測精度;

(2)將結合分布式訓練機制[17],提升模型的推理速度,加速模型的落地應用。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美区一区二区三| 中文字幕人妻av一区二区| 亚洲一级毛片免费看| 国产va免费精品观看| 亚洲色图欧美| 亚洲AV无码乱码在线观看代蜜桃 | 免费观看无遮挡www的小视频| 欧美性精品不卡在线观看| 色天堂无毒不卡| 欧美一级爱操视频| 亚洲欧洲日韩国产综合在线二区| 亚洲色精品国产一区二区三区| 亚洲欧洲综合| 国产精品熟女亚洲AV麻豆| 激情综合图区| 久久国产精品影院| 色哟哟色院91精品网站| 华人在线亚洲欧美精品| 精品天海翼一区二区| 久久精品国产精品青草app| 国产午夜福利在线小视频| 在线观看视频一区二区| 拍国产真实乱人偷精品| 成人伊人色一区二区三区| 国产素人在线| 国产精品浪潮Av| 亚洲成a人片在线观看88| 夜夜高潮夜夜爽国产伦精品| 永久成人无码激情视频免费| 欧美成人在线免费| 国产欧美精品一区aⅴ影院| 欧美精品成人一区二区在线观看| 福利在线免费视频| 波多野吉衣一区二区三区av| 国产欧美又粗又猛又爽老| 亚洲欧美不卡视频| 在线精品亚洲国产| 久久久久久尹人网香蕉| 国产区在线看| 九九热在线视频| 国产亚洲成AⅤ人片在线观看| 久久亚洲高清国产| 国产黄网永久免费| 国产人人射| 91精品国产综合久久不国产大片| 中文字幕亚洲另类天堂| 园内精品自拍视频在线播放| 亚洲视频四区| 成人精品亚洲| 亚洲国产欧美国产综合久久| 国产第一页免费浮力影院| 国产欧美亚洲精品第3页在线| 国模沟沟一区二区三区| 高清视频一区| 丰满人妻被猛烈进入无码| 永久在线精品免费视频观看| 国产精品亚洲一区二区三区在线观看| 亚洲综合婷婷激情| 在线观看国产黄色| AV天堂资源福利在线观看| 亚洲区第一页| 欧美午夜在线播放| 中文字幕丝袜一区二区| 亚洲国产第一区二区香蕉| 激情成人综合网| 亚洲有码在线播放| 国产九九精品视频| 亚洲精品波多野结衣| 一级毛片在线免费视频| 中文字幕首页系列人妻| 亚洲 欧美 偷自乱 图片 | 日韩在线欧美在线| 老汉色老汉首页a亚洲| 亚洲精品第一页不卡| 毛片网站观看| 国产亚洲精品自在久久不卡| 一级看片免费视频| 午夜福利在线观看入口| 日本久久网站| 毛片免费在线视频| 日韩av无码DVD| 中国成人在线视频|