中圖分類號:TB9;TM933 文獻標志碼:A 文章編號:1674-5124(2025)06-0025-06
Household characteristics identification method based on one-dimensional convolution neural network
XU Jihe1,ZHU Liang2,YAN Yi2,ZHOUJianan3,WENHe3 (1. Pingxiang Power Suply Company, State Grid Jiangxi Power Company,Pingxiang 330ooo, China; 2.Power Supply Service Management Center,State Grid Jiangxi Power Company,Nanchang 33o077,China; 3.College ofElectrical and Information Engineering, Hunan University, Changsha 41oooo, China)
Abstract: Users’electricity consumption datasets provided by smart energy meters can reflect the users ’ electricity consumption characteristics,which provides a basis for analyzing the household characteristics. Aimingat the effcient classification of household characteristics,this paper studies a household characteristics identification method based on one-dimensional smart energy meter electricity consumption data. In this paper, a one-dimensional convolution neural network suitable for the time series data of smart electric energy meter is designed. Taking the user's electric energy consumption data (one-dimensional time series) measured by the smart electric energy meter as the input, and the pooling layer is removed after the first two convolution operations of the network to achieve the preservation of early features and to achieve accurate classification of the household characteristics.In order to prove the effectiveness of the method proposed in this paper,this paper conducts comparative experiments on public datasets.The experiments show that our method achieves 55%~78% accuracy in the classification of several the household characteristics.
Keywords: deep leaming; one-dimensional convolution neural network; classification; household characteristics; smart energy meters
0 引言
家庭用戶特征,包括用戶的年齡、薪資、房屋狀況、社會關系等,可以幫助零售商了解不同用戶的生活習慣和用電模式,有助于公用事業和零售商實施更有效的需求響應方案和更個性化的服務,并就需求響應和能源效率計劃的目標做出更可靠的決策。家庭用戶特征一般可以通過大量用電數據分析實現。
在智能電網中,智能電能表可以采集海量用戶用電數據,從這些數據中,可以分析得到與家庭電力用戶特征的相關的細粒度信息。這些細粒度信息可以用于電網部門有針對性地改善服務,提高能效,從而促進智能電網的發展。目前,各種機器學習技術已經應用于智能電能表數據,進行智能電能表壽命預測[1]、異常事件識別[2]、用電負荷預測[3]、和竊電檢測[4等多方面。這些機器學習技術可以分為有監督學習和無監督學習,包括分類、回歸和聚類等多種方法。
對于家庭用戶特征,文獻[5]提出了一種用電模式分類模型,主要采用密度空間聚類等數據挖掘方式得到用戶用電數據特征;文獻[6則從多元大數據平臺中挖掘信息,設計了用戶用電行為分析架構,文中以用電量狀態與特征因素之間的相關性作為評價指標,其中相關度最大的值為 0.31 。以上兩個文獻中都采用數據挖掘的方式采集信息,但這種方式難以從大量數據中提取數據的深度特征。文獻[7]利用高斯核函數分析用電數據,判斷出數據類別,真正率在 73% 左右,但這種方式的識別速度較慢,不適合實際應用。
近年來,隨著深度學習的快速發展,基于深度學習的計算機視覺[8]、自然語言處理[9]等領域都獲得了突破。越來越多的研究者也將目光投向了深度學習在電力行業的應用,例如將深度學習應用到電力消費者的家庭特征上。文獻[10]使用深度學習算法中的卷積神經網絡自動提取數據集中的深層次特征并訓練分類器,相比于傳統的機器學習方法,有效加快了識別速度,提高了識別準確率。然而,現有的方法普遍需要將輸人的智能電能表數據序列轉換二維數據矩陣以適應二維卷積層計算,對于一維電能表數據序列來說,這樣的處理方式無疑增加了數據處理的復雜度,使更多的時間花費在數據處理上。并且對于一維數據序列來說,使用二維卷積神經網絡來處理不免有些浪費資源,模型相對復雜,這樣的方式不適用于需要及時反饋用戶端用電狀態的系統。
為實現對一維數據形式的用戶用電數據的直接、高效地處理。本文研究了基于智能電能表用電數據的家庭用戶特征分類方法,在不改變輸入數據維度的基礎上,使用一維卷積神經網絡對輸入的一維智能電能表用電時間數據序列進行處理,在網絡的前兩個卷積層之后去掉池化層以實現早期特征的保存,實現對家庭用戶特征的精確分類。本文中提出的針對一維電能表數據序列的一維卷積神經網絡不需要對輸入數據進行過多的預處理,且模型輕量,結構簡單,識別速度較快。
1 問題定義
本文中所要識別的家庭用戶特征包括房屋主人年齡、房屋主人是否退休、家中有沒有孩子、房屋里的臥室數量等,每種信息同時也有著兩種或多種分類結果,比如,房屋主人的年齡分為年輕( lt;35 歲)中等(35\~65歲)、老年( gt;65 歲)三種類別;房屋主人是否退休則有是和否兩種分類結果。這些家庭用戶特征是通過對大量電力消費者的調查得到。
對于每個用戶,智能電能表在一段時間內采集到的用電數據是一組一維數據,每組一維數據有多個真實標簽對應著電力用戶的不同的社會信息。本研究的主要目的在于通過在一段時間內的智能電能表數據,識別出家庭用戶特征。
2 電力用戶分類方法
智能電能表在一段時間內采集到的電力數據是一組一維數據,文獻[10]中將這組一維數據轉換成二維數組以適應二維卷積神經網絡的輸入。但是,這種數據形狀的改變在一定程度上增加了數據的預處理時間,同時也增加了模型的計算復雜度,不符合本文的研究要求。因此,本方法在不改變輸入維度的基礎上,使用一維卷積神經網絡對數據提取特征,訓練分類器,有效減少了數據預處理時間和模型復雜度。
2.1一維卷積神經網絡原理
1)卷積層
卷積層用來提取輸入數據的局部特征,它的原理是使用特定大小的卷積核與輸人數據的局部區域計算得到特征。卷積核在輸人數據上以一定的步長在滑動,從而得到原數據的全部特征。其中,一維卷積的計算過程為

式中: XConv (204 卷積操作計算得到的結果;
模型中的第1層卷積操作的卷積核個數;xfll (20號 第l層卷積操作的局部輸入;Wfll (20號 第1層卷積操作的第 fl 個卷積核的參數;bfll 第l層卷積操作的第 fl 個卷積核的偏置。其中, xfll , Wfll 和 bfll 大小相同。
2)池化層
池化層的主要作用是對卷積層提取到的特征進行下采樣,將輸入數據的局部區域轉換為單個值來實現,它的目的是去除冗余信息,減小模型的復雜程度。常見的池化操作包括平均池化和最大值池化兩種,平均池化是計算局部區域數據的平均值,最大池化是提取局部區域數據的最大值。經驗表明,最大池化保留了輸入數據的原始特征,相比于平均池化會有更好的性能,因此,在池化層中使用最大池化,公式為
XPool=max(XConv)
其中, XConv 是卷積操作之后的結果。
3)激活函數
激活函數的作用是在神經網絡中增加非線性計算,以增強網絡的學習能力。常見的激活函數有sigmoid函數、tanh函數和ReLU函數。其中,ReLU函數由于其非飽和的特性,能夠解決使用sigmoid函數和tanh函數帶來的梯度消失問題,模型收斂的速度也快于其他兩者,因此ReLU激活函數得到了較廣泛的應用。本文采用ReLU函數作為激活函數,公式為
ReLU(xl)=max(0,xl)
其中, xl 為第層的輸入。
2.2一維卷積神經網絡模型
根據以上一維卷積神經網絡的原理,本文中設計了基于一維卷積神經網絡的家庭用戶特征識別網絡。它由6層組成,其中包括3個一維卷積層、1個最大池化層、2個全連接層,如圖1所示。另外,在每個卷積層之后,網絡中使用了批處理歸一化(batchnormalization,BN)操作和激活函數(ReLU)使訓練網絡模型更加穩定以及增加非線性變換。

在設計一維卷積分類模型時考慮了以下因素。首先是消費者用電行為的特點。由于用戶的用電行為復雜多變,因此使用3個卷積層捕捉其特征,識別特征信息。第二個因素是由于輸人一維數據包含168個元素,設計網絡時在第一個全連接層之前使用最大池化層進行下采樣,提取特征圖中重要特征,并起到降維的作用。另外,本文的用電行為任務的數據輸入沒有過于復雜,因此在前期的特征提取操作中為了保留了數據的早期特征,避免過早地失去一些重要信息,在設計的網絡的前兩個卷積層之后并沒有使用池化層進行降維操作。其次,本文中設計的網絡模型沒有過于復雜,是由于訓練樣本的數量限制,否則,容易產生過擬合的現象。另外,為了實現數據在網絡模型的每個階段保持高分辨率,每個卷積層使用了padding。如表1所示,第一個卷積層的輸人是168,卷積核大小為3,padding =1 經過卷積層計算輸出的大小為168,數據的大小沒有變化,實現了數據高分辨率的保持,而僅僅在池化層對數據進行了下采樣,去除冗余信息。

3家庭用戶特征識別方法實現及實驗設置
本實驗在Ubuntu16.04操作系統上進行,顯卡版本是GeForceRTX2080Ti,基于Facebook開源的神經網絡框架Pytorch設計卷積神經網絡模型。網絡訓練時,采用隨即失活算法防止模型過擬合問題,選擇交叉熵損失函數計算前向計算的損失,并使用隨機梯度下降(SGD)優化算法在模型的反向傳播中計算最優參數。
3.1 隨機失活
由于本研究中訓練集的數量有限,除了把網絡設計得較為簡單以外,在網路模型的第一個全連接之后加上了隨機失活(dropout)層以防止網絡過擬合現象。
在使用深度學習完成一些任務時,希望設計的網絡模型能夠有一定的泛化能力,但是倘若網絡模型學習到了數據中很多細致的信息,導致有一部分信息是冗余的,就很容易出現網絡模型在訓練集中表現良好,在測試集中表現差勁的現象,這種現象稱為過擬合。
Dropout方法可以在訓練過程中從神經網路中隨即丟棄神經元節點,即以一定的概率使節點值為0。在前向傳播中,這種方法可以使一部分特征檢測器停正工作,以至于模型不會學習到更多的局部特征,增強模型的泛化能力,防止過擬合現象。
3.2 損失函數
本文使用在多分類任務中常用的交叉熵損失函數來計算實際輸出與期望輸出之間的差距。交叉熵主要描述的是兩個概率分布之間的距離,交叉熵的值越小,兩個概率分布越接近。在本研究中,將卷積神經網絡的實際輸出用 q 表示,期望輸出用 p 表示,則交叉熵的值為

式中: C 一 一總類別數;
c 第 c 個類別。
實際輸出 q 是通過Softmax函數計算得到

其中, zc 為第 c 個節點的輸出值。
3.3 優化器
采用適當的訓練方法可有效防止模型過擬合的問題,也能加速模型訓練的速度,這其中優化器的選擇是關鍵的。本文中采取隨機梯度下降算法
(SGD)作為模型訓練的優化器,SGD算法在每次更新參數時會隨機從樣本中選擇一個數據計算損失,求梯度并更新參數,是一種簡單有效的優化算法。
本實驗中,SGD中的參數設置為,初始學習率為0.01,動量大小設置為0.9,權重損失設置為 10-6 其他參數不變。
4實驗結果與分析
為驗證本方法在家庭用戶特征識別方面的有效性,將此算法用于公開的數據集,方便與其他比較主流的識別算法進行比較。數據集由愛爾蘭的電力和天然氣監管機構提供,以下簡稱為愛爾蘭數據集,評估指標使用準確率(ACC)和 F1 score(以下簡稱為 F1 )。本文的目標是對比其他主流的識別算法,本文所提出的方法在數據集上能得到較高的ACC和 F1 。
4.1 數據集介紹
愛爾蘭數據集包括4232戶居民的智能電表數據,這些數據是在536d內,每天以 30min 為間隔采集的,每天采集24個數據。以一周內采集到的數據為一組,數據集中共包含306188組數據,每組包含168( 7×24 )個智能電能表數據。本文將306188組數據以8:2的比例分為訓練集和測試集。
愛爾蘭數據集中還包括兩個調查數據集(實驗前調查和實驗后調查),調查內容包括用戶的社會學人口信息,例如年齡、房屋情況、職業薪酬等。這些調查結果用作監督學習任務中的標簽。
4.2 評估指標
在監督學習任務中,常常使用混淆矩陣作為計算分類模型評估指標的工具。混淆矩陣中每一行表示真實的類別,每一列表示預測的類別。圖2展示了二分類的混淆矩陣。

圖2中,TP表示真實類別是a,預測結果也是a的數量;FN表示真實類別是a,預測類別是b的數量;FP表示真實類別是b,預測類別是a的數量;TN則表示真實類別是b,預測類別是 b 的數量。由混淆矩陣,可以計算出ACC與 F1
ACC=(TP+TN)/(TP+TN+FP+FN)
F1=(2×P×R)/(P+R)
式中, R=TP/(TP+FN) P=TP/(TP+FP)
本文屬于多分類任務,在多分類任務中,評價指標與二分類相同。
4.3 實驗結果
本文使用4.1小節描述的數據集來訓練測試本文設計的方法。本小節一共設計了兩種實驗,首先是一維卷積神經網絡中的一維卷積核的確定,其次在確定了一維卷積神經網絡的卷積核之后,將本文中設計的方法與已有的方法進行比較,證明本方法的有效性。本文中家庭用戶特征識別目標如表2所示。
1)實驗一:一維卷積核大小的確定
為了確定合適的卷積核大小,以保證分類模型達到較好的性能,本實驗中,將一維卷積核分別設置為3、5、7的大小,同時,為了保證經過一維卷積的輸出與輸入相同,分別將卷積操作的填充(padding)大小設置成1、2、3。此時,實驗結果如表3所示。從實驗結果中,可以看出當改變卷積核的大小時,所有的結果相差不大,但是當 k=5 時,對于分類目標1、2、3、5,網絡獲得了比 k=3,7 時更高的 F1 ,另外,對于ACC,在分類任務2、3、4中,也獲得了更高的效果。雖然對于分類目標4,其 F1 比k=3 時低 0.4% ,對于分類目標1和5, k=5 的ACC比 k=3 和7時分別都低了 0.2% ,但是總體來說,k=5 時,網絡獲得了較好的性能。因此,本文的一維卷積網絡模型的卷積核大小確定為5。


2)實驗二:本文設計的方法與其他方法的比較
此部分的結果比較分為兩部分,首先,本文的方法先與經典的機器學習分類算法[11-14]進行比較,主要展示出深度學習算法對于家庭用戶特征分類的優越效果;其次,本文中的方法與文獻[10]中的使用二維卷積的方法相比。主要體現出本文設計方法的有效性。結果展示在表4中。
其次,本文中的方法與文獻[10中的使用二維卷積的方法相比。主要體現出本文設計方法的有效性。結果展示在表4中。
從表4的結果中,可以看出,總體來說,KNN分類算法在分類效果上較差,ACC值較低,GBDT相對其他經典的機器學習方法來說,總體上的ACC是較高的。對于支持向量機(SVM)與隨機森林(RF)來說,在分類目標1、2、3、4中,SVM的ACC高于RF,在分類目標5上,SVM的ACC則比RF低了 0.5% 。但是對于分類目標1、2、3、5,GBDT比文獻[10]中的方法分別低了 3.5% 0.8% 2.0%,2.6% 。但可以注意到,對于分類目標4,KNN、GBDT、SVM與RF都發揮了很好的效果,而分類目標4的類別有4類,猜想兩種算法在多分類(類別 ?4 )的分類中性能較好。本文中的方法與文獻[10]中比較,本文提出的方法在前四種分類目標中的ACC值與文獻[10]相差不大,對于分類目標5,其ACC低了 2.8% ,表明本文方法在某些家庭用戶特征識別上沒有體現出較好的結果,但是不對原始數據進行復雜處理,使用一維卷積神經網絡可以避免在輸入上花費額外的處理時間,也避免了識別方法的復雜性。

表5展示了這幾種方法的 F1 值,從表中可以看出對于經典的分類算法GBDT,其在分類目標2、3、4上展現出比文獻[10]更高的值,體現出GBDT對于家庭用戶特征識別有一定的性能。本文的方法與文獻[10]比較,對于分類目標1、2、3、4,其 F1 比文獻[10]分別高出 6.5% 3.4% 1.0% 3.4% ,雖然對于分類目標5略低,但是總體來說,本文的方法在家庭用戶特征識別上展現出較好的性能,方法簡單高效。

5 結束語
智能電能表提供的大量數據有很重要的研究價值,這些數據提供了有關用電消費者的社會性特征,這些特征有助于公共供應商提供更加個性化的服務。本文以一維用電數據序列為輸入,設計了一維卷積網絡模型對家庭用戶特征進行分類,網絡中的前兩個卷積層之后去掉池化層以實現早期特征的保存。模型在公開的數據集愛爾蘭數據集上進行了訓練測試。對于使用二維卷積神經網絡的方法來說,本文中提出的方法不需要對輸入數據進行額外的處理,使用結構簡單的模型便能獲得與稍復雜模型差不多的性能,甚至在某些用戶特征的識別上獲得了更好的性能,適用于需要及時反饋用戶端用電狀態的系統。
但是,除了智能電表采集到的家庭用電數據,家庭用戶特征還受多種因素影響,例如經濟條件、地域條件、環境等,因此,僅僅從智能電能表提供的數據或許不能得到家庭用特征的真實結果。本文為了方便與其他方法進行比較,使用了公開的數據集進行了訓練測試。在后續的研究中,結合綜合因素考慮是實現家庭用戶特征準確識別的一大研究方向。
參考文獻
[1]李賀龍,于海波,何嬌蘭.基于數據融合方法的智能電能表運 行剩余壽命預測[J].電測與儀表,2019,56(18):126-133. LI HL,YU HB,HE JL.Prediction of remaining operating life of intelligent energy meters based on data fusion method[J]. Electrical Measurement and Instrumentation, 2019, 56(18): 126- 133.
[2] 徐嚴軍,吳蒙,白佳靈,等.多特征提取與深度學習關口計量 裝置異常事件識別方法[J].中國測試,2021,47(5):104-111. XUYJ,WUM,BAIJL,etal.Multifeatureextractionand deep learning gateway metrics method for identifying abnormal events in devices[J]. China Measurement amp; Testing,2021, 47(5): 104-111.
[3]劉成龍,高旭,曹明.基于VMD和BA優化隨機森林的短期 負荷預測[J].中國測試,2022,48(4):159-165. LIU C L, GAO X, CAO M. Short term optimization of random forestbased on VMD and BA Load forecasting[J].China Measurement amp; Testing,2022, 48(4):159-165.
[4]鄧高峰,趙震宇,王珺,等.基于改進自編碼器和隨機森林的 竊電檢測方法[J].中國測試,2020,46(7):83-89. DENG GF, ZHAO ZY,WANG J, et al. Based on improved autoencoder and random forest electricity theft detection method[J]. China Measurement amp; Testing, 2020, 46(7): 83- 89.
[5]蘇適,李康平,嚴玉廷,等.基于密度空間聚類和引力搜索算 法的居民負荷用電模式分類模型[J].電力自動化設備,2018, 38(1): 129·136. SU S,LI K P,YAN Y T,et al.Based on density space clusteringand gravity searchalgorithmclassificationmodelof residential load electricityconsumptionmodein law[J].Power Automation Equipment, 2018,38(1): 129·136.
[6] 郝然,艾芊,肖斐.基于多元大數據平臺的用電行為分析構架 研究[J].電力自動化設備,2017,37(8):20-27. HAO R,AI Q,XIAO F. Construction of electricity consumption behavior analysis based on diversified big data platforms research on frame[J].Electric Power Automation Equipment,2017,37(8): 20-27.
[7]孫毅,李世豪,崔燦,等.基于高斯核函數改進的電力用戶用 電數據離群點檢測方法[J].電網技術,2018,42(5):1595- 1606. SUNY,LI SH,CUIC,etal.Improvementof powerusers based on Gaussiankernel function outlier detection method for electrical data[J]. Power Grid Technology,2018,42(5):1595- 1606.
[8]郭雨青,曾慶軍,夏楠,等.圖像增強水下自主機器人目標識 別研究[J].中國測試,2021,47(11):47-52. GUOYQ,ZENGQJ,XIA N,etal.Research on target recognition of autonomous underwater vehicle based on image enhancement[J]. China Measurementamp;Testing, 2021, 47(11): 47-52.
[9]YANG Z,DAI Z,YANG Y,et al.Xlnet:Generalized autoregressive pretraining for language understanding[J]. Advancesin Neural Information Processing Systems,2019, 32:5753-5763.
[10]WANGY,CHENQ,GAND,etal.Deep learning-based sociodemographic information identification from smart meter data[J]. IEEE Transactions on Smart Grid,2018,10(3):2593- 2602.
[11]ABEYWICKRAMA T,CHEEMA M A,TANIAR D. KNearestneighborsonroad networks:ajourneyin experimentation andin-memoryimplementation[J]. Proceedings of theVLDB Endowment,2016, 9(6): 492-503.
[12]FRIEDMANJ,HASTIET,TIBSHIRANIR.Additivelogistic regression:a statistical view ofboosting(with discussion and a rejoinder by the authors)[J].The Annals of Statistics,2000, 28(2):337-407.
[13]PLATTJ.Sequential minimaloptimization:A fastalgorithm fortraining support vector machines[EB/OL]. (1998-04- 21)[2022-05-08].https://www.microsoft.com/enus/research/wp-content/uploads/1998/04/sequential-minimaloptimization.pdf.
[14] BREIMANL.Random forests[J].Machine Learning,2001, 45(1): 5-32.
(編輯:劉楊)