董小泊
(中國華電集團有限公司甘肅公司,甘肅 蘭州 730000)
風能作為一種環保、綠色、可再生的清潔能源,在全球節能減排進程中起到了越來越重要的作用。我國風資源主要分布于沿海、西部內陸等偏遠、氣候環境惡劣的區域,因此在此惡劣環境中,風電機組的葉片極易遭受環境侵蝕,產生裂紋、磨損、沙眼等情況,因此如何檢測葉片質量成為了一項重要工作。傳統模式下的人工定期巡檢方式,對于大多地處偏遠區域、海上區域等的風場,在風電機組數眾多的情況下,效率與時效性極低。因此,基于數字化、網絡化的自動遠程葉片監測技術,正越來越受到人們的重視。
目前,對于葉片的自動化監測,普遍采取一種不影響風機正常運作的無損檢測方法,選擇合適的拾音器,安裝在塔筒底部塔壁上,采集并分析葉片旋轉時的掃塔聲。
本文基于葉片運轉與未運轉2種類別的音頻數據進行分類。可采取人工耳聽并對葉片音頻貼標簽的方式構建監督分類模型,但由于音頻持續采集,數據量較大,采取人工方式,效率極低,因此嘗試基于無監督的DBSCAN聚類方式進行分類。
DBSCAN基于密度聚類,不需要預先指定聚類簇數,它可發現任意形狀的聚類,作為基于密度算法的經典代表,在聚類分析中得到越來越多的應用。
DBSCAN算法需要設定兩個參數:Eps(定義密度時的鄰域半徑參數,記為ε)和MinPts(鄰域密度閾值,記為M)。記數據集合X={x(1),x(2),…,x(N)},基本概念如下:
(1)ε鄰域:設x∈X,稱Nε(x)={y∈X;d(y,x)≤ε}為x的ε鄰域,顯然x∈Nε(x)。
(2)密度:設x∈X,稱ρ(x)=|Nε(x)|為x的密度,是一個整數值,且依賴于半徑ε。
(3)核心點:設x∈X,若ρ(x)≥M,則稱x為X的核心點。記由X中所有核心點構成的集合為Xc,并記Xnc=XXc表示由X中的所有非核心點構成的集合。
(4)邊界點:設x∈Xnc,且?y∈X,滿足y∈Nε(x)∩Xc,即x的ε鄰域中存在該核心點,則稱x為X的邊界點,記由X中所有邊界點構成的集合為Xbd。
(5)噪聲點:記Xnoise=X(Xc∪Xbd),若x∈Xnoise,則稱x為噪音點。
(6)直接密度可達:設x,y∈X,若滿足x∈Xc,y∈Nε(x),則稱y是從x直接密度可達的。
(7)密度可達:設P(1),P(2),…,P(m)∈X,其中m≥2,若它們滿足:P(i+1)是從P(i)直接密度可達的,i=1,2,…,m-1,則稱P(m)是從P(1)密度可達的。
(8)密度項鏈:設x,y,z∈X,若y和z均是從x密度可達的,則稱y和z是密度相連的,顯然密度相連具有對稱性。
(9)類:稱非空集合C?X是X的一個類,如果它滿足:對于x,y∈X
若x∈X,且y是從x密度可達的,則y∈C;
若x∈C,y∈C,則x,y是密度相連的。
它的具體步驟:
輸入:數據集X,半徑參數ε,密度閾值M
輸出:聚類結果及噪聲數據
步驟1:從數據集X中隨機抽取一個未被處理的對象x,且在它的ε-鄰域滿足目睹閾值要求,稱為核對象;
步驟2:遍歷整個數據集,找到所有從對象x的密度可達對象,形成一個新的簇;
步驟3:通過密度相連產生最終簇結果;
步驟4:重復執行步驟2和步驟3,直到數據集中所有對象都為“已處理”。
因此,基于密度的聚類就是一組“密度相連”的對象,以實現最大化的“密度可達”,不包含在任何聚類中的對象就是噪聲數據。
在對葉片音頻進行DBSCAN之前,需要進行特征提取。葉片音頻本質上屬于時域信號,但由于它又屬于信號數據,可從頻域上提取特征。設信號為xi。
時域特征

(2)1/3倍頻程:1/3倍頻程可以簡化頻譜的分析過程,無需分析每個頻率成分的聲能量,將信號的頻譜劃分為若干個頻帶,每個頻帶的頻率上下限之比恒定為21/3,分析不同頻帶的能量分布情況。
(3)MFCC:捕捉音頻信號的能量在不同頻率范圍內的分布。
利用某風場2.5MW機型采集的164個葉片音頻數據(其中葉片運轉82個,葉片未運轉82個,包含在其中的含噪音頻10個),提取特征(共48個),進行DBSCAN聚類。聚類結果可視化如圖1所示。

圖1 DBSCAN聚類可視化
圓點代表風電機組葉片未運轉,五角星點代表風電機組葉片運轉;正方形點代表噪聲點。
從圖1可以看出,DBSCAN聚類可將機組葉片旋轉與未旋轉準確區分開來,但其中存在一些噪聲,通過人工耳聽這些噪聲音頻,接近圓點部分的音頻主要包含路過人員的說話聲、棲息在拾音器上鳥的鳴叫;接近五角星點部分的音頻主要包含冷卻風扇開啟后的噪聲,淹沒了部分葉片旋轉的掃塔聲。
從總體上來說,DBSCAN對葉片音頻分類的效果較好,混淆矩陣見表1。

表1 混淆矩陣
從表1中可以看出,原始葉片運轉與葉片未運轉的音頻分別有82個,聚類后,葉片運轉的音頻分類正確的有69個,分類成含噪音頻的有8個,其中分類成葉片未運轉(即分類錯誤)的有5個;葉片未運轉的音頻分類正確的有80個,分類成含噪音頻的有2個,其中分類成葉片運轉(即分類錯誤)的有4個。
分類結果見表2。

表2 分類結果
從表2中可以看出,預測的ROC值達93%,準確率達94%。
后續工作將對含噪音頻進行處理,將音頻中的噪聲過濾,得到純凈的葉片掃塔聲。
圖2展示了葉片運轉圖2(a)、葉片未運轉圖2(b)、噪聲圖2(c)的典型波形圖。

圖2 葉片運轉、葉片未運轉與噪聲的波形圖
本文從時域與頻域的角度,分別對采集到的風電機組葉片音頻提取特征,然后再進行無監督的DBSCAN聚類,最終給出聚類結果,避免了人耳聽音頻確定標簽的低效率,通過實例對比研究,發現聚類效果較好,能發現其中的噪聲點。有利于對含噪音頻進行去噪濾波,得到純凈的葉片音頻,并用于后續葉片狀態的感知判斷。