邢開顏+李梅

摘要:信號是消息的載體,現代社會的信號種類繁多,分類復雜,對信號分類結果的要求也越來越高,用傳統的方法對信號進行分類已經不再適用。數據挖掘(Data rnining)是從大量數據中挖掘有趣模式和知識的過程,適合對大量的信號進行分類,為人們的工作提供便利。本文簡述了數據挖掘分類算法在雷達信號、心電信號、音頻信號和通信信號四種信號分類識別中的應用,介紹了信號分類的過程及其優缺點,找出信號分類識別的發展方向,為未來信號的分類識別研究莫定基礎。
關鍵詞:人工智能;信號分類;數據挖掘;神經網絡;支持向量機
引言
信號是表示消息的物理量,是運載消息的工具,是消息的載體。信號在我們的生活中無處不在,類型多種多樣,包含大量的信息,易受到各種噪聲的干擾,現代社會對信號分類的性能要求很高,這些都給信號的分類識別帶來了難度,用傳統的方法對信號進行分類識別已不能滿足人們的需求,尋找新的信號分類方法是很有必要的。
數據挖掘(Data mining)是從大量的、不完全的、模糊的、有噪聲的以及具有隨性的數據中,對隱含的、具有潛在作用和有意義知識進行提取的過程,可以幫助人們在“大數據”中獲得需要的信息,數據挖掘有眾多的分類算法,這些分類算法各有千秋,為信號的分類識別提供了新的思路,與哪些傳統方法相比,分類算法的分類正確性更高,計算速度更快,更適合處理大量的數據,也更具有智能性,如心電信號、腦電信號的自動識別方便醫生的診斷,雷達信號的智能識別提高了作戰效率等,這些識別方法中都有分類算法的應用。
本文主要介紹了數據挖掘分類算法在雷達信號、心電信號、音頻信號、通信信號的分類識別中的應用,比較了各種分類算法的性能,在此基礎上分析了信號分類的發展方向。
1基本分類算法簡介
數據挖掘的分類方法有很多,如神經網絡、支持向量機、決策樹、回歸分析、貝葉斯等,但在信號的分類中主要使用的分類方法為神經網絡與支持向量機,故主要對這兩種算法做簡單介紹。
1.1人工神經網絡(ANN)
人工神經網絡(ArtificialNeuralNetwork,ANN)是20世紀80年代以來人工智能領域興起的研究熱點,由大量節點相互聯接而成,每個節點代表一種特定的輸出函數激勵函數(Ctivation Function),每兩個節點間的連接表示對通過該連接信號的加權,這相當于人工神經網絡的記憶,網絡的輸出則依據網絡的連接方式、權重值和激勵函數的不同而不同。
神經網絡具有信息分布式存貯、大規模自適應并行處理、高度的容錯性等特點,適合在缺乏屬性與類之間聯系的知識時使用。但ANN的訓練時間長,可解釋性差,需要的參數多,很多參數通常要靠經驗確定,這些特點影響了其應用,在此基礎上對ANN進行了改進,隨后又提出了BP網絡、徑向基函數(Radial basis function,RBF)神經網絡、概率神經網絡(Probabilistic Neural Networks,PNN)、小波神經網絡(Wavelet Neural Network,WNN)、模糊神經網絡(Fuzzy Neural Network,FNN)等等。
近十幾年來,ANN的研究工作不斷深入,在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題,表現出了良好的智能特性。
1.2支持向量機(SVM)
支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等人于1995年提出的,是在統計學理論的基礎上發展出的一種新的模式識別方法,它以結構風險最小化原則為理論基礎,通過適當地選擇函數子集及該子集中的判別函數,使學習機器的實際風險達到最小,保證了通過有限訓練樣本得到的小誤差分類器,對獨立測試集的測試誤差仍然較小。SVM具有較好的泛化能力和魯棒性,算法復雜度與特征空間的維度無關,且局部最優解一定是全局最優解,這使得SVM在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能夠推廣應用到函數擬合等其他機器學習問題中。但SVM的核函數必須滿足Mercer條件,隨著訓練樣本的增多其訓練時間也成倍數增加,支持向量的數目隨訓練樣本集的大小線性增加。
核函數的定義并不困難,根據泛函的有關理論,只要一種函數K滿足Mercer條件,它就對應某一變換空間的內積,表1中為SVM常用的核函數類型:
在選取SVM算法的核函數時,通常采用的方法有三種。一是利用專家的先驗知識預先選定核函數。二是采用Cross-Validation方法,即在進行核函數選取時,分別試用不同的核函數,歸納誤差最小的核函數就是最好的核函數。三是采用由Smits等人提出的混合核函數方法,將不同的核函數結合起來后會有更好的特性,這是混合核函數方法的基本思想,也是目前選取核函數的主流方法。
2應用
2.1雷達信號
雷達信號的分類識別是現代電子情報偵察系統的重要組成部分,也是衡量電子對抗設備先進程度的重要標志。隨著現代武器系統的發展,戰場電磁環境十分復雜,雷達體制多、波形復雜,獲取雷達的完整參數比較困難,這也對雷達信號識別系統提出了很高的要求。其中,特征提取和分類器設計是雷達信號識別的關鍵,利用傳統的特征參數進行雷達信號的識別已經不能滿足現代雷達對抗的要求,因此,需要更精確有效的識別方法。
ANN可以處理一些環境信息十分復雜、背景知識不清楚、樣本有較大缺損或畸變的模式識別問題,很適合對雷達信號進行分類,但是由于其訓練時間長、實時性差,并不適合應用到瞬息萬變的現代戰場中,故對神經網絡算法的改進是很有必要的。唐斌、胡光銳將免疫RBF網絡為子網絡來改進神經網絡的性能,該方法提取RBF網絡核函數寬度的先驗知識作為疫苗構成免疫算子,縮小了算法搜索空間的范圍,進而改善傳統神經網絡訓練時間長,擴充、修改、維護難等缺陷,提高了算法的收斂速度和性能,用免疫RBF網絡陣列對各種雷達的體制和用途識別都有較高的正確識別率,明顯優于BP網絡。但隨著雷達信號的不斷增加,傳統的識別參數難以滿足實際需要,可將關聯特征和神經網絡相結合,利用關聯維數可以衡量信號的關聯復雜度的特征這一特點,將關聯曲線上不同的點作為雷達信號的特征向量,作為神經網絡的輸入進而進行識別分類,該方法在信噪比大于-5dB時就可以達到很高的識別率,適合于各種體制雷達信號的特征提取與識別。在現今這種雷達體制多變的環境下,這種特征提取方法有很廣泛的應用價值。另外,傳統的加權M距離法與ANN結合,可以克服該識別法中各參數平等對待的缺點和專家設置權值法中人為因素的影響,綜合考慮了各參數的影響,較大地提高了識別的準確性和可靠性。
與神經網絡相比,SVM適合處理高維數據,有很強的泛化能力,為雷達信號的分類識別提供了新的思路。胡奎、朱成文在MATLAB環境下模擬了不同核函數的支持向量機對雷達信號的分類效果,實驗表明同時使用波達方向(DOA)、載頻(RF)和脈沖寬度(PW)三個參數作為分類參數時效果最好,因為這三個參數包含了雷達數據的絕大部分信息,有利于得到較好的分類結果。余志斌提出了一種增量模糊學習支持向量機算法(IFSVM),根據不同的雷達信號訓練樣本距離類中心差異和樣本間的親疏程度,賦予每個分類樣本不同的類隸屬度,有較好的識別精度和魯棒性,在訓練數據量大時,IFSVM的時間代價比SVM的要小,但當特征參數在空間成較大范圍的帶狀分布時,時間復雜度會增大,處理效果會降低。
2.2心電信號
心血管疾病是威脅人類生命的主要疾病之一,心電圖(ECG)是診斷心血管疾病的重要依據,是臨床診斷中不可缺少的常規檢查技術,但不同的心臟疾病反映在ECG上的波形迥異,相同的病理也會呈現出不同的心電波形,所以通過計算機自動分析心電圖的診斷精度仍然不能達到臨床醫生的診斷要求,其最終結論尚需要專家的具體分析和決策。因此設計并實現更加精確有效的心電信號自動分類算法仍然具有非常重要的研究意義。
基于小波變換理論,小波神經網絡已經被廣泛的應用于信號的表達和分類,將其應用到ECG信號的分類中可以獲得不錯的分類結果,其訓練周期及對ECG信號的正確識別率都比BP網絡表現的更好,且具有很強的泛化能力,對未學習過的ECG信號仍有很高的識別率,這是BP神經網絡所無法比擬的。在此基礎上,劉春玲、王旭將具有一層感知機的小波神經網絡應用于ECG信號的分類,同時在Roberto KH和Takashi Yoneyama提出的小波節點的初始化的基礎上進行了改進,通過對MIT-BIH心電失常數據庫中的樣本數據進行實驗,與常規的小波網絡相比分類性能得到了顯著提高。
根據ECG信號的時頻分布特征性和心率失常信號特點,可以提取心電信號的時域特征、小波域特征和高階統計量特征,作為ECG信號自動分析系統的特征信息集,再通過SVM分類器對ECG信號進行分類測試,實驗表明該方法分類結果精確度高、分類速度快,在很大程度上克服了傳統機器學習中的維數災難及局部最小等問題。其中維數災難(Curse of Dimensionality)是指在涉及到向量的計算的問題中,隨著維數的增加,計算量呈指數倍增長的一種現象。為了解決這一問題,可以先利用非負矩陣分解(NMF)對數據進行降維,然后運用SVM進行ECG信號的分類。在由高維數據向低維數據轉換的過程中,NMF能更好地保留原始數據的信息,提供更好的特征向量,進而提高分類的準確度。選取MIT-BIH數據庫中的四類ECG信號進行訓練和測試,最終的分類準確度均達到了98%以上,但是NMF計算的時間相對要長一些,仍需要改進算法,以達到更好的實時性。
為了減少SVM算法的收斂時間,李哲設計了一種基于稀疏表示的最小二乘支持向量機(LS-SVM)的ECG信號分類算法,其中,LS-SVM算法的關鍵就是用等式約束代替支持向量機的不等式約束,將支持向量機中的二次規劃問題轉化為求線性方程組的解,這樣就達到了減少算法收斂時間的目的。選取MIT-BIH數據庫上的五種ECG信號,先對特征向量進行稀疏表示,然后通過LS-SVM進行分,正確率可以達到98.93%,該方法既保證充分挖掘數據的特點又能提高泛化能力,適合進行推廣。
2.3音頻信號
近年來,音頻信號處理已經變成了計算機應用的一個重要分支。音頻信號分類有兩個步驟:先將一個音頻信號通過特征提取技術簡化成一個參數集,再用不同的算法對參數集進行加工完成分類。能否正確提取信號特征并將這些特征信號放到相應的類別中決定了分類算法的效果。
小波神經網絡在音頻信號分類識別中也有應用,但分類時音頻信號的模板和樣本信號周期不同會使得網絡參數差異較大,為此何強等人提出了自適應周期小波神經網絡(APWNN),該方法能夠在網絡參數的計算中自動去除信號周期因素的影響。同等條件下對特定人的元音進行分類識別,APWNN網絡和小波神經網絡的正確識別率分別為87.50%和13.54%,可見,APWNN能夠有效克服被識別信號的周期變化對分類的影響,有利于信號分類。但APWNN算法采用連續時頻域特征提取,小波基函數的尺度和平移系數都是連續可變的,計算APWNN參數時耗時的迭代運算,需要想辦法提高運算速度。
在小波變換的基礎上,結合SVM和模糊積分進行信號的特征提取,可有效地對音頻信號進行分類,用該方法對各種聲音集進行分類,準確率較高,算法速度快,較好地體現了模糊學的精髓,彌補了一般算法只判別一次的不足,有較好的應用前景。而李劍等人提出基于選擇性集成SVM的語音、話帶數據信號分類方法,根據集成算法的差異性定義,采用兩層級聯結構的動態疊加算法完成決策輸出,在訓練階段能準確地選擇具有較高識別精度和差異性的成員分類器,在測試階段對各成員分類器進行動態集成,提高運算速度和抗噪聲性能,保證最終的分類結果最優,適合推廣。
2.4通信信號
通信信號的分類,又稱信號的調制識別,基本任務是在多信號有噪聲等復雜環境下確定信號的調制方式和載波頻率、碼元速率等信號參數,為信號的進一步分析和處理提供依據。隨著現代通信的發展,通信系統呈現出多樣化的趨勢,通信信號調制類型自動識別日益受到重視,在信號確認、干擾辨識、無線電偵聽、電子對抗、信號檢測和威脅分析等領域應用廣泛。信號調制類型自動識別是后續工作的前提和基礎,但通信信號在傳播過程中會受到信道噪聲的污染,增加了信號識別的難度。
2.4.1基于ANN的通信信號分類
由于ANN能快速解決復雜分類問題,具有容錯能力,對噪聲和不完整數據輸入不敏感等優點,使得ANN在通信信號自動分類識別問題上能夠取得令人滿意的結果。但也存在一些問題,如BP網絡收斂速度慢且易陷入局部最小,可用共軛梯度法對BP網絡進行改進,通過選擇權向量的更新方向為誤差函數的共軛梯度方向,可以顯著提高收斂速度和正確識別率,改善BP網絡的局部極小問題,在信號的信噪比不小于2dB時,都能對信號進行正確識別。
鄒月嫻等人將級聯神經網絡分類識別器應用于通信信號的分選和識別,選擇二值自適應共振(ARTl)神經網絡完成對輸入信號的分類,確定輸入信號類型是否已被網絡存儲,當發現新出現的信號時進行標記,再用BP網絡識別該信號類型,這樣可以充分利用信號的所有特征,該方法在信號噪聲比為3dB的情況下提取的復合特征能被ARTl網絡和BP網絡以一定的概率正確存儲和識別,且該方法對信號噪聲比的要求與傳統方法相比降低了近10dB,在低信噪比條件下,其正確識別率遠優于傳統信號分類識別器的識別結果。隨后,苗建蘇、傅豐林用RBF神經網絡對通信信號進行分類,其中RBF可以將信號的矢量特征降維,有利于信號的分類識別。模擬實驗表明,該方法分類精度高、訓練速度快、占用存儲空間少、容錯性強,由于是分布式存儲,該網絡易于硬件實現。在用RBF網絡進行通信信號分類之前,可以對信號數據進行處理,可用離散傅里葉變換(DFT)和小波變換方法提取信號的頻譜、瞬時幅度、瞬時頻率和瞬時相位,構成信號的特征向量,將特征向量通過RBF神經網絡獲得最終的分類結果,該方法在信噪比為6dB時對信號的識別依然可以保持較高的識別率,具有一定的抗干擾能力,基本上可以滿足應用的要求。將小波變換與RBF網絡相結合進行通信信號的分類可以獲得不錯的效果,在MATLAB上進行仿真實驗,結果表明分類識別率隨著信噪比的增加而增加,在SNR-5dB時信號的平均識別率為98.58%,在SNR-0dB時信號的平均識別率為99.83%,可見該方法的分類性能很高,并且對噪聲不敏感,有很好的抗噪聲能力。
2.4.2基于SVM的通信信號分類
在信號的實際傳輸中,得到的訓練樣本數是十分有限的,這時很多方法都難以取得理想的分類效果,即使在有限訓練樣本情況下,采用復雜的學習機使學習誤差更小,但推廣性卻往往變差。韓鋼等人提出一種基于高階累積量和SVM的數字信號自動調制識別方法,即將接收信號的四階、六階累積量作為分類特征向量,利用SVM將分類特征向量映射到一個高維空間,并在高維空間中構造最優分類超平面以實現信號分類。這種方法對高斯噪聲和星座圖由于信號初始相位而引人的旋轉具有良好的穩健性,并避免了神經網絡中的過學習和局部極小等缺陷,有良好的分類性能和穩健性,但對于SVM的二次規劃,需要的時間比較長,特別是在訓練樣本數較大的情況下。馮祥等人通過提取觀測樣本累積量的識別特征矢量來區分不同的信號類型,再將特征向量映射到高維空間中用SVM加以分類。仿真實驗表明,該方法在較大的信噪比范圍內對全球移動通信系統(GSM)、碼分多址(CDMA)、正交頻分復用技術(OFDM)三種信號均有較高的識別率,當信噪比大于5dB時,對三種信號的正確識別率接近0.99,因而該分類算法有較好的推廣能力,克服了對模型過分依賴的問題,不同參數的徑向基核函數或多項式核函數對算法的性能沒有明顯的影響。王玉婧將高階累積量、小波變換與SVM相結合,用來對調制信號進行分類。仿真實驗證明,這種方法是可行的,既解決了小波特征對調相信號之間識別性能偏低的問題,又實現了對OFDM信號和其他多種單載波通信信號的分類,并且由于SVM對小樣本信號具有良好的性能,所有該方法在數據長度有限的情況下仍能達到良好的識別性能。
由于不同的核函數對SVM的分類性能影響很大,可采用并行組合的SVM分類器進行通信信號的識別,通過對比不同核函數下SVM的分類結果,選擇識別率高的作為最后的判決類型。對實際采集的六種調制信號,分別通過線性核函數的SVM分類器、高斯核函數的SVM分類器和并行組合的SVM分類器,最終結果表明,并行組合的SVM分類器對信號具有很好的分類性能,優于單個SVM分類器。
遺傳算法(GA)是模擬生物進化過程中的自然選擇和遺傳變異的一種隨機優化方法,具有很強的全局搜索能力,并且這種搜索能力不依賴于特定的求解模型。利用GA算法的全局尋優能力優化SVM中的核函數的兩個參數,再用優化后的SVM進行分類。通過對數字通信信號的分類仿真,表明了其良好的優越性,提高了訓練速度,說明在通信領域遺傳優化SVM具有很好的應用前景。
3總結與展望
數據挖掘的分類算法為信號的分類識別帶來新的活力,不論是直接應用分類算法,還是將分類算法與傳統的方法相結合,都具有各自的特點和潛力。但是分類算法在信號的分類識別中的應用還不成熟,未挖掘出其真正的潛力,還有很多問題亟待解決,主要體現在:
1)很多信號中混有干擾和噪聲,這些會影響分類的最終結果,在分類前需要進行數據的預處理,可以采用小波變換、傅里葉變換等時頻分析方法濾除噪聲和干擾,提取出有用信號特征再進行分類,可以提高分類的準確性。
2)數據挖掘的分類算法有很多,如決策樹、回歸分析、貝葉斯、神經網絡、支持向量機等等,目前在信號分類中應用最廣的是神經網絡和支持向量機,可以嘗試用其他的分類模型進行信號的分類,擴大分類算法在信號識別中的應用范圍。
3)可將數據挖掘的分類算法與其他方法相結合進行算法的優化,提高算法的分類性能、學習能力和收斂速度等,例如與遺傳算法、模糊控制、粗糙集理論等相融合,必將成為今后信號分類識別的研究熱點。
對上述問題的深入研究必將促進數據挖掘分類算法在信號分類識別領域中的應用和發展,在信號的智能識別領域中展現出更加光明的前景。