摘要:隨著管理技術的發展,測試數據作為管理中的重要組成部分正在得到越來越廣泛的重視。為了使現有的監測水平得到進一步提高,就需要使用先進的數學工具和手段來識別測試數據的真假。通過這些手段的運用來實現數據的優化,并同時統計測試數據樣本模型來預測可能出現的錯誤信息。因此對測試數據數理統計的研究具有一定的理論價值和實用價值。
關鍵詞:測試數據;神經網絡;分析處理
中圖分類號:TP18文獻標識碼:A文章編號:1009-3044(2009)32-9026-02
The Analysis and Treatment ofData Using Probabilistic Neural Network
FANG Liang1, GAO Jun2
(1.Office of Radio Administrator Conference of Anhui ChaoHu Branch, Chaohu 238000, China; 2.Hefei University of Technology, Department of Computer and Information, Hefei 230000, China)
Abstract: With the development of management technology, motoring data of management, as an important part of being more widely appreciated. For the monitor level of the current can be further raised, which require the use of advanced mathematical tools and instruments to identify the monitoring data is true or not. Through these means used to achieve the optimization of the dated, while statistical monitoring data sample model to predict the possible error message. Therefore, it has a certain theoretical value and practical value to the mathematical statistics study of the monitoring data.
Key words: monitoring data; 1 signal; probabilistic
近些年來,在隨著管理業務向高頻段,大范圍方向發展,管理監測的網絡化和干擾也越來越多,一個諸如國家管理監測系統和管理系統的建立,測試數據越來越被技術人員所重視。
針對管理監測的主要任務:1) 對信號實施搜索截獲;2) 對信號進行測量;3) 對信號的監聽與監視;4) 對信號的分析處理;5) 對信號進行識別;6) 對信號輻射源的測向定位;7) 實施數據記錄。對于上述7個重要任務而言,管理監測設備已經幫助我們完成前3項的大部分工作了,而對于后面的工作就需要必須明確一個問題。那就是如何識別所截獲的管理信號為真實可信,同時根據可信的信息來判斷信號的異常。
1 模型建立
本文擬解決的難點主要是:1) 管理測試數據產生虛假數據的原因以及主要表現;2) PPN模型的建立與實際意義;3) PNN模型實際效用,是不是能達到預期;4) PPN模型建立是否能消除管理虛假數據的產生。
我們現在利用PNN網絡來解決虛假信號的判定,前面已經說明在判斷虛假信號前,我們已經有效的判定出信號的調制方式,那么下面我們可用一個4層次網絡來構建一個PNN,第一層為輸入層,包括N個神經元,每個神經元對應著一個輸入變量。這一層的作用是將輸入信號轉化為分布的方式來表示,第二層為模式層,它與輸入層之間通過,連接權W相連接,通常模式層的每一單元與一個訓練樣本相對應。
由模式神經元j通過傳遞函數對1×n維的輸入向量Xi進行處理,最普遍使用的傳遞函數形式是指數函數:
(1)
其中σ是平滑參數,這一傳遞函數的值域在0和1之間。當輸入向量Xi和模式神經元j的向量Xj之間的距離增加時,神經元的輸出值Sij將接近0,這表明兩個數據向量之間相似性小。另一方面,當距離‖Xj-Xi‖減小時,神經元j的輸出值將接近1,這表明兩個數據向量之間存在明顯的相似性。如果Xi和Xj相同,則模式神經元j的輸出將準確為1。平滑參數σ控制傳遞函數的寬度,當σ接近0時,即使Xi、Xj之間的差異很小甚至Xi等同于Xj,也將導致Sij≈0,反之,更大的σ值產生更平滑的結果。
模式神經元的輸出被傳送給由K個競爭神經元組成的、具有線性求和功能的總和層。這一層的神經元數目與待分的模式數目相等。每一總和神經元k與設計屬于種類k的訓練目標的模式神經元相連接。對于一個輸入向量Xi,總和神經元k簡單地取與它連接的模式神經元的輸出值并產生如下輸出fk(Xi):
(2)
式中,yk是對應于綜合神經元k的種類標簽,Mk是屬于這一種類的訓練樣本數。假設所有的數據向量都歸一化為單位長度,則fk(Xi)可化為:
(3)
并且總和神經元的輸出可容易地轉換為后驗的成員關系概率P(yi=k│Xi):
(4)
第四層即輸出層是由一個神經元組成的,具有判別功能的決策層,它可根據上述概率和某一分類準則將輸入向量Xi分類為一個它最有可能屬于的種(具有最大的P(yi=k│Xi)。在y={0,1}的兩種類情形中,可以定義一個概率分割點c,使得當且僅當P(yi=k│Xi) ≥c時,Xi被分配給種類1,可根據基于種類關系的先驗概率和錯分類概率確定這一分割點,根據貝葉斯選擇,我們的測試數據是沒有標記類別的訓練樣本集合。我們需要對訓練樣本集合進行聚類,從而估計它們概率分布的參數。根據與概率相聯系的期望風險的總和最小原則對輸入向量進行分類。因此,可以根據以下準則判斷別輸入向量Xi所屬的種類:
(5)
式中,對于給定的某一輸入向量Xi,P(yi=k│Xi)是種類k的條件概率;Lj,k(Xi)是將具有輸入向量Xi和實際種類k的數據樣本分類為種類j的數據。如果
(6)
則將輸入向量Xi分配為種類,否則分配為種類0。
2 變量分析
我們在進行MATLAB仿真時使用6組類似仿真,利用77個輸入樣本作為訓練樣本。那么就需要對輸入樣本的數據進行變量選擇,變量選擇很重要,如果能很正確地選擇變量的話,將有助于更容易的識別出虛假信號。
從總體上來講,管理測試數據可以通過測試信號的場強、占用度、占用帶寬等等來進行測量。本研究收集了3個數據比率(信號場強/頻率,信號占用度/頻率,信號使用帶寬/頻率)在特定時間下,為了減少維度,運行方差分析,對于每一個數據比率進行檢驗,看其是否具有明顯差異,已確定該變量對樣本的觀察值是否產生影響。
檢驗P值的過程,三個變量P值的比較。特征向量P(每組輸入變量之間的差值):
(7)
通過計算發現在3個數據比率中,信號場強/頻率的p值最小,最能體現虛假數據和真實數據的差異。
3 實驗結果與模型開發
通過MATLAB實驗防真,我們輸入自變量Xi,獲得輸出f(X)i,通過(6)仿真判斷獲得仿真結果,真實數據24組,虛假數據23,識別率87.3%。識別率很高。
訓練學習的最終目標是建立一個在新的數據對象上推廣性能良好的模型,因此需要對模型進行性能評估。可以在由一個未參與訓練的數據組成的獨立檢驗集合來評估模型的基本性能。另外使用分層10次迭代交叉有效檢驗,首先將數據隨即劃分為10個容量近似相同、獨立的迭代子集。每個迭代子集包含相同數量的虛假數據和真實數據。對于每一個迭代子集,使用剩余9個迭代子集對模型進行訓練,然后使用此迭代子集對模型進行驗證,最后計算出平均性能,從而獲得對模型性能的真實評估。實驗結果表明,識別虛假測試數據模型在性能方面,使用PNN具有較好的性能,它在10次迭代交叉有效性檢驗中達到86.2%正確檢驗樣本的,很好幫助了對虛假數據的識別工作,同時他的模型還可以擴展到其他監測的其他方面去。
參考文獻:
[1] Joseph C.Liberti,Theodore S.appaprot..Smart Antennas for Wireless Communications IS-95 and Third Generation CDMA Applications[M].北京:機械工業出版社,2002.
[2] 周朝棟,王元坤,楊恩耀.天線與電波[M].西安:西安電子科技大學出版社,1999.
[3] 朱慶厚.管理監測與通信偵察[M].北京:人民郵電出版社, 2005.
[4] 閻平凡,張長水.人工神經網絡與模擬進化計算[M].北京:清華大學出版社,1999.
[5] 白瑩,趙振東,戚銀城,王斌,郭建勇.基于小波神經網絡的與文本無關說話人識別方法研究[J].電子與信息學報2006,28(6):1036-1039.