999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習算法在數據挖掘中的應用

2015-10-26 22:14:23陳小燕
現代電子技術 2015年20期
關鍵詞:數據挖掘

陳小燕

摘 要: 針對數據挖掘算法中常用的機器學習型算法進行研究。機器學習型算法特色是運用了人工智能技術,能在大量樣本集訓練和學習后自動找出運算需要的參數和模式。以機器學習型算法中的人工神經網絡為例研究數據挖掘技術,針對學習速度慢、抗干擾能力弱以及容易陷入局部最小值等缺點和傳統的遺傳算法存在算法早熟以及局部尋優能力弱等問題,提出一種通過改進常規遺傳算法的染色體結構和遺傳算子,并且通過引入自適應交叉和變異概率來對BP神經網絡結構參數進行優化的改進型遺傳優化BP神經網絡模型。最后通過煤礦空壓機故障診斷系統這一實例來研究改進型算法的數據挖掘技術的性能。研究結果表明,改進后的算法建立的診斷模型相比常規神經網絡的診斷模型診斷準確率更好,診斷效率更快。

關鍵詞: 數據挖掘; BP神經網絡; 遺傳優化算法; 空壓機故障診斷

中圖分類號: TN957.52+9?34; TP274 文獻標識碼: A 文章編號: 1004?373X(2015)20?0011?04

Application of machine learning algorithm in data mining

CHEN Xiaoyan

(Jiangsu Polytechnic College of Agricultural and Forestry, Jurong 212400, China)

Abstract: The machine learning algorithm commonly used in data mining algorithm is studied in this paper. AIT (artificial intelligence technology) is adopted in machine learning algorithm, which can automatically find out the parameters and modes required by operation after a large number of sample set training and learning. The artificial neural network in machine learning algorithm is taken as an example to research the data mining technology. Since the traditional genetic algorithm has the shortcomings of prematurity and weak local optimizing capacity, the improved genetic optimization BP neural network model is proposed by improving the chromosome structure and genetic operator, and by introducing adaptive crossover and mutation probability to optimize neural network structure parameters and solve the problems of slow learning speed, weak anti?jamming capability, and easily falling into local minimum value. Finally, the performance of the improved algorithm is studied by using the fault diagnosis system of air compressor. The research results show that the improved diagnostic model, compared with the conventional neural network diagnosis model, has better diagnostic accuracy and higher diagnostic efficiency.

Keywords: data mining; BP neural network; genetic optimization algorithm; fault diagnosis of air compressor

0 引 言

數據挖掘技術是在整個社會發展中隨著科學和技術的不斷進步而順應需要所生。隨著信息化技術的不斷普及,人類社會逐步進入到信息化社會中,信息化管理技術隨之不斷提升,成本卻同時逐步下降,數據管理技術(Data Management Technology)在各企事業單位中進一步普及,從而推動企事業單位內部職能部門間的溝通聯絡。但是,隨之而來的弊病是海量數據的累積導致數據分析的困難[1?2]。

1 數據挖掘

數據挖掘算法中常用的有機器學習型算法和統計型算法兩類。前者的特色是運用了人工智能技術,能在大量樣本集訓練和學習后自動找出運算需要的參數和模式;后者則常用相關性分析、聚類分析、概率和判別分析等進行運算。不同算法當然有著各自不同的對應領域和目標,它們既能單獨使用,也能相互結合。

機器學習型算法中人工神經網絡方法被普遍運用,它具有極好的數據處理能力和自組織學習能力,并且能準確進行識別,從而有助于分類問題中的數據處理。人工神經網絡通過建構模型而工作,其模型多樣,能滿足不同需求。總體來看,人工神經網絡模型精確度高、魯棒性好,具有較強描述能力,在應用時可以無需專家支持。當然,它也存在一些缺陷,具體表現在:訓練數據所需要的時間較長;對所獲取知識的理解上不夠智能;開放性和可伸縮性也有一定局限性。

傳統的BP神精網絡存在學習速度慢、抗干擾能力弱以及容易陷入局部最小值等缺點,而傳統的遺傳算法存在算法早熟以及局部尋優能力弱等問題;所以本文提出一種通過改進常規遺傳算法的染色體結構和遺傳算子,并且通過引入自適應交叉和變異概率來對BP神經網絡結構參數進行優化的改進型遺傳優化BP神經網絡模型[3?4]。

2 改進型GA?BP神經網絡

本文為了提高BP神經網絡的性能,針對常規遺傳算法的染色體結構和遺傳算子進行改進。引入自適應交叉、變異概率以平衡優化BP神經網絡的結構和初始權重。

(1) 染色體結構設計。本文將染色體基因結構分為上下兩層結構,分別為控制基因和參數基因兩層,從而對常規的遺傳算法優化BP神經網絡模型進行改進。處于上層的控制基因通過對BP神經網絡的隱含層節點數優化從而實現對BP神經網絡結構的優化。處于下層的參數基因主要對BP神經網絡的連接權值和閾值進行優化。

(2) 設計適應度函數。本文將適應度函數表示為:

[f=a?frmse+b?fcom , 0

式中:[n]為訓練樣本個數;[frmse]是訓練數據的均方根誤差,處于0~1之間;[yi]和[yi]分別是實際值和識別值。

(3) 算子選擇。本文提出的改進型遺傳優化BP神經網絡算法使用最優個體保留方法實現算子選取以常規的適應值比例算法選取方法引起的局部最小值等問題[5]。

(4) 交叉、變異算子。本文提出的改進型遺傳優化BP神經網絡算法的上層控制基因采用單點交叉和基本位變異算子,下層的參數基因使用整體算數交叉和非一致變異算子。

(5) 自適應交叉、變異概率。本文通過對自適應交叉、變異概率進行設計以平衡優化BP神經網絡的結構和初始權重,具體設計過程如下,設定自適應交叉概率為:

[Pc=k1fc-fminfavr-fmin, fc≤favrk2, fc>favrc] (2)

式中:[favr],[fmin]及[fc]分別是種群的平均適應值、最小適應值以及交叉個體偏小的適應值;[k1],[k2]通常在1.0上下取值。設定自適應變異概率為:

[Pm=k3fm-fminfavr-fmin, fm≤favrk4, fm>favrc] (3)

式中:[fm]是等待變異的個體適應值;[k3],[k4]通常在0.5上下取值[5?7]。

本文提出的改進型遺傳優化BP神經網絡算法的實施步驟如下:

Step1:采集并歸一化處理數據。將處理好后的數據分為訓練樣本數據和測試樣本數據兩大類。

Step2:對遺傳優化算法模型的基本參數,如進化最大代數為[G],種群的規模[N]以及隱含層節點數等進行設定。

Step3:對種群上層種群個體使用二進制編碼,對種群下層種群個體使用實數編碼。

Step4:對種群各個個體解碼以確定BP神經網絡的結構參數。

Step5:遺傳操作種群中適應度優異的個體。

Step6:對種群中遺傳個體使用自適應概率進行交叉、變異操作,獲得新的子群。

Step7:對上下層的子群個體解碼以對BP神經網絡隱含層節點數、權值和閾值等結構參數進行更新。

Step8:如果迭代步數達到設定最大值或者最佳個體適應度值滿足要求,進入下一步,否則從Step5繼續循環。

Step9:對適應值最佳的個體進行解碼以確定最佳的BP神經網絡隱含層節點數、閾值和連接權值等參數[8]。

3 數據挖掘應用實例

本文以煤礦空壓機的故障診斷系統為實例,對提出的基于改進型GA?BP神經網絡的數據挖掘模型進行研究。

3.1 煤礦空壓機故障診斷系統

在建立空壓機故障診斷模型之前,首先要通過查閱大量的空壓機使用說明、故障說明、專家、操作人員的現場使用經驗以及集合現在實時監測數據對空壓機故障類型、故障來源等問題進行歸納總結。

以某煤礦的煤礦空壓機故障診斷系統為例進行研究。通過經驗及現場數據對煤礦空壓機歸納出5種工作狀態,用符號Y1~Y5表示,即為神經網絡故障診斷模型的輸出。Y1~Y5分別表示:煤礦空壓機為無故障工作狀態;煤礦空壓機冷卻水系統出現故障的工作狀態;煤礦空壓機潤滑系統出現故障的工作狀態;煤礦空壓機軸承出現故障的工作狀態;煤礦空壓機電路系統出現故障的工作狀態。

當煤礦空壓機出現上述故障情況時,會有相應的故障征兆,根據經驗及文獻可以將煤礦空壓機的故障征兆或者故障現象歸納為10種,用符號X1~X10表示,即為神經網絡故障診斷模型的輸入。X1~X10分別表示:煤礦空壓機排氣量過低、空壓機排氣壓力不足、空壓機排氣溫度超限、空壓機冷卻水溫度超限、空壓機冷卻水壓力不足、空壓機主機轉速低限、空壓機振動超限、空壓機潤滑系統油溫超限、空壓機潤滑油壓力不足以及軸承溫度超限。

煤礦空壓機的故障征兆或者故障現象與煤礦空壓機出現故障的工作狀態有一定的內在聯系,但又不是一一對應的,屬于非線性關系,在此將歸納整理的煤礦空壓機的故障狀態和故障現象之間的內在聯系列于表1。

通過長期的現場監測得到了大量關于煤礦空壓機在正常工作及各種故障狀態下的系統數據。通過對數據處理選取100組數據作為基于數據挖掘的故障診斷系統的訓練數據樣本,選取100組數據用于基于數據挖掘的故障診斷系統的性能測試數據樣本。表2列出了10組部分用于網絡訓練和測試的數據樣本。

表1 空壓機故障狀態及故障現象關系

本文將所有用于訓練和測試的數據樣本進行歸一化處理以消除不同傳感器信號數據不同量綱產生的影響,通過式(4)將所有數據歸一到0.05~0.95之間:

[S*=0.9(S-Smin)Smax-Smin+0.05] (4)

式中:[S]為歸一化處理之前的值;[Smax]為是歸一化處理的最大值;[Smin]為是歸一化處理的最小值。

建立基于本文提出的基于改進型GA?BP神經網絡的故障診斷系統主要分為兩大塊:

第一塊是利用改進GA算法對BP神經網絡結構參數進行優化,如閾值[θj],[γ]、隱層節點數[m]以及連接權值[wj1],[wij]等;第二塊就是根據優化后的BP神經網絡結構參數進行建模。

故障診斷系統的輸入單元數由煤礦空壓機故障現象確定,通過上述分析,確定數量為10,即X1~X10;輸出單元個數由煤礦空壓機的工作狀態確定,通過上述分析,確定數量為5,即Y1~Y5;隱含層為單層,單元數量一般先通過經驗試湊法確定為16。初始閾值[θj],[γ]以及初始連接權值[wj1],[wij]在-3~3范圍內取值;神經網絡的最大訓練次數設定為3 000,精度為10-3。

設定遺傳算法中種群的規模為[N=150],進化最大代數為[G=300],及其他參數[b=0.1],[k1=k2=1.0],[k3=k4=0.5]。

通過遺傳算法優化的平均適應度曲線如圖1所示,隱含層節點數優化曲線如圖2所示,最終隱含層節點數通過189次的迭代后確定為22。

3.2 基于數據挖掘的空壓機故障診斷分析

針對上述建立的煤礦空壓機故障診斷系統進行仿真研究,為了比較本文提出的改進型GA?BP神經網絡算法的優越性能,使用基于常規GA優化的BP神經網絡建立同樣的煤礦空壓機故障針對系統,使用同樣的訓練數據樣本進行網絡訓練,使用同樣的測試數據樣本進行性能測試。使用采集并處理后的100組訓練樣本對模型進行訓練,得到兩種模型的誤差逼近曲線如圖3,圖4所示。

圖1 平均適應度變化

圖2 隱含層節點數更新過程

圖3 常規GA優化的BP神經網絡訓練誤差

通過對比可以看出,使用本文提出的改進型GA?BP神經網絡算法經過569次迭代就使得誤差達到了設定范圍內,而使用常規GA優化的BP神經網絡算法經過2 779次迭代才使得誤差滿足要求。因此在網絡的訓練速度、收斂速度和收斂精度方面,本文提出的改進型GA?BP神經網絡算法更勝一籌。

下面使用采集并處理后的100組測試數據樣本對故障診斷模型的診斷性能進行測試。測試結果表明,常規GA優化的BP神經網絡的診斷正確率為87.5%,診斷時間為564 s,輸出值不穩定,而本文提出的改進型GA?BP神經網絡的診斷正確率為98.2%,診斷時間為246 s,輸出值穩定。

圖4 改進GA優化的BP神經網絡訓練誤差

可以看出,相比于常規GA優化的BP神經網絡,本文提出的改進型GA?BP神經網絡算法所建立的故障診斷模型的性能更優,檢測準確率以及速度更快,誤判率極低。

4 結 論

數據挖掘技術是在整個社會發展中隨著科學和技術的不斷進步而順應需要所生,在近年來發展十分迅速。本文針對機器學習算法中的人工神經網絡算法在數據挖掘技術中的應用進行了研究,提出一種通過改進常規遺傳算法的染色體結構和遺傳算子,并且通過引入自適應交叉和變異概率來對BP神經網絡結構參數進行優化的改進型遺傳優化BP神經網絡模型。最后通過將提出的基于改進GA?BP神經網絡算法的數據挖掘技術應用于無法用數學模型建立、具有復雜非線性、數據龐大的煤礦空壓機故障診斷系統中。

參考文獻

[1] 胡秀.基于Web的數據挖掘技術研究[J].軟件導刊,2015(1):149?150.

[2] 李仕瓊.數據挖掘中關聯規則挖掘算法的分析研[J].電子技術與軟件工程,2015(4):200?202.

[3] 陳勇.一種目標行為序列模式的數據挖掘方法[J].無線電通信技術,2015(2):79?81.

[4] 于書媛,陳靚,王偉.基于空間數據挖掘的合肥市應急避難場所選址[J].地理空間信息,2015(1):93?95.

[5] 莊健,楊清宇,杜海峰,等.一種高效的復雜系統遺傳算法[J].軟件學報,2010(11):2790?2801.

[6] 劉磊.基于遺傳神經網絡的指數跟蹤優化方法[J].系統工程理論與實踐,2010(1):22?29.

[7] 宋國峰,梁昌勇,梁焱,等.改進遺傳算法優化BP神經網絡的旅游景區日客流量預測[J].小型微型計算機系統,2014(9):2136?2141.

[8] 李松,劉力軍,解永樂.遺傳算法優化BP神經網絡的短時交通流混沌預測[J].控制與決策,2011(10):1581?1585.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国内精品久久九九国产精品| 狠狠色香婷婷久久亚洲精品| 中文字幕第1页在线播| 国产91av在线| 狠狠操夜夜爽| 欧美a在线| 色色中文字幕| 国产拍在线| 呦系列视频一区二区三区| 在线色国产| 激情六月丁香婷婷| 中文字幕66页| 性欧美在线| 免费人成视网站在线不卡| 成人自拍视频在线观看| 欧美成人精品高清在线下载| 尤物成AV人片在线观看| 人人妻人人澡人人爽欧美一区 | 毛片在线播放网址| 亚洲va精品中文字幕| 婷婷综合亚洲| 亚洲国产精品日韩欧美一区| 99久久精品免费看国产电影| 91精品视频播放| 国产美女自慰在线观看| 激情综合五月网| 国产精品美女网站| 无码专区国产精品一区| 欧美激情福利| 日韩大片免费观看视频播放| 国产男人的天堂| 亚洲色图另类| 亚洲永久精品ww47国产| 国产视频你懂得| 无码一区二区三区视频在线播放| 日韩在线视频网站| 色香蕉网站| 一区二区三区毛片无码| 性激烈欧美三级在线播放| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产成人精品综合| 在线高清亚洲精品二区| 亚洲欧美成人| 国产伦精品一区二区三区视频优播 | 色亚洲成人| 国产综合欧美| 天天综合色网| 9丨情侣偷在线精品国产| 中文国产成人精品久久一| 国内嫩模私拍精品视频| 久久性妇女精品免费| 久久久精品国产亚洲AV日韩| 国产日韩精品欧美一区灰| 亚洲日本中文字幕乱码中文 | 女人毛片a级大学毛片免费| 青青草原国产精品啪啪视频| 久久久久人妻精品一区三寸蜜桃| 少妇精品久久久一区二区三区| 国产小视频a在线观看| 亚洲中文字幕在线一区播放| 毛片免费视频| 亚洲一区第一页| 日本成人福利视频| 亚洲成人网在线观看| 少妇极品熟妇人妻专区视频| 免费jizz在线播放| 亚洲一区二区无码视频| 青青国产在线| 在线免费无码视频| 自拍偷拍欧美| 精品人妻AV区| 亚洲高清中文字幕在线看不卡| 欧美成人国产| 久久美女精品| av手机版在线播放| 99热这里只有成人精品国产| 五月婷婷激情四射| 五月婷婷中文字幕| 亚洲swag精品自拍一区| 最新痴汉在线无码AV| 国产人人乐人人爱| 国产中文一区a级毛片视频|