999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

K均值改進(jìn)留一校驗(yàn)法在煤炭近紅外光譜異常樣本剔除中的應(yīng)用研究

2016-10-28 05:42:33王敏
工礦自動(dòng)化 2016年10期
關(guān)鍵詞:模型

王敏

(山西潞安環(huán)保能源開(kāi)發(fā)股份公司 王莊煤礦,山西 長(zhǎng)治 046031)

?

K均值改進(jìn)留一校驗(yàn)法在煤炭近紅外光譜異常樣本剔除中的應(yīng)用研究

王敏

(山西潞安環(huán)保能源開(kāi)發(fā)股份公司 王莊煤礦,山西 長(zhǎng)治046031)

針對(duì)現(xiàn)有留一校驗(yàn)法存在剔除異常樣本耗時(shí)長(zhǎng)、誤判的缺陷,提出一種K均值改進(jìn)留一校驗(yàn)法,并將其用于煤質(zhì)分析中異常樣本的檢測(cè)與剔除。該方法首先利用K均值聚類(lèi)法對(duì)樣本進(jìn)行聚類(lèi),得到可疑樣本;然后將可疑樣本作為驗(yàn)證集,通過(guò)留一校驗(yàn)法進(jìn)行二次判別,剔除異常樣本。實(shí)驗(yàn)結(jié)果表明,K均值改進(jìn)留一校驗(yàn)法能快速、準(zhǔn)確剔除異常樣本,提高了模型的預(yù)測(cè)精度。

煤質(zhì);近紅外光譜分析;異常樣品;K均值聚類(lèi);留一校驗(yàn)法

網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/32.1627.TP.20160930.1004.008.html

0 引言

在煤炭樣品近紅外無(wú)損檢測(cè)中,分析結(jié)果的可靠性首先取決于原始數(shù)據(jù)的準(zhǔn)確性,即煤炭樣品的光譜圖和化學(xué)標(biāo)準(zhǔn)值。煤炭近紅外光譜異常樣本明顯偏離光譜數(shù)據(jù)集主體分布,在煤質(zhì)定量分析過(guò)程中,嚴(yán)重影響模型預(yù)測(cè)精度[1-2]。因此,需要對(duì)異常樣本進(jìn)行研究,改善其光譜數(shù)據(jù)質(zhì)量。

目前,異常樣本剔除的常用方法有馬氏距離等距離判別分析法、拉依達(dá)等誤差準(zhǔn)則法、留一校驗(yàn)法等,異常樣本一次判別法普遍存在易將正常樣本誤判為異常樣本的問(wèn)題[3-4]。留一估計(jì)理論上是無(wú)偏估計(jì),在實(shí)現(xiàn)原理上效果是最佳的,但留一校驗(yàn)法中每個(gè)樣本均為可疑樣本,確定其相對(duì)誤差需對(duì)樣本反復(fù)訓(xùn)練N次,運(yùn)算量很大[5]。本文針對(duì)留一校驗(yàn)法剔除異常樣本耗時(shí)長(zhǎng),且存在誤判的缺陷,提出一種K均值改進(jìn)留一校驗(yàn)法(Improved Leave One Out Method by K-means,K-means LOO),并將其用于煤質(zhì)分析中異常樣本的檢測(cè)與剔除。該方法利用K均值聚類(lèi)法對(duì)樣本進(jìn)行聚類(lèi),得到可疑樣本;將可疑樣本作為驗(yàn)證集,通過(guò)留一校驗(yàn)法進(jìn)行二次判別,剔除異常樣本。

1 煤炭樣本選取

在某國(guó)家實(shí)驗(yàn)室,從來(lái)自不同地區(qū)的煤炭樣本中選取具有代表性的146個(gè)樣本,嚴(yán)格按照GB 474—2008《煤樣的制備方法》要求進(jìn)行制樣,粒度均達(dá)到0.2 mm級(jí)別。在煤炭樣本的工業(yè)分析中,水分、灰分、揮發(fā)分和全硫分含量的測(cè)定均嚴(yán)格遵照GB 474—2008規(guī)定的步驟和要求,采用AntarisⅡ傅里葉變換近紅外光譜儀采集煤炭樣本的近紅外光譜,其具體參數(shù):掃描范圍為3 800~10 000 cm-1,波長(zhǎng)點(diǎn)數(shù)為1 609,分辨率為4 cm-1。對(duì)每個(gè)煤炭樣本重復(fù)掃描64次,并取平均光譜作為所測(cè)樣品的原始光譜。所選煤炭樣本的近紅外光譜如圖1所示。

圖1 煤炭樣本的近紅外光譜

2 改進(jìn)的留一校驗(yàn)法及實(shí)驗(yàn)

實(shí)驗(yàn)采集146個(gè)煤炭近紅外光譜樣本,由于單一留一校驗(yàn)法中每個(gè)樣本均為可疑樣本,故需對(duì)分

類(lèi)器反復(fù)訓(xùn)練146次,耗時(shí)長(zhǎng)且存在誤判的可能,加之異常樣本明顯偏離光譜正常樣本主體,聚類(lèi)分析法可快速找出可疑樣本集,縮小異常樣本的搜索范圍,基于此,本文提出一種基于K均值聚類(lèi)法和留一校驗(yàn)法相結(jié)合的改進(jìn)留一校驗(yàn)法。

K均值聚類(lèi)法從數(shù)據(jù)集中隨機(jī)選取K個(gè)點(diǎn)作為初始聚類(lèi)中心,先將樣本劃分到離聚類(lèi)中心最近的類(lèi),計(jì)算各類(lèi)的均值并作為新聚類(lèi)中心,更新樣本類(lèi)別劃分情況,直至聚類(lèi)中心沒(méi)有變化,聚類(lèi)準(zhǔn)則函數(shù)收斂。再將K均值聚類(lèi)法與留一校驗(yàn)法相結(jié)合,就構(gòu)成了K-means LOO。

利用K-means LOO篩選異常樣本的具體過(guò)程如下:

輸入:將數(shù)據(jù)集M=[Xl×p,Y] 輸入模型,其中Xl×p為煤樣光譜數(shù)據(jù)集,Y為煤樣化學(xué)測(cè)量標(biāo)準(zhǔn)值。

Stept1:利用K均值聚類(lèi)法對(duì)煤炭光譜樣本進(jìn)行分類(lèi),設(shè)置分類(lèi)數(shù)k=10。

Stept2:完成首次篩選。根據(jù)正常樣本相對(duì)集中、異常樣本相對(duì)分散的原則,將分類(lèi)結(jié)果中小于10的類(lèi)作為可疑樣本類(lèi)。

Stept3:將可疑樣本作為預(yù)測(cè)樣本,分別通過(guò)留一校驗(yàn)法和BP神經(jīng)網(wǎng)絡(luò)算法,得出預(yù)測(cè)結(jié)果。

Stept4:設(shè)置相對(duì)誤差閾值δ,當(dāng)δ>0.5時(shí),判斷為異常樣本,應(yīng)予剔除,反之則作為正常樣本保留。

3 實(shí)驗(yàn)結(jié)果與分析

3.1K均值聚類(lèi)結(jié)果

將146個(gè)煤樣數(shù)據(jù)分成10類(lèi),分類(lèi)結(jié)果見(jiàn)表1。根據(jù)正常樣本相對(duì)集中這一特點(diǎn),可以認(rèn)為第1,4,8,9四類(lèi)樣本中含有異常樣本,即將編號(hào)為16,17,18,20,28,29,42,43,66,69,87,92,93,100,104,107,108,110,113,117,118,130,136,139的24個(gè)樣本作為可疑樣本,進(jìn)行二次判別。

3.2K-means LOO實(shí)驗(yàn)結(jié)果

在可疑樣本集中每次選取1個(gè)樣本作為預(yù)測(cè)樣本,其余145個(gè)為訓(xùn)練樣本,建立BP神經(jīng)網(wǎng)絡(luò)模型,重復(fù)24次,得到24組可疑樣本化學(xué)測(cè)量值與預(yù)測(cè)值的相對(duì)誤差δ。實(shí)驗(yàn)結(jié)果如圖2所示,基于留一校驗(yàn)法的一次判別結(jié)果如圖2(a)所示,判別結(jié)果是編號(hào)為17,18,23,32,71,87,92的樣本為異常樣本,應(yīng)予剔除;基于K-means LOO的判別結(jié)果如

表1 K均值聚類(lèi)法分類(lèi)結(jié)果

(a) 基于留一校驗(yàn)法的一次判別結(jié)果

(b) 基于K-means LOO的判別結(jié)果

圖2(b)所示,判定17,18,20,92樣本為異常樣本,應(yīng)予剔除。在實(shí)驗(yàn)過(guò)程中,留一校驗(yàn)法剔除異常樣本用時(shí)215.75 s,K-means LOO用時(shí)47.00 s。K-means LOO大幅度減少了判別時(shí)間,且為實(shí)驗(yàn)保留了較多的樣本數(shù)據(jù)。

將留一校驗(yàn)法和K-means LOO剔除異常樣本后的光譜數(shù)據(jù)和化學(xué)測(cè)量值作為輸入和輸出,分別建立3層BP神經(jīng)網(wǎng)絡(luò)模型和PLS(Partial Least Squares,偏最小二乘)模型,將K-means LOO中未被剔除的19個(gè)組可疑樣本作為驗(yàn)證集。異常樣品剔除前、留一校驗(yàn)法剔除后和K-means LOO剔除后,PLS模型和BP神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果,即煤樣的水分、灰分、揮發(fā)分和全硫分的預(yù)測(cè)誤差如圖3所示,均方根誤差RMSE和相關(guān)系數(shù)R見(jiàn)表2。

圖3 模型預(yù)測(cè)效果

表2 留一法改進(jìn)前后BP神經(jīng)網(wǎng)絡(luò)模型和PLS模型的均方根誤差和相關(guān)系數(shù)

由圖3和表2可知,剔除異常樣本后,煤樣的水分、灰分、揮發(fā)分和全硫分的預(yù)測(cè)誤差大幅降低。BP神經(jīng)網(wǎng)絡(luò)模型的均方根誤差由0.046 925降低至0.03以下,相關(guān)系數(shù)由0.928 66升高至0.98以上,經(jīng)留一校驗(yàn)法處理后,RMSE降至0.028 127,較異常樣本剔除前降低了約40.4%,經(jīng)K-means LOO處理后,RMSE降至0.017 338,較異常樣本剔除前降低了約63.8%;PLS模型的均方根誤差由0.047 087降低至0.031以下,相關(guān)系數(shù)由0.931 044升高至0.98以上,經(jīng)留一校驗(yàn)法處理后,RMSE降至0.030 835,較異常樣本剔除前降低了約34%,經(jīng)K-means LOO處理后,RMSE降至0.019 975,較異常樣本剔除前降低了約57.4%。上述結(jié)果表明,K-means LOO可有效剔除建模中的異常樣本,較傳統(tǒng)的留一校驗(yàn)法,模型的預(yù)測(cè)精度得到大幅提高。

4 結(jié)語(yǔ)

在煤質(zhì)近紅外光譜分析中,異常的光譜樣本嚴(yán)重影響定量分析模型的預(yù)測(cè)精度。針對(duì)單一留一校驗(yàn)法去除光譜異常樣本的不足,提出了一種K均值聚類(lèi)法與留一校驗(yàn)法相結(jié)合的改進(jìn)留一校驗(yàn)法,并進(jìn)行了實(shí)驗(yàn)研究。實(shí)驗(yàn)結(jié)果表明,K均值改進(jìn)留一校驗(yàn)法能快速、準(zhǔn)確剔除煤炭近紅外光譜異常樣本,提高了模型的預(yù)測(cè)精度。

[1]雷萌.基于機(jī)器學(xué)習(xí)的煤質(zhì)近紅外光譜分析[D].徐州:中國(guó)礦業(yè)大學(xué),2011.

[2]趙振英,林君,張懷柱.近紅外光譜法分析油頁(yè)巖含油率中異常樣品識(shí)別和剔除方法的研究[J].光譜學(xué)與光譜分析,2014,34(6):1707-1710.

[3]HUANG Z R,SHA S.Feasibility study of near infrared spectroscopy with variable selection for non-destructive determination of quality parameters in shell-intact cottonseed[J].Industrial Crops and Products,2013,43(1):654-660.

[4]LEWIS A T,JONES K,LEWIS K E,et al.Detection of Lewis antigen structural change by FTIR spectroscopy[J].Carbohydrate Polymers,2013,92(2):1294-1301.

[5]劉翠玲,胡玉君,吳勝男,等.近紅外光譜奇異樣本剔除方法研究[J].食品科學(xué)技術(shù)學(xué)報(bào),2014,32(5):74-79.

Application research of improved K-means leave one out method in rejecting of abnormal samples of coal near infrared spectrum

WANG Min

(Wangzhuang Coal Mine,Lu'an Environmental Protection and Energy Development Co.,Ltd., Changzhi 046031,China)

In view of problems of time-consumption,misjudgment of rejecting abnormal sample existed in current leave one out method,an improved K-means leave one out method was put forward for detecting and eliminating abnormal sample in coal quality analysis.Firstly,the method uses K-means clustering method to cluster samples,and gets suspicious samples; then it takes suspicious samples as a validation set,and adopts leave one out method to do quadratic distinguishing,so as to eliminate abnormal samples.The experimental results show that the K-means leave one out method can eliminate abnormal samples quickly and accurately,and improves prediction accuracy of models.

coal quality; near infrared spectral analysis; abnormal samples; K-means clustering; leave one out method

1671-251X(2016)10-0060-05DOI:10.13272/j.issn.1671-251x.2016.10.014

王敏.K均值改進(jìn)留一校驗(yàn)法在煤炭近紅外光譜異常樣本剔除中的應(yīng)用研究[J].工礦自動(dòng)化,2016,42(10):60-64.

2016-06-29;

2016-08-26;責(zé)任編輯:張強(qiáng)。

江蘇省自然科學(xué)基金資助項(xiàng)目(BK20140215)。

王敏(1984-),男,山西長(zhǎng)治人,工程師,現(xiàn)主要從事煤礦機(jī)電技術(shù)及管理等工作,E-mail:wm1512004@163.com。

TD67

A網(wǎng)絡(luò)出版時(shí)間:2016-09-30 10:04

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 91麻豆精品视频| 老色鬼久久亚洲AV综合| 久久亚洲综合伊人| 成人免费一区二区三区| 婷婷五月在线| 国产亚洲欧美在线中文bt天堂| 毛片大全免费观看| 亚洲天堂视频网站| 拍国产真实乱人偷精品| 欧美精品亚洲精品日韩专区| 在线观看无码a∨| 无码电影在线观看| 亚洲狠狠婷婷综合久久久久| 久久免费精品琪琪| 精品少妇人妻av无码久久| 亚洲av色吊丝无码| 无码又爽又刺激的高潮视频| 无码丝袜人妻| 国产精品13页| 毛片视频网址| 91精品视频播放| 日韩欧美视频第一区在线观看| 欧美成人一级| 久久久国产精品无码专区| 国产精品林美惠子在线播放| 免费一看一级毛片| 99re在线观看视频| 国产精品成人一区二区不卡 | 播五月综合| 精品无码人妻一区二区| 日本午夜影院| 午夜一级做a爰片久久毛片| 久爱午夜精品免费视频| 青青热久免费精品视频6| 国产精品自在在线午夜区app| 欧美亚洲日韩中文| 国产成人久久777777| 久久精品无码一区二区日韩免费| 午夜无码一区二区三区在线app| 国产一级小视频| 无码精品国产VA在线观看DVD| 欧美在线免费| 毛片在线播放a| 国产成熟女人性满足视频| www.亚洲天堂| 一级毛片免费高清视频| 91网红精品在线观看| 亚洲精品无码久久久久苍井空| 亚洲色欲色欲www在线观看| 先锋资源久久| 国产一级二级三级毛片| 欧美成人午夜影院| 国产丰满大乳无码免费播放| 亚洲色中色| 久久99精品久久久久久不卡| 日本欧美视频在线观看| 精品欧美一区二区三区久久久| 日本免费a视频| 欧美在线精品怡红院| 国产性生大片免费观看性欧美| 欧美在线中文字幕| 2018日日摸夜夜添狠狠躁| 伊人欧美在线| 国产香蕉97碰碰视频VA碰碰看| 毛片视频网址| 天堂成人av| 免费看美女自慰的网站| 黄色在线不卡| 精品无码日韩国产不卡av | 国产在线麻豆波多野结衣| 最新亚洲人成网站在线观看| 欧美人在线一区二区三区| 亚洲无码精品在线播放| 国产高清又黄又嫩的免费视频网站| 亚洲日韩AV无码一区二区三区人| 99在线观看精品视频| 四虎亚洲国产成人久久精品| 欧美日韩中文字幕在线| 国产在线精品人成导航| 一级毛片在线免费视频| 亚洲色大成网站www国产| 91伊人国产|