王 越,黃靖華
(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
我國(guó)是個(gè)養(yǎng)豬大國(guó),2006年全國(guó)生豬出欄6.81億頭,全國(guó)生豬存欄50 877萬頭,豬肉產(chǎn)量5 197.2萬t。信息科學(xué)技術(shù)的快速發(fā)展正在對(duì)過去傳統(tǒng)的牲畜養(yǎng)殖方式帶來深刻的影響,養(yǎng)豬生產(chǎn)規(guī)?;?、集約化程度的不斷提高。隨著人們對(duì)豬肉產(chǎn)品質(zhì)量和數(shù)量需求大大提高,對(duì)出欄豬的一致性的要求更加精確。
在由屠宰場(chǎng)定價(jià)系統(tǒng)中,送宰的肥育豬在體重上越一致,定價(jià)就越高。與傳統(tǒng)的目測(cè)體重方式相比,精確化飼養(yǎng)技術(shù)可以自動(dòng)收集各豬只在飼養(yǎng)狀態(tài)下的各種大量數(shù)據(jù)[1]。本文根據(jù)精確化養(yǎng)豬業(yè)中的初始重量、結(jié)束重量、實(shí)驗(yàn)期間增重等7個(gè)數(shù)量性資料,應(yīng)用模糊聚類分析方法進(jìn)行聚類,對(duì)飼養(yǎng)狀態(tài)豬只進(jìn)行了階段劃分和鑒定,以方便分階段飼養(yǎng)和篩選出體重更接近最佳屠宰重量的出欄豬。
聚類分析是多元統(tǒng)計(jì)分析的一種,也是非監(jiān)督模式識(shí)別的一個(gè)重要分支。它把一個(gè)沒有類別標(biāo)記的樣本集按某種準(zhǔn)則劃分成若干子集(類),使相似的樣本盡可能地歸為一類,而不相似的樣本盡量劃分到不同類別中[2-3]。傳統(tǒng)的聚類分析是一種硬劃分,它把每個(gè)待辨識(shí)的對(duì)象嚴(yán)格地劃分到不同的類中,具有非此即彼的性質(zhì),因此這種類別劃分的界限是分明的。而實(shí)際上大多數(shù)對(duì)象并沒有嚴(yán)格的屬性,它們?cè)谛詰B(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進(jìn)行軟劃分。由于模糊聚類得到了樣本屬于各個(gè)類別的不確定性程度,表達(dá)了樣本類屬的中介性,即建立起了樣本對(duì)于類別的不確定性描述,更能客觀地反映現(xiàn)實(shí)世界,從而成為聚類分析研究的主流[4-8]。
模糊聚類分析是用數(shù)學(xué)方法確定研究對(duì)象的親屬關(guān)系和相似性,從而客觀地對(duì)研究對(duì)象進(jìn)行分型劃類,具有較強(qiáng)的分辨率和廣泛的代表性。目前,應(yīng)用最為廣泛的模糊聚類分析方法從理論上來說主要有2類:第1類是基于模糊等價(jià)關(guān)系的動(dòng)態(tài)聚類方法,又稱為系統(tǒng)聚類法;第2類是基于模糊劃分的模糊迭代自組織數(shù)據(jù)分析法(ISODATA)方法,又稱為逐步聚類法。這2種方法在許多領(lǐng)域都得到了廣泛應(yīng)用。
本文主要使用基于等價(jià)關(guān)系的模糊聚類分析方法,其優(yōu)點(diǎn)是:一次形成分類,區(qū)分力強(qiáng);一旦得出模糊等價(jià)矩陣,便可用不同的λ值去截而得到一系列不同的聚類,不需重新進(jìn)行計(jì)算;比較直觀,不需人工挑選。基于等價(jià)關(guān)系模糊聚類分析的實(shí)際聚類過程可按下列6個(gè)步驟進(jìn)行[9-13]:
1)建立數(shù)據(jù)矩陣
建立樣本特性指標(biāo)矩陣,應(yīng)用聚類分析對(duì)樣品進(jìn)行分析,其效果的好壞關(guān)鍵在于選擇合理的樣品和聚類因子。選擇的樣品必須有代表性和比較性,能較客觀地反映自然分布和變化規(guī)律。設(shè)聚類對(duì)象的全體集合 X={x1,x2,…,xn},為了使分類效果科學(xué)合理,首先要選取具有實(shí)際意義且有較強(qiáng)分辨性和代表性的統(tǒng)計(jì)指標(biāo)?,F(xiàn)假設(shè)X中每一個(gè)對(duì)象又含有m個(gè)指標(biāo)表示其性狀:

于是,可得到原始數(shù)據(jù)矩陣為

2)樣本的特征指標(biāo)標(biāo)準(zhǔn)化
為了便于分析比較,首先必須消除各個(gè)樣品不同變量量綱不同的影響,利用公式:

對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。式中:xik為第i個(gè)樣品第k個(gè)因子的值為第k個(gè)因子序列的均值;σk為第k個(gè)因子的均方差。經(jīng)標(biāo)準(zhǔn)化處理后的新序列x'ik,其均值為0,方差為1。再利用公式


對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使得 x″ik∈[0,1]。
3)建立模糊相似矩陣
建立模糊相似矩陣又稱為標(biāo)定,即標(biāo)出衡量被分類對(duì)象之間相似程度的統(tǒng)計(jì)量rij(i=1,2,…,n;j=1,2……,n)。設(shè)論域 X={x1,x2,x3,…,xn}xi={xi1,xi2,xi3,…,xim},根據(jù)傳統(tǒng)聚類方法確定相似系數(shù),建立模糊相似矩陣,xi與xj的相似程度rij=R(xi,xj)。采用傳統(tǒng)聚類分析的相似系數(shù)法、距離法及其他方法確定rij=R(xi,xj)。rij的計(jì)算方法很多,有夾角余弦法、數(shù)量積法、相關(guān)系數(shù)法、指數(shù)相似系數(shù)法、最大最小法等,實(shí)際應(yīng)用中需根據(jù)問題的性質(zhì)確定具體的計(jì)算方法。本文采用夾角余弦法。
相似系數(shù)法的夾角余弦法公式為

式中:i,j=1~n為數(shù)據(jù)矩陣的行;k=1~m為每行數(shù)據(jù)的列數(shù)。
4)構(gòu)造模糊等價(jià)矩陣
利用模糊等價(jià)矩陣可對(duì)論域進(jìn)行等價(jià)劃分,滿足聚類分析的需要。然而,在通常情況下,由標(biāo)定過程構(gòu)造出的模糊關(guān)系僅僅能滿足自反性和對(duì)稱性,而不滿足傳遞性,因此生成的只是一個(gè)模糊相似矩陣R,而不是模糊等價(jià)矩陣,所以為了分類需要,還需在模糊相似矩陣的基礎(chǔ)上生成一個(gè)模糊等價(jià)矩陣,最直接的方法就是求模糊相似矩陣R的傳遞閉包t(R):

經(jīng)有限次運(yùn)算后,一定有 R2k=R2k+1,于是t(R)=R2k。
5)聚類
構(gòu)造模糊等價(jià)矩陣后就可以按R的λ截關(guān)系對(duì)其進(jìn)行聚類(不同λ截矩陣的分類結(jié)果不同,其實(shí)際意義和經(jīng)濟(jì)意義也不同),從中判斷出與實(shí)際最接近的分類方案。按等價(jià)矩陣R進(jìn)行聚類的方法為

6)通過統(tǒng)計(jì)量F找出最佳分類
設(shè) X={x1,x2,…,xn}為待分類事物的全體,xj=(xj1,xj2,…,xjm),其中 xjk為性狀 xj的第 k 個(gè)特征的數(shù)據(jù),k=(1,2,…,m)。設(shè)r為對(duì)應(yīng)于λ值的類數(shù)為第i類元素的個(gè)數(shù);記為第i類元素的第k個(gè)特征的平均值;記為全體樣品第k個(gè)特征的平均值。引入F統(tǒng)計(jì)量

本研究以精確化養(yǎng)豬業(yè)為例。
1)試驗(yàn)動(dòng)物:飼喂站中按照體重相近原則隨機(jī)選取10頭豬。
2)試驗(yàn)日糧:試驗(yàn)日糧為玉米-豆粕型,均為粉料。基礎(chǔ)日糧組成及營(yíng)養(yǎng)水平見表1。

表1 基礎(chǔ)日糧組成及營(yíng)養(yǎng)水平
3)飼養(yǎng)管理:按照試驗(yàn)豬場(chǎng)管理程序正常管理,試驗(yàn)豬自由采食和飲水,每天定時(shí)清圈。
4)檢測(cè)指標(biāo):分別于試驗(yàn)期第一天和出售前一天早晨空腹稱個(gè)體重量,以處理為單位記錄耗料量。計(jì)算平均日增重、日采食量以及料肉比。
5)統(tǒng)計(jì)分析:全部數(shù)據(jù)輸入計(jì)算機(jī),用自動(dòng)喂食系統(tǒng)軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,見圖1。
6)試驗(yàn)時(shí)間:2009年9月18日至2009年11月23日。
7)試驗(yàn)豬場(chǎng):重慶市某豬場(chǎng)(存欄豬2 200頭,出口牲豬基地)。
通過三層智能體系和三個(gè)技術(shù)平臺(tái),結(jié)合感知、計(jì)算、通信、控制等信息技術(shù)與設(shè)計(jì)、工藝、生產(chǎn)、裝備等工業(yè)技術(shù)融合,打造屬于貴溪冶煉廠的生產(chǎn)制造全過程、全產(chǎn)業(yè)鏈、產(chǎn)品全生命周期智能化工廠。

圖1 數(shù)據(jù)分析界面
1)原始數(shù)據(jù)
根據(jù)實(shí)驗(yàn)?zāi)繕?biāo),選擇主要聚類因子有初始重量、結(jié)束重量、試驗(yàn)期間增重、日均采食量、日均增重量、日均增重量、飼料報(bào)酬、采食次數(shù)等。選某豬場(chǎng)仔豬的原始生產(chǎn)記錄待分析,原始數(shù)據(jù)見表2。

表2 某豬場(chǎng)仔豬的原始生產(chǎn)記錄
2)數(shù)據(jù)標(biāo)準(zhǔn)化
采用最大最小值規(guī)范法將表2數(shù)據(jù)矩陣標(biāo)準(zhǔn)化后得到模糊數(shù)集

3)建立模糊相似矩陣
采用相似系數(shù)法中的夾角余弦法將模糊數(shù)集轉(zhuǎn)換成模糊相似矩陣:

4)構(gòu)造模糊等價(jià)矩陣
采用平方法求R的傳遞閉t(R):

5)綜合性狀模糊聚類結(jié)果
令λ從1變到0,得到動(dòng)態(tài)聚類圖(圖2)。

圖2 動(dòng)態(tài)聚類圖
6)結(jié)果分析
由圖2可知:
當(dāng)0.992 87 < λ≤1 時(shí),分類為{4,7},{1},{2},{10},{8},{9},{5},{3},{6},此時(shí) F -Fα=7.2。
當(dāng)0.992 21 < λ≤0.992 87 時(shí),分類為{4,7},{8,9},{10},{1},{2},{5},{3},{6},此時(shí) F -Fα=21.2。
當(dāng)0.987 75<λ≤0.992 21 時(shí),分類為{4,7,10},{8,9},{2},{5},{3}{6},此時(shí) F - Fα=23.6。
當(dāng)0.983 55<λ≤0.987 75 時(shí),分類為{4,7,10,8,9},{2},{5},{1},{3},{6},此時(shí) F - Fα=19.7。
當(dāng)0.980 17<λ≤0.983 55 時(shí),分類為{4,7,10,8,9,2},{5},{1},{3},{6},此時(shí) F - Fα=16.6。
當(dāng)0.975 43<λ≤0.980 17 時(shí),分類為{4,7,10,8,9,2,5},{1},{3},{6},此時(shí) F -Fα=14.6。
當(dāng)0.877 25<λ≤0.975 43 時(shí),分類為{4,7,10,8,9,2,5,1},{3},{6},此時(shí) F - Fα=7.3。
當(dāng)0.835 13 <λ≤0.877 25 時(shí),分類為{4,7,10,8,9,2,5,1,3},{6},此時(shí) F -Fα=6.9。
因此,當(dāng)λ=0.987 75的時(shí)候?yàn)?類,即為最佳分類,即 {4,7,10},{8,9},{2},{5},{3}{6}。從實(shí)際的出欄情況上看,這樣的分類也是比較合理的,豬只4、7、10在生產(chǎn)性能、外形、重量上面都是相近的,可以滿足養(yǎng)殖者去生豬出欄一致性的需求。
聚類分析是應(yīng)用多元統(tǒng)計(jì)分析原理研究分類問題的一種數(shù)學(xué)方法,并已應(yīng)用于豬養(yǎng)殖業(yè)中。
本文使用模糊聚類,依據(jù)精確化養(yǎng)豬業(yè)中的初始重量、結(jié)束重量、實(shí)驗(yàn)期間增重、日均采食量、日均增重量、日均增重量、飼料報(bào)酬、采食次數(shù)等7個(gè)數(shù)量性資料,對(duì)飼養(yǎng)狀態(tài)豬只進(jìn)行了階段劃分和鑒定,得到豬只在重量上的綜合相似程度和差異大小。該研究結(jié)果是客觀的數(shù)值分類,為解決分類飼養(yǎng)豬只及確定出欄的實(shí)際問題提供了一種科學(xué)的可供選擇的方法。
基于數(shù)據(jù)挖掘的模糊聚類在農(nóng)業(yè)中的應(yīng)用還處于起步階段,目前只取得了初步成果,其中還有大量的理論與方法需要深入研究。另外,農(nóng)業(yè)領(lǐng)域中往往存在一些半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)形式,如文本、圖形、數(shù)學(xué)公式、圖像或www資源,而目前的數(shù)據(jù)挖掘工具一般只能對(duì)數(shù)值型結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理,因此數(shù)據(jù)輸入形式的多樣化是廣泛應(yīng)用數(shù)據(jù)挖掘工具亟待解決的問題。
[1]精確化飼養(yǎng)技術(shù)在現(xiàn)代養(yǎng)豬業(yè)中的應(yīng)用[EB/OL].[2010 - 12 - 11].http://www.feedtrade.com.cn/technology/raise/20110321101055.html.
[2]吳信子,王思宏,吳麗花.不同鹿茸片紅外數(shù)據(jù)的聚類分析[J].安徽農(nóng)業(yè)科學(xué),2010,38(25):20123-20124.
[3]許藹飛,黃世杰,蔣宏霖.程度相似度結(jié)束聚類分析評(píng)價(jià)煙用香精質(zhì)量[J].安徽農(nóng)業(yè)科學(xué),2010,38(21):11120-11121.
[4]張林林,周毅,周瑞有,等.對(duì)空目標(biāo)射擊有利度模糊聚類分析[J].四川兵工學(xué)報(bào),2010,31(12):146-146.
[5]楊軍,鞏玨,鄧文兵.火炮射擊精度的模糊等價(jià)關(guān)系聚類分析[J].四川兵工學(xué)報(bào),2010,31(1):28 -29.
[6]呂佳.基于動(dòng)態(tài)隧道系統(tǒng)的K-Means聚類算法研究[J].重慶師范大學(xué)學(xué)報(bào):自然科學(xué)版,2009(1):26-39.
[7]路彬彬,賈振紅,何迪,等.基于新的遺傳算法的模糊C均值聚類用于遙感圖像分割[J].激光雜志,2010(6):15-17.
[8]蔡燕柳,賈振紅.基于模糊C均值聚類與空間信息相結(jié)合的圖像分割新算法[J].激光雜志,2009(2):49-50.
[9]MEHMEDKANTARDZIC.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,陳茵,程雁,等,譯.北京:清華大學(xué)出版社,2003.
[10]劉志宇,韓雪娜,宋妍.模糊聚類分析在農(nóng)作物新品種鑒定系統(tǒng)中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2010,38(9):4417-4418.
[11]馮敏山,高山林,孫學(xué)文,等.聚類分析在中國(guó)地方豬種分類中的應(yīng)用[J].邯鄲農(nóng)業(yè)高等專科學(xué)校學(xué)報(bào),2003,20(1):11 -14.
[12][加]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2006.
[13]高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2004.