999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類樹模型在煙草農(nóng)業(yè)研究中的應(yīng)用

2012-07-31 07:22:28侯小東杜詠梅劉新民
中國煙草科學(xué) 2012年5期
關(guān)鍵詞:分類分析模型

侯小東,杜詠梅,劉新民*,程 森

(1.中國農(nóng)業(yè)科學(xué)院煙草研究所,青島 266101;2.上海煙草集團(tuán)有限責(zé)任公司,上海 200082)

現(xiàn)代煙草農(nóng)業(yè)研究過程中,為探索變量之間的聯(lián)系,常需要進(jìn)行變量篩選、模型預(yù)測和主因素的探索,采用的方法多為多元線性回歸、logistic回歸或者非線性回歸等參數(shù)檢驗(yàn)方法。參數(shù)檢驗(yàn)方法要求嚴(yán)格,使用時(shí)需要進(jìn)行適用條件的判斷,不同程度地降低了其分析效能。分類樹模型作為一種新興的數(shù)據(jù)挖掘分析工具是將大量數(shù)據(jù)有目的地分類,從中找到一些潛在的、對決策有價(jià)值的信息[1],適用條件寬泛,能彌補(bǔ)一些常規(guī)參數(shù)檢驗(yàn)方法的不足。目前分類樹模型在農(nóng)業(yè)研究中的應(yīng)用很少,其功用還不為大家熟悉。本研究通過具體的實(shí)例介紹分類樹模型的統(tǒng)計(jì)思路及主因素篩選和模型預(yù)測的方法。

1 數(shù)據(jù)基本特征

1.1 數(shù)據(jù)基本統(tǒng)計(jì)量

數(shù)據(jù)來源于曲靖市ESTB項(xiàng)目中部煙葉鈣和對應(yīng)土壤有效鈣和有效鎂測定的結(jié)果。

數(shù)據(jù)的基本特征和各個(gè)變量的分布變化規(guī)律對分析方法選擇非常重要,基本統(tǒng)計(jì)量包括均數(shù)、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤、最小值、最大值、偏度系數(shù)和峰度系數(shù)。均數(shù)是描述數(shù)據(jù)的集中趨勢統(tǒng)計(jì)量,標(biāo)準(zhǔn)差描述數(shù)據(jù)的離散趨勢統(tǒng)計(jì)量,最大值和最小值反應(yīng)數(shù)據(jù)的變化范圍,偏度系數(shù)描述某變量取值分布對稱性的統(tǒng)計(jì)量、峰度系數(shù)是描述某變量所有取值分布形態(tài)陡緩程度的統(tǒng)計(jì)量。均數(shù)決定曲線在橫軸上的位置,標(biāo)準(zhǔn)差決定曲線的高度,峰度是反映曲線的陡峭程度,偏度是反映曲線的偏度。一般來說,偏度系數(shù)和標(biāo)準(zhǔn)誤比值絕對值小于1.96,且峰度系數(shù)和其標(biāo)準(zhǔn)誤比值絕對值小于1.96時(shí),變量是為正態(tài)分布,否則就為偏態(tài)分布。如表1所示本例中煙葉鈣、有效鈣和有效鎂3個(gè)變量都服從偏態(tài)分布。

表1 數(shù)據(jù)基本統(tǒng)計(jì)量Table 1 Basic statistics of data

1.2 數(shù)據(jù)的頻數(shù)分布規(guī)律

數(shù)據(jù)的頻數(shù)分布圖可以較好反映數(shù)據(jù)分布情況,顯示每個(gè)變量在不同組間距的頻數(shù),在組距相等的情況柱形的高度與相應(yīng)組段的頻率成正比,清晰直觀反映數(shù)據(jù)的分布。通過圖1~3概率密度曲線觀察有效鈣和有效鎂不服從正態(tài)分布。

1.3 變量間依存關(guān)系

變量間常存在不確定的依存關(guān)系,關(guān)系形態(tài)決定著分析方法,散點(diǎn)圖可以直觀的表現(xiàn)變量間關(guān)系,為選擇分析方法提供依據(jù)。從煙葉鈣與有效鈣、有效鎂的散點(diǎn)圖(圖4)來看,沒有明顯的直線性或者曲線趨勢。

圖1 煙葉鈣頻數(shù)分布圖Fig.1 Frequency distribution of tobacco calcium

圖2 土壤有效鈣頻數(shù)分布圖Fig.2 Frequency distribution of soil available calcium

圖3 土壤有效鎂頻數(shù)分布圖Fig.3 Frequency distribution of soil available magnesium

圖4 煙葉鈣、有效鈣和有效鎂散點(diǎn)圖Fig.4 The 3-D scatter plot

2 分析方法選擇

數(shù)據(jù)基本特征是選擇分析方法的基礎(chǔ),通常分析此例一類的數(shù)據(jù),常用多元線性回歸。多元線性回歸有一定適用條件(1)自變量與因變量存在線性關(guān)系。(2)獨(dú)立性:應(yīng)變量的取值要相互獨(dú)立。(3)正態(tài)性:就自變量的任何一個(gè)線性組合,應(yīng)變量均服從正態(tài)分布。(4)方差齊性:就自變量的任何一個(gè)線性組合,應(yīng)變量的方差均相同,就是要求殘差的方差齊[2]。本例變量不服從正態(tài)分布,變量間不存在線性關(guān)系,不適合多元線性回歸。而分類樹模型不需要特別的適用條件,可以探索煙葉鈣的主要影響因素,確定自變量對應(yīng)變量作用的拐點(diǎn),最終達(dá)到數(shù)據(jù)分析的目的。

3 分類樹模型分析

分類樹模型中連續(xù)性的變量可根據(jù)模型的設(shè)定平均分成個(gè)數(shù)相同幾個(gè)組,然后再尋找最佳的分界點(diǎn)。也可以先分成等距的幾組,再用模型進(jìn)行擬合分析,連續(xù)變量分組一般均采用等距分組方法。步驟如下:

3.1 有效鈣和有效鎂分組

1.步驟:Transform—Visual Binning—選擇“有效鈣”和“有效鎂”入Variables to bin—Continue。

2.在 Value框里分別添加 100、200、400、600mg/kg,圖5中的頻數(shù)分布圖中會出現(xiàn)4條豎線,把有效鎂分成5組。在Binned Variable 中輸入“有效鎂組別”定義分組的組別名稱,點(diǎn)擊“OK”。SPSS原始數(shù)據(jù)的界面上出現(xiàn)新的一列“有效鎂組別”。此時(shí)有效鎂以100、200、400、600 mg/kg為界點(diǎn)分割成5組。

3.有效鈣按照上述方法分組,分界點(diǎn)分別設(shè)為800、1200、2000、3000 mg/kg。

4.土壤有效鎂和有效鈣分組完成。

圖5 SPSS等距分組Fig.5 SPSS equidistant groups

3.2 分類樹模型分析操作

1.Analyze-Classify-Tree。

2.“煙葉鈣”選為應(yīng)變量,“有效鈣組”和“有效鎂組”選入自變量,Growing Method選擇為“Ehaustive CHAID”。

3.分類樹對話框中點(diǎn)擊criteria(圖6所示)可以通過設(shè)定父節(jié)點(diǎn)(Parent Node)和子節(jié)點(diǎn)(Child Node)的最小數(shù)量來限制樹的生長。

4.設(shè)置后點(diǎn)擊“OK”。

圖6 分類樹模型分析操作Fig.6 Classification tree model analysis and operation

由如圖7所示,位于主干的有效鈣是影響煙葉鈣的主要因素。按照3.1分組的情況有效鈣對煙葉鈣影響的拐點(diǎn)分別為1200、2000、3000 mg/kg,以拐點(diǎn)為分界的煙葉鈣均值分別為 1.89%、2.06%、2.15%、2.34%。煙葉鈣隨著土壤有效鈣含量增加呈增大的趨勢。分類樹模型對煙葉鈣按照有效鈣分組后將繼續(xù)按次要因素(有效鎂)分組細(xì)化。對不同的有效鈣范圍的煙葉鈣,有效鎂的拐點(diǎn)不全相同,總體的趨勢是在各個(gè)范圍隨著土壤有效鎂的增加煙葉鈣的含量呈減小的趨勢。分類樹模型還有一個(gè)非常重要的作用,可以明確有效鈣和有效鎂對煙葉鈣的綜合作用。當(dāng)土壤有效鈣大于3000 mg/kg且有效鎂小于200 mg/kg時(shí),煙葉鈣的含量均值最高達(dá)到2.61%;當(dāng)有效鈣大于1200 mg/kg小于等于2000 mg/kg且有效鎂大于400 mg/kg時(shí),煙葉鈣的含量均值最低為1.74%,通過此方法探索有效鈣和有效鎂對煙葉鈣影響的最佳組合。在分類樹模型中Exhaustive CHAID法會對所有的分組間進(jìn)行檢驗(yàn)并合并相鄰的組直至只剩下兩個(gè),然后比較這一系列的合并,并找出最佳的合并組合。從而找到最佳拆分點(diǎn)。在分類樹分析中,目標(biāo)變量是按照統(tǒng)計(jì)檢驗(yàn)所得的p值大小依次拆分,位于主要枝干的解釋變量對目標(biāo)變量影響較大,隨著分枝的細(xì)化影響逐漸減小。

圖7 分類樹分析結(jié)果圖Fig.7 Classification tree analysis diagram

4 討 論

在進(jìn)行數(shù)據(jù)分析時(shí),數(shù)據(jù)類型常不符合傳統(tǒng)參數(shù)檢驗(yàn)分析方法的要求,盲目的分析會使結(jié)果產(chǎn)生偏差或錯(cuò)誤。本例中3組數(shù)據(jù)為連續(xù)性變量,分布為非正態(tài)分布,沒有明顯的線性趨勢,傳統(tǒng)的多元線性回歸方程的擬合效果不好,其他的方法如非線性回歸則需要豐富的專業(yè)知識和經(jīng)驗(yàn)。而分類樹模型操作簡單適用范圍廣泛,其原理是利用二叉樹結(jié)構(gòu)進(jìn)行數(shù)據(jù)的非參數(shù)統(tǒng)計(jì),生成一個(gè)層次多,葉節(jié)點(diǎn)多的樹,按廣度優(yōu)先建立直到每個(gè)葉節(jié)點(diǎn)包含相同的類為止,以充分反映數(shù)據(jù)之間的聯(lián)系。應(yīng)用者可以根據(jù)實(shí)際情況對樹進(jìn)行剪枝刪減,產(chǎn)生一系列子樹,參照一定的規(guī)則從中進(jìn)行選擇適當(dāng)大小的樹,在初始建樹的過程中盡可能地將同質(zhì)的樣本歸于相同的結(jié)點(diǎn),由分割規(guī)則集合反映出樣本指標(biāo)結(jié)構(gòu)間的關(guān)系,同時(shí)控制最大樹的規(guī)模,提高運(yùn)算效率,相應(yīng)地減少下一步刪減最大樹的復(fù)雜度。分類樹模型對資料的類型和分布沒有嚴(yán)格的限定,在分析過程中不受變量間所存在的共線性影響,最終以樹形圖的方式展現(xiàn)其分析過程以及多水平變量間的負(fù)載的相互關(guān)系[3]。此例中可以直觀展現(xiàn)土壤鈣和鎂與煙葉鈣關(guān)系,并確定影響煙葉鈣的主因素。

分類樹模型也有一定的局限性,分類樹模型必須在樣本量較大的情況下,才較穩(wěn)定;解釋變量較多時(shí),分類樹的層數(shù)和葉結(jié)點(diǎn)較多,可讀性較差,不易理解;當(dāng)對樹節(jié)點(diǎn)進(jìn)行精簡時(shí),可能會造成信息的丟失和預(yù)測效果的改變[4-5]。因此,在應(yīng)用過程中要結(jié)合實(shí)際采用合適的方法才能達(dá)到較好的效果。

[1]張悅.基于分類樹數(shù)據(jù)挖掘的分析與應(yīng)用[J].遼寧石油化工大學(xué)學(xué)報(bào),2007,27(1):78-80.

[2]張文彤.SPSS 11 統(tǒng)計(jì)分析教程(高級篇)[M].北京:北京希望電子出版社,2002:6,66-68.

[3]姜明輝,王歡,王雅林.分類樹在個(gè)人信用評估中的應(yīng)用[J].商業(yè)研究,2003(21):86-88.

[4]傅傳喜,馬文軍,梁建華,等.高血壓危險(xiǎn)因素logistic回歸與分類樹分析[J].疾病控制雜志,2006,10(3):256-259.

[5]張永晶,陳坤,金明娟,等.應(yīng)用分類樹模型篩選惡性腫瘤危險(xiǎn)因素的研究[J].中華流行病學(xué)雜志,2006,27(6):540-543.

猜你喜歡
分類分析模型
一半模型
分類算一算
隱蔽失效適航要求符合性驗(yàn)證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
電力系統(tǒng)及其自動化發(fā)展趨勢分析
主站蜘蛛池模板: 999在线免费视频| 欧美日韩久久综合| 亚洲欧洲自拍拍偷午夜色无码| 夜夜操天天摸| 国产精品理论片| 日韩精品高清自在线| 欧美视频在线播放观看免费福利资源| 欧美成人精品高清在线下载| 国产免费高清无需播放器| 久久福利网| 手机在线免费不卡一区二| 国产福利在线观看精品| 亚洲国产精品日韩欧美一区| 国产全黄a一级毛片| 久久久精品国产SM调教网站| 伊人无码视屏| 亚洲欧美一区二区三区图片 | 99久久精品免费观看国产| 97久久超碰极品视觉盛宴| 一级毛片免费不卡在线| 九色在线观看视频| 熟女成人国产精品视频| 日本色综合网| 国产午夜无码专区喷水| 99久久精品国产精品亚洲 | 粉嫩国产白浆在线观看| 韩日午夜在线资源一区二区| 国产在线啪| 热99精品视频| 日韩国产综合精选| 亚洲国产成人久久精品软件| www中文字幕在线观看| 国产幂在线无码精品| 91精品专区| 亚洲性一区| 国产SUV精品一区二区| 国产免费精彩视频| 中文字幕无码中文字幕有码在线| 噜噜噜久久| 国产99在线| 亚洲成年人片| 欧美人在线一区二区三区| 激情無極限的亚洲一区免费| 日韩东京热无码人妻| 无码国产伊人| 日韩大乳视频中文字幕| 中文字幕首页系列人妻| 国产欧美视频在线观看| 国产成人亚洲精品蜜芽影院 | 精品欧美一区二区三区在线| 色悠久久综合| 精品91视频| 欧美日韩资源| 2020精品极品国产色在线观看| 国产精品成人观看视频国产 | 国外欧美一区另类中文字幕| 国产成人精品第一区二区| 中文无码精品A∨在线观看不卡 | 亚洲国产精品久久久久秋霞影院| 国产无吗一区二区三区在线欢| 无码AV高清毛片中国一级毛片| 国产精品视频导航| 国产超薄肉色丝袜网站| 露脸国产精品自产在线播| 亚洲人成影院午夜网站| 久久久久国产一区二区| 全部免费特黄特色大片视频| 亚洲欧美精品一中文字幕| 亚洲精品图区| 久久国产香蕉| 人妻熟妇日韩AV在线播放| 亚洲a免费| 99久久成人国产精品免费| 久久国产亚洲偷自| 国内精品视频| 国产人人乐人人爱| 免费三A级毛片视频| www.日韩三级| 国产福利微拍精品一区二区| 国产精品极品美女自在线网站| 凹凸国产熟女精品视频| 国产真实二区一区在线亚洲|