999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

粗糙集和決策樹方法在土壤評價中的應用研究

2009-05-13 01:50:40陳桂芬
吉林農業·下半月 2009年12期
關鍵詞:數據挖掘分類評價

馬 麗 陳桂芬

【摘要】 應用粗糙集與決策樹相結合的數據挖掘方法評價吉林省某地的土壤地力等級。研究數據共有161條記錄,16個屬性,使用粗糙集對土壤屬性進行約簡,去除了5個土壤冗余屬性,得到屬性約簡集;使用決策樹方法對土壤數據建立決策樹模型,得到了土壤評價的決策樹模型,并提取了分類規則。實驗表明:將粗糙理論與決策樹相結合的數據挖掘方法能去除冗余屬性,同時保留了原始數據的內部特點,相對于單一使用決策樹方法,決策樹規模減小,規則集較精簡,提高了分類的效率。

【關鍵詞】 粗糙集 決策樹 數據挖掘 土壤評價 地力等級

【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved.

【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade

引言

土壤評價的影響因素較為復雜,傳統的土壤評價方法需要領域專家的參與,有一定的主觀性,而且較少考慮土壤各屬性間的依賴關系,較難表達土壤性質和環境變量間的非線性關系。從數據挖掘的角度來看,土壤評價實質上屬于分類預測問題。決策樹方法是一種較好的分類方法,適宜處理非線性數據和描述數據,建立的樹型結構直觀,具有生成速度快,能得到簡單易懂的分類規則等優點。決策樹在土壤等級評定方面也有了一些應用,但決策樹方法不考慮土壤屬性之間的潛在關系,當數據集中的屬性過多時,用決策樹分類易出現結構性差,難以發現一些本來可以找到的、有用的規則信息等情況。粗糙集理論在處理大數據量,消除冗余信息等方面具有一定的優勢,因此廣泛應用于數據預處理、屬性約簡等方面。鑒于粗糙集和決策樹具有很強的優勢互補性,本文采用粗糙集與決策樹相結合的方法評價土壤地力等級,即采用粗糙集方法對土地屬性進行約減,得到低維訓練數據,使用決策樹方法構建決策樹,產生分類規則集,形成評價地力等級的新方法。

1.數據挖掘方法設計

1.1粗糙集理論

粗糙集(Rough Set,RS)理論是新的處理模糊和不確定性知識的數學工具,其特點是不需要預先給定某些特征和屬性的數量描述,而是直接從給定問題的描述出發,找出該問題的內在規律,其基本思想更接近現實情況。

粗糙集的基本思想是:稱S=(U,A,{Va},a)為知識表示系統,其中,U為非空有限集,稱為論域;A為非空有限集,稱屬性集合;Va為屬性a∈A的值域;a:U→Va為一單映射。如果A由條件屬性集合C和結論屬性集合D組成,C,D滿足C∪D=A,C∩D=Φ,則稱S為決策系統。在一個決策系統中,各個條件屬性之間往往存在著某些程度上的依賴或關聯,約簡可以理解為在不丟失信息的前提下,以最簡單地描述表示決策系統的結論屬性對條件屬性的集合的依賴和關聯。

可以利用C相對于D的任一約簡來代替C,而不會對決策有任何影響,這就是粗糙集屬性約簡的原理。

1.2 決策樹方法

決策樹主要應用于對事物進行分類、預測以及數據的預處理等。構造決策樹通常包括兩個步驟:利用訓練集生成決策樹,再對決策樹進行剪枝。決策樹的生成是從一個根節點開始,從上到下的遞歸過程,通過不斷的將樣本分割成子集來構造決策樹。

得到了完全生長的初始決策樹后,為了除去噪聲數據和孤立點引起的分枝異常,需要對決策樹進行剪枝。決策樹的剪枝通常是用葉結點代替一個或多個子樹,然后選擇出現概率最高的類作為該結點的類別。

1.3基于粗糙集的決策樹模型

基于粗糙集和決策樹結合的數據挖掘算法過程描述如下:不斷地從條件屬性C中取出相對于決策屬性D較為重要的屬性,使得決策屬性D對其依賴度等于D對C的依賴度,得到屬性約簡集。然后,利用信息增益作為啟發信息,選擇能夠最好地將樣本分類的屬性,創建一個分枝,并據此劃分訓練集,直到不存在可以再分割的屬性,之后使用測試集對構建的決策樹模型進行驗證修正。

2.實驗及結果分析

本文引用粗糙集理論和決策樹方法,研究新的土壤評價方法,目的是對吉林省某地土壤等級進行分類預測,確定土壤的地力等級。該地地力等級劃分為1,2,3,4,5,6共6個等級。研究數據包含15個條件屬性和一個決策屬性,共161條記錄。粗糙集屬性約簡算法要求數據為離散數據,根據土壤數據特點,采用Equal Frequency Binning算法對數據進行離散化處理。將土壤數據的圖上面積(m2) 、平差面積(mu)、 有機質、全氮、速效磷、速效鉀、緩效鉀、有效鋅、有效硼、有效銅、有效鐵、有效錳、有效鉬、PH值、代換量15個屬性作為條件屬性輸入粗糙集算法,形成條件屬性集C,將地力等級作為決策屬性D。使用粗糙集約簡算法約簡屬性集C,得到約簡屬性集。得到的約簡屬性為有機質、全氮、速效磷、緩效鉀、有效硼、有效銅、有效鐵、有效錳、PH、代換量,共10個條件屬性,共去除5個冗余屬性。

利用粗糙集方法對條件屬性進行約簡之后,調入決策樹程序,進行決策分類。在161條記錄中,能正確分類的數據為137條,24條數據未正確分類,其中地力等級為1的數據共25條,全部正確分類,地力等級為2的數據18條,16條數據正確分類,地力等級為3的數據13條,10條數據正確分類,地力等級為4的數據63條,53條數據正確分類,地力等級為5的數據34條,29條數據正確分類,地力等級為6的數據8條,4條數據正確分類。

根據生成的決策樹,可以提取出決策規則。提取出的部分決策規則如下:

if有機質 <= 2.964 and PH <= 6.5 and有效錳 <= 26.314 then 地力等級=3;

if有機質 <= 2.964 and PH <= 6.5 and有效錳> 26.314 then 地力等級=4;

if有機質 <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等級=3;

if有機質 <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等級=2;

if有機質 >2.964 and緩效鉀 <= 713.31 then 地力等級=2;

if有機質 >2.964 and緩效鉀 > 713.31 then 地力等級=1;

使用44條記錄數據對得到的決策模型驗證,正確率為85.3 %,模型預測結果較好。地力等級較低時,預測準確率較高,對于高地力等級的預測,還需進一步修正數據集和模型。

3.結語

數據挖掘中決策樹方法適用于分類預測,在地力等級評價中已有應用。但是這種方法還有冗余屬性存在,構造的樹的規模較大,提取的規則較多。

本文提出了一種基于粗糙集和決策樹結合的評價土壤等級的方法。先使用粗糙集進行屬性約簡,之后使用決策樹進行土壤分類,得到評價規則進行地力等級評定,最后使用土壤數據進行算法驗證。結果表明相對于單一使用決策樹方法,使用粗糙集進行屬性約簡之后進行決策評價的方法,可以去除冗余屬性,生產的決策樹規模較小,提取的規則較少,分類精度較高,速度更快,提高了挖掘的效率。

從實驗效果來看,模型評價的結果與實際情況基本符合,并且該模型可解釋性較好,易于從中提取評價規則。運用決策樹模型能夠揭示該地區耕地質量狀況,有利于提高對該區耕地的利用效益。該方法是土壤評價的有效方法。

【參考文獻】

[1]黃健, 李會民, 張惠琳, 馬兵, 孫宇新, 張國恩, 朱健菲. 基于GIS的吉林省縣級耕地地力評價與評價指標體系的研究——以九臺市為例[J]. 土壤通報, 2007,(03):422—426.

[2]薛正平,鄧 華,楊星衛,等.基于決策樹和圖層疊置的精準農業產量圖分析方法[J].農業工程學報,2006,22(8):140—144.

[3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95)

[4]王玉珍.基于數據挖掘的決策樹方法分析[J].電腦開發與應用,2007(05):64—66.

[5]田苗苗.數據挖掘之決策樹方法概述[J].長春大學學報,2004 (06):48—51.

[6]范潔,楊岳湘,溫璞.C4.5算法在在線學習行為評估系統中的應用[J].計算機工程與設計,2006,27(6):946—948.

[7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320.

馬麗(1980—),女,吉林長春人,助教。研究方向:計算機農業應用。

陳桂芬(1956—),女,博士生導師,教授。研究方向:專家系統,精準農業。

猜你喜歡
數據挖掘分類評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數據挖掘云服務及應用
基于Moodle的學習評價
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 无码高潮喷水专区久久| 91精品福利自产拍在线观看| 77777亚洲午夜久久多人| 中文字幕亚洲综久久2021| 深爱婷婷激情网| 无码又爽又刺激的高潮视频| 国产乱人伦AV在线A| 午夜久久影院| 黄色在线不卡| 精品無碼一區在線觀看 | 亚洲第一天堂无码专区| 精品视频免费在线| 色婷婷丁香| 亚洲一区二区成人| 欧美笫一页| 精品夜恋影院亚洲欧洲| 久久免费视频播放| 一本大道AV人久久综合| 青青操国产视频| 国产毛片一区| 成人福利免费在线观看| 国产精品部在线观看| 日韩高清欧美| 91成人试看福利体验区| 国产成年女人特黄特色毛片免| 99这里只有精品在线| 91小视频在线| 国产美女叼嘿视频免费看| 天堂在线www网亚洲| 国产a v无码专区亚洲av| 色天天综合久久久久综合片| 欧美激情一区二区三区成人| 欧美伊人色综合久久天天| 国产午夜一级淫片| 久久香蕉国产线看精品| 狠狠色婷婷丁香综合久久韩国 | 香港一级毛片免费看| 男女男精品视频| 久久综合国产乱子免费| 无码人妻热线精品视频| 精品人妻系列无码专区久久| 国产亚洲视频在线观看| 亚洲AV免费一区二区三区| 欧美日韩另类国产| 99热这里只有精品免费| 亚洲色图欧美视频| 无码免费视频| 国产香蕉在线视频| 亚洲精品动漫在线观看| 一本大道香蕉久中文在线播放| 亚洲综合极品香蕉久久网| 色香蕉影院| 强奷白丝美女在线观看| 午夜日本永久乱码免费播放片| 亚洲综合第一区| 99国产精品免费观看视频| 国产美女久久久久不卡| 亚洲 欧美 中文 AⅤ在线视频| 亚洲AV无码乱码在线观看裸奔| 直接黄91麻豆网站| 狠狠色丁香婷婷综合| 国产一级毛片yw| 国产精品无码作爱| 欧美一区二区自偷自拍视频| 国产一区二区三区免费| 嫩草在线视频| 精品无码专区亚洲| 久久国产热| 亚洲无线国产观看| 国产日本一线在线观看免费| 色网站在线免费观看| 全部免费特黄特色大片视频| 日本一区二区三区精品AⅤ| 亚洲欧美日韩成人在线| 日本午夜影院| 一级全黄毛片| 黄色网站在线观看无码| 久久综合成人| 丁香婷婷久久| 午夜无码一区二区三区| 久久久无码人妻精品无码| 玖玖精品在线|