999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹模型在水環境監測網絡中選取代表性樣點的應用

2014-04-26 01:31:42薛冬梅王中良
中國環境監測 2014年1期
關鍵詞:分類模型

薛冬梅,王中良

1.天津師范大學,天津市水資源與水環境重點實驗室,天津 300387

2.比利時根特大學同位素生物科學實驗室(ISOFYS),Ghent B-9000

3.中國科學院地球化學研究所,環境地球化學國家重點實驗室,貴州 貴陽 550002

水體中硝酸鹽的污染在全球范圍內日益嚴重。各國亦建立相關水體監測網絡對水質進行長期監測,但隨之而來的是大量監測數據的累積,給后續的科研工作帶來不便。尤其是在龐大的監測網絡中如何選取有代表性樣點的研究已成為急需解決的問題之一。

科學的統計方法對于龐大的數據處理很有意義。多元統計方法(Multivariatestatistical methods)能夠區分眾多變量之間的復雜關系,對于源類識別問題很有意義[1-3]。Alley[2]對多元統計方法進行了較為詳細的綜述,該法包括聚類分析(cluster analysis)、主成分分析(PCA)、判別分析(discriminant analysis)、決策樹模型(decision tree)和因子分析(factor analysis)等。對于源類的分類問題,我們可以應用判別分析和決策樹模型[4]。判別分析是多元回歸以尋找最佳線性方程組來分離樣本,但是此種方法很難進行合理解釋。決策樹模型的基本理論是根據一個已知分類的數據集以自上而下的遞歸方式構造決策樹,并以此樣本為基礎進行歸納學習,而其表現形式就是一個類似于流程圖的樹形結構。決策樹模型分類準確性較高、計算過程簡單,輸出結果具有圖形化易理解等優點[5-7]。國內也有一些學者應用決策樹模型研究如何評價耕地[8]、分類海岸帶[9]、分類濕地[10-11]以及探討黃河干流缺水[12]問題等。但目前還沒有應用這類模型對于較大水體監測網絡所收集的時間序列數據進行信息抽取挖掘的相關研究。

該研究以比利時弗拉芒地區的水環境監測網絡為例,利用決策樹模型分析評估原有監測點位的污染源專家分類和模型輸出的可匹配率,為進一步選取代表性樣點進行污染源判斷的深入研究提供理論依據。

1 決策樹模型的建立

1.1 采樣點概況

專家從環境監測網絡選取了47個采樣點(圖1),并且根據硝酸鹽來源劃分為5類:溫室大棚區(G,11個點位)、農作物區(A,7個點位)、有地下水補給的農作物區(AGC,15個點位)、居民區(H,8個點位)以及農作物和園藝混合區(AH,6個點位)。

圖1 地表水采樣點的分布

1.2 數據集合

根據采樣點在監測網絡中的編碼、采樣時間,監測的地表水水體的10個物理化學參數(水溫T,EC20,pH,DO,O2,Cl-,NH4+-N,NO2-,NO3-、PO)以及硝酸鹽來源分類等指標創建了數據集合,實例總數為3 928。其中,數據集合中缺失的數據根據多重插補(Multiple Imputation)法進行插補。

分類AH以及G中的地表水站點在2002—2009年都具有較高的平均硝酸鹽濃度范圍,質量濃度分別為13.5~29.8 mg/L和6.9~44.4 mg/L;分類A以及AGC中的地表水站點的NO3-平均濃度次之,質量濃度分別為2~14 mg/L和1~22.4 mg/L;而分類H則為最低,NO3-平均質量濃度為0.4~3.6 mg/L(以N計)變化。

1.3 決策樹模型

決策樹模型的基本算法是貪心算法,其生成則是自上而下的遞歸過程通過不斷將樣本分割成子集來構造決策樹。算法的核心問題就是屬性選擇和剪枝策略。采用C4.5算法來建立決策樹模型[13]。C4.5對屬性的選擇基于信息理論(information theory)[14],通過計算信息增益來確定節點的分裂屬性,每個節點均選擇具有最大信息增益的屬性。這樣能夠使得樣本在依據該屬性進行分類時所需要的信息最小,可以有效減少分類所需的分裂次數。假設一個集合M,具有s個類別,其中個類在M中出現的比例為p(ci),那么M的信息熵為

選擇屬性X(在本研究中是指水的物理化學參數)分裂后的信息增益可表達為

式中info(M|X)代表X的信息熵,V(X)代表屬性X的可能值的數量,Mj代表集合M的子集中屬性X的可能值的數量為j。最優屬性則是信息增益gain(X)的最大值。

C4.5對決策樹的剪枝是自下而上,從樹最底層的節點,將符合修剪規則的剪掉,直到沒有節點滿足修剪規則為止。決策樹建立后,根據10次交叉檢驗法進行準確性評估。

2 結果與討論

2.1 模型輸出與專家分類對比

利用47個地表水樣點的10個物理化學參數數據建立了決策樹模型,共有247個節點,樹形規模較大。實例數量為3 928個,其中3 142個實例與專家知識的分類情況一致,剩余的786個實例則被分為不同的類別。所以,此決策樹模型的輸出與專家分類的匹配率為80%。決策樹模型中每一硝酸鹽源類實例的分類情況見圖2。

圖2 決策樹模型中每一硝酸鹽源類實例的分類情況

從圖2可見,分類A、AGC、G和H具有較高的匹配率(大于80%),表明使用建模的物理化學參數數據具有較高的可重構性。分類AH則具有較低的匹配率(50%),表明了這一類樣點的物理化學參數數據具有較低的可重構性,但是引起這一現象的原因目前不詳,需要結合后續的氮氧同位素方法進行深入研究。此外,每一硝酸鹽源的模型輸出與專家分類的匹配率都不是100%,說明部分實例與專家分類不相同。所以,了解決策樹模型中每一類實例的分類情況是比較有意義的。

從圖2中可以看出分類A、AGC、G和H具有較高的匹配率(大于80%),因而這些分類中相應的實例被劃分為其他分類的百分比則相對較低。相反地,分類AH因具有較低的匹配率而導致其相當部分實例(大于40%)被決策樹模型重新分到A以及G這2個類別中。其原因可能是分類AH本身就是農作物和園藝混合區,此類中地表水樣點所構成實例不排除具有其他類別實例的特征。

另外,47個采樣點的平均決策樹模型的輸出與專家分類的匹配率為43% ~95%,有近3/4的樣點大于80%。研究中還發現,分類AH中的采樣點均顯示了較低的數值,平均匹配率為43% ~60%。此類中的采樣點數據重構性較差,需選擇另外一種相對獨立的方法進行分析研究,進而對采樣點分類提供更合理的證據,并非只是單單從不同土地利用類型和專家知識而進行的分類檢索。

2.2 依據決策樹模型選擇代表性樣點

如前所述,決策樹模型所評估的47個采樣點中,部分樣點數據重構性較差導致決策樹模型的輸出與專家分類的匹配率較低,需要其它方法進行校正。氮氧同位素方法已經廣泛應用于對硝酸鹽污染源判斷以及硝酸鹽遷移轉化過程的研究。所以,在47個樣點中選擇了30個具有代表性的樣點作為后續研究。另將30個優化后點位的數據集再次帶入模型中,該決策樹模型的輸出與專家分類的匹配率達到84%,優于前47個點位的模型輸出。然而分類AH中的采樣點仍顯示較低的匹配率(48% ~63%)。根據此決策樹模型,縮減了工作量,選擇的樣點更具有代表性。其目的是通過后續方法更準確地對選擇的樣點進行分類,建立輸出結果更為精確的決策樹模型進而對監測網絡中其它未知源的樣點進行硝酸鹽來源的預測。

3 結論

建立的決策樹模型成功地從47個采樣點的物理化學數據所組成的數據集中挖掘了未知的、有價值的信息。此決策樹模型評估了約有80%的樣點分類與專家知識分類相吻合,然而部分樣點則顯示了較低的匹配率,數據的可重構性較低。決策樹模型的輸出結果為選擇有代表性樣點進行后續研究提供了可靠的數據保證。

[1]Hem J A.Study and interpretation of natural water[M].Water Supply Paper 2254.Reston,VA:United States Geol.Survey,1985.

[2]Alley W M.Regional ground-water quality[M].Van Nostrand Rheinhold.New York:Wiley,1993.

[3]Spruill T B,Showers W J,Howe S S.Application of classification-tree methods to identify nitrate sources in ground water[J].J Environ Qual,2002,31:1 538-1 549.

[4]Wilkinson L.Classification and regression trees[M].Chicago:SPSS Inc,2000.

[5]Breiman L J,Friedman J H,Olshen R A et al.Classification and regression trees[M].New York:Chapman and Hall/CRC,1984.

[6]Han J W,Kamber M.Data mining:Concepts and techniques[M].San Francisco:Morgan Kaufmann Publisher,2001.

[7]StatSoft. Electronic statistics textbook [EB/OL].(2001)[2013-10-24]http:∥www.statsoft.com/.

[8]田劍,胡月明,劉建敏,等.聚類支持下決策樹模型在耕地評價中的應用[J].農業工程學報,2007,23(12):58-62.

[9]何厚軍,王文,劉學工.基于決策樹模型的海岸帶分類方法研究[J].地理與地理信息科學,2008,24(5):25-28.

[10]李慧,余明.基于決策樹模型的濕地信息挖掘與結果分析[J].地球信息科學,2007,9(2):60-64.

[11]黃穎,周云軒,吳穩,等.基于決策樹模型的上海城市濕地遙感提取與分類[J].吉林大學學報:地球科學版,2009,39(6):1156-1162.

[12]吳新,鄧曉青.黃河干流缺水決策樹模型研究[J].人民黃河,2007,29(6):25-27.

[13]Quinlan J R.C4.5:Programs for Machine Learning[M]. San Mateo, CA:Morgan Kaufmann Publishers,1993.

[14]Shannon C.A mathematical theory of communication[J].The Bell Systems Technical Journal,1948,27:379-423.

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 波多野结衣中文字幕久久| 日韩一区二区在线电影| 在线国产综合一区二区三区| 久久久久免费精品国产| 国产区精品高清在线观看| 欧类av怡春院| 欧美日韩第三页| 精品久久777| 亚洲国产综合精品中文第一| 欧美a在线看| 国产va在线观看免费| 亚洲人成色77777在线观看| 暴力调教一区二区三区| 91探花国产综合在线精品| 国产在线自乱拍播放| 国产欧美成人不卡视频| 欧美国产日韩在线| 欧美国产日韩一区二区三区精品影视| 亚洲伊人天堂| 日韩高清在线观看不卡一区二区| 乱人伦中文视频在线观看免费| 夜夜爽免费视频| 人妻丰满熟妇av五码区| 成年av福利永久免费观看| 国产91精品调教在线播放| 久久久久亚洲Av片无码观看| 99资源在线| 67194亚洲无码| 国产最新无码专区在线| 国产微拍精品| 国产精品自在自线免费观看| 青青青国产视频手机| 精品成人免费自拍视频| 亚洲热线99精品视频| 久久精品一品道久久精品| 国内精品伊人久久久久7777人| 欧美日韩中文字幕在线| 欧洲免费精品视频在线| 国产a v无码专区亚洲av| 综合社区亚洲熟妇p| 欧美日韩在线第一页| 国产swag在线观看| 亚洲第一成人在线| 国产精品妖精视频| 欧美中文字幕在线二区| 无码电影在线观看| 最新国产精品鲁鲁免费视频| 欧美天堂久久| 亚洲免费人成影院| 在线观看无码av五月花| 久久无码av三级| 国产一区二区三区免费观看| 色成人综合| 久久午夜影院| 亚洲成AV人手机在线观看网站| 欧美精品成人一区二区在线观看| 欧美在线视频a| 99re在线视频观看| 国产情侣一区二区三区| 国产午夜在线观看视频| 原味小视频在线www国产| 中美日韩在线网免费毛片视频| 中文国产成人精品久久| 日本欧美午夜| 欧美另类图片视频无弹跳第一页| 国产男人的天堂| 91青青草视频在线观看的| 国产一二三区在线| 久久久久久尹人网香蕉| 欧美97色| 亚洲人成网18禁| 欧美 亚洲 日韩 国产| 亚洲欧美成人| 久草美女视频| 狠狠亚洲五月天| 久久人与动人物A级毛片| 国产黄色片在线看| 凹凸国产分类在线观看| 综合色区亚洲熟妇在线| 亚洲一级无毛片无码在线免费视频| www.狠狠| 2021天堂在线亚洲精品专区|