萬曙靜,張承明,劉俊華
(1.中國測繪科學研究院政府地理信息中心,北京100083;2.山東農業大學信息科學與工程學院,山東泰安271018;3.山東省農科院,山東 濟南250100)
多光譜遙感圖像是土地利用應用中主要的數據源,針對多光譜遙感圖像的根本特點研究適宜的分類算法,是獲取高精度土地利用信息主要手段。
20世紀80年代,主要是利用統計模式識別方法進行遙感圖像的計算機分類[1]。20世紀90年代期間至今,涌現出了大量的遙感圖像分類方法,如人工智能分類法、遙感與GIS結合法、面向對象的分類法、復合分類法等都取得較好的效果[2]。Dixon等將支持向量機法用于TM影像土地利用分類取得了最好的分類精度。Wardlow等在美國中央大平原采用決策樹分類方法進行農作物分類,取得了優于80%的總體分類精度。陶超等[3]針對高分辨率遙感影像中“同譜異物”現象提出一種基于概率潛在語義模型的高分辨率遙感影像分類方法。李剛提出了基于高維云模型和改進RBF神經網絡的不確定性分類技術[4]。傳統的遙感圖像分類方法在自動化、智能化和分類精度方面不能令人滿意[5];基于神經網絡的遙感分類技術盡管具有容錯能力好、自適應性強等優點,但在實際應用中存在著結構選取困難、局部收斂過快、學習過程難以控制等問題,導致其并不完全優于傳統的分類技術;基于決策樹的分類方法對邊界處理不太理想[6-7]。
本文根據多光譜遙感圖像的根本特點,綜合考慮土地利用分類的速度和精度,提出一種引入自適應最小距離調整的分類方法,以期更好地滿足實際生產的需要。
現有遙感分類方法對如何提高聚類中心的生成研究較多,而在判定待分類像元的歸屬問題上,多采用先計算待分類像元與所有聚類中心的距離,再將其歸入距離最小的一類的方式,從而導致分類精度難以提高。
理想條件下,遙感圖像上代表同類地物的像元特征向量將分布在同一特征空間區域;而不同的地物由于特征向量不同,應分布在不同的特征空間區域上,則對一個有b個波段待分類遙感圖像,圖像中任何一類地物在任一個波段中只有一個灰度值范圍,對于某個地物類c,可以獲取該類的像元在各個波段上的取值集合,如圖1所示。

圖1 理想條件下光譜范圍示意圖
對于類別c的某一波段i,以li表示其灰度值的下界,以hi表示其灰度值的上界,則在第i波段上,灰度值的中心mi值為:,以此為基礎,可以定義為該類的中心特征向量,利用中心特征向量來更好地描述聚類中心的自適性變動情況。以ri表示波段i相應的允許誤差半徑,根據上述分析,ri的值為可以將所有的波段最大允許誤差構成的向量稱為有效半徑向量。對于一個欲分入c類的像元x,逐一比較每個波段上的灰度值與中心特征向量相應分量的距離,如果距離都不超過相應允許的半徑,則將其歸為c類。
“同物異譜”現象是由于同類地物由于種種原因,在某些波段或全部波段上的值偏差過大,從而導致該類的特征向量在特征空間上分布過于分散,難以像期望的歸于同一個集群中。為了更好地說明這個問題,現在以一個二波段圖像的分類為例進行解釋,假設該圖像將被分為A、B兩個類,每個類的像元分布如圖2所示。

圖2 “同物異譜”導致分類錯誤的示意圖
在圖2中,由于類B的像元分布在兩個區域,生成的聚類中心與兩個區域的距離過大,從而導致識別的范圍(即大橢圓)過大。作為一種較為極端的情況,另一類別A的區域反而被包圍在了B的識別范圍,矩形包圍的一部本應分為A類的像元,被錯誤地分為B類。
從以上分析可以看出,聚類中心及識別半徑過大導致兩個聚類中心的識別范圍相交,是分類精度降低的根本原因。為此,可以通過自適應最小距離調整,對聚類中心進行分裂,消除識別范圍相交,則可以有效地提高分類精度。
基于第2節中的方析,給出自適應最小距離調整的方法為:在樣本學習結束后,對聚類中心進行相交性判斷,如果根據兩個聚類中心的識別半徑生成的范圍相交的部分,則說明需要對聚類中心進行分裂。具體的分裂步驟是:
1)對生成的聚類中心兩兩計算,判斷兩個聚類中心是否相交,如果相交,則按下一步處理。
2)對于兩個聚類中心中識別范圍過大的一個進行分裂。從待分裂的類的樣本中任選一個樣本,隨機選取一個小于原來最大識別距離的值作為閾值,將樣本分為不同的子集,對每一個分別進行學習,產生各自的聚類中心,并與未分裂的類進行相交性判斷,如果仍存在某個子集的聚類中心與其有相交的情況,則再選一個更小的閾值進行,重新進行分裂。
算法使用k-means算法對聚類中心進行分裂,每次分解為兩個子集,并以二叉樹方式進行樣本集合分裂。每一類生成一棵二叉樹,稱為該類的子集樹。二叉樹的一個節點對應一個球體,記錄每個球體的球心半徑,以及對應的樣本子集。球體的中心定義為該節點上樣本子集的中心,半徑是該節點上的樣本點到球心歐氏距離的最大值。由一個節點的子集細分得到的球體則表示為該節點的兩個子節點。
自適應最小距離分類器對待分類點i的分類步驟如圖3所示。

圖3 自適應最小距離分類算法流程圖
1)求出該點到各類對應的子集樹的距離D。待分類點P到子集樹T的距離D(T,P)定義為:①如果P到T的根節點對應的球心歐氏距離d大于該節點球體的半徑的兩倍,則忽略該節點細分得到的所有小球,并令D=d;②如果T的根節點已經是葉節點,則令D=d;③ 若A、B均不滿足,則D遞歸定義為P到T的左右子樹T1,T2的距離D1,D2的最小者。
2)將距離D最小的一子集樹的類號賦予待分類點。
距離計算中使用了二叉樹查找,使得只有一部分節點參與距離D的求取,可以有效降低實際參加計算d的數并不多,保證了在樣本數量增大或者細分得到球體增多的情況下計算量不會增加很多。
本文選取山東省萊蕪市雪野流域作為研究區。選取水體、林地和裸露土壤3種差異較大的土地利用類別進行分類比較。
試驗所用的數據源為分辨率為30m的ETM+影像,共8個波段,大小為1500像素×1200像素,獲取時間為2007年5月31日。
從圖4分類結果來看,采用最小距離法分類時,待分類像元數目明顯增多,待分類和林地混分的現象較為嚴重,水體受陰影影響存在錯分現象。K近鄰法可以很好地區分水體和祼露土地,但是對于林地卻不能很好地識別,有一部分林地被錯分成水體。最大似然法雖然對水體的分類效果較好,但林地、裸露土壤錯分為待分類現象嚴重。K近鄰法可以很好地區分水體和祼露土地,但是對于林地卻不能很好地識別,有一部分林地被錯分成水體。BP神經網絡法對各類分類都有較好的效果,但是仍然有一部分植被類別未被區分出來。分類精度如表1所示。

圖4 雪野水庫分類結果

表1 常用分類方法分類精度
使用自適應最小距離分類方法分類時,其試驗結果如圖5所示。

圖5 雪野水庫分類結果圖
不同訓練樣本及類別模式的分類精度如表2所示。

表2 不同訓練樣本及類別模式的分類精度
對比不同方法的分類結果,可以看出,利用本文方法進行分類,結果中的待分類像元明顯減少,精度平均提高1.06%。
本文在建模分析分類問題的基礎上,提出了一種基于最小距離自適應調整實現聚類中心分裂的方法。通過試驗與傳統分類方法作比較,該方法能夠有效提高分類精度,解決了分類方法中識別范圍相交導致分類精度難以提高的問題。結果證明了本方法的有效性和可靠性。
[1]羅來平.遙感圖像分類中模糊模式識別和決策樹方法的應用研究[D].北京:首都師范大學,2006.
[2]史澤鵬,馬友華,王玉佳.遙感影像土地利用/覆蓋分類方法研究進展[J].中國農學通報,2012,28(12):273-278.
[3]陶超,譚毅華,彭碧發.一種基于概率潛在語義模型的高分辨率遙感影像分類方法[J].測繪學報,2011,40(2):155-161.
[4]李剛,萬幼川.基于高維云模型和RBF神經網絡的遙感影像不確定性分類方法[J].測繪科學,2012,37(1):115-118.
[5]錢茹茹.遙感影像分類方法比較研究[D].西安:長安大學,2007.
[6]賈坤,李強子,田亦陳.遙感影像分類方法研究進展[J].光譜學與光譜分析,2011,31(10):2618-2623.
[7]郭亞琴,王正群,樂曉容.基于自適應距離度量的最小距離分類器集成[J].計算機應用,2006,26(7):1703-1706.