史加榮,胡宇驕
(1.西安建筑科技大學理學院,陜西 西安 710055;2.省部共建西部綠色建筑國家重點實驗室,陜西 西安 710055)
氣候類型對農業生產和建筑能耗都有重要的影響[1]。根據現有氣候數據對不同氣候類型進行分類,可為農業生產和建筑設計提供指導意義。由于氣候變量和分類指標存在多樣性,可以根據不同的分類目的選取合適的分類方法。中國民用建筑熱工設計規范提出了五種氣候類型:嚴寒、寒冷、夏熱冬冷、溫和、夏熱冬暖[2]。
聚類分析根據樣本間的相似性或差異性進行分類,其中歸屬于同一類的樣本具有相似的特征,屬于不同類的樣本具有不同的特征[3]。聚類方法可分為分層和劃分兩種,它們都需要事先給定聚類的數目,并度量樣本之間的相似性或差異性[4]。楊博寧[5]采用k-mean聚類算法對加密云數據進行預處理,從而提高搜索效率。高書強等[6]提出一種改進的譜聚類算法,用于對電力數據的異常檢測。
矩陣的低秩表示(Low-Rank Representation, LRR)將數據樣例表示為基的線性組合,并對表示系數矩陣強加低秩約束[7]。Yin等[8]考慮數據中非線性結構影響,提出了一種拉普拉斯正則化低秩表示方法。Elhamifar等[9]提出稀疏子空間聚類(Sparse Subspace Clustering, SSC)。王衛衛等[10]對SSC方法進行了綜述。Peng等[11]提出了一種基于稀疏高維數據的子空間聚類算法。Abcavisani等[12]提出了一種基于SSC和LRR的子空間聚類的多模態擴展算法。Houthuys等[13]給出了一種多數據源數據聚合的方法,使用來自多個視角的互補信息來提高聚類性能。Brbic等[14]提出了多視角低秩稀疏子空間聚類方法,同時考慮多個因素對聚類結果的綜合影響。Shi等[15]設計了一種新的中國氣候區劃方法,該方法結合了SSC和k近鄰的優點。
文獻[15]對每個氣象要素構建了相應的相似度矩陣,但未考慮它們之間的關系。采用多視角低秩稀疏子空間聚類方法,建立一個集成的相似度矩陣,進而實現對中國氣候類型的更加準確的分區。
皮爾遜相關系數用于度量兩變量之間的線性相關程度,通常對非線性關系無效。為此,采用了最大信息系數(Maximal Information Coefficient, MIC)。MIC是Reshef等[16]在2011年提出的用于描述變量之間相關程度的方法,其基本思想如下:對兩個變量構成的散點圖做網格劃分,若它們之間存在某種相關性,則散點在網格中的分布能夠反映其關聯性。與傳統方法相比,MIC不僅可以描述變量之間的線性關系,還可以描述變量之間的非線性關系。
給定有序對構成的有限集合D?R2,將每個元素的第1個分量劃分成x個取值區間,第2個分量劃分成y個取值區間,因此得到x×y的網格G。設DG為D中的點在網格G上的分布,其互信息值記為I(DG)。
對于集合D,當正整數x和y給定時,定義最大互信息

(1)
當x和y取遍所有正整數時,將I*(D,x,y)標準化可構成無窮維矩陣M(D),其第x行第y列元素為

(2)
顯然,M(D)x,y∈[0,1]。于是最大信息系數的定義為

(3)
其中,B(N)=N0.6為網格劃分上限,N為D的元素數目。MIC具有以下性質:當兩個變量之間存在無噪聲且確定的函數關系時,MIC依概率收斂到1;當兩個變量相互獨立時,MIC趨向于0。
考慮N個樣本構成的矩陣X,LRR采用自表示方式,即X=XC,其中C∈RN×N為線性表示系數矩陣且是近似低秩的。為了求解C,建立下列最優化模型

(4)


(5)

與LRR類似,SSC也使用了數據集的自表示形式,但它要求系數矩陣C是稀疏的。在數學上,SSC可表示為以下最小化模型
(6)

s.t.diag(C)=0
(7)
將低秩約束與稀疏約束相結合,得到低秩稀疏子空間聚類(Low-Rank Sparse Subspace Clustering,LRSSC)[17]。下面給出LRSSC的優化模型
s.t.X=XC, diag(C)=0
(8)
當數據含有噪聲時,需要求解的模型變為

s.t.diag(C)=0
(9)
其中βi>0為折中系數,i=1,2。

MLRSSC對應的最優化模型為
s.t.X(i)=X(i)C(i),
diag(C(i))=0,i=1,…,m
(10)
其中λ(i)>0為懲罰系數。


對相似度矩陣A進行譜聚類,從而得到原始數據集在m個視角下的聚類結果。譜聚類的基本步驟如下:先構建N階對角矩陣D,其第i個對角線元素為A的第i行元素之和;再計算拉普拉斯矩陣L=D-1/2AD-1/2;最后對L的若干最大特征值對應的特征向量,采用k均值聚類。與傳統的k均值聚類方法相比,譜聚類方法對噪聲和異常值具有較強的魯棒性。為了在一定程度上減輕k均值聚類結果的隨機性,將k均值聚類算法重復20次,并根據最優的目標函數來確定實驗結果。
為了獲得更加準確的氣候分區,需要綜合考慮多種氣象要素。本節使用MLRSSC對中國氣候進行分區。首先對各氣象要素進行相關性分析,再給出參數設置與相似度矩陣的可視化,最后分別將基于線性核函數和高斯核函數的MLRSSC應用到氣候區劃中。

圖1 中國661個氣象臺站的空間分布
選取中國661個氣象臺站在2004-2013年的氣象數據,資料來源于中國國家氣候中心。各臺站點的空間分布如圖1所示,其中各站點的顏色表示海拔高度,單位為1m。考慮以下5個氣象元素:相對濕度(%)、大氣壓(10pa)、日照時數(0.1h)、日平均溫度(0.1℃)、氣溫日較差 (0.1℃)。對于缺失、缺測或異常數據,可以按照矩陣分解的方法進行推測[20]。為減少隨機波動的不利影響,將10年的日值氣象數據按照連續10天取平均。因此,每個臺站的某氣象要素可表示為365維的列向量,并對其進行區間[-1,1]上的規范化處理。
根據661個氣象臺站在2004-2013年的日值氣象數據,計算相對濕度、大氣壓、日照時數、日平均溫度和氣溫日較差5個氣象要素兩兩之間的相關性。對于某氣象要素,所有臺站的數據形成365×661=241265維的向量。最終得到的最大信息系數(MIC)如表1所示。

表1 氣象要素間的最大信息系數
由表1可知:相對濕度、日照時數和氣溫日較差兩兩之間的MIC介于0.3206與0.3430之間,故存在較弱的相關性;其它氣象要素對的MIC均小于等于0.2454,它們之間的相關性微弱;相對濕度與日照時數的相關性最大,這可能是由于它們之間存在大致反比的關系;日照時數與大氣壓的MIC為0.0932,即它們之間幾乎相互獨立。綜上,選取的5個氣候要素之間不存在較強的相關性,因此可以根據它們的觀測值執行多視角聚類。
在高斯核函數中,取σ=1。對于最優化模型(10),取低秩系數β1=0.3,稀疏系數β2=0.7,一致性系數λ(i)=0.3,i=1,2,3,4,5。置交替方向乘子法的最大迭代次數為300,收斂閾值設置為10-3。使用一致率[15]來評價兩種分類方法的相容性,其定義如下

(11)

圖2繪出了基于高斯核函數的相似度矩陣,其中x軸和y軸分別代表氣象臺站序號。從圖2可以看出:相似度矩陣滿足稀疏性,從而有利于分區;大部分非零元素集中在對角線附近,這是因為相鄰氣象臺站序號接近且具有相似的氣候特征;存在明顯的分塊現象,這在一定程度上反映了相似度矩陣是近似低秩的。

圖2 相似度矩陣可視化
分別在線性核函數和高斯核函數下,求解相似度矩陣A,并比較k∈{5,7,9}三種情形下,運用譜聚類方法與k均值聚類方法分區結果的異同。
5.3.1 k=5
將661個氣象臺站分成5類,運用譜聚類方法時,基于線性核函數和高斯核函數的MLRSSC方法得到的分類結果相同,即一致率為1。圖3繪出了k=5時的分區結果,其中1區到5區的臺站數目分別為127、111、113、185、125。由圖3可以看出:3區和5區對應嚴寒地區,1區包含寒冷地區和夏熱冬冷地區,2區包含寒冷地區和溫和地區,4區包含夏熱冬冷與夏熱冬暖地區。

圖3 k=5時基于譜聚類的氣候分區

圖4 k=5時基于k均值聚類的氣候分區
將每個氣象臺站的5組規范化后的氣象數據拼接成一個新的高維向量,并對處理過的661個向量直接運用k均值聚類,分類結果如圖4所示。在圖4中,1區對應嚴寒地區,2區包含溫和地區和夏熱冬冷地區,3區包含夏熱冬冷地區和夏熱冬暖地區,4區包含嚴寒地區和寒冷地區,5區對應寒冷地區。對比圖3和圖4可以發現:當氣候分區數k=5時,直接采取k均值聚類方法進行氣候分區時,各氣候區無明顯邊界。
5.3.2 k=7
對于k=7,圖5繪出了使用譜聚類方法時兩種核函數的分區結果。MLRSSC方法將中國劃分為7個氣候區,且邊界較為明顯。對于線性核函數,1區到7區的臺站數目分別為71、115、116、99、91、61、108;對于高斯核函數,7個區的臺站數目分別為76、107、81、114、95、76、112。兩種核函數的兩種分類結果具有較高的一致性,它們的一致率為0.8805。從圖5可以看出:1區和4區對應寒冷地區,2區對應夏熱冬冷地區,3區和7區對應嚴寒地區,5區對應夏熱冬暖地區,6區對應溫和地區。

圖5 k=7時基于譜聚類的氣候分區

圖6 k=7時基于k均值聚類的氣候分區
下面考慮k=7時直接采取k均值聚類進行分區,結果如圖6所示。在圖6中,1區、2區和7區對應嚴寒地區, 3區包含溫和地區和夏熱冬冷地區,4區對應寒冷地區, 5區包含夏熱冬冷地區和夏熱冬暖地區,6區對應寒冷地區。對比圖5和圖6可以發現, k均值聚類方法未劃分出夏熱冬冷地區與夏熱冬暖地區,且夏熱冬冷地區與溫和地區無明顯邊界。
5.3.3 k=9
當k=9時,使用線性核函數,1區到9區的氣象臺站數目分別為74、43、96、65、89、78、70、73、73;使用高斯核函數,9個區對應的臺站數目分別為73、43、94、66、89、78、72、74、72。計算得到兩種方法的一致率為0.9894,說明它們的分類結果具有非常高的一致性。當采用譜聚類方法時,分區結果如圖7所示。圖7繪出了MLRSSC方法將661個氣象臺站劃分為9個區域的詳細結果,可以看出:1區和9區對應夏熱冬冷地區, 2區對應溫和地區,3區、4區和7區對應寒冷地區, 5區和8區對應嚴寒地區,6區對應夏熱冬暖地區。

圖7 k=9時基于譜聚類的氣候分區
圖8給出了k=9時使用k均值聚類的分區結果,其中1區包含夏熱冬冷地區和夏熱冬暖地區,2區、4區、5區和7區對應寒冷地區,3區、6區和8區對應嚴寒地區,9區包含夏熱冬冷地區和溫和地區。對比圖7和圖8可以發現,當氣候分區數k=9時,k均值聚類在各氣候區的邊界處有較多誤分點,且對夏熱冬冷地區和夏熱冬暖地區未能進行劃分。
通過以上3組對比實驗可以發現,對氣象數據直接進行k均值聚類時,劃分的各氣候區無明顯邊界,且存在大量誤分點,故基于譜聚類的分區結果比基于k均值聚類的結果更合理。

圖8 k=9時基于k均值聚類的氣候分區
采用多視角低秩稀疏子空間聚類方法對中國氣候分類進行了研究。首先通過最大信息系數對5個氣象要素進行了相關分析,結果表明各氣候要素之間不存在較強的相關性。然后將所提方法應用于中國氣候分類,并通過與中國建筑氣候區劃進行對比,說明分區結果的合理性和可靠性。在今后的研究中,下面幾個方向值得關注:在集成相似度矩陣的過程中,考慮各種氣象要素的重要性;拓展氣象要素范圍,補充風速和太陽輻射等要素,以滿足建筑節能設計的需求。