王秋月 張吉禮
大連理工大學建設工程學部
公共建筑實時監測目的并不僅是為了獲取樣本建筑終端能耗值,還要從建筑終端能耗數據中總結總體建筑能耗變化特性,尋求節能潛力。而樣本數量決定了樣本建筑是否能夠反映研究區域總體建筑的能耗情況。若樣本數量太小,樣本數據不足以反應整體建筑能耗水平。若樣本數量太大,則造成了不必要的數據堆積,因此,合理的樣本建筑數量在保證數據準確性的前提下,對于減少建筑能耗監測的經濟成本,明確建筑能耗監測平臺建設規模,增加建筑能耗數據統計分析的速度及有效性具有重要作用。
國內外學者對于建筑能耗、能效的研究分析都建立在一定數量的建筑基礎上進行。主要分為兩個方面,對單體建筑進行研究或者選擇建筑群進行研究。在對建筑群的選取上,多為隨機選取或者選取典型性建筑進行研究。龍惟定[1]選取上海市9 棟辦公建筑調查,發現辦公建筑的最大平均能耗量和最小平均能耗量相差2.21 倍。李崢嶸[2]選取上海市32 棟公共建筑的能耗及運行管理資料進行調查,其中包括學校、倉庫、醫院、體育館、辦公、商場及旅館,指出辦公、商場及旅館的能耗占上海市總能耗的25.9%。李沁[3]通過對重慶市207 棟公共建筑的基本信息進行調研收集,并對145 棟公共建筑的總體用電數據進行統計分析,估計總體用能水平分布,以確定建筑能耗統計定額水平。JosephC Lam[4-5]等選取香港20 棟典型性辦公建筑作為樣本建筑,研究五種氣候指標:溫度、濕度、風速、太陽輻射、清潔指數對辦公建筑用電的影響進行研究??梢钥闯?,研究者認為對建筑群能耗、能效進行分析,需要考慮建筑不同功能、不同氣候區等指標來選取樣本建筑,但是沒有對到底選擇多少樣本建筑是合理的進行討論,也沒有標準來說明研究樣本是否能夠代表所研究區域。
趙加寧等人通過對我國建筑能耗統計中關于居民合作、建筑分類、調查方式、數據收集四個方面的問題進行了分析[7],認為了解建筑物的單項能耗,需建立測試平臺和能耗統計數據庫,為使測試建筑具有代表性,應采用統計學原理對建筑能耗進行調查。以深圳地區為例,由于目前國內缺乏建筑統計抽樣測試數據,因此采用能耗模擬軟件,模擬8 類公共建筑能耗,給出置信度為87%,極限誤差為0.1 的情況下,樣本容量隨建筑總量的變化趨勢,指出不同功能建筑總數超過1000 棟時,對于給定估計精度,樣本容量不再大幅變化,為樣本量選取提供指導思想[8]。馮可梁(2014)[9]認為合理的樣本數量有利于在保證數據準確的前提下減少能耗統計成本。William chung[10]也簡單交代了如何選取樣本建筑,他將辦公建筑按照一定特點分為五組,規定每組隨機選取30 棟辦公建筑構建分步回歸模型,對香港辦公建筑能效水平進行研究,認為香港辦公建筑的能源消耗總量呈上升趨勢,但是其能效水平在逐步提升,即提高建筑能效的最大貢獻在于增加了節能量,而不是減少了能源使用量。以上研究者認為合理的樣本建筑將對研究結果有正向促進作用,但沒有給出一個可參考的統計學樣本量計算方法。
因此,對某一地區究竟需要監測多少棟樣本建筑、方能較準確、客觀地反映該地區建筑的總體用能特征的問題亟待解決,本文將從統計學角度出發,研究解決合理監測建筑數量的問題。
將全體建筑稱為總體,為了解研究區域總體建筑的能耗特征,通過對總體抽樣監測得到代表總體的樣本建筑,但因為信息是分布在每個樣本建筑上的,所以需要對樣本建筑數據進行加工,把樣本的信息濃縮到不包含未知量的樣本函數中,這個函數稱為統計量如樣本均值、方差等都為統計量,概括總體的函數稱為總體參數,通過樣本統計量對總體參數進行估計即會產生抽樣監測誤差。抽樣監測誤差是由于抽樣引起的,確切的說抽樣誤差其實是由于樣本建筑的隨機性引起的誤差。對于任何一種建筑能耗抽樣監測方案,其可能的樣本建筑都有很多,而實際選擇的只是一些建筑,因此選取哪些建筑一定程度上具有隨機、偶然性,抽到另一批建筑,對總體能耗參數的估計就會有不同,這就是建筑能耗特性推斷中誤差產生的根本原因。
假設總體公共建筑用電數據服從某種分布,而樣本建筑用電數據具有某種相同的分布情況,因此可以用樣本建筑的分布估計來推斷總體建筑的用電分布[11]。同樣,根據樣本建筑的能耗數據對總體建筑能耗進行估計和推斷,即使精確性很高,由于建筑數據源的隨機性,其結論也要采取一種概率的陳述方式,表示總體參數被包括在由樣本建筑統計值做出的區間估計范圍內的相應概率有多大。在統計學假設檢驗中,研究者常常先控制第一類錯誤的發生概率,即給定犯第一類錯誤概率的最大允許值α,稱為顯著性水平,其意義為估計總體參數落在某一區間內可能犯錯誤的概率。1-α 為置信度或置信水平,表明了該區間估計的可靠性。
下面基于概率統計中心極限定理[11],推導監測中抽樣誤差與樣本容量的關系式。
給定概率意義下的最大絕對誤差或相對誤差稱為誤差限,置信度和誤差限的關系滿足:在指定的顯著性水平α 下,允許的最大絕對誤差和最大相對誤差分別為Δ,r,應有

式中:Δ 為一常數;r=Δ/θ;θ 為總體參數,可以是總體的單位面積能耗值的均值或者方差等,kWh/m2;為樣本統計值,可以為樣本建筑的單位面積能耗值的均值或者方差等。
根據中心極限定理,在大樣本情況下,無論總體服從什么分布,樣本估計值的分布漸進正態分布,因此,樣本建筑量n 充分大,應有


根據正態分布的性質,有

因此可得出樣本抽樣的絕對誤差和相對誤差表達式:


對于一定量的樣本建筑,其單位面積年用電量可以認為是隨機變量X,對變量X 計算其樣本統計值如方差,標準差和變異系數。其計算公式可寫為

式中:n 為隨機變量個數,即樣本建筑數量;ei為第i 個指定樣本建筑的單位建筑面積年用電量為單位建筑面積年用電量的樣本均值;V(e)代表研究對象單位建筑面積年用電量的樣本方差;SD(e)代表研究對象建筑單位建筑面積年用電量的樣本標準差;CV(e)代表樣本抽樣變異系數,變異系數反映了樣本統計值對均值的離散程度。
式(6)和(7)給出了絕對誤差、相對誤差和抽樣方差、變異系數的關系,結合式(8)~(10),可以看出樣本方差和變異系數是樣本建筑量n 和總體建筑量N 的函數,因此能耗抽樣監測中,只要對能耗估算精度提出要求,不論是以Δ,r哪種形式給出,都可以計算出合理樣本量下限,稱之為最小樣本量。
對概率分布估計最重要的是計算分布的均值和標準差。建筑能耗概率分布是反映總體建筑能耗特性的一個重要指標,大多數實際問題中,可以認為或近似認為總體服從正態分布,即使實際情況呈現偏態分布,仍可以將源數據經數據轉換服從正態分布。本文主要研究方法論問題,因此假定建筑能耗總體服從正態分布,因此,建筑能耗監測中,最小樣本量需要滿足對總體建筑能耗概率分布均值和標準差準確估計的需要。本節從統計學理論的區間估計理論出發,結合隨機抽樣理論及建筑能耗抽樣誤差與樣本量大小的關系,構建面向建筑能耗評價的最小樣本量模型,分析其在建筑能耗估算和特性評價中的應用。
其主要步驟為:
1)數據準備。假設待分析建筑群、區域或地區能夠獲取的樣本建筑能耗數據集總量X 能夠代表該建筑群、區域或地區建筑能耗數據集總體e。對數據集X內建筑進行編號從1 到N,每個建筑編號對應著該建筑的能耗信息1,..,eN,每抽取第i 個編號即代表抽取該編號對應的建筑,則選取該建筑能耗指標ei(即隨機變量)進入抽樣訓練模型進行計算。
2)計算隨機變量的期望和標準差。由于樣本數據集X 服從正態分布,則指定時間段內建筑能耗評價指標的真實期望和標準差可以根據以下公式計算:

3)進行隨機抽樣。對選入訓練集的建筑數據總體進行簡單隨機抽樣,第k 次抽樣的建筑量為n(k)。
4)基于樣本計算ni(k)對正態隨機變量的期望和標準差進行區間估計。對于給定的置信水平1-α,依據正態總體均值和方差的區間估計理論,分別計算其對應的置信區間μi(k)±Δμ(k),σi(k)±Δσ(k),具體計算公式詳見下節求解步驟。
5)計算相對誤差值,進行合理性判斷。分別將樣本n(k)對應的隨機變量的期望和標準差的絕對誤差值Δμ(k),Δσ(k)與真實期望μ(0)和標準差σ(0)進行對比,計算相對誤差值,判斷相對誤差值與允許的相對誤差常數ε 的關系。允許的相對誤差常數ε 的取值通常取5%,10%,15%。

圖1 建筑能耗監測下限樣本量算法流程
6)如果樣本nj(k)對應的建筑能耗特性指標的期望和標準差的聯合區間估計滿足精度設計要求,則終止抽樣循環,認定第k 次抽樣的樣本量nj(k)為指定時間段P 內,指定建筑群、區域或者地區建筑能耗特性指標評價所需的合理建筑數據量,稱為最小樣本量。否則,增加抽樣規模,繼續進行第k+1 次抽樣,并設第k+1次抽樣的樣本量ni(k+1)=ni(k)+Δn,其中Δn 表示抽樣步長,為一常數。接著需重復上述步驟第(3)步至第(5)步。
7)討論不同樣本量對估算建筑能耗特性評價指標精度的影響。
8)討論不同允許誤差值對樣本量的要求。
其具體流程如圖1 所示。
根據總體均值和方差公式,可對建筑能耗特性指標估算的最小樣本量進行求解,構建面向建筑能耗評價的最小樣本量模型。其求解過程如下:
假設指定建筑群、區域或者地區建筑能耗特性指標總體服從正態分布,有,隨機變量即樣本建筑能耗數據集為為樣本建筑數量。一定的置信常數1-α 下,指定建筑群、區域或者地區的建筑能耗特性指標實際期望和方差的聯合置信區間推導過程如下:
由于總體方差σ2未知,因此σ2用無偏估計量樣本方差S2代替,構造自由度為n-1 的統計量,其中

為方便起見,取

所以

整理得μ2和σ2的聯合區間估計域分別為:

因此,建筑能耗特性評價指標監測值均值μ2絕對誤差和相對誤差分別為:

同時,建筑能耗特性評價指標監測值標準差σ 的絕對誤差和相對誤差可以通過以下方式計算。
由于σ2的置信區間為

因此σ 的置信區間為

所以標準差σ 的絕對誤差和相對誤差分別為:

根據rμ,rσ,當被允許的最大相對誤差為常數rmax,令rμ≤rmax,rσ≤rmax,分別求得對應的nμ,nσ,并令

可得min n 即為指定建筑群、區域或者地區建筑能耗數據估算所需的合理建筑數據量,稱之為最小樣本量。
作者課題組自2010 年始從事建筑節能理論研究及關鍵技術開發工作,已累計完成覆蓋7 省的公共建筑能耗監測工作,累計監測面積達618 萬m2。本研究將在已有的遼寧省建筑能耗監測系統平臺中完成,該項目涵蓋了遼寧省14 個地級市共50 余棟大型公共建筑。該項目覆蓋建筑類型多樣,包括機關辦公建筑,政府辦公建筑,大型商場,校園建筑以及醫院等,能耗數據類型齊全,為本項研究工作提供了豐富的試驗樣本數據源。
以遼寧省監測平臺公共建筑2014 年能耗數據為例,已有樣本建筑50 余棟。為了得到公共建筑合理的樣本建筑量,假設該類建筑樣本建筑能耗分布基本代表了研究區域總體該類建筑的能耗分布,在不改變原有樣本分布的情況下,在訓練模型中設置隨機種子,擴充樣本X 使其約等于研究區域建筑總量,形成新的隨機樣本訓練數據集X,使其仍然服從原樣本數據分布,計算X 均值和標準差,研究被抽取的建筑能耗平均值和標準差的變化情況。本算法以R 軟件為算法開發工具,R-Studio 為集成開發環境。
3.2.1 單位建筑面積年用電量抽樣均值和標準差對樣本量的影響
首先分析單位面積年用電量和樣本量之間的關系。令顯著性水平α 取常數0.05,置信水平為95%,計算樣本均值為87.56,標準差為29.06。進入隨機抽樣,首先選取10 個有效樣本建筑數據,然后根據上節算法模型計算每增加一步長(實驗步長為1)的樣本抽樣均值和標準差。
如圖2 所示,以雙坐標形式表示,其中橫坐標表示樣本數量,縱坐標分別表示樣本能耗抽樣均值和標準差可能出現的數值,圖中點虛線分別代表樣本能耗平均值和標準差,可以看出,樣本抽樣均值和標準差的可能值,隨著樣本量的增加而逐漸趨于樣本的均值和標準差,當樣本量增大到一定程度后,樣本抽樣均值和方差波動范圍穩定并縮小至樣本均值和標準差。表明隨著被抽取監測的樣本建筑數量的增多并且增大到一定的值,用于能耗評價的數據量的增大,用于統計推斷的公共建筑的單位建筑面積年用電量對數的期望和標準差波動逐漸減小,當給定波動幅度,從概率學角度來講,此時用于能耗特性分析的樣本數據可以代表總體數據特性,即可確定該幅度對應的樣本數量。這說明,用于統計分析的建筑能耗數據樣本量的下限值是存在并可確定。

圖2 均值,標準差與樣本量關系趨勢圖
3.2.2 誤差限對合理樣本量取值的影響
令顯著性水平α 取常數0.05,置信水平為95%時,分析誤差限對樣本量下限的影響。繪制樣本抽樣均值和方差的絕對誤差,樣本抽樣均值和方差的相對誤差與樣本量趨勢圖。
從圖3 可以看出,絕對誤差的變化趨勢為:隨著被抽樣建筑數量的增加,單位面積年耗電量的期望和標準差的絕對誤差逐漸降低。當樣本量增加到一定臨界值時候,絕對誤差隨著樣本量下降的趨勢變得緩慢,甚至保持不變。相對誤差的變化趨勢為:隨著被抽取樣本建筑數量的增加,單位建筑面積年耗電量的期望和標準差的相對誤差逐漸降低。當樣本量增加到一定的臨界值時候,相對誤差隨著樣本量下降的趨勢變得緩慢,而當被抽取樣本建筑數量達到一定的臨界值時,樣本抽樣均值和標準差的相對誤差均小于20%。當樣本量達到該臨界值時候,增加樣本量對相對誤差下降的趨勢影響變弱,即認為此時樣本建筑能耗情況已經能夠代表總體建筑能耗情況,稱此時的建筑樣本量為最小樣本量,當抽樣監測建筑數量約等于73,此時抽樣均值的相對誤差為8%,標準差的相對誤差為20%。同時,建筑能耗標準差的相對誤差均大于均值的相對誤差,這表明標準差的準確估計相對于均值而言更重要,對標準差的準確估計需要更多得到樣本建筑。這與建筑能耗數據之間差異很大,數據離散程度較高時需要更多的樣本建筑才能反映總體建筑的能耗情況這一實際相符。

圖3 抽樣誤差限與樣本量關系趨勢圖
從統計學角度論證了建筑能耗監測下限樣本量的存在并求解了最小監測樣本量值,使得建筑能耗統計或者監測過程中,可以更科學的確定合理的樣本建筑數量,而不是依賴經驗。同樣,該方法適用范圍廣,不局限于建筑類型及研究區域氣候條件控制,僅受研究對象均值和標準差的影響,對建筑能耗監測規模的確定具有重要推動作用。