(中國石油遼河油田公司勘探開發研究院,遼寧 盤錦 124010)
油氣等各種礦產的勘探、開發、生產等實踐中涉及各類數據體(柳炳利等,2016;閆玉茹等,2019),如物探、鉆井、測井等勘探數據,生產、測試、注采等開發數據,巖芯分析、流體分析、熱采試驗等試驗數據,成本、銷售、財務等經濟數據。如何加以分析運用,如何用于揭示或反映油氣藏地質特征、生產規律、經營狀況,都是日常面臨的問題。統計中平均分析是最常用的數據體定量分析方法。一般來說,平均數(平均值)將同類現象的某一數量標志的各個體數量差異抽象化,用一概括指標綜合說明該現象的代表性的典型水平,是最常見、最重要的綜合性指標(周兆麟,1989)。在現象的發展過程中,某種共同的必然性因素總是與特殊的偶然性因素交織。為揭示一般的典型特征,需消除偶然性因素的影響,而平均數可抵消或降低偶然性因素變動的影響,最大限度地反映某種客觀存在的必然性,因此平均數比個別數值更能反映同類現象的本質。但平均方法不同,平均數也不同(張玉平,2017),這就必然導致平均值的代表性問題。
目前對確定數據體的典型水平尚無系統性認知和統一的判別標準(鄭少智等,2003;姜玉華,2004;鄒亞寶,2004;謝忠秋,2006),同一數據體的典型水平常常不同。對油氣藏勘探開發領域常用的數據體平均方法進行對比分析,探討常用平均方法的適用條件,提出以加權中位數計算公式和平衡中位數法則確定數據體典型水平的方法。
通用表現形式為冪平均數(冪平均值),數學表達式為:
(1)

眾數指有序數據體中出現頻率最高或權重最大的數據,記為Xmo。中位數是將統計數據按升序排列(相同統計數據作為1個數參與排列),位于有序數據體中間的那一個(組)統計數據的平均值(張玉平,2017;陳文等,2018;何文勝等,2018),記為Xme或XME。
在油氣勘探開發涉及的數據體中,中位數的計算公式一般不考慮加權(周兆麟,1989;張德元,2003;顧永泉等,2018;陳望學等,2020),僅在圖像降噪時會使用加權中值濾波算法(陳家益等,2019,2020),該算法未在油氣勘探開發領域推廣應用,也無法詮釋加權中位數的全部內涵。加權中位數根據統計數據及其相應頻率或權重進行計算:首先計算統計數據按升序排列時的累積頻率(或累積權重),然后確定最接近50%的左累積頻率fL(或左累積權重wL)及其左典型數據xL,最后確定統計數據按降序排列時最接近50%的右累積頻率fR(或右累積權重wR)及其右典型數據xR。當有序數據體按升序或降序排列時的累積頻率(或累積權重)在50%的左側和右側的接近程度完全相等且≠50%時,左典型數據和右典型數據均取>50%的最小累積頻率(或最小累積權重)對應的統計數據。當每個統計數據(分析數據、觀測數據)對應的頻數或權數均相等時,加權中位數等于簡單中位數。
偏態分布數據體的加權中位數不等于眾數。偏態數據體的左累積頻率和右累積頻率(或左累積權重和右累積權重)及加權中位數的數學表達式為:
(2)
fri=1-fli
(3)
XME=xLfL+xRfR=xLfL+xR(1-fL)
(4)
(5)
wri=1-wli
(6)
XME=xLwL+xRwR=xLwL+xR(1-wL)
(7)
式(2)—式(7)中:fi為有序數據體中第i個(i=1,2,3,…,n)統計數據的頻率,f;fli為統計數據按升序排列的第i個(i=1,2,3,…,L;L∈[1,n))左累積頻率,f;fL為統計數據按升序排列時最接近50%的左累積頻率,統稱左特征頻率,f;fri為統計數據按降序排列的第i個(i=n,n-1,n-2,…,R;R∈(1,n];R≥L)右累積頻率,f;fR為統計數據按降序排列時最接近50%的右累積頻率,統稱右特征頻率,f;L為數據體按升序排列時第L個(自然數L∈[1,n);L=1,2,3,…)統計數據;R為數據體按升序排列時第R個(R∈(1,n];R≥L;R=n,n-1,n-2,…)統計數據;wi為有序數據體中第i個(i=1,2,3,…,n)統計數據的權重,f;wli為統計數據按升序排列的第i個(i=1,2,3,…,L;L∈[1,n))左累積權重,f;wL為統計數據按升序排列時最接近50%的左累積權重,統稱左特征權重,f;wri為統計數據按降序排列的第i個(i=n,n-1,n-2,…,R;R∈(1,n];R≥L)右累積權重,f;wR為統計數據按降序排列時最接近50%的右累積權重,統稱右特征權重,f;xME為加權中位數;xL為與左特征頻率或左特征權重對應的統計數據,統稱左典型數據;xR為與右特征頻率或右特征權重對應的統計數據,統稱右典型數據。
正態分布數據體的加權中位數等于眾數,其左累積頻率和右累積頻率或左累積權重和右累積權重可分別采用式(2)和(3)或式(5)和(6)計算。
對同一組數據體的各種平均值而言,哪種平均值能代表有序數據體的典型水平是數據體分析過程中需要解決的問題,否則會誤導對數據體的正確認知。
位置平均數受控于數據體結構,一般不隨有序數據體中各具體統計數據(分析數據或觀測數據)的變化而改變,是決定數據體典型水平所屬區間的指向性數值。
加權中位數作為有序數據體的平衡點,能指示數據體典型水平在有序數據體中的相對位置甚至具體位置。
數值平均數隨有序數據體中具體統計數據(分析數據或觀測數據)的變化而變化,可確定有序數據體典型水平的具體數值。
綜合上述分析表明,平均值的代表性取決于數據體結構和平均值計算方法。
數據體結構包括數據樣本的容量、頻數或權數,頻率分布曲線或權重分布曲線顯現數據體特征。數據體容量越大,數據體特征或統計數據的頻率越穩定。數據體權衡指標是否合理,決定了頻率分布曲線或權重分布曲線表現出的特征是否客觀真實。
統計數據的權重和頻率從不同角度評價各統計數據在數據體中代表權的大小,權重越大或頻率越高的統計數據表示代表權越大,反之則越小。在實際應用中,權衡指標一般選擇統計數據單位或平均值計算公式的分母項(史書良,2006)。若數據體的權衡指標合理,頻率分布曲線或權重分布曲線即可客觀反映有序數據體的基本特征,例如,孔隙度、滲透率等巖芯分析數據體宜采用儲集巖厚度作權衡指標,成本類和價格類數據體宜采用件數(或臺數等)作權衡指標,產量類數據體宜采用生產天數作權衡指標,……;若數據體的權衡指標不合理,頻率分布曲線或權重分布曲線就無法客觀反映有序數據體的基本特征,例如,成本類和價格類數據體不宜采用總金額作權衡指標,產量類數據體不宜采用生產井數作權衡指標,……。對極小值≠0的有序數據體,雖然用權重和頻率計算數據體加權平均值的方法(公式)不同,但確定的典型水平可以相同,如成本類、價格類數據體就存在這種情況。
平均值計算方法體現了數值平均數的固有屬性,若扣除隨機誤差和系統誤差的影響,簡單平均值客觀上只與數據體的規模有關,加權平均值還受控于統計數據的頻數或權數。同一數據體,從加權算數平均值到加權幾何平均值再到加權調和平均值,呈單調遞減的特點。在實際應用中,選用哪種數值平均數來代表數據體的典型水平需要借助位置平均數這一標尺,即通過平衡中位數法則來實現。
平衡中位數法則:① 當加權中位數兩側緊鄰的自然區間出現≤50%的最大累積頻率(或最大累積權重),或≥50%的最小累積頻率(或最小累積權重)時,將區間內有明確物理意義的數值平均數或最靠近加權中位數的數值平均數作為數據體的典型水平或特征平均值;② 在區間內無適合的數值平均數時,加權中位數即代表數據體的典型水平,或用迭代法求取與加權中位數相等的冪平均值作為數據體的典型水平;③ 當有序數據體按升序或降序排列時的累積頻率(或累積權重)在左側和右側接近50%的程度完全相等且≠50%時,左典型數據和右典型數據均取>50%的累積頻率(或累積權重)對應的統計數據。
應用平衡中位數法則確定正常有序數據體典型水平需滿足2個條件:① 原始數據體的數據容量足夠大,能滿足最基本的統計分析要求;② 能選擇出合理的權衡指標。
當正常有序數據體的極小值=0時,不能計算調和平均值與幾何平均值,此時可令數據體中的極小值=相應數據精度的最小值或1,再根據平衡中位數法則確定數據體的典型水平。若有序數據體的權衡指標選擇不合理,加權中位數指示的平衡點即失去指向性,有明確物理意義的加權平均值即為有序數據體典型水平的最佳選擇;或可重新確定權衡指標,重新計算加權中位數及數值平均數等。
當有序數據體容量極小,只有2~10個統計數據(分析數據或觀測數據),且眾數=中位數時,加權中位數即為數據體的典型水平。當眾數≠中位數時,可采用冪平均值公式計算數據體的典型水平,其中階數k采用左特征頻率和右特征頻率計算,公式為:
k=fR(1+fL),|fL-fR|>0.20)
(8)
冪平均值公式中的頻數(或權數)可用頻率(或權重)替換,則式(1)可簡化為:
(9)
或
(10)
經典統計學常采用某一種方法確定或估算數據體的中心位置,正態分布數據體的中位數總能與某一數值平均數相同,偏態分布(非對稱分布)數據體中異常值對數值平均數的影響較大,對中位數的影響很小(侯景儒等,1992)。平衡中位數法則以權衡中位數為基礎,將多種方法確定的數據體數值平均數與權衡中位數比對,最終確定數據體中心位置(數據體的典型水平),較傳統方法確定的數據體中心位置更客觀、合理。
對理想情形下的儲層物性正態分布有序數據體及權衡指標等參數,用不同方法計算儲層物性參數數據體的平均值。例如,孔隙度數據體宜選用儲層厚度作權衡指標,其中權數代表相應分析孔隙度的儲層厚度。正態分布孔隙度數據體的左特征權重和右特征權重均為50%,左典型數據和右典型數據的平均值等于數據體的眾數及加權中位數和算術平均值。根據平衡中位數法則確定加權算數平均值作為孔隙度正態分布數據體的典型水平。
表1為滲透率有序數據體及相應權衡指標等參數,分析用不同方法計算滲透率平均值的代表性。

表1 滲透率有序數據體及相應權衡指標參數
對滲透率數據體而言,權衡指標宜選用儲層厚度,其中權數代表相應分析滲透率的儲層厚度。根據表1,確定滲透率數據體的左特征權重為51.46%,右特征權重為48.54%,則左典型數據為140.07 mD,右典型數據為247.28 mD。滲透率數據體的平均值見表2。
滲透率數據體權重分布曲線(圖1)表明滲透率數據體具多峰偏態分布特征。由于滲透率的3種加權平均方法均無明確物理意義,因此采用平衡中位數法則確定滲透率有序數據體的典型水平介于左典型數據和右典型數據之間,即在140.07~247.28 mD之間,在該區間內沒有數值平均數落入,故加權中位數190.14 mD即為滲透率數據體的典型水平。隨著滲透率數據體的變化,幾何平均值會經常入選數據體的典型水平。

圖1 滲透率數據體權重分布曲線Fig. 1 Weight distribution curve of permeability data volume
對正常偏態分布的數據體,無論單峰、雙峰或多峰,具有明確物理意義的加權平均值是確定正常偏態數據體典型水平的首選。權衡指標的選擇也很關鍵,宜選用觀測數據單位的分母項(有明確公式或隱含公式形式)作為權衡指標,當加權平均值公式沒有明確物理意義時,選用平衡中位數法則確定數據體典型水平。實際上,具有明確物理意義的加權平均值即可確定正態分布或正常偏態分布數據體的典型水平,絕大多數情況下這2種方法確定的數據體典型水平可相互驗證。
某區塊單井平均日產量有序數據體及相應權衡指標等參數見表3,分析用不同方法計算數據體平均日產量的代表性。
對單井日產量數據體而言,選用生產天數比生產井數作權衡指標更合理,其中頻數代表相應產量的生產天數。根據表3確定產量數據體的左特征頻率為58.03%,右特征頻率為41.97%,對應左典型數據為7.60 m3/d,右典型數據為15.20 m3/d。單井平均日產量有序數據體的平均值計算結果見表4。

表2 滲透率有序數據體平均值

表3 單井日產量有序數據體

表4 單井日產量有序數據體平均值

圖2 單井平均日產量數據體頻率分布曲線Fig. 2 Frequency distribution curve of average single well daily production data volume
單井日產量數據體頻率分布曲線(圖2)表明該數據體具單峰偏態分布特征。根據平衡中位數法則,該數據體典型水平介于左典型數據與右典型數據(7.60~15.20 m3/d)之間,雖然加權算術平均值和加權幾何平均值均落入該區間,但由于加權算數平均值具有明確的物理意義(總產油量與總生產天數的比值),因此,加權算數平均值13.05 m3/d為單井平均日產量數據體的典型水平。
采用生產井數作權衡指標確定的單井日產量數據體的典型水平為加權幾何平均值16.33 m3/d,沒有用生產天數確定的結果客觀合理。盡管生產井數不能與生產天數相互轉化,但在生產井的信息量有限時,生產井數仍可作為單井平均日產量數據體特征平均值的較為有效的權衡指標。
李映濤等(2015)的研究發現,順南4井硅化熱液的鹽度采用幾何平均值作為數據體的典型水平較算術平均值更為合理。
(1) 加權中位數是正常有序數據體的平衡點,中位數和眾數是分析正常有序數據體典型水平的方向標,加權中位數的計算公式對分析油氣勘探開發各領域正常有序數據體的基本特征有指導意義。
(2) 平衡中位數法則是指當加權中位數兩側緊鄰的自然區間出現≤50%的最大累積頻率(或最大累積權重)或≥50%的最小累積頻率(或最小累積權重)時,將區間內有明確物理意義的加權平均值或最靠近加權中位數的加權平均值作為數據體的典型水平或特征平均值;在區間內無適合的數值平均數時,加權中位數即代表正常有序數據體的典型水平。平衡中位數法則適用于正常有序數據體。
(3) 有序數據體的權衡指標一般選擇統計數據單位的分母項,否則權重分布曲線不能客觀反映數據體的基本特征。當權數與頻數可相互轉換時,盡管權重分布曲線不能客觀反映數據體的基本特征,但采用有明確物理意義的加權平均值仍可確定有序數據體的典型水平。對成本類、價格類、收入類等有序數據體,采用權數或頻數確定數據體特征平均值的計算方法有所不同(極小值=0的正常有序數據體除外)。
(4) 對正常有序數據體,采用有明確物理意義的加權平均值與用平衡中位數法則確定的正常有序數據體的典型水平可相互驗證。