賈旭山,金振中
(1. 中國人民解放軍92941部隊,遼寧 葫蘆島 125001;2. 中國人民解放軍92493部隊,遼寧 葫蘆島 125001)
針對小子樣情況下的概率性能指標的評定,近年來開展了大量的研究工作并提出了一些方法,其中影響比較大的方法有二項分布Bayes假設檢驗方法[1-2](為簡便計,下文簡稱P方法),并在國家行業標準中推薦使用。然而,該方法在使用中逐漸暴露出一些問題需要分析并解決。
設概率性能指標記p,運用P方法的基本步驟如下:
(1) 給出原假設H0:p=p0;
(2) 選取鑒別比d,并根據如下公式確定備擇假設H1:p=p1,其中:
(1)
(3) 根據歷史信息確定驗前概率。設歷史試驗信息成功數記S0、失敗數記F0,則有驗前概率

(2)

(4) 設試驗數記N,確定檢驗臨界值
(3)
(5) 設試驗成功數記SN,則有如下檢驗方案
(4)
(6) 令απ0為生產方風險,βπ1為使用方風險,則有如下計算公式,運用中要求“雙方風險相當并小于某一值”。
(5)
式中:α和β為經典方法時的雙方風險,

(6)
首先,P方法表述有矛盾。P方法自名為二項分布假設檢驗方法,但卻引用了風險概念并給出了風險計算公式。實際上,假設檢驗屬統計推斷范疇,而風險概念卻屬決策范疇[3-4],兩者并不等同。
其次,P方法確定方案的做法矛盾。P方法通過似然比檢驗公式反推拒受臨界值,運用時卻又要求該方案雙方風險相當,而實際上兩者之間不一致,例如:令p0=0.8,p1=0.6,設π0=π1=0.5和N=7,則有K=4,απ0=0.074和βπ1=0.210,雙方風險相差3倍。由于P方法沒有限定鑒別比d的取值,有一些做法就試圖通過調整d來滿足風險相當要求[4],這又造成了P方法的嚴謹性問題。
對于概率性能指標的評定,如果指標值、驗前信息和試驗子樣數量均確定,則評定標準應該唯一。P方法缺乏嚴謹性體現在d取值隨意而致評定標準多樣,例如以同等無知原則確定驗前信息[5-6]并令p0=0.7,N=9,則d取不同值時出現不同的評定標準(檢驗臨界值K)[7],具體情況見表 1。

表1 評定標準與鑒別比Table 1 Evaluation criteria and the discernible ratio
P方法的應用要點是雙方風險相當且都小(暫且忽略一致性問題),因此其風險值是關鍵。P方法將經典方法視為無驗前信息特例,因而當無驗前信息時風險值應與經典方法應一致。觀察P方法,顯然當π0=π1=0.5,απ0=α/2和βπ1=β/2(α和β分別為經典方法的雙方風險)。
首先,P方法將驗前信息局限于歷史試驗信息,失去了Bayes方法的本義,因為在歷史試驗信息融合方面,經典方法與Bayes方法一致(證明略)。其次,P方法事實上無法對驗前信息實現融合,文獻[1]指出 “該方法(P方法)有其不足,當π0與π1相差較大時,雙方風險難以相當,相應的檢驗方案較偏激,難以被雙方共同接受”。舉例說明如下:設有驗前信息9發8中,現場試驗數量5,則有π0=0.833 2,π1=0.166 8,απ0=0.170 6,βπ1=0.057 6,顯然驗前信息不可用。
概括講,P方法有3個深層次問題:①簡單備擇對抗簡單假設的提法有錯;②引入鑒別比d的做法簡單、機械;③引入決策領域的風險術語是草率的。
P方法是用于概率性能指標評定的方法,概率的定義域是(0,1),而P方法關于概率性能指標的提法卻是兩點分布-簡單備擇對抗簡單假設,這既有悖對概率的常識性認識,也是問題的根本原因。Bayes方法設定在沒有任何信息可用時可能的取值是同等無知,即各取0.5(純隨機),而隨著信息量加大隨機性會減弱,即其中一個的概率會增大,而另一個會減小。實際上,理論上2類錯誤概率互補(即和為1),不可能達到同等小;工程上由于容許誤差(引入鑒別比)存在,其工程計算值可以同等小,但簡單備擇對抗簡單假設的提法則消除了Bayes方法在工程上的這種可能性。
P方法沒有考察鑒別比的數學或工程背景,而導致其取值隨意[8]。實際上,鑒別比類似于經典統計學引入的一個符號,其目的是控制犯第Ⅱ類錯誤概率的“表現值”,其作用是確定計算第Ⅱ類錯誤概率“表現值”需用到的備擇假設的“參考值”,所謂“表現值”和“參考值”,指不是真正的第Ⅱ類錯誤概率值和備擇假設值,而僅指在工程范圍內允許的近似值。之所以這樣做,是因為一方面,理論上由于原假設與備擇假設之間的連續性,使得無論樣本容量多大2類錯誤概率和總為1;另一方面,工程上在誤差允許范圍內,為了同時控制2類錯誤概率,需要將原假設和備擇假設分離,在經典統計學中的做法是保持原假設μ0而修改備擇假設μ1,使μ1等于μ0+δ或μ0-δ[9],這里的δ與P方法中的鑒別比d意義相同,區別在于前者用加(或減),后者用乘(或除)。因此鑒別比的提出與確定應謹慎,P方法中關于鑒別比值的確定是草率的,具體情況見表 2。

表2 鑒別比對原假設、備擇假設分離值影響Table 2 Influence on the separated level between null hypothesis and alternative hypothesis by the discernible ratio
P方法其實屬基于后驗概率的似然比檢驗方法,P方法所有的步驟和概念均可以在統計推斷的假設檢驗領域解釋清楚,然而P方法卻引入決策風險的概念[7],由此又引出如下問題。
(1) 關于決策問題3要素:狀態集、行動集和損失函數。P方法均不涉及,只是套用了一個背景意義和表現值均與錯誤概率相同的風險概念,彰顯P方法的不嚴謹性。
(2) Bayes決策范疇包含4類風險概念:先驗風險、決策風險、后驗風險和Bayes風險,其中先驗風險和后驗風險是樣本空間的函數,Bayes風險是數值,決策風險是狀態集的函數。如果將假設檢驗問題視作基于0-1損失函數的決策問題,則經典假設檢驗方法中的風險α,β與Bayes決策中的決策風險相對應,Bayes風險則為π0β+π1β,由此P方法中的風險在Bayes決策中找不出對應的概念。如果認為Bayes決策關于風險概念是完備的,則P方法中的風險公式是錯誤的。
(3) 如果將P方法視作基于后驗概率的似然比檢驗方法,其風險公式就是錯誤概率公式[10],然而這個公式有誤,因為它不是基于后驗概率計算的,因為在簡單備擇對抗簡單假設的情況下,后驗概率公式并不容易導出。P方法只是在經典方法的基礎上,將2類風險與驗前概率對應相乘,這樣做的背景、意義和邏輯性確實不清楚。
隨機現象需要通過大量重復試驗揭示其規律性,如果試驗的數量(即子樣量)有限就不能有效揭示其規律,這是小子樣問題的實質[11]。如果將小子樣問題簡單、模糊地描述為“子樣數比較少”,則無法界定和解決小子樣問題,比如:“10個是否小子樣”。根據統計學大數定理,樣本容量與隨機不確定度負相關,假設檢驗不確定度可用2類錯誤概率來表示,因此小子樣問題形式化描述步驟如下:
(1) 根據數學或工程背景將原假設域與備擇假設域相分離,對于概率性能指標以通常的0.05顯著性水平定分離值,在作顯著性檢驗時將備擇假設域作退讓以分離,在作似然比檢驗時將原假設域和備擇假設域作同等退讓以分離;
(2) 以通常的0.05顯著性水平定2類錯誤概率值的允許水平(上限);
(3) 將樣本容量從1開始逐步增大,計算2類錯誤概率,當2類錯誤概率同時小于允許水平時的樣本容量是最小需求量;
(4) 當可用樣本量小于最小需求量時,隨機試驗存在小子樣問題,否則不存在小子樣問題。
小子樣評定方法改進的基本思路是要解決P方法存在的問題,具體要求為:采用復雜備擇對抗復雜假設;取消鑒別比,而改由工程或數學背景[12]來確定原假設與備擇假設的分離水平;取消決策風險,同時控制2類錯誤概率與風險相當原則的意義一致;以貝塔分布作為概率性能的分布族,理由有3點:①因為兩者的定義域相同;②因為貝塔分布為單峰分布,且峰度隨參數(對應樣本量)增大而減小,符合大數定理;③因為貝塔分布與二項分布為共軛分布。
改進后的小子樣評定方法命名為L方法,具體步驟如下:
(1) 描述概率性能指標值,如要求命中概率大于等于p′。
(2) 以0.05的顯著性水平同等退讓后提出原假設和備擇假設:

(7)
(3) 以同等無知原則確定概率性能的初始驗前分布beta1,1,該分布表示在沒有任何信息時概率性能在區間0,1上等可能取值。
(4) 以0.05的顯著性水平確定2類錯誤的允許水平。
(5) 確定樣本最小需求量。為簡單計采用探索法確定,樣本容量設為n、初值取1、逐步增1,拒受臨界值設為k、初值取0、逐步增1至n,以式(8)計算2類錯誤概率α,β,直至兩者均小于允許水平,這時n的取值就是樣本最小需求量n′。

(8)
式中:B表示貝塔分布的概率累積函數。
(6) 判定是否小子樣問題。設隨機試驗可用樣本量n,則有如下判別式:

(9)
(7) 搜尋驗前信息,得到驗前分布。對于概率性能指標,驗前分布族為貝塔分布,對于歷史試驗信息可直接確定,驗前分布的表現形式為betak0+1,n0-k0+1,若有n0+n≥n′則可采用小子樣方法進行評定,否則還需繼續搜尋驗前信息。
(8) 進行Bayes評定,有后驗分布beta(k+k0+1,n+n0-(k+k0+1))。
(10)
(9) 重新計算2類錯誤概率,公式如下:

(11)
令p′=0.7,并以0.05的顯著性水平同等退讓后提出原假設和備擇假設,以同等無知原則設定p的初始驗前分布beta1,1,確定2類錯誤的允許水平為0.05,則可確定樣本最小需求量n′=229。設隨機試驗可用樣本量n=9,則可判定試驗面臨小子樣問題。若有驗前分布beta182,49,并設現場試驗信息為9發8中,則有后驗分布beta190,50,根據下式似然比計算結果判定接受原假設,并有α=0.048 4和0.041 6。
(12)
關于L方法有幾點補充說明:
(1) 可以看出,L方法對樣本需求量比較大。當從統計角度以顯著性水平0.05嚴格限定原假設和備擇假設退讓水平、及2類錯誤概率的允許水平時,實際情況是這樣的;當做法類似P方法,以0.1作為同等退讓水平、以0.3作為2類錯誤概率的允許水平時,樣本需求量為8,2類錯誤概率為α=0.231 8和β=0.261 8,其效果與P方法相當。該現象反映出L方法相比P方法并不偏激,它只是對方法應用時的樣本量條件提出了嚴格要求,這也應作為小子樣方法的基本應用前提,否則小子樣方法就成了小子樣情況下的大子樣方法。
(2) 當P方法的原假設和備擇假設分別對應L方法原假設和備擇假設的邊界值,且樣本量相等時,2方法的方案一致,錯誤概率相當但有差異。該現象反映出L方法與P方法效果相當。錯誤概率的計算差異反映出2類方法的基本思想不同,P方法是固定概率值對抽樣值作累積,L方法則是固定抽樣值對概率作累積,因此兩者計算值相當卻有差異,2種方法的對應計算結果見表 3。

表3 L方法與P方法效果比較Table 3 Comparison of effect of method L and method P
(3) L方法解決了驗前信息融合問題,舉例如下:設p0=0.75,p1=0.65,有驗前信息9發8中,現場試驗量為5,則2個方法對比見表4。從中看出P方法2類風險差值達到0.12、比值超出3倍,L方法則基本屬同一數量級;P方法風險好像有明顯減小,但由于存在計算錯誤的問題,因此不具有表征意義,而L方法在融合了驗前信息之后雙方風險確實有明顯減小。

表4 L方法有效性案例Table 4 Case of effectiveness of method L
小子樣方法解決小子樣問題的關鍵在于驗前信息的融合,在無驗前信息可用時小子樣方法的效果應與經典方法應一致,小子樣方法也應注重工程背景,而且不應使方法無意義地復雜化。本文對二項分布Bayes假設檢驗方法的有關這類問題進行了深入剖析,提出了具體改進改施,并通過對比驗證了改進的有效性,但須指出解決小子樣問題的關鍵在于針對具體應用背景的驗前信息的獲取。
參考文獻:
[1] 曲寶忠,孫曉峰,李守秀,等.海軍戰術導彈試驗與鑒定[M].北京:國防工業出版社,2005.
QU Bao-zhong, SUN Xiao-feng, LI Shou-xiu, et al.Naval Tactical Missile Test and Evaluation[M].Beijing:National Defense Industry Press,2005.
[2] 楊榜林,岳全發,金振中,等.軍事裝備試驗學[M].北京:國防工業出版社,2002.
YANG Bang-lin, YUE Quan-fa, JIN Zhen-zhong, et al.Armament Test Theory[M].Beijing:National Defense Industry Press,2002.
[3] 賈乃光.統計決策理論與貝葉斯分析[M].北京:中國統計出版社,1991.
JIA Nai-guang.Statistical Decision Theory and Bayesian Analysis[M].Beijing:China Statistics Press,1991.
[4] 張堯庭,陳漢鋒.貝葉斯統計推斷[M].北京:科學出版社,1991.
ZHANG Yao-ting, CHEN Han-feng.Bayesian Statistical Infer[M].Beijing:Science Press,1991.
[5] 茆詩松.貝葉斯統計[M].北京:中國統計出版社,1999.
MAO Shi-song.Bayesian Statistics[M].Beijing:China Statistics Press,1999.
[6] 唐雪梅,張金槐,邵鳳昌,等.武器裝備小子樣試驗分析與評估[M].北京:國防工業出版社,2001.
TANG Xue-mei, Zhang Jin-huai, Sao Fen-chang, et al.Test Analysis and Evaluation of Weapon Systems in Small-Sample Circumstances[M].Beijing:National Defense Industry Press,2001.
[7] 賈旭山,金振中.二項分布貝葉斯假設檢驗方法[J].現代防御技術,2008,36(5):37-40.
JIA Xu-shan, JIN Zhen-zhong. Bayes Hypothesis Testing for Binomial Distribution[J].Modern Defence Technology,2008,36(5):37-40.
[8] 賈旭山,金振中.二項分布假設檢驗樣本容量分析[J].現代防御技術,2012,40(4):67-70.
JIA Xu-shan, JIN Zhen-zhong. Bayes Hypothesis Testing and Sample Quantity[J].Modern Defence Technology,2012,40(4):67-70.
[9] 盛驟,謝式千,潘承毅.概率論與數理統計[M].北京:高等教育出版社,2001.
SHENG zhou, XIE Shi-qian, PANG Cheng-yi. Probability Theory and Mathematical Statistics [M].Beijing:Higher Education Press,2001.
[10] 賈旭山,金振中.武器系統概率指標評定[J].現代防御技術,2011,39(2):50-53.
JIA Xu-shan, JIN Zhen-zhong. Bayesian Decision Evaluation on Probability Indes of Weapon System[J].Modern Defence Technology,2011,39(2):50-53.
[11] 王國玉,申緒澗,汪連棟,等.電子系統小子樣試驗理論方法[M].北京:國防工業出版社,2003.
WANG Guo-yu, SHENG Xu-jian, WANG Lian-dong,et al.Test Theory and Method of electronic System in Small-Sample Circumstances[M].Beijing:National Defense Industry Press,2003.
[12] Thomas Leonard,John S J Hsu.Bayesian Methods:An Analysis for Statisticians and Interdisciplinary Reserachers[M].Beijing:Machinery Industry Press,2006.