陳 靜,李 華
(1.貴州中醫藥大學信息工程學院,貴陽 550025; 2.貴州師范大學大數據與計算機科學學院,貴陽 550025)
信息化發展和計算機技術的發展使得軟件的安全性、可靠性在通信、金融等領域變得更加重要[1],如何系統全面地分析和研究軟件故障數據、得出軟件故障數據之間的關系、發掘出對軟件開發商和軟件用戶有用的信息、得出具有實際價值的結論將在很大程度上為軟件的可靠性提供支持[2]。利用軟件測試過程中產生的故障數據,對軟件可靠性進行分析預測,是當前研究的重要方向。
多項式回歸模型是線性回歸模型的一種,此回歸函數關于回歸系數是線性的,所以任何一個函數都可以用多項式逼近,這也使得多項式回歸在各領域都有著廣泛的應用[3]。軟件故障數據包括時間(天)、故障數、累計故障三個因子,可分別對時間(天)與故障數及時間(天)與累計故障數進行線性回歸。
多項式回歸模型(Polynomial Regression model)是線性回歸模型的一種,被廣泛運用在信息學、經濟學、自然現象的預測上。多項式函數指的是由常數與自變量x經過有限次乘法與加法運算得到的函數[4]。多項式函數常用來擬合各種指標的變化趨勢,在分析中扮演著十分重要的角色,其基本表達式為:
f(x)=an·xn+an-1·xn-1+…+a2·x2+a1·x+a0
(1)
最小二乘法(又可稱為最小平方法)是一種基于數學的最優化計算技術,應用最小二乘法可以簡單直接地獲取一些未知數據,可以使通過這些乘法獲得的已知數據與通過最小二乘法獲得的實際數據之間的數值誤差的最小平方和達到最小,公式如下:
(2)

故障數據來自“成績分析大師APP”,一共30組,即30 d的故障次數。故障數據如表1所示。

表1 故障數據Tab.1 Failure data

時間(天)故障數累計故障數16171 04717161 06318221 08519381 12320391 162211701 33222361 36823261 39424201 41425671 48126731 554271641 71828291 74729131 76030181 778
利用SPSS工具分別對“時間與故障數”和“時間與累積故障數”的相關性進行分析,得到的結果分別如表2和表3所示。

表2 時間與故障數相關性分析Tab.2 Correlation analysis of time and defect numbers

表3 時間與累積故障數相關性分析Tab.3 Correlation analysis of time and the accumulated defect number
由結果可以看出,時間與故障數的皮爾森相關為-0.138,而時間與累積故障數的皮爾森相關為0.996,相關系數的絕對值與1越相近,則表示越相關[5],由此可以得到時間與故障數弱相關,而時間與累積故障數強相關,這也與上述一致,故著重研究“時間與累積故障數”之間的關系。
利用SPSS對多項式回歸模型進行求解。利用一次多項式、二次多項式、三次多項式、冪次方程等對數據進行曲線擬合[6],得到時間與累積故障數的回歸標準化殘差的常態P-P圖[7],如圖1所示。

圖1 時間與累積故障數的回歸標準化殘差的常態P-P圖Fig.1 Normal P-P graph of regression standardized residual of time and the accumulated defect number
要得到該模型的模型統計及參數評估,利用模型統計和參數評估可以寫出具體的三次方程、二次方程、一次方程,并通過分析R2來比較哪個方程更好。R2越接近1,則代表該模型方程越好[8]。
利用SPSS得到各個模型的模型統計及參數評估,具體結果如表4所示。

表4 時間與累積故障數的模型統計及參數評估Tab.4 Model statistics of time and the accumulated defect number, and the parameter evaluation
通過以上結果,可以構建方程如下:
線性:N=56.078T+112.697
二次:N=0.236T2+48.766T+151.694
三次:N=-0.14T3+0.888T2+40.54T+174.650
其中,N代表因變量累計故障數,T代表自變量時間(天)[9]。
通過對R2結果0.992、0.993和0.993的比較,可以發現二次回歸方程和三次回歸方程的決定系數R2相同且它的值更接近1,可見二次回歸方程和三次回歸方程更符合數據的分布。
根據30 d的“成績分析大師APP”真實故障數據,利用多項式回歸方法建立了故障數據的變化函數模型,得到如下結果:其一,利用SPSS工具對時間與故障數據的相關度進行分析得到時間與故障數弱相關,而時間與累積故障數強相關。其二,利用多項式回歸模型分析時間與累積故障數據,得到多項式的擬合公式,并通過對擬合優度的比較,得出二次多項式和三次多項式較一次多項式更符合標準。