李 萍
(蘭州石化職業技術學院,甘肅 蘭州 730060)
如何有效控制顏色指標體系是一個非常重要的課題。本文研究的物質濃度與顏色之間的關系可用多種方法來判定,如物質的特殊顏色、特征反應現象、特殊工業生產、特征數據等方法均可使用。通過對所提供的有關顏色讀數和物質濃度數據進行分析研究,用MATLAB多元線性回歸函數,建立顏色讀數和物質濃度之間的關系模型。并對已給出的數據進行了判定,找出了影響判定的異常值,進一步剔除異常數據后對誤差進行分析,模型精度進一步提高,方法具有實際推廣價值[1-4]。
假設隨機變量y與p個自變量x1,x2,x3,…xp之間存在著線性相關關系,實際樣本量為n,其第i次觀測值為
其n次觀測值可寫為如下形式:


通過尋求β的估計值b,建立多元線性回歸方程模型:。
對二氧化硫物質濃度數據進行顏色差值計算,結果如表1所示。

表1 物質濃度與顏色差值
△B:B列數據的顏色差異;△G:G列數據的顏色差異;△R:R列數據的顏色差異;
△H:H列數據的顏色差異;△S:S列數據的顏色差異。
運用MATLAB工具箱,得到相關系數矩陣,線性相關檢驗的值矩陣以及相關系數矩陣圖[5-8],如圖1所示。

圖1 相關系數矩陣圖
圖1用橢圓色塊直觀的表示變量間的線性相關程度的大小。橢圓趨于圓形時,變量間相關系數的絕對值越接近0,反之越扁,變量間相關系數越接近于1。若橢圓長軸方向是從左下到右上,變量間為正相關,反之為負相關。若p值≤0.05,則認為變量間的線性相關性是顯著地,反之則認為不顯著。觀察圖1可知,濃度y值與相對應的x2、x3、x4線性相關性是顯著的,x2與x3、x4線性相關性是顯著的。
針對以上數據分析,作5元線性回歸,建立y關于的回歸模型如下:

調用MATLAB工具箱里LinearModel類的fit方法作多元線性回歸,返回參數估計結果和顯著性檢驗結果。
用MATLAB編程,運行程序得出經驗回歸方程如下:

判定系數R-squared為0.871,擬合程度較好。
對回歸方程進行顯著性檢驗,原假設和備擇假設分別為:H0:b1=b2=…=b5=0,H1:bi不全為0,i=1,2,…,5
方程檢驗的p值(p-value = 3.43e-06)小于0.05,可知在顯著性水平α=0.05下應拒絕原假設H0,可認為回歸方程是顯著的,但并不是方程中的任何一項都是顯著的。x4的p值為0.0532基本與0.05持平,常數項、x1、x3、x5所對應的的p值分別為0.5803、0.2781、0.9465、0.74419,均大于0.05,說明在顯著性水平0.05下,回歸方程的線性項x1、x3、x5均是不顯著的。其中x3最不顯著,其次是x5,再是常數項,最后是x1。
判斷多重共線性方法有多種,本文選用基于方差膨脹因子的多重共線性方法[9-11]。模型為自變量xi關于其它自變量的多元線性回歸,計算模型的判定系數,定義第i個自變量的方差膨脹因子:

當自變量xi與其它自變量線性相關顯著,接近于1,VIFi接近于無窮大,反之,接近于0,VIFi接近于1。VIFi越大說明線性相關越顯著,即存在共線性。VIF<5,為共線性較弱;5 ≤VIF≤10,為中等程度共線性;VIF>10,為共線性嚴重,必須設法消除共線性。常用的方法有:主成分回歸、變量變換、去除變量等方法[12,13]。
通過計算,VIF值分別為30.5032,542.5648,29.2250,731.0040,5.4828。由此可知,x5中等程度共線性,其他均共線性嚴重,尤其是x4和x2非常嚴重共線性。
通過MATLAB工具箱繪制殘差直方圖和正態分布概率圖,如圖2所示。

圖2 多元線性回歸殘差直方圖和殘差正態分布概率圖

圖3 去除異常值和不顯著項殘差直方圖和殘差正態分布概率圖
從程序運行結果可知,殘差基本服從正態分布。
根據學生化殘差查找異常值,有3組數據出現異常,觀測序號分別為1,10和11。

判定系數R-squared為0.977,較改進前擬合度有很大提高。
對回歸方程進行顯著性檢驗p值(p-value=5.88e-11)小于0.05,改進后的方程是顯著的。
由圖3可知,殘差正態概率圖較改進前更優。
根據擬合的多元線性回歸方程,3元擬合和5元擬合的相對誤差,見表2所示。

表2 3元擬合和5元擬合的相對誤差
3元擬合和5元擬合的效果如圖4所示。

圖4 3元擬合和5元擬合
由圖4可知,3元多項式擬合方程的擬合效果優于5元多項式擬合。擬合的相對誤差如圖5所示。

圖5 3元和5元擬合相對誤差圖
由圖5可知,3元擬合的觀測序號9,10,12,14,16五組數據相對誤差比5元擬合相對誤差大,其余16組數據均小于5元擬合的相對誤差。
在學生化殘差查找異常值時,初步判定觀測序號第10,11為異常值,在3元擬合相對誤差判定中,第9為優化模型的下一步需剔除的數據。當二氧化硫物質濃度為50時,所測得的數據均顯示異常,懷疑在此種物質濃度測量時數據測量出現較大偏差,需重新測量。當物質濃度大于50時,3元擬合的相對誤差值較小,在這一物質濃度范圍,擬合程度最優[14]。
數據量越大,擬合的準確度越好,若數據量很少,則回歸方程很難建立,且精度不高。而顏色維度與溶質的偏色性有關,所以不同的溶質選擇的顏色維度不同,顏色維度并不是選的越多越好,故針對某一物質,應選擇合適的顏色維度來進行回歸擬合,再用回歸方程判定其物質濃度。
本文建立了多元線性回歸分析模型,判定顏色讀數和物質濃度之間的關系。模型經去除變量和剔除異常數據提高了精度,但物質濃度的顏色讀數所測量的5個顏色維度之間有較強的線性相關性,故所建立的回歸方程的如3元擬合的值為5.88e-11小于0.05,方程是顯著的,方程的常數項值為0.0028016小于0.05,但其他線性項值分別為0.12513,0.99429,0.38618所做的檢驗的值大于0.05,其中最不顯著。在模型的進一步優化和改進中,嘗試運用去除變量,嶺回歸,主成分回歸等方法來消除多重共線性,在方程顯著的前提下,使方程的各線性項達到顯著[15,16]。