摘 要: 本文建立以二氧化硫濃度為因變量,以藍色顏色值、綠色顏色值、紅色顏色值、色調、飽和度為自變量的多元線性回歸模型,通過MATLAB軟件編程求解得二氧化硫的濃度與顏色讀數之間的多元線性回歸方程,將數據回代到回歸方程中求出理論的二氧化硫濃度,并與實際濃度進行對比,運用絕對誤差進行誤差分析。通過減少不同二氧化硫濃度的數據量,再利用所求模型求解,并將不同數據量下模型的標準誤差進行比較,同時在不同顏色維度(四維,三維,二維,一維)下分析對應模型的決定系數,通過決定系數大小的比較來比較顏色維度對模型的影響。
關鍵詞: 物質濃度;顏色讀數;多元回歸線性模型;決定系數
一、引言
比色法是通過比較或測量有色溶液物質顏色來確定待測組含量的方法,如果是由人來觀測,這一方法在精度上受到很大影響。但隨著照相技術和顏色分辨率的提高,建立顏色讀數和物質濃度的數量關系這一想法就被提出,即只要輸入照片中的顏色讀數就能夠確定待測物質的濃度。本文根據提供的不同二氧化硫濃度與顏色讀數的數據,對顏色讀數與物質濃度之間的關系進行了分析與探討,建立了顏色讀數與物質濃度之間的數學模型,對模型進行評價和誤差分析,并探討了數據量與顏色維度對模型的影響。
二、 模型建立
對提供的數據,建立以二氧化硫的濃度為被因變量y,以藍色顏色值x1、綠色顏色值x2、紅色顏色值x3、色調x4、飽和度x5顏色讀數為自變量的多元線性回歸模型
其中,a0,a1,a2,a3,a4,a5為待定系數,ε為由其他因素引起的隨機誤差。
三、模型的求解
通過運行MATLAB腳本,得到因變量二氧化硫的濃度y與5個自變量的多元線性回歸方程為
通過運行結果還可以得到決定系數R2=0.8996、F=34.0366以及該模型的殘差分析圖1 ??梢缘玫剑篎=34.0366,設定顯著性水平α=0.05,查詢F檢驗臨界值表,得到臨界F0.05(3,31)=4.51值(變量數目為5,樣本容量為25),因為F>F0.05(3,31)=4.51,表明模型的線性關系在的置信水平下顯著成立。
從圖1中可以看出,殘差的置信區間基本包含零點,除第15個數據外,其余數據的殘差離零點均較近,這說明“二氧化硫”回歸模型能較好的擬合原始數據,而第15個數據可視為異常點。
四、模型的誤差分析
將數據代入模型進行誤差分析。通過EXCEL軟件依次將藍色顏色值x1、綠色顏色值x2、紅色顏色值x3、色調x4、飽和度x5等實際顏色讀數代入計算分析得到不同物質濃度的模擬值,再與數據中的實際值進行相減操作,△y=y-yi,得到絕對誤差,計算結果如圖所示
通過表1,圖2研究分析得到,計算誤差值的絕對值 |△y|,以估計絕對誤差作為上限△ymax,得到最大的絕對誤差△ymax=38.5513,此△ymax稱為實際物質濃度y的“絕對誤差限”。表明實際物質濃度值和理論物質濃度值的絕對值△y=|y-yi|越小,△y表示模擬數據值yi的精度越高。
五、數據量與顏色維度對模型的影響
1、數據量對模型的影響
根據建立的模型,利用EXCEL軟件和運用公式 (E為誤差=測定值—真實值),計算二氧化硫的實際濃度和理論濃度之間的標準誤差w=16.1672,隨機將數據中的二氧化硫不同濃度下的組數都改為3組,算出標準誤差為w1=16.3727。同理將組數改為2、1組時,依次得到的標準誤差依次為w2=16.38450793,w3=20.9514。通過上述分析可得:w>w1>w2>w3,即當二氧化硫不同濃度下的數據量減少時,誤差也變得越來越大。所以當數據量越多時,模型的誤差越小。
2、顏色維度對模型的影響
通過對的數據的分析,探討顏色維度對模型的影響,發現缺少某些維度對物質濃度影響不大,將數據中的R列數據表示為1,G列數據表示為2,B列數據表示為3,H列數據表示為4,S列數據表示為5,設R(i)為顏色維度。
運用MATLAB軟件編程求得不同顏色維度下對應的決定系數,再對同個維度的決定系數的平均值進行求解,如下表:
由表2可知: R2(5)>R2(4)>R2(3)>R2(2)>R2(1)。所以當維度越多時,模型對數據的擬合度越好;而維度越少時,模型對數據的擬合度越差。
六、結論
當數據量減少時,模型誤差也變得越來越大;當數據量越多時,模型的誤差相對越小。通過決定系數大小的比較來比較顏色維度對模型的影響,發現維度越多時,模型對數據的擬合度越好;而維度越少時,模型對數據的擬合度越差。
參考文獻
[1] 李艷嬌,多元線性回歸的MATLAB實現,常熟理工學院學報,28卷2期:49頁,2014年.
[2] 瞿國棟,誤差理論與數據處理,北京,科學出版社,2016年.
作者簡介:陳薇(1989.11.25),女,漢族,籍貫是湖北省咸寧市;2016年6月畢業于武漢理工大學,理學碩士,主要研究方向為應用數學;現供職于廣東嶺南職業技術學院,助教。