陳志豪 季晶敏






摘? 要:古代玻璃制品受環境影響而被風化,對其進行成分分析、類別鑒定是開展后續研究工作的前提。針對清洗后的數據,利用Spearman相關系數和差異性卡方檢驗,分析表面風化與其影響因素間的相關性和差異性。隨后,具體對14種不同化學成分進行主成分分析,建立Logistic回歸模型對主成分分析之后的數據進行回歸分析。最后,建立層次聚類模型對不同種類的玻璃制品進行亞類劃分,并對分類標準進行合理性和靈敏性檢驗。
關鍵詞:Spearman相關系數;主成分分析;Logistic回歸分析;層次聚類
中圖分類號:TP39;TQ171.1+1 文獻標識碼:A? 文章編號:2096-4706(2023)08-0122-04
Abstract: Ancient glass products have been weathered due to environmental impact, and component analysis and category identification are prerequisites for subsequent research work. Based on the cleaned data, the correlation and difference between surface weathering and its influencing factors are analyzed using Spearman correlation coefficient and difference chi-square test. Subsequently, principal component analysis is conducted on 14 different chemical components, and a Logistic regression model is established to perform regression analysis on the data that has undergone principal component analysis. Finally, a hierarchical clustering model is established to make sub classification of different types of glass products, and the rationality and sensitivity of the classification criteria are tested.
Keywords: Spearman correlation coefficient; principal component analysis; Logistic regression analysis; hierarchical clustering
0? 引? 言
經過漫長歷史歲月的洗禮,大多數古代流傳至今的玻璃制品都有著不同程度的風化問題。在風化過程中,外界環境元素與玻璃內部元素進行交換,使得其成分比例發生變化,這為辨別玻璃的類型提供了難題。現有的技術和模型難以對玻璃文物表面風化的影響因素和風化前后各成分的含量的變化關系做出精準的分析。因此,建立有效的數學模型以準確的分析和鑒別古代玻璃制品的成分尤為重要。
依據現有技術對玻璃文物的化學成分進行分析建模,一是分析玻璃文物的表面風化與其類型、紋飾和顏色的關系。二是根據相關數據分析鉛鋇玻璃、高鉀玻璃的分類規律,并對每個類別進行亞類細分,并對分類結果作合理性和靈敏性檢驗。
1? 模型的建立與求解
1.1? 數據預處理
首先進行數據量化。對于數據指標類型全為定性變量(分類變量),在后續的分析和計算中不便處理,所以要對其進行量化。量化標準是根據各指標對表面風化數量的統計規律,按升序的順序排列,對各指標從1開始編號。
其次進行數據清洗。將原始數據中的所有缺失值填充為0,認為不存在該成分;對缺失值數據填充完成之后,對各行累加求和,各成分累計比例之和介于85%~105%之間為有效數據,不在該范圍的數據為異常數據,在后續分析中不做考慮。
1.2? 相關性分析
由于給定數據均為定性變量,所以選擇Spearman相關系數[1,2]來對玻璃文物表面風化與其類型、顏色和紋飾間的相關性進行分析。
假設Xi和Yi為兩組數據,其Spearman相關系數為:
其中,di為Xi和Yi之間的等級差,n為樣本個數。對Spearman相關系數進行假設檢驗,構造統計量 ,并計算P值,當P<0.05時,認為存在顯著性差異,即存在相關性。如表1所示。
由表1可知,經過假設檢驗,當顯著性水平為5%時,類型與表面風化的顯著性P值為0.008,Spearman系數為0.344,說明玻璃類型與表面風化之間存在著中等程度的正相關性;而玻璃文物的顏色和紋飾未通過假設檢驗,說明玻璃文物的顏色和紋飾與表面風化不存在顯著的相關性。
1.3? 差異性分析
本文用差異性分析來檢驗玻璃表面風化情況與其類型、顏色和紋飾間的差異性。由于所檢驗數據均為定性變量,故選擇卡方分析。如表2所示。
根據表2的結果,在顯著性水平為1%的前提下,可以得出如下結論:
對于表面風化和顏色,顯著性P值為0.307,水平上不呈現顯著性,所以表面風化和顏色數據不存在顯著性差異。
對于表面風化和類型,顯著性P值為0.009***,水平上呈現顯著性,所以表面風化和類型數據存在顯著性差異。
對于表面風化和紋飾,顯著性P值為0.084*,水平上不呈現顯著性,所以表面風化和紋飾數據不存在顯著性差異。
1.4? 主成分分析模型
在數據分析過程中,由于自變量較多,會增加問題分析的難度和復雜性,也會降低模型的準確率,所以本文首先對原始數據進行主成分分析[3,4],將數據進行降維處理。
首先假設原始數據有n個樣本,P個指標,可構成大小為n×P的樣本矩陣x。計算樣本矩陣x的相關系數矩陣R:
隨后,計算R的特征值和特征向量,并利用特征值計算累計貢獻。在實際應用中,一般取累計貢獻率超過80%的特征值所對應的第1、第2、…、第m(m≤P)個主成分[3,4],則第i個主成分可以表示為:
Fi=a1i X1+a2i X2+…+aPi XP,(i=1, 2,…, m)? ? ?(3)
使用MATLAB處理相關數據,進行主成分分析操作,得到如圖1所示的累計貢獻率曲線,當累計貢獻率大于80%時,指標數對應的是6,所以取主成分的個數為6,即m=6。接著,將原始數據帶入主成分表達式,得到主成分分析結果。
1.5? Logistic回歸模型
邏輯回歸模型[5]是廣義的線性回歸模型,其因變量為定性變量,也就是分類變量,往往預測結果服從0~1分布,預測的因變量被看作是該事件發生的概率。
研究高鉀、鉛鋇兩種玻璃文物的分類規律,因變量為分類變量,一般的多元線性回歸模型并不適用于此情況,所以選擇邏輯回歸模型對玻璃文物的分類規律進行分析。
主成分F3和F6具有較大的負回歸系數,說明高鉀類玻璃文物的F3和F6的值相對較大,即F3和F6的主成分數值較大時,其為高鉀玻璃文物的概率較大,反之,為鉛鋇玻璃文物的概率較大。
1.6? 層次聚類模型
聚類模型是將樣本劃分為由類似的對象組成的多個類的過程,在不確定將不同類別的玻璃文物劃分為幾個子類的情況下,選擇層次聚類模型[7,8]來對不同類別的玻璃文物進行亞類的劃分。該算法具體流程如圖2所示。
將樣本數據輸入之后,首先將每個樣本點看作為一類,計算兩兩樣本點之間的最小距離,此最小距離一般使用歐式距離[9,10]:
接著將距離最小的兩個類合并為一個新類,重新計算新類與所有類之間的距離,此處計算類與類之間的最小距離經常使用的方法是組內平均連接法,計算公式為:
不斷重復重復上述兩個過程,直到總類別為1,停止分類,輸出分類結果譜系圖。
使用SPSS進行層次聚類分析,得到高鉀玻璃和鉛鋇玻璃聚類“肘部圖”,如圖3、圖4所示。
對于高鉀玻璃,從圖3中可以看出,K值為1到3時,畸變程度變化最大,超過3以后,畸變程度變化顯著降低,因此肘部為K=3,故可將分類類別設置為3。
對于鉛鋇玻璃,從圖4中可以看出,K值為1到5時,畸變程度變化最大,超過5以后,畸變程度變化顯著降低,因此肘部為K=5,故可將分類類別設置為5。
確定分類類別之后,分類結果如分類譜系圖如圖5、圖6所示:
具體分類結果如表3所示:
通過對高鉀玻璃文物分類結果編號相應數據的分析論證,高鉀玻璃的亞類分類主要通過二氧化硅含量。類別A1中各玻璃文物的二氧化硅的含量在92.63%~96.77%之間,類別A2中各玻璃文物的二氧化硅含量在59.01%~69.33%之間,類別A3中各玻璃文物的二氧化硅含量在74.38%~79.46%之間。如表4所示。
通過對鉛鋇玻璃文物分類結果編號相應數據的分析論證,鉛鋇玻璃的亞類分類主要通過氧化鉛和氧化鋇的含量。首先比較氧化鋇含量,類別B1、B2的氧化鋇含量明顯高于類別B3、B4、B5;再比較氧化鉛含量,類別B1的氧化鉛含量在28.68%~29.53%之間,類別B2的氧化鉛含量在9.3%~25.93%之間,二者可以通過氧化鉛含量進行區分;類別B3的氧化鉛含量在61.03%~70.21%之間,類別B4的氧化鉛含量在34.18%~55.46%之間,類別B5的氧化鉛含量在12.31%~32.92%之間,因此可以明顯的區別三者。
最后進行模型的靈敏度檢驗及合理性分析,以高鉀玻璃文物的樣本數據作為測試集,將A1類別中的07號文物二氧化硅含量降低10%,A2類別中01號文物的二氧化硅含量增加10%,A3類別中03號文物二氧化硅含量降低10%,再次使用層級聚類模型對其亞類進行劃分,得到如圖7所示的分類結果圖。
分類結果如下所示:A1'類別中所含文物編號:09,10,12,22,27;A2'類別中所含文物編號:03,04,05,06,13,14,16;A3'類別中所含文物編號:01,07,18,21。
從上述結果可以看出,相較于表3,07號文物被分成A3'類,01號文物被分成A3'類,03號文物被分成A2'類,與上述分類標準相符,說明了該分類標準的有效性和模型的靈敏度較高。
2? 結? 論
關于古代玻璃文物表面風化與玻璃類型、顏色和紋飾間的關系,相關性分析使用Spearman相關系數,得到玻璃類型與表面風化之間存在著中等程度的正相關性的結論;差異性分析使用卡方檢驗,得到表面風化和類型數據存在顯著性差異,由此可見,玻璃文物的類型對其表面風化起著至關重要的作用。對不同種類玻璃的各化學成分進行分析,首先使用主成分分析法對數據進行降維處理;其次建立邏輯回歸模型對高鉀和鉛鋇玻璃的分類規律進行描述,結論為主成分F3和F6具有較大的負回歸系數,說明F3和F6的主成分數值較大時,其為高鉀玻璃文物的概率較大,反之,為鉛鋇玻璃文物的概率較大;最后建立層次分類模型,分別對高鉀和鉛鋇兩種玻璃文物進行亞類劃分,將高鉀玻璃文物再劃分為3個亞類,將鉛鋇玻璃文物在劃分為5個亞類。通過靈敏度分析可以驗證該模型的有效性和分類的合理性。針對該領域問題的進一步討論還需日后的不懈努力。
參考文獻:
[1] CHEN X H,CHEN S C ,XUE H. Large correlation analysis [J].Applied Mathematics and Computation,2011,217(22):9041-9052.
[2] 王茜,劉書志.基于密度的局部離群數據挖掘方法的改進 [J].計算機應用研究,2014,31(6):1693-1696+1701.
[3] 李瑾.面積主成分分析及應用 [D].西安:西安電子科技大學,2018.
[4] LIU R X,KUANG J,GONG Q,HOU X L. Principal component regression analysis with spss [J].Computer Methods and Programs in Biomedicine,2003,71(2):141-147.
[5] 尹建杰.Logistic回歸模型分析綜述及應用研究 [D].哈爾濱:黑龍江大學,2011.
[6] 周維柏,黃德波,李蓉.一種改進的模糊層次聚類算法 [J].北京聯合大學學報:自然科學版,2021,35(1):29-34.
[7] WU J J,XIONG H,CHEN J. Towards understanding hierarchical clustering:A data distribution perspective [J].Neurocomputing,2009,72(10-12):2319-2330.
[8] GAUTHIER T D. Detecting trends using spearman's rank correlation coefficient [J].Environmental Forensics,2001,2(4):359-362.
[9] 劉康明,艾鴿,張宇,等.基于層次聚類和劃分聚類算法的BTS聚類算法研究 [J].網絡安全技術與應用,2022(5):45-46.
[10] 鄧楠,羅幼喜.函數型Logistic回歸模型研究與應用 [J].湖北工業大學學報,2022,37(1):115-120.
作者簡介:陳志豪(2001.11—)男,漢族,山東濟寧人,本科在讀,研究方向:電子信息工程;季晶敏(2001.12—),女,漢族,浙江金華人,本科在讀,研究方向:電子信息工程。