文_黃士真(廣西機電職業技術學院藝術設計學院,講師,碩士)
耿 棟(通訊作者)(廣西壯族自治區自然資源遙感院,工程師,碩士)
建筑裝飾石材紋理自然優美,品類多樣,長期被廣泛應用于室內外裝飾中,主要可分為天然石材和人造石材兩大類。天然石材根據巖石類型、成因及石材硬度高低不同,可分為花崗巖、大理石、砂巖、板巖和青石五類。人造石材根據生產材料和制造工藝不同,可分為聚酯型人造石材、水泥型人造石材、復合型人造石材、燒結型人造石材和微晶玻璃型人造石材等;根據骨料不同,又可分為人造花崗巖、人造大理石和人造文化石等。
傳統的建筑裝飾石材分類方法較多,依托于人工分類耗時且耗力。隨著計算機硬件水平的提高,卷積神經網絡也取得了飛速發展,在圖像分類、語義分割、目標檢測等圖像識別任務中取得了巨大的成功,被廣泛應用于各行各業。2012年ImageNet大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),在圖像分類任務中,AlexNet以壓倒性的結果橫空出世,極大地激發了全世界眾多研究者的熱情,更加成熟穩定的網絡不斷被推出,一次次打破ILSVRC圖像分類任務的紀錄。早在2017年,卷積神經網絡SE-Net就已經達2.251%的Top5錯誤率,與此相比,人類的Top5錯誤率約為5.100%,卷積神經網絡在圖像識別領域早就超越了人類。
近年來將人工智能應用于室內設計領域的研究越來越多。何金彬使用不同的機器學習方法對家具板材進行分類識別,最高正確率達90%以上。羅霞使用卷積神經網絡對19類家具進行分類識別,識別正確率達96%。目前,國內對石材智能分類識別的研究不多,2009年康利娟使用圖像顏色對石材進行分類研究,受限于傳統機器學習算法,整體效果仍存在提升空間。2019年彭偉航使用卷積神經網絡InceptionV3模型對16類礦石分類,識別率達86%。
雖然裝飾石材類別眾多,花紋、顏色多種多樣,但基于卷積神經網絡對裝飾石材識別的研究卻很少。筆者通過網絡收集、實地拍攝等手段收集整理867張大理石照片,制作了20類大理石分類數據集,將此數據集公開可以促進基于神經網絡人工智能方法在建筑裝飾石材分類領域的研究。隨著卷積神經網絡圖像識別技術的飛速發展,將該技術引入建筑裝飾石材識別中,并將成果與APP、小程序等新媒體相結合,對企業具有現實效益,且對推廣建筑裝飾石材的了解與認識具有重要意義。
基于上述研究,本文將卷積神經網絡圖像識別技術應用于建筑裝飾石材分類中,因建筑裝飾石材種類繁多,擬以天然大理石裝飾板材為例,通過訓練及測試最終實現天然大理石裝飾板材的智能分類,并進一步證明擴展應用于建筑裝飾石材分類的可能性及可行性。
天然大理石資源分布廣泛,易于加工成裝飾板材,具有較高的抗壓強度和良好的物理化學性能,吸水率低,耐久、耐磨。同時,天然大理石裝飾板材的花紋優美自然、千變萬化,有山水型、云霧型、圖案型(螺紋、柳葉、文像、古生物等)、雪花型等,按顏色可分為白、黃、綠、灰、紅、咖啡、黑色七個系列,適合搭配各種室內裝飾風格。隨著經濟的發展,大理石應用范圍不斷擴大,銷量不斷增加,受眾多客戶青睞。隨著大理石開采規模擴大、工業化加工、國際性貿易,大理石裝飾板材大批量地進入建筑裝飾裝修業。
但同時,也正因天然大理石裝飾板材品類、花紋、顏色繁多,使得其分類難度較高。據不完全統計,僅國產大理石品種便多達400余種,在分類與識別過程中需要較高的專業知識,而企業在對大理石裝飾板材分類的過程中也耗時耗力。一方面,對于普通消費者而言,在選購大理石裝飾板材時眼花繚亂,對其品類的了解與認識大多依托于商家或網絡之言,識別的方法和途徑相對有限,難以快速、正確地對大理石裝飾板材進行識別,或是當青睞于某款大理石裝飾板材時無法快速正確查詢出是何種品類,難免陷入困境。另一方面,對于裝飾行業從業者、環境藝術設計類專業的學生及石材愛好者而言,面對種類繁多的大理石裝飾板材,也亟須一個方便快捷的途徑幫助其快速認知。隨著技術的進步和信息化程度的提高,將智能分類方法應用于大理石分類識別,在具備一定正確率的基礎上,將成果與APP、小程序等新媒體相結合,為商家、消費者、裝飾行業從業者、學生及愛好者提供便捷的大理石識別與分類服務,可幫助用戶快速了解并識別大理石,甚至在生活中隨時隨地通過手機APP掃描大理石裝飾板材照片便可快速獲得相應品類的知識,此舉具有一定的現實意義及科普價值,有利于促進天然大理石裝飾板材的推廣與應用。
卷積神經網絡通過卷積核在特征圖上按步長滑動,提取不同空間位置上的特征,將非線性激活函數引入非線性,再通過池化層提取主要特征并進行特征降維。卷積神經網絡經過不斷堆疊卷積——激活——池化結構,構建深層網絡結構,通過層次化的計算,逐步提取圖片的主要特征。層次化的結構也使卷積神經網絡具有平移不變性、旋轉不變性、尺度不變性等特點,能較好地解決圖像數據所具有的多視角、多尺度、目標物遮擋、光照條件差異、目標物類內差異等問題,是圖像識別領域最主流的研究方法。
圖1較為直觀地展示了卷積神經網絡的主體結構及其運作方式。RGB三通道圖片即為卷積神經網絡的輸入層,通過第一次卷積計算,初步提取原始輸入數據的特征,得到多通道的特征圖;所得多通道特征圖經過非線性激活函數激活,獲得更多的非線性表征,然后傳入池化層;池化層接收經激活函數激活后的特征圖,進一步進行池化操作提取主要特征,壓縮特征圖的緯度,所得到的特征圖在經過下一輪的卷積激活池化,最后通過輸出層輸出結果。

圖1 卷積神經網絡結構示意圖
卷積核在輸入數據上按一定的步長滑動,每次提取卷積核相對應位置的與卷積核尺寸相同大小的局部輸入數據,提取出來的局部輸入數據與卷積核上相對應位置的值計算乘積之和,得到該局部輸入數據經卷積計算所輸出的特征,直到輸入數據中所有的值都被卷積計算,結束卷積操作,得到一張由卷積操作提取的特征圖,如圖2所示。

圖2 卷積操作示意圖
激活函數也是卷積神經網絡不可缺少的重要組成部分。非線性激活函數,將非線性特性引入到卷積神經網絡之中,大大增強了卷積神經網絡的學習能力,使得網絡能夠通過有效地學習,擬合任意復雜的非線性函數,解決復雜的現實問題。本文使用的激活函數為ReLU激活函數。
ReLU函數的全稱為Rectified linear units,中文名稱為線性修正單元,是如今應用最為廣泛的激活函數。其數學公式為:
relu(x) =max(0,x)
其函數圖像、導數圖像如圖3、圖4所示。

圖3 ReLU函數示意圖

圖4 ReLU函數導數示意圖
池化層是卷積神經網絡的一個重要組成部分,本質上是一種降采樣操作,用以減少特征緯度,降低網絡的計算量。池化的實現和卷積相似,通過池化核(一般其尺寸為2×2)在輸入數據上按一定的步長(一般步長為2)滑動,提取特征圖的主要特征,減小特征圖的尺寸(長寬降為原特征圖的一半)。通過池化提取特征的方式主要有兩種:最大池化(max-pooling)和平均池化(average-pooling)。最大池化提取與池化核對應的局部特征的最大值作為輸出,而平均池化的輸出為該區域特征值的均值。相較于平均池化,最大池化可以提取出輸入數據的紋理特征,是使用最多的池化方式。
卷積神經網絡的計算可以分為兩大部分:前向傳播和反向傳播。前向傳播也被稱為前向計算,將經過初始化的原始數據輸入參數初始化后的網絡中,卷積網絡通過卷積——激活——池化,逐步學習和提取輸入數據的主要特征,最后輸出層與原始標簽對比,通過損失函數計算損失。反向傳播也被稱為反向求導,從后向前逐步計算神經網絡各層的參數對損失函數的偏導,進而更新參數,減小損失。兩大部分交替進行,直到損失符合預設標,完成卷積神經網絡的訓練,訓練完的卷積神經網絡就可被用于圖像的智能識別。
由于目前缺少建筑裝飾石材分類的公開數據,集本次實驗用到的大理石裝飾板材圖像數據,均為筆者通過網絡收集、實地拍攝等手段所收集整理,共20類867張照片。將收集的大理石照片,分類存放入對應的文件夾,隨機拆分為訓練數據集和測試數據集,使用675張大理石圖片訓練、191張大理石圖片做測試驗證。數據集具體類別及數量,詳見表1。

表1 數據集中標注的大理石裝飾板材類別及數量
本文使用ResNet(殘差神經網絡)進行大理石識別。ResNet是卷積神經網絡發展史上的大里程碑,該網絡提出的identity shortcut connection(恒等快捷連接),將卷積神經網絡推向史無前例的深度。
identity shortcut connection具體實現如圖5所示,通過恒等映射,將上層輸出直接跳過一個或幾個隱藏層,再將恒等映射的輸出和經隱藏層變換的輸出逐元素相加,通過不斷的堆積該結構,構成了ResNet網絡的主體。

圖5 恒等快捷鏈接結構圖
本文使用ResNet-18網絡進行訓練,所謂ResNet-18,即層數為18層的ResNet,結構如圖6所示。每兩個identity shortcut connection組成一個Stage,共4個Stage組成網絡的主體結構;Input stem由一個7×7步長為2的卷積層和3×3步長為2的最大池化層組成;Output由自適應平均池化層和全連接層組成。

圖6 ResNet-18網絡結構圖
分辨率為224×224的圖片輸入ResNet-18卷積神經網絡中,經過Input stem獲得56×56×64的特征圖,經過4個Stage,獲得7×7×512的特征圖,經過自適應平均池化層,獲得1×1×512的特征向量,經過全連接層,獲得“1×1×種類數”的特征向量,再通過softmax激活函數,將“1×1×種類數”的特征向量轉化為概率。在本次實驗中,最終獲得1×1×20的特征向量,通過softmax激活函數,轉化為20類的概率,概率最大的即為預測種類。
本文使用的實驗平臺為win10系統,處理器為英特爾I5-9400F,顯卡為Nvidia RTX2060,使用Pytorch深度學習框架進行網絡的編譯訓練。輸入數據統一調整為224×224大小,使用隨機的水平和豎直翻轉,0到30度的隨機旋轉進行數據增強,優化方法為帶動量的SGD,初始學習率為0.001,總epoch為25,在第5和第15個epoch時學習率乘以0.1。評價準則為正確率,公式如下:
acc=right_num/all_num
其中,right_num為分類正確的圖片數,all_num為全部圖片數。
由圖7可以看出,隨著訓練的進行,ResNet-18訓練集Loss持續降低,在第25個epoch時接近于0,而由圖8可以看出測試集Loss在前14個epoch持續降低,隨后在趨于穩定,不再下降,繼續訓練已沒有意義。由圖9可以看出隨著訓練的進行,訓練集正確率持續上升,正確率接近100%,而由圖10可以看出驗證集正確率在第14個epoch處趨于穩定,最高正確率約為99.500%。

圖7 ResNet-18訓練集Loss圖

圖8 ResNet-18測試集Loss圖

圖9 ResNet-18訓練集正確率圖

圖10 ResNet-18測試集正確率圖
經訓練,得到對20類大理石裝飾板材進行分類識別的深度學習模型,在測試集上測試,測試集共包含191張大理石裝飾板材照片,其中,190張分類正確、1張分類錯誤,模型整體正確率約為99.5%。
對20類大理石裝飾板材照片分類別進行測試,正確率如表2所示。

表2 大理石裝飾板材分類別測試結果
20類大理石,除爵士白錯分類一張照片,其余19類全部正確分類,其中,誤分類為將爵士白分類為魚肚白。爵士白和魚肚白較為相似,受拍攝角度、光照等條件的影響,有些照片確實難以區分,將爵士白誤分類為魚肚白或魚肚白誤分類為爵士白是較難避免的。
基于神經網絡的智能分類方法飛速發展,其開始在越來越多的領域發揮獨有的價值,但是目前對基于神經網絡人工智能方法的建筑裝飾石材分類研究較少,主要原因是缺少建筑裝飾石材的公開數據集。裝飾石材類別眾多,花紋、顏色多種多樣,因光照拍攝角度等原因,導致人工識別困難,制作數據集需要較高的專業知識。本文收集了20類共867張常見大理石裝飾板材照片,制作了大理石裝飾板材分類數據集,并將此數據集公開以促進基于神經網絡人工智能方法在建筑裝飾石材分類領域的研究,希望將深度學習方法應用于大理石分類中,使室內裝飾領域也能搭上人工智能這輛飛速發展的快車。實驗結果表明,CNN可識別圖片中存在的大理石,在20類大理石數據集上,識別準確率高達99.500%,具有較高的應用價值。但是,此方法一張照片只能識別一個類別,不能適用于實際場景中同時使用多種大理石組成的復雜圖片。今后,將繼續使用目標檢測方法對大理石進行識別,使其具有更高的應用價值。通過進一步擴充數據集,支持更多的建筑裝飾石材種類,還會將智能分類方法集成到小程序或APP,使用者通過拍照上傳,就能方便快速認識大理石,以達到借助新媒體擴大大理石在建筑裝飾領域使用面的目的。