于 翔,沈 美
(南通科技職業學院,江蘇 南通 226007)
目前,利用數字技術將文字、音頻、視頻等信息集為一體,通過網絡實現高效傳播,實現對非遺的傳承與保護,具有傳統保護方法無法比擬的優勢,即高互動性、高時效性、內容豐富性、傳播途徑多樣性等。因此,通過非物質文化遺產數字化,實現數字化保護方法替代傳統保護方法,無疑是非物質文化遺產傳承與保護新的重要途徑之一。然而,隨著數字化技術的發展,新的技術在非遺保護與傳承上發揮的作用也會有所不同,也會對非遺數字化的概念與內涵產生影響[1]。且非遺數字化,尤其是傳統手工藝數字化的重點工作,應當是實現并傳播文化內涵[2]。對于這些問題,利用近年來快速發展的人工智能、機器學習等新技術,結合藝術、人文等其他學科,是解決該問題的重要方向。例如有些學者利用機器學習對民族文化圖案進行語義標注[3],還有的利用深度學習對少數民族繪畫進行情感分析[4]等。然而,數據的有效性是深度神經網絡成功運行的關鍵[5],數據歸一化編碼,尤其是大規模數據的歸一化編碼,一直是制約人工智能、機器學習在非遺上應用的重要因素。
本研究以我國非遺之一的南通藍印花布為例,通過從網絡收集、手工采集藍印花布紋樣照片,包括植物、人物、動物、傳統紋樣、基礎元素紋樣等多種主題,針對每一個紋樣,總結歸納出基礎底色、結構規則、位置規則以及內容等四大屬性,并為這些屬性歸一化編碼,為今后的深度學習奠定基礎。
圖像的識別與檢測是機器視覺中很重要的一個分支。目前,這方面的研究與應用主要集中在人臉、文字等公共領域方面。對于非遺中的個例—南通藍印花布紋樣,尤其是針對南通藍印花布紋樣的收集、整理,仍處于空白階段。因此,在實地調研的基礎上收集一手資料,通過對藍印花布的紋樣和素材進行數字化采集、數字化處理,并對紋樣進行分類、分析、整理以及拆分、提取,歸一化后建立紋樣數據編碼。
研究對象:通過尼康數碼相機5100進行數字化采集,包括拍照與攝影。拍照的圖像格式為JPEG格式,像素為1 800萬,分辨率約為1 790萬像素(5 184×3 456)。數據通過數據線或者讀卡器導入計算機,高質量的圖片方便后期數字化處理。
根據大量的分析與研究,南通藍印花布分為白底藍花以及藍底白花兩大類。根據南通藍印花布紋樣的構圖規則,分成對稱、重復、發散和環繞4種結構。每個紋樣分為主體、外框、裝飾三大屬性以及植物、動物、人物以及基礎元素、傳統元素等子屬性。因此,分別從色彩、題材、組織形式以及相對位置4個維度對南通藍印花布紋樣進行歸納與總結。
南通藍印花布在色彩上僅用單純的藍、白二色創設和諧之美,包括藍底白花和白底藍花兩種形式[6],如圖1、表1所示。

圖1 藍底白花與白底藍花的藍印花布紋樣

表1 色彩對比
藍印花布的印染技藝作為一種民間藝術形式,通過植物、動物、人物以及其他題材[6]來表現獨具魅力的紋樣。其中,其他題材又可細分為基礎元素和傳統元素兩種題材[7](表2)。

表2 題材
南通藍印花布多變又有個性的紋樣組織形式,也是南通藍印花布的藝術特色之一。除此之外,還有用單純的藍白相間和活潑靈動的點、線鏤刻的不規則的紋樣,主要包括對稱、重復、發散、環繞4種形式[6](表3)。

表3 組織形式
大量的研究表明,南通藍印花布紋樣的相對位置可分為主體、裝飾以及外框三大類(表4)。

表4 相對位置
One-Hot編碼,又稱為一位有效編碼,主要是采用N位狀態寄存器來對N個狀態進行編碼,每個狀態都由獨立的寄存器位,并且在任意時候只有一位有效。One-Hot編碼是分類變量作為二進制向量的表示。
眾所周知,算法是基于向量空間中的度量來進行計算的,尤其是在回歸、分類、聚類等機器學習算法中,特征之間距離的計算或相似度的計算是非常重要的,而常用的距離或相似度的計算都是在歐式空間[8]。使用One-Hot編碼,將離散特征通過One-Hot編碼映射到歐式空間,使非偏序關系的特征取值不具有偏序性,使特征之間的距離計算更加合理,并且到圓點是等距的;離散特征的某個取值就對應歐式空間的某個點;編碼后的特征,每一維度的特征都可以看作是連續的特征,就可以和對連續型特征的歸一化方法一樣,對每一維特征進行歸一化。比如歸一化到[-1,1]或歸一化到均值為0,方差為1。
2.2.1 優點
獨熱編碼解決了分類器不好處理屬性數據的問題,在一定程度上也起到了擴充特征的作用。其值只有0和1,不同的類型存儲在垂直的空間。
2.2.2 缺點
當類別的數量很多時,特征空間會變得非常大。在這種情況下,一般可以用PCA來減少維度。且One-Hot encoding+PCA組合在實際中也非常有用。
采用One-Hot編碼來對南通藍印花布數字化紋樣進行編碼,南通藍印花布數字化紋樣的歸一化編碼的應用如圖2所示。

圖2 歸一化編碼應用
大量的實踐表明,在藍印花布的發展過程中,藍印花布紋樣數量、種類不同,導致分布密度不同,而且是隨機變化的。對藍印花布數字化紋樣進行歸一化編碼處理后,有效地調整了藍印花布紋樣數量分布的密度,不僅在時間效率上有顯著提高,在準確性方面也取得了突破性的進展。