劉艷婷,劉靜偉
(西安工程大學,陜西西安 710048)
在科技飛速發展、信息傳播手段不斷更新迭代的當今社會,人們面臨嚴峻的信息膨脹化和碎片化的問題,如何從大量的信息中準確地獲得想要的資訊信息成為迫切需求,如何從大數據中挖掘隱含的知識理論也是當今時代的熱點。服飾作為個人審美品味的載體,個人的服飾風格就是一種自我的表達方式,隨著經濟發展和人民生活水平的提高,消費者對服飾需求的個性化要求也越來越明顯,服裝個性化定制的生產銷售模式越來越普遍,服裝風格作為感性知識,其影響因素十分復雜多變,迄今為止對特定服裝風格的研究有專家訪談、用戶問卷調查等多種實驗手段,一般運用意象尺度法設立分級量表,通過感性工學的方式對風格進行量化,或者運用專業數據挖掘軟件對問卷調查的結果進行各個設計要素的聚類計算[1-6]。本研究以網絡大數據為分析來源,運用智能語義分析方法進行主題服裝的風格分析,細化和提取各種不同的風格詞匯,確立不同風格的特征因素,為服裝設計者和服裝文化研究者提供參考。
本次數據采集遵循篇章性和個性化原則,服飾風格影響因素的不確定性需要綜合篇章內容進行數據分析,從而計算提取相關因素,因此數據采集成篇的描繪唐代服飾的網絡文本數據,本研究以唐代服飾的網絡文本數據為實驗對象,采集網站選擇現今幾大主流自媒體平臺來源選擇現今幾大主流自媒體平臺:百度百家號、網易號、東方號、搜狐號、頭條號、微信公眾號、簡書、新浪博客、騰訊公眾號、北京時間號、大魚號、一點號、大風號、趣頭條[7-8]。自媒體作為一個隨著時代科技發展興起的信息傳播方式,其區別于傳統媒介的特征是更具個性化、便捷化和年輕化,受到廣泛歡迎。近年來,各大自媒體平臺發展迅速,極大地方便了廣大群眾的自我表達[9-10],其數據可以作為一個豐富龐大的調查對象。
采集工具的選擇遵循便捷化原則。數據需求來源廣泛,不同平臺的網頁結構不盡相同,網頁里還存在許多與篇章內容無關的元素比如廣告圖文,因此需要一款適合所有網頁結構且能自定義對象數據位置的爬蟲軟件。本研究選用八爪魚采集器對各大自媒體平臺進行以主題詞為中心的文本采集,針對不同網站設計自定義爬蟲的采集模式:輸入需要采集數據的網頁網址,手動定義其中不同網址所需數據的網頁X-Path,采集器自動識別和采集所有同類XPath的數據。這種方法可以有效避免和減少數據噪音。本實驗以“唐代服飾”為采集主題詞,對采集來的結果再進行篩選去噪去重,最終采集結果如表1所示。

表1 自媒體平臺采集文本數量匯總
文本數據分析的前提是漢語分詞,在分詞的基礎上再進行不同詞性詞匯之間的相關性計算和提取。因為唐代服飾是具有傳統特色的服飾,含有許多不常用且未被收錄在分詞核心詞典里的專有名詞(未登錄詞),分詞系統必須能識別這些專有名詞并進行準確分詞。目前,多數分詞算法都采用規則和統計相結合的方法,目的是降低統計對語料庫的依賴性,可以充分利用已有的詞法信息,同時還能彌補規則方法的不足。現在經常使用的方法是利用詞典進行初次切分,得出切分結果后,用其他的概率統計方法和簡單規則消歧進行未登錄詞的識別。因此,本次分詞采用的是NLPIR-master大數據語義智能分析平臺(Natural Language Processing and Information Retriev?al Sharing Platform),NLPIR分詞法(Chen et al. 2014)利用詞典匹配進行初詞切分,得到詞切分圖后,利用詞頻信息求詞圖N條最短路徑的N最短路徑法進行分詞,自動識別人名、地名、機構名等未登錄詞、新詞標注以及詞性標注[11]。
用NLPIR軟件對采集來的文本中所有候選詞語進行切分標注后,使用詞頻、詞性和互信息等多特征進行融合,綜合計算提取關鍵詞[12],得到的唐代服飾領域關鍵詞詞表包含詞語(word)、詞性(part of speech縮寫POS)、權重(weight)和詞頻統計(frequency),系統默認詞匯以權重值高低排序,結果如表2所示。

表2 關鍵詞提取結果(部分)
對采集來的文本關鍵詞進行分析,根據中科院計算所制定的漢語詞性標記集對提取的關鍵詞詞性進行分類觀察,結果發現關鍵詞一般都是名詞(n)與動詞(v),還包含少量的形容詞與副詞;而介詞和助詞等在漢語中一般不能表述具體的意義,因此本實驗選擇忽略不具備本次服飾研究意義的詞,如“可以”“一個”“開始”“成為”等。對服飾風格的相關影響因素進行具體總結可以得到兩大類服飾風格相關因素:(1)“顏色”“色彩”“造型”“圖案”“裝飾”等構成服飾設計的重要因素;(2)“時代”“地位”“制度”“民族”“思想”等構成服飾社會背景的重要因素,兩者綜合可以構成一個朝代服飾風格的基因。各因素具體占比按詞頻和權重高低依次排列,結果如表3所示。

表3 自媒體數據中與服飾風格相關度最高的因素
由表3可以看出,詞頻和權重排列在前的有形象、時代、圖案、顏色/色彩、造型等因素,下面分別就這幾方面的關鍵詞再進行語言統計分析。
運用NLPIR-master軟件對采集文本進行語言統計,語言統計功能是在完成文本分詞的基礎上針對切分標注結果,系統自動地進行二元詞語轉移概率統計(統計兩個詞左右連接的頻次即概率)和二元詞對信息熵,其中共現頻次是指兩個詞以前后順序同時出現的頻率,二元詞對信息熵是指這兩個詞包含的信息廣度[11]。本次統計共得到二元詞對總數為22 7735對,從結果中除去不具備完整參考意義的單字和代詞,再對幾個具體因素進行檢索,結果如表4、表5所示。

表4 自媒體數據中與“圖案”“造型”搭配最高的詞語排序表

續表4

表5 自媒體數據中“顏色”高搭詞以及高頻使用顏色排序表
以上各個方面的特征也是大眾對唐代服飾形成的一個普遍印象。同樣對“形象”“時代”進行檢索,排序結果如表6所示。

表6 唐代服飾風格影響因素總結(部分)
風格本質上就是描繪事物及人的狀態及屬性特征。漢語中的形容詞正是用來描寫或修飾名詞或代詞,表示人或事物的性質、狀態、特征、屬性和情態的詞,因此本研究對關鍵詞表中的形容詞進行了整體研究,發現以“a”為詞性標注的形容詞共803個,另以“an”為詞性標注的形名詞共97個,以“z”為詞性標注的狀態詞共98個,其中形名詞和狀態詞也是形容詞的一種詞類。表7為形容詞作為風格特征詞匯表。

表7 自媒體文本中風格詞匯表(部分)
關于形容詞的聚類,早期在國內,朱德熙先生將詞的形式和意義結合起來,把形容詞分為性質和狀態兩類。性質形容詞通常與類名相組配以表述一類事物相對恒定的屬性;狀態形容詞一般與個體名相組配以表現個體事物相對暫時的情狀[13]。
而后學者在此基礎上進行豐富細化,《現代漢語分類詞典》(A Thesaurus of Modern Chinese,簡稱“TMC”)中把形容詞分為性狀、性質、情狀、才品、知覺和形貌6大類[14-15]。為了更清楚地了解唐代服飾風格的特征偏向,本研究依據此詞典把以上描述唐代服飾風格的形容詞進行聚類,結果如表8所示。

表8 自媒體文本中風格詞匯分類(部分)
(1)以“唐代服飾”為主題詞的大數據語義分析實驗從自媒體平臺數據中提取得到兩大類服飾風格相關因素:①“顏色”“色彩”“造型”“圖案”“裝飾”等構成服飾設計的重要因素;②“時代”“地位”“制度”“民族”“思想”等構成服飾社會背景的重要因素。
(2)語言統計結果中,“形象”“時代”“顏色”“造型”等具體因素的高頻共現詞皆屬于唐代服飾中的典型特征,數據顯示高頻共現詞與盛唐以及武周時期的唐代服飾相關內容居多,重點相關人物有唐玄宗、楊貴妃和武則天;對女性、婦女、仕女、侍女、女子和貴婦等女性形象的服飾關注度高;服飾相關圖案種類涉及動植物圖案和幾何圖案,其中纏枝花卉圖案出現頻次最高;對服飾顏色最主要的描述特點為鮮艷、絢麗、艷麗,紅色是唐代服飾的代表性顏色。
(3)結合服飾專業特點進行分析,得到了服飾審美特征分類:性質、性狀類形容詞多描述唐代服飾整體客觀給人的風格感受,如華麗、曼妙、華貴;形貌知覺類形容詞多描述服飾造型的形狀,體量、外觀顏色或者面料上的觸覺,如豐滿、輕薄、鮮艷;才品類形容詞多描述穿著此種服飾的人群展現出來的才情與品味,帶有情感色彩,如飄逸、自由、大膽;情狀類形容詞多形容服飾時代背景的樣態以及人們當下的情感期望,即時代繁榮發達,人們生活美好。經相關史料查詢可以驗證這些描述基本符合唐代服飾風格特征。
(4)此種方法對采集和分析主題服飾的風格特征具有一定的可行性,希望能給服裝文化研究和設計工作者以參考。