李明灝 潘 剛
(1.天津大學計算機科學與技術學院 天津 300350)(2.天津大學軟件學院 天津 300350)
隨著數字化技術的發展,通過數字化技術產生的文物數字化數據變得越來越龐大。這些文物數據包含時間、空間以及其他多維的信息結構十分復雜。這些數據從全國收集而來包含大量的歷史信息。然而對于文物研究人員來說在沒有工具幫助的情況下分析如此龐大的數據是一件十分困難的事情。不同文物領域的專家在進行研究的過程中往往只能關注其自身研究領域中的信息,而且現在文物的研究工作通常只能依賴研究人員自身的專業知識的積累。因此,需要一個可以幫助文物專家和研究人員收集、分析以及可視化文物數據的工具。然而對于文物數據進行可視化和數據挖掘面臨著大量的挑戰。首先,文物數據中包含了文物的朝代信息,文物的出土信息,這就意味著文物數據即有時間屬性,也有空間屬性,屬于時空數據。而對時空數據進行可視化往往是一個巨大的挑戰。其次,文物數據是一種多維的數據。最后,對于一個國家來說它的歷史往往是十分復雜的,這就意味著在對文物數據進行可視化的過程中將會面臨著如何保證時間清晰的問題。
本文研究的主要內容為對博物館的館藏數據進行可視化分析。本文的重點是構建可以清晰地展示多維的文物時空數據的可視化工具,并使用這些工具獲取文物數據中可能隱藏的信息或關聯。本文從全國可移動文物登錄網獲得文物數據,這些數據為全國第一次可移動文物普查后公開的部分數據。本文為文物專家提供了一種高效分析結構復雜的文物數據的方法。首先,本文研究了顏色分配方案,使得在面對大量的文物特征是可以為每一個特征分配合理的代表顏色。然后,本文使用矩形地圖對文物數據的時空屬性進行可視化,同時輔以其他工具來詳細地展示文物數據。每一種工具都容易理解且便于使用。
本文的貢獻主要有:
1)針對面向大量特征的顏色分配方式進行研究。
2)使用復合的可視化工具對結構復雜的多維時空文物數據進行可視化。這些工具為矩形地圖、流動圖、U-Matrix圖。同時提出一種基于坐標的矩形地圖的繪制方式。
3)通過對中國山西省博物館在不同時代的代表性文物類別進行分析以驗證本文提出的方法。
針對存儲文物復雜的時空數據,可視化的表示方法有助于數據的使用以及人員對數據進行分析。現有的關于時空數據的可視化的研究有很多傳統的信息圖表可以用于多維數據的可視化,例如:表、直方圖、散點圖和餅圖等。這些信息圖表可以通過一些技術而更好地進行探索性的數據分析和信息可視化,例如:散點圖矩陣[1],矩陣排列[2],通過像素方向的方法[3],以及并行坐標圖的方法[4]。同時還有通過將傳統的條形統計圖同基于像素的技術相結合來對大量數據的絕對類型和數值類型進行可視化[5]。由于展示空間是有限的,為了能更好地展示多維的數據,通常會通過降維技術將多維數據投影到低維的平面,例如:多維排列[6~7],主成分分析法或其他的投影追蹤法。提供一個可以同時全方位的審查大量信息的方法是不現實的。
為了可以為用戶提供更好的信息的展示方式,Edward Segel 和Jeffrey Heer 對可視化講述數據方式進行了研究[8]。如今同樣還有大量的針對不同數據的可視化分析工具,這些數據分析工具可以幫助用戶自由的對數據進行探索[9]。用于可視化分析的技術多種多樣,例如:基于密度圖的可視化,信息可視化技術,基于樹圖的可視化[10]等。同時很多的可視化分析系統還提供了大量的交互操作。Nivan Ferreira 等對通過可視化對城市的時空大數據進行了研究[11]構建了一個系統,結合了多種交互功能,使用戶能夠對數據的所有維度進行查詢。Abish Malik等提出了一個視覺分析系統,探索在給定的數據集在不同層次的空間聚集的時間相關性[12]。為了可以更好地分析數據中的時間屬性的影響Yifan Wu 等通過四個模塊來分析學生在校園的活動和消費數據,從而分析了解學生的表現[13]。除此之外,還有很多形態各異的可視化分析工具。如A. Malizia 等提出了一個新的Web 混搭系統,幫助人們和專業人員檢索有關緊急情況和災難的信息[14]。Diansheng Guo 等提出了一個為時空和多維模式數據開發的系統[15]。這些工具從各方面對時空數據進行了可視化。
對于文物數據,其通常擁有大量的特征。比如文物的所述朝代就有大量的可能性,在中國就出現過40 多個朝代。文物的類別特征的數據也很多,在第一次全國可移動文物普查中就確定的35 個不同的文物分類。面對這種特征數量很多的情況,需要一個合適的顏色分配方案,同時需要可以高效展示特征之間聯系的模型。
本文使用CIELAB 顏色空間來進行顏色分配,選擇CIELAB 顏色空間是因為這是一個均勻的顏色空間,所謂的均勻的顏色空間是指當顏色空間內的數值均勻變化時,人對于顏色變化的感官也是均勻的。
為了充分的使用顏色空間,本文使用一個復合函數在顏色空間中進行顏色分配。

其中L*,a*,b*表示在CIELAB 顏色空間中的亮度,紅色、品紅和綠色之間的位置,黃色和藍色之間的位置。函數f(a*)和f(b*)是偶函數并且構造相同,只有自變量不同。在進行顏色分配的時候對于函數的參數進行調整可以獲得不同的效果。圖1 為在接近0 時有更大的梯度變化的單調遞減的凸函數對文物類別進行顏色分配的結果。

圖2 使用U-Matrix表示文物類別之間的關系和該類文物的數量
本文使用U-Matrix 圖來展示文物特征之間的相關性。U-Matrix中的一個圓形表示一類特征,圓形的大小表示有該特征的文物的數量。圓越大有該特征的文物的數量越多。兩個圓之間的六邊形的顏色的深淺表示特征之間的相似程度,顏色越淺表示兩個特征越相似。圖2 為U-Matrix 的一個實例,圖中的每一個圓形表示一種文物的類別。每兩個圓形之間的六邊形的灰度表示兩個類別之間的相似程度,兩個類別越相似則顏色越淺。
本文使用矩形地圖[16]對文物數據進行可視化。我們認為使用這樣的方式會使用戶將精力分散在其他的額外的信息上,使用戶的集中力下降。因此本文使用矩形地圖展示文物數據的空間信息,矩形地圖可以將不必要的信息進行過濾同時保留用戶更加有關系的位置的信息。
如圖3 是一個矩形地圖的實例。其中展示了文物數據的相對位置關系,并且通過矩形的大小以及填充顏色為用戶提供文物的其他特征信息。
圖3 展示的信息數據為山西省的博物館中具有代表性的文物的類別。圖中的每一個矩形表示一個博物館,矩形的顏色表示博物館代表性文物的類別,矩形的大小則與博物館館藏文物數量相關。在繪制矩形地圖時,本文引入了tanh函數來計算矩形地圖中的矩形的大小,以此來解決由于各個博物館的藏品數量可能存在巨大的差異導致的矩形地圖中缺乏層次的問題,比如山西博物院所藏的文物數量遠遠大于其他位于山西省的博物館,若使矩形的大小與館藏文物數量成正比會導致矩形地圖中山西博物院過于龐大同時由于比例的關系表示其他的博物館的矩形的大小將會缺乏層次。

圖3 矩形地圖實例,表示山西省主要的博物館從整體來看具有的代表性文物的類別。
為了使矩形地圖可以展示文物數據中的時間屬性,本文將多個矩形地圖組合到一起構成一個矩形地圖集,在這個矩形地圖的集合中,每一個地圖用于展示一個朝代分類,這樣就可以使用矩形地圖來簡單地展示時間屬性。
為了創建矩陣地圖,我們通過百度地圖提供的API 獲得了每一個博物館的經緯度坐標。與使用矩形地圖模擬真實地圖不同,使用坐標進行矩形地圖的繪制會出現缺少每個矩形之間的鄰接關系的情況,為此本文提出了一個基于坐標的矩陣圖繪制方法。
算法1:于坐標的矩陣圖繪制方法
1)令集合M={m1,m2,m3…mn}表示需要創建的矩形的集合,并初始化集合A和B令A=M,B為空集。
2)從M 中選擇核心矩形mc并繪制,核心矩形可從多方面選擇如矩形的位置或大小。令A=Mmc,B={mc}。
3)從A中選擇距離B最近的矩形m',即:

4)計算m'與mc之間的距離d,從A 中找出所有與mc的距離小于d的矩形構成集合C,即:

5)從C 中選擇距離B 最近的矩形m 進行繪制,若C 為空集則令m=m'并繪制。令A=A-m,B=B+m。
6)回到3),若A為空集則結束。
這種方式進行繪制的思路是從核心的矩形開始向外面一層一層的輻射的進行繪制,這種方式可以避免只選擇距離已經繪制過的矩形最近的為繪制的矩形的方式造成的由于選擇的方式是呈螺旋行的導致后面要繪制的矩形缺少足夠的空間進行繪制,造成結果中出現大量的矩形相重疊的情況。
接下來本文將基于矩形地圖對博物館代表性文物類別進行分析,本節首先將介紹如何評估博物館的代表性文物類別,之后將基于矩形地圖對數據中位于山西省的博物館進行分析。
本文使用一個加權公式計算每個博物館的代表性文物類別:

該加權公式由三部分組成。ni為某博物館屬于年代分類i 的文物的數量,Nc為某類文物在數據中的總量,Np為某類文物所在博物館的省份的所有的博物館一共藏有的該類文物的數量,Nm表示博物館藏有的文物的總數。
該公式使用三項分別從全國的層面,博物館所在省的層面以及博物館自身的層面來評估一個博物館的代表性文物類別。通過得公式中的權重進行調整,研究人員可以自由的決定三項在評估博物館代表性文物類別時的重要程度。
若使用人員認為三項中館藏數量占比對于決定代表性文物類別更為重要,可以將權重設定為0.25,0.25,0.5 這樣就可以保證第三項在最終決定文物占有較大的比重。若使用人員認為館藏文物數量的占比對于決定代表性文物類別完全沒有意義,則可以將權重設定為0.5,0.5,0 這樣就可以排除最后一項,將館藏文物的代表性只交由前兩項來決定。
接下來將以矩形地圖為主,通過多種工具對數據中所有山西省的博物館在各個年代分類中的代表性文物類別。選擇山西省首先是因為數據中一共有300 多個博物館,全部進行分析數量太多了,而山西省是一個文物大省,分析山西省既可以減少博物館的數量,同時也可以保證數據的數量。
在全國第一次可移動文物普查文物被分為了35 類,本文的數據來源于全國第一次可移動文物普查,因此本文數據中的文物也分為35 類。但是文物分類在文物領域中也是一件十分復雜的工作,文物可以從材質、用途、朝代等各個角度進行分類,但是這些分類方式總是難以滿足全部的需求。全國第一次可移動文物普查中文物雖然被分為了35類,但是這種分類方式中既包含了從材質方面的分類,如銅器、金銀器等,又包含了基于用途的分類方式,如交通運輸工具、文具等。為了可以更加明確這些類別之間的關系,使類別相近的文物獲得相近的代表顏色,本文基于數據中的質地字段對文物類別進行了聚類。
首先統計各類別中各種質地的文物的數量,計算出各種類別的各種質地文物所占的比例,構成一個25維的向量。將數據中的35類文物類別都統計之后將會獲得一個35×25 的矩陣,矩陣中的一行表示一類文物種類中各種質地的文物所占的比例。之后使用層次聚類對這35 類文物類別進行聚類,依次獲得各類文物之間的相似性。
通過聚類的結果對顏色分配方式進行了調整,使關聯較強的文物類別的顏色更為相似,最終的結果如圖4(b)所示。同時使用U-Matrix 來表示各類別的文物的數量以及各類別之間的關聯度,結果如圖4(a)所示。

圖4 顏色分配結果和各類文物的相似性,兩類文物之間的顏色越淺表示兩類文物從質地層面更加相似,圓圈越大表明該類文物數量越多。
之后使用圖4 中的顏色分配方式我們使用矩形地圖將數據中所有山西省的博物館的代表性文物類別進行展示,如圖5 所示。同時由于文物數據中時間維度包含了中國從古至今的說有朝代,使得文物數據中的時間文物十分復雜。為了使數據中的時間維度可以清晰地展示出來,本文將中國的所有朝代歸為13 個朝代分類。從圖中可以一眼就看出擁有各個年代分類的文物的博物館的數量。可以看到只有少部分博物館有夏朝的文物,這可能是因為夏朝創建的時間過于久遠。但是擁有考古學年代文物的博物館的數量卻多于擁有夏朝文物的博物館,這可能是因為雖然考古學年代出現的時間更為久遠,但是考古學年代持續的時間確遠遠長于夏朝持續的時間。可以看到在考古學年代大多數的博物館的代表性文物類別為陶器和玉石器、寶石類,有部分博物館的代表性文物類別的牙骨角器,只有山西博物院的代表性文物類別為樂器、法器類。還可以看到,瓷器最開始成為代表性文物類別的朝代分類是三國-晉-十六國-南北朝時期,之后出現的大量的以瓷器為代表性文物類別的博物館,同時我們也知道唐朝的瓷器是十分著名的。我們還可以看出山西省博物院的代表性文物類別往往與其他的博物館有很大的區別,這可能是由館藏文物的數量的差距造成的。從圖中還可以看到孝義市皮影木偶藝術博物館由于其博物館自身的性質,在明、清以及中華民國時期其代表性文物類別都是皮革類文物。

圖5 山西省主要博物館在不同的朝代分類時期的代表性文物類別以及各博物館之間的相對位置關系
由于山西博物院藏有文物的數量占數據中山西省的博物館的一半左右,為了可以更加清晰地展示山西博物院館藏文物的信息,本文使用流動圖進行了可視化展示。圖6 為山西博物院在各個朝代分類時期持有的文物數量的流動圖,圖中對文物類別進行了分類,分類方式是基于質地的層次聚類,通過聚類將35類文物聚成15類。將聚類結果中每一類中的所有項的代表顏色,進行平均獲得用于表示每一個聚類結果的顏色。可以看到山西博物院主要藏有大量的周、明、清以及中華民國時期的文物,而在周這一時期藏品主要為銅器、錢幣。而到了明、清和中華民國時期則藏有大量的古籍圖書等類別的文物,這類文物的主要質地為紙,同時也可以看到這類文物從秦-漢到三國時期才開始出現。我們還可以看到山西博物院藏有的甲骨和牙骨角器類別的文物之存在于周之前。流動圖同時也印證了山西省所在地在中國歷史上的發展,在春秋時期晉作為春秋五霸之一使得當地十分繁榮,之后由于三家分晉使得山西地區沒落,而到了明清由于晉商的出現使得山西省所在地區再次繁榮起來。

圖6 山西博物院各個時期的各類文物數量,文物類別的歸類通過基于材質的層次聚類獲得,x軸表示朝代分類,y軸可以計算出各類文物在某一朝代的數量。
本文以矩形地圖為基礎設計了一系列的可視化的工具來幫助分析人員對文物的特性,時間屬性和空間屬性的關聯進行分析。本文使用矩形地圖展示文物數據中的時間屬性和空間屬性,提出了一種基于坐標的矩形地圖繪制方式。使用U-Matrix展示文物數據中各個特征的信息和關聯。并且針對文物數據中復雜的時間結構的可視化問題提出了基于主要朝代的朝代分類以簡化時間結構。通過這些工具研究人員可以方便對文物時空數據進行分析。最后使用本文的可視化工具進行了山西省的博物館代表性文物的分析證明了本文的可視化工具是可用的。接下來我們將進一步完善本文的可視化工具,為其添加更豐富的功能以幫助文物專家更加效率的對文物數據進行分析研究。