李佳芮 吳亞東 王 松 王 嬌 廖 競
(西南科技大學計算機科學與技術學院 四川綿陽 621010)
一體化是指地理位置上相鄰、有密切邊緣政治經濟關系的國家之間的聚合。拉美一體化雖然是在發展中國家中最早推行,但迄今也尚未形成以單一組織區域為核心的內涵逐步深化、外延持續擴大的一體化道路[1],而是形成各組織成員國在政治、經濟、社會等多層次的發展特性。
拉丁美洲國家數據具有高維多元特征,含有17條國家數據對象,每個國家有1 441個獨立或相關屬性。多元是指每個國家具有的多個屬性,維度指屬性的數量[2]。評估拉美發展的因素眾多且存在大量對需求無關因素的干擾,傳統分析手段又耗費大量人力資源,有效地處理拉美數據,關鍵在于發現其包含的重要信息以及隱含的規律。可視化與可視分析技術為復雜高維多元數據提供了大量新穎的有效手段。在信息可視化領域,對高維多元數據的可視分析一直是研究的熱點問題,其目的是探索數據項的分布規律和模式,并揭示不同元之間的隱含關系。常用的高維多元可視方法處理屬性的個數有限,否則,將面臨關鍵信息遮擋、空間利用率低下等問題。因此,針對具有高維多元特征的拉美數據在維度空間探尋的需求,需要設計有效的可視化分析方法。
本文提出一種利用層次數據劃分和子空間分析相結合的可視分析模型來探尋拉美一體化發展特性。(1)針對拉美數據中的多個屬性,利用文本分類將其構建成層次數據,建立出新的類別作為新的維度空間,方便自定義快速地探尋和篩選數據子集;(2)針對拉美數據中蘊含重要信息會被無關信息干擾的問題,利用子空間方法分析屬性間的相關性,并結合視覺隱喻快速探尋維度空間的差異,該差異有助于全面認識影響拉丁美洲國家經濟的貧困因子;(3)在重構的局部子空間中觀察國家降維后的聚類特征;(4)使用多種可視化手段探尋拉丁美洲一體化發展的特征,以幫助拉美研究員和各經濟學家對拉美國家制定精準的扶貧計劃,促進各國經濟發展。
目前對拉美國家數據分析主要分為量化和非量化兩種方法。非量化是指根據研究員的專業知識和經驗,利用統計手段探索國家發展的規律與特征。例如文獻[3-4],均借用傳統統計手段對國家數據特定屬性進行分析,通過對屬性值變化規律的總結來分析具體問題。該方法工作量巨大繁雜,容易忽視重要因素,且需要相關專業知識和經驗,缺乏對數據更深層次的認識。
量化是利用數據分析方法進行建模,例如,采用面板數據模型方法來分析拉美旅游業與經濟增長之間的關系[5],用數據挖掘技術預測拉美人口發展指數[6],利用半參數面板模型估算拉美二氧化碳的排放量[7]。通過數據分析方法對拉美數據進行建模,具有分析效率提高、可靠性高等優點。本文研究主要用層次數據劃分和子空間分析相結合的可視分析模型對拉美一體化發展特性進行探索分析。
拉丁美洲數據具有高維多元特征,涵蓋著數據的多種性質,例如層次性、時空性、多屬性等。國內外研究人員從不同的角度利用不同技術來研究高維多元數據。
1.2.1 高維多元數據分析
由于受“維度效應”[8]的影響,當采用傳統的降維算法處理高維數據時,降維結果的精確度和穩定性將會大幅度降低,同時大量對聚類的并無貢獻的屬性會干擾結果的準確性。為解決這類問題,研究人員進行了大量研究工作:文獻[9]利用子空間分析對維度局部相關性進行了研究;夏佳志等[10]提出發現有意義的數據子集并揭示其局部相關性的方法;Yuan[11]利用數據的層次性合并或拆分子空間來探索高維數據的數據對象間的相關性和維度相關性;張彰[12]對VSM改進來劃分文本數據的層次性;Sirius[13]運用加權高維距離函數來同時分析數據對象和維度;陳誼[14]利用KNN自動將相關維度分組成簇來分析維度子集,進而利用Pearson計算各維度之間的相關性程度。
本文研究結合上述工作,將拉美數據的屬性轉化成層次結構,再結合子空間方法分析屬性之間的相關性,研究拉美數據屬性相關性和局部子空間下數據對象的降維結果。
1.2.2 高維多元時空數據可視化
目前高維多元可視化方法主要分為多重協調視圖[15]、關聯對比和視覺隱喻。平行坐標、散點圖以及雷達圖是常用的關聯對比可視化方法,其形式簡潔、可擴展性強,但其對數據屬性數量有限制,否則將會造成視覺重疊,增加認知負荷。Chenyi等[16]提出MCT,將平行坐標的思想應用于樹圖布局之中,充分利用有限的空間展示數據的層次結構和多維屬性信息。Chernoff[17]將多個維度利用人臉的各部分來表示,采用視覺隱喻的方法相對于文字更為直觀。時空數據是指帶有地理位置與時間標簽的數據,是一類與時間密切相關的高維數據,需將各屬性在時間上的規律進行可視化。Charles[18]在19世紀利用國家地理位置和從法國出口到世界各地的葡萄酒的數量,設計了顯示葡萄酒出口數量走勢的地圖。
本文結合上述工作,選用以下可視化方法:(1)選用最傳統的節點-鏈接可視化方式但其空間利用率較高的縮進圖來展示屬性分類后的層次結構;(2)因視覺隱喻的方式傳遞信息效果比文字更為顯著,選用圖標與散點圖結合方式來表示屬性間的相關性同時傳遞分類信息;(3)因平行坐標可擴展性強,為其添加軸選取操作來實現對多個或特定的國家進行多種屬性的關聯對比。
本文數據來源于World Bank,其中包含拉丁美洲及加勒比地區17個國家在內的1960年到2016年的數據,且每個國家包含1 441個屬性,如:耕地(公頃數)、PPG、IDA(DOD,現價美元)等,是典型的高維多元數據。
拉美研究人員在面對大量的屬性時,使用傳統的數據統計方法并不能區分出重要的屬性,因此提出以下需求:分析某一具體問題,例如環境、經濟等,篩選出相關屬性的任務相對繁重,希望能快速找到同種類的屬性;分析拉美國家經濟變化問題的時候,希望能同時對多個國家多個屬性值進行關聯對比并觀察其時變信息;希望能直觀感受各國的經濟隨時間的發展變化。綜上所述,可視化任務需求如下:
T1:展示全部屬性的層次結構和屬性間的相關性,以供用戶發現并篩選出興趣子空間;
T2:展示興趣子空間上各國降維后的聚類特征;
T3:展示多個或特定國家多屬性的關聯對比;
T4:展示特定成員國多屬性的時變演化規律。
本文提出的可視分析流程如圖1所示。首先對拉美數據屬性的層次結構進行全面瀏覽,對數據有初步認識;接著在屬性投影中分析屬性間的相關性,根據需求發現對應的相關元,將其組成稱之為興趣子空間,并快速地篩選重構出新的局部子空間;接著在局部子空間中對拉美國家進行降維投影,進入數據抽象化的瀏覽和探索;最后利用地理空間位置、多屬性的時序變化和指標排名變化可以實現多對象多屬性的時序變化和關聯對比,對降維結果和屬性投影進行輔助驗證,進入數據具體化的探尋和分析階段。

圖1 可視化任務和分析流程Fig.1 Visualization task and analysis flow chart
系統的整體框架如圖2所示。系統由數據預處理模塊、算法模型和可視化界面組成。數據預處理模塊是指對原始數據進行整理、清洗、篩選和規范化等處理。算法模塊中首先利用文本分類將拉美數據的屬性轉化成層次結構,接著利用子空間分析屬性間的相關性。可視化界面通過多視圖協調來展示拉美數據多個國家和多屬性之間的關聯對比和時變規律,配合交互使用戶從多個角度深層次探尋拉丁美洲國家數據。

圖2 系統框圖Fig.2 System block diagram
3.2.1 數據預處理
原始拉美數據規模較大,信息雜亂無序,數據對象獨立存在,且常伴有稀疏特征及時變的性質,故單純利用均值填充對原始數據填充會使結果準確性降低。本文運用完整數據的期望最大化來推算每條數據對象的缺失值,處理成標準的數據格式方便后續分析使用。
3.2.2 轉化層次數據
利用文本分類對拉美數據的屬性進行分類,主要過程為:首先利用TextRank對屬性提取分類的關鍵詞,公式為:

其中,WS(vi)表示每個單詞的TextRank值,d為阻尼系數,一般設置在0.85。In(vj)指在單詞i前面的單詞集合,Out(vj)指在單詞i后面的單詞集合。基于公式(1)計算出每個單詞的重要性,最重要的若干詞為關鍵詞。
由關鍵詞和詞頻大于閾值的名詞生成類核心詞CoreWord(Cj)={w1,w2,…,wn},再將每條屬性下的屬性名稱、屬性介紹、屬性來源提取出合并為一個文本文檔,對其進行特征提取和特征值計算后建立文本向量空間模型[12]。

式中,Score為衡量選出類核心詞與單個屬性文本向量的重要程度的打分函數,Cj為類核心詞CoreWord的集合,a,b為權重,a+b=1,V(Ti,Cj)為文本Ti屬于Cj的影響值,若共有m個類別,則重要的類別為:

3.2.3 子空間分析
拉美數據集蘊含著多重信息,而僅靠人工分析耗費人力資源,因此需要借助子空間分析屬性間相關性,即提供對屬性分布態勢的宏觀瀏覽,也為用戶探索興趣子空間提供憑證。將拉美數據集的n個國家表示成X=(x1,x2,…,xn)和每個國家的m個屬性表示成Y=(y1,y2,…,ym)構成一個n×m的矩陣。運用KNN-Pearson[14]來計算出屬性間的距離,先利用KNN算出國家xn在某個維度ym上最近的各點的距離d(n,m),由式(4)得到國家xn在某個維度ym上的密度,任意2個屬性yj和yh間的距離公式如式(5)所示。

將式(5)構造出的距離矩陣利用多維尺度變換,在二維空間重構其歐幾里得坐標進行降維投影,使其保持與原始維度空間的大體匹配來表示屬性間的相似性。
可視系統總覽圖見圖3,主要包括七大主要交互視圖:整體維度視圖(a)、屬性投影視圖(b)、數據對象降維投影視圖(c)、地理空間位置(d)、指標排名視圖(e)、個體詳情視圖(f)、多對象關聯對比視圖(g)。
經預處理后的數據通過關鍵詞提取和分類后,轉化成層次結構,對劃分出的新類別用不同的圖標隱喻其含義,如圖4所示,本文數據處理后最后分為以下七類:Agriculture,Development,Economics,Eucation,Environment,People,Resources。整體維度視圖如圖3(a)所示,利用縮進樹來展示分類以后的屬性,使分析者能瀏覽整個屬性的層次結構,并且能快速篩選出特定屬性,后續的屬性投影視圖也可作為本部分層級結構分類結果的驗證。

圖3 系統概覽Fig.3 System overview

圖4 圖標設計Fig.4 Icon design
屬性投影視圖如圖3(b)所示。經過層次結構劃分后,數據的每條屬性都可根據其所屬的類別抽象為特征元,在投影視圖中用散點圖和圖標隱喻結合的方法展現了屬性的分布態勢,系統地為用戶發現興趣子空間提供參考。根據已分好的7類,樣本的每條屬性用不同圖標表示在散點圖中,并將直接反映國家經濟情況的GDP和GINI單獨標注,可以直觀地分析拉美國家經濟狀況與財政收入、教育水平、利民措施、能源短缺和人口組成等指標隨時間變化的關聯性,從多個指標的角度全面探尋拉美一體化發展特性,對拉美國家制定更完善的經濟政策和扶貧政策有重要意義。
如圖3(c)所示,數據對象降維投影視圖顯示了拉美國家對象在局部子空間下的降維結果,避免了直接對高維數據降維后造成的特征丟失等問題,用戶也可自定義探尋篩選出新的子空間,通過多維尺度來分析數據對象降維后的聚類特征。
如圖3(f)所示,個體詳情視圖用來展示拉美各國多屬性的時變信息,用戶可通過縮進樹圖選擇4個屬性,極軸上則對應分為n段,平面上的圓弧長順時針表示年份的變化,左下角的顏色由白色到紅色編碼范圍從0到30,表示數據值從低到高的變化,利用滑塊可自定義篩選編碼范圍內的數據。
如圖3(g)所示,多對象關聯對比視圖利用平行坐標來同時分析拉美各國和多個屬性之間的關系。軸上折線的顏色與地圖中國家顏色相對應。另外,在傳統的平行坐標上增添刷選取功能,并且提供3種刷選取來展現特定國家間的關聯對比,分別為:單軸選取、多軸選取、掃弦選取。單軸選取是將鼠標在軸上的拖選范圍進行高亮顯示,每條軸上只能選取一次;多軸選取可以在一條軸上執行多個范圍的軸選擇;掃弦選取相對于單軸選取和多軸選取更為靈活,鼠標作用范圍是在軸與軸之間,可以由鼠標自由任意角度選取,當樣本數據聚集時,用掃弦選取更為方便。
如圖3(e)所示,排名視圖基于柱狀圖展示了各國GDP和GINI隨年份的排名變化,圖中每個柱狀圖的顏色與地圖中國家顏色相對應。GDP指國內生產總值,是從生產角度衡量國家在一定時間內創造的物質財富,代表國家的競爭力。GINI指數指一個國家和地區的財富分配狀況,指數值在0到1之間,數值越低表明財富在社會成員之間的分配越均勻,反之亦然。一般把0.40作為收入分配差距的界限,可以看到拉美國家的GINI在0.40~0.59之間。聯合國開發計劃署等組織規定GINI在此區間屬于財富差距較大,比較容易出現社會動蕩問題。本文用GDP和GINI作為拉美國家經濟變化的綜合指標,可以看到各國的經濟隨時間的排名變化。
經過對拉美數據屬性的分類,圖3(a)中可瀏覽整個屬性的層次結構,圖5和圖6顯示了1973年和2015年拉美國家屬性投影的分布態勢。MDS視圖的軸本身無意義,要靠分析人員的經驗和主觀判斷其中的文本標簽才能給出定義,但本研究運用視覺隱喻方法可加快分析員對坐標軸定義。例如:1973年y軸上教育的屬性較多,即可從教育方面來定義y軸,分析得到上方為教育水平高的,如科技期刊文章、專利申請等,下方為教育水平低的,如失業人口、失學率等;在水平方向人口的屬性較多即從人口方

圖5 1973年屬性投影Fig.5 Attribute projection in 1973

圖6 2015年屬性投影Fig.6 Attribute projection in 2015
將1973年和2015年的貧困因子作為新的子空間來展示拉美各組織成員國降維后的聚類特征和關聯對比,如圖7所示。1973年Cuba,Guatemala明顯偏離,Costa Rica,Guyana次偏離,與其他國家在這些屬性上最不相似。Cuba,Guatemala在大城市群和衛生外部資源上與其他國家差異巨大,均成較低水平,其都屬于大城市群較少且人口密度多的國家;Costa Rica和Guyana有較少的大城市群,且Guyana人口密度、城市人口也較低。圖3(e)中1973年Cuba面來定義x軸,左邊為削弱居民生活水平因素,如自付醫療開支、在職兒童、無薪家庭工人等,右邊為改善居民生活水平因素,如可再生內源淡水資源、國際旅游收入、醫療衛生開支等。2015年軸上的屬性多是關于發展,即從發展方面定義y軸,分析得到上方為國民生產層面對經濟所做的措施,如工業就業、工資及受薪工人總數,下方為國家政府層面所做的措施,如衛生外部資源、衛生支出總額、公共衛生支出;x軸上人口屬性最多,所以從人口方面來定義,左邊為貧窮階層人口,如居住在貧民窟的人口、農村人口、失業人口,右邊為非貧窮階層人口,如人口100萬以上的城市群、大城市人口。分析可知,與拉美一體化區域的經濟水平相關由教育水平低和削弱居民生活水平的因素變成國家政府層面和非貧困人口階層影響的因素,可推斷拉美一體化區域發展趨勢從教育水平低和居民生活條件差變成有社會保障和受貧困階層影響,可看出經濟與教育水平、生活條件、社會保障均相關,這也正如文獻[3]中提出對國家貧困性要從多個角度定義,貨幣收入不再是衡量貧困的唯一標準,而是受多個維度相互影響。經濟高于Guatemala,Costa Rica經濟高于Guyana,但Costa Rica的GINI要低于Guyana,說明Costa Rica相對于Guyana地區財富分配要均勻。結合圖3(d),這4個國家國土面積都小,可推斷:對于小面積國家,大城市群和城市人口對經濟有重要影響。GDP的排名也可看出1973年各國經濟跟城市人口和人口密度有重要關系,其中排名靠前的Argentina,Mexico和Brazil在國土面積上也是靠前的,可推測出國家經濟跟國土面積也有一定關系。

圖7 1973年和2015各國在貧困因子維度下的聚類特征和關聯對比Fig.7 Clustering characteristics and correlation comparison of countries in poverty factor dimension in 1973 and 2015
2015年Mexico和Brazil最偏離集群,利用軸刷在平行坐標中將兩個國家單獨選擇出來,可以看到兩國公共醫療開支、國際旅游人數到達都呈較低水平,自付醫療開支、教育開支呈較高水平;結合排名視圖看到Mexico的GDP排名第一,但Brazil的GINI遠遠高于Mexico,Brazil相對于Mexico國內財富分配極其不均勻,可知國土面積大小對國家GDP有著重要影響,且隨著時間的變化對國家經濟的影響不再全關乎城市人口,而是跟衛生改善、醫療保障、旅游收入和教育多個角度有關聯。
綜上所述,拉美一體化經濟在較早的時候跟國土面積等相關,但隨著時間的變化,拉美一體化經濟與教育、環境、發展、資源和人口等多個維度均有關系,所以拉美一體化發展形式復雜。
巴西城市化發展進程如圖8所示。Brazil在1960年至2016年城市人口增長率呈從低到高再逐漸減緩的變化趨勢,農村人口增長率由高逐步降低并呈負增長,非正規就業人口由高變低,工業就業和服務業人口呈增加趨勢,大城市數量增長從緩慢變高到急劇下降,城市貧民窟人口呈中等程度。

圖8 巴西城市化進程Fig.8 Urbanization in Brazil
Brazil城市化進程特點同文獻[4]描述基本一致。可以將Brazil的城市化進程分為兩個階段:(1)1960-1980年呈城市化快速推進階段,此階段農村人口增速降低,城市人口增速加快,非正規就業人口轉化為工業和服務業人口,由于大量人口向城市涌進導致大城市數量增加;(2)1980-2016年基本完成城市化進程,此階段城市人口增速變緩,農村人口增速呈負增長,大城市數量變少,中心城市規模變大。
從失業率、貧窮、不平等、失學等社會經濟的屬性來觀察拉美各國經濟的發展。
如圖9所示,Argentina的貧困人口呈低水平,失業、失學、艾滋病感染率和貧困差距呈穩步下降的趨勢。Bolivia的貧困人口、失業、失學呈一個比較高的狀態,但貧困人口隨艾滋病感染率的減小而降低,其貧困差距則一直變化。Brazil,Colombia,Ecuador,Mexico,Paraguay貧困比例均從高水平降低,Bolivia,Colombia,Brazil,Uryguay國家失業人口處于較高水平。Brazil失學兒童、貧困差距、未成年生育率均呈較高水平,GINI排名也靠前,可知Brazil國內發展極不均勻。

圖9 拉美各國的經濟發展Fig.9 Economic development in Latin America
通過分析可以得出:自拉美一體化以來,拉美各國社會經濟均不同步,并未實現理想的一體化,而是在不同的內外因下朝著振興各國經濟、脫離貧窮的共同目標發展且呈多層次的發展特性。
為了驗證系統的有效性,邀請了拉美研究院工作人員對本文工作進行了初步評估,收集和整理專家們的反饋意見,總結如下:(1)系統功能:整個可視化系統的設計新穎有意義。該系統能瀏覽數據整個維度空間以及其中明朗的層次結構,可同時分析屬性間的相關性和局部維度空間下數據對象的降維態勢,能對研究員提供對數據更全面的認識和研究手段,使其做出更具科學性的決策,而不僅僅再依靠經驗。(2)可視化技術:可視化的設計基本實現可視化的設計目標。在可視化過程中,可依靠屬性相關性對數據進行探索,也可添加人的決策判斷,這種可視化的設計對拉美國家數據的研究非常有用。在可視化表達上,專家給出了肯定并發表如下評論:“該研究過程非常有趣且有一定的意義”“能在一種視圖上同時看到多個屬性時變信息的方式很有效率”“數據的展示模式很新穎”等。(3)交互技術:專家認為個體詳情視圖和多對象關聯視圖是一組很好的設計模塊,可進行從整體到個體對國家間的關聯對比以及多個屬性的時序變化趨勢分析,但層次化后的屬性篩選仍存在一定的認知負荷以及消耗掉較長的時間,在這方面還需要進一步優化。
拉美數據屬性過多,耗費大量人力資源,若直接對其屬性降維則會被噪聲干擾而無法有效揭示信息,本文提出利用層次數據劃分和子空間分析相結合的可視分析流程來分析拉美一體化的發展特性。該方法首先對屬性進行分類并用圖標表示,使得分析員更深刻理解數據并快速篩選屬性,提高效率;利用子空間分析屬性間相關性來發現興趣子空間,結合視覺隱喻,使得其投影結果能更為直觀,更易理解;結合可視化技術和交互技術實現了多對象的關聯對比以及多屬性的時變信息展示。
在本研究的基礎上,未來將從以下幾個方面進行進一步研究和改進。首先,利用查詢算法使得研究員快速查詢屬性,提高效率。其次,本文為了節省空間采用的是最傳統的縮進樹來展示數據的層次結構,未來應同時考慮空間利用率和層次數據可視化創新,例如樹圖。最后,希望能針對目標進行重要性分析,篩選出所需的屬性,從而減輕研究員的分析任務。