管新云



摘要:1987年,在美國國家科學基金會召開的“科學計算可視化研討會”中首次提出”可視化”。隨著時間的發展,大數據已經成為社會發展的重要生產因素,科學計算可視化已經成為一個十分活躍的研究領域,對數據可視化的研究已經普及到各個行業之中。“We Are Social”和“Hootsuite”發布了2018全球數字報告,報告指出全球互聯網用戶數已突破40億,這意味著全球有一半人口“觸網”。全球76億人中,約2/3已經擁有手機,且超過半數為“智能型”設備,因此人們可以隨時隨地、更加輕松地獲取豐富的互聯網體驗。與此同時,他們變成了龐大的信息數據來源,構建了全球互聯網數據信息資源庫。在處理如此龐大數據量的時候,我們不得不使用各種各樣的分析模型,可視化正是模型分析最主要的表現形式。數據通過圖像展示在決策者眼前,使他們可以更加直觀、清晰了解數據分析的整個過程和結果,讓數據的規律變得有跡可循。
關鍵詞:數據;可視化;計算機;格式塔理論;信息設計;可視化設計
一、視覺的感知與認知
(一)視覺的感知與認知
圖形化的感知必須提前到1912年由韋特海墨(M,Wetheimer)提出的格式塔(Gestalt)理論,也被稱為完形心理學。Gestaltd是音譯詞,意思即是”完形”,格式塔強調的是整體的、有組織的心理學理論體系。人們在觀察事物時,經常會對事物進行感性的分組,實際上單個事物本身并不具有分組的意義。格式塔的意思是感知的事物大于眼睛看到的事物,個體所感知到的對象不是孤立的,而是通過相關的關聯性和其他元素構成了一個整體,局部過程取決整體的內在特性。
格式塔理論的發明者把這些原則分為五類:
(1)Proximity(接近)原則
當物品散落分布的時候,個體各自分布,不會當成一個整體。當這些個體有規律的排列,按照運動規律分布的時候,人眼的目光,自動將它們視做一個整體看待。
在情報信息平臺中,圖1的信息的陳列正是采用了這種規律,相同的信息按照接近原則分組,被放置在同一個區域內的信息自然會被看成一組信息。
(2)Similarity(相似)原則
相似原則指的是,在相同的經驗情況下,當兩個物體看上去比較相似的時候,我們會主動聯想成為同一類事物。這種聯想是根據用戶的以往經驗來進行判斷的,在這種情感認知下,用戶首先看到的是一個形狀,其次才是構成元素。
用詞云建模人物畫像時,正是運用了這種相似原則。首先看到的是一個人物的形象,再去仔細觀察構成人物的形象具體詞匯,研究其中的特質。在數據經過一系列的分析、提取后,在由人物模型把背后的數據抽象展示出來出來,替代為關鍵詞組建一個完整的、可感知的具體人物形象。
(3)Closure(閉合)原則
在人們觀察殘缺圖形時候,會主動將殘缺部分補全,將缺失的一部分也作為一個整體來對待。圖3可見,雖然圖形都有缺失,可是我們仍然能分辨它是一個幾何圖形。
(4)Continuity(連續)原則
在信息平臺中,活動軌跡和區域范圍,視線引導用戶將定位點連接成一個完整路徑。這是因為在觀察連續圖案時,人們的視覺焦點會沿著散點分布形成的連續性曲線而追尋目標方向。當數據量過大時,這種觀察方式會出現誤導,需要借助顏色來區分多軌跡路徑的追尋。
(5)common fate(共勢)原則
當事物按照一定的規律組合排列的時候,人們會根據這種規律將事物自動分組,這種分組方式就是共勢原則。圖6的文字按照字母的形狀進行排練組合,但是用戶的眼睛,第一眼還是觀察到整個單詞和不是具體的一個組成文字。在圖7中,紅色和黑色的原點根據不同的運動軌方向,組成一條運動軌跡。
(二)顏色
在信息設計和視覺設計中,色彩是用來展示信息分類,表達情緒的最重要途徑。
顏色可以代表數據信息,展示數據分類,在多種數據匯聚的展示中,運用顏色來區分信息層級。顏色和形狀結構是最重要的視覺可視化手段,信息界面的展示也是依賴這色彩構成的視覺美感,這都來自于設計者對于色彩和信息的理解與感受。
二、數據可視化的基礎
(一)數據可視化基本流程
數據可視化的處理包括:數據人庫、數據過濾、數據映射、數據繪制。可視化的最終結果是由人機交互共同完成的。數據的人庫是整個流程的開始,界面的交互成果是最終的處理成果。從數據到知識有兩個途徑:交互的可視化方法和自動的數據挖掘方法。兩種結果分別是數據可視化交互和數據可視化建模,這兩種方式,用戶即參與了交互又可以調整數據輸入,獲得不同的結果。
(二)數據可視化中的數據
數據根據可視化展示的數據,主要分為四類:
(1)類別型的數據。例如:根據性別要求,可以將人分為男性和女性;水果可以分為西瓜和香蕉。這種分類可以將事物進行分組,但卻沒有辦法進行數量的統計。西瓜和香蕉分了類,缺不知道西瓜的總量是多少,大小有多少。
(2)序列數據。用1.2.3…來進行排名,1表示西瓜2表示香蕉,1的序列代表西瓜在最靠前以此類推,往下進行排序。這種排序方式可以得到事物的分落序列,但仍無法得出是按照量的多少進行排列,還是按照大小進行排列。
(3)區間型數據。區間型數據可以用來區分數據間的定量比較,比如10°的水和30°水的差距,是與40°與50°一致的,因為他們都是根據一個數據起點值來進行比較。
(4)倍數型的數據。用來進行比例的比較,比如1:2的比例,4是2的倍數,這樣成倍數進行統計。
三、信息平臺中的可視化應用分類
在信息平臺中可視化的應用場景主要有三類:(1)時空數據的可視化應用;(2)地理信息;(3)非時空數據的可視化。非時空數據主要是文字編輯類信息,例如:文本、表格,還有一些跨煤體的數據可視化、還有復雜多元數據的可視化展示。
時間是觀察和研究數據的重要構成因素。根據時間的變化數據隨之改變,這種數據被稱之為時變型數據。時變型數據數量大、變數多,而且種類復雜多樣,分布的范圍也非常的廣泛。時變順序可以作為時變型數據的時間軸變量,時間抽上的每個變量都是針對具體的事件而產生。我們生活在一個三維場景之中,信息數據通常這些數據包括了地理位置信息,還有活動時間信息。時空信息的數據是可視化研究的重要對象,現在移動設備和電子產品的傳感器時刻都在傳輸數據信息,海量的數據匯聚,為數據可視化的研究提供了更多的可能和挑戰。
地理信息數據有一個邏輯層次,比如,北京市是屬于中國,中國有若干個省市,這種層次具有包含關系,主要變現在包含和從屬。這種層次結構是我們理解事物,對世界認知的基礎。信息通過層次展示,有助于我們理解和接納大量多維度、多層次的知識。
文本和文檔信息在人們的工作之中無處不在,郵件、新聞、工作報告等都是日常工作中需要處理的文本信息。文本信息的增長和加快是爆發式的,人們需要有更高效的處理方式,來讓文本閱讀和分析變得簡單。文本信息的處理方式有三部分:文本信息的挖掘、可視化圖形的繪制和人機交互。文本信息的可視化是不具有空間屬性的科學可視化,把沒用空間結構屬性的文本信息轉換為用戶可以接受的二維或者三維空間表達才是文本可視化的研究目的,也是一個極大的挑戰。
四、結語
“數據可視化”是一個十分活躍的研究領域,新的分支也在不斷的衍生,可視化的研究也永不會停止腳步。可視化與應用領域的結合才是對可視化重視,投入到生產工作,使其產生價值的最終方式。多源數據的分析應用,才是推動可視化發展的動力,也為可視化提供了更多的可能,更大的挑戰。希望大家可以重視可視化、多做有用的研究,為可視化的發展提供更多更優秀的展示方式。
參考文獻
[1]We Are Social[EB/OL].2018年全球數字報https://www.useit.com.cn/thread-17902-1-1.html.
[2]唐澤圣,陳為.可視化條目[M].中國計算機大百科全書,2011.
[3]石教英,蔡立文.科學計算機可視化算法系統[M].北京科學出版社,1996.
[4]陳為,沈則潛,陶煜波等[J].數據可視化,2013(12).
[5]崔屹.圖像處理技術與應用[M].電子工業出版社,1997.