史國舉
(畢節廣播電視大學,貴州 畢節 551700)
在大數據時代,結構化、非結構化和半結構化數據無處不在并呈幾何級數增長,潛在價值巨大,被譽為未來新石油。各行各業發揮各自領域的專業優勢,不斷增加對大數據應用的投入。數字化轉型已成為行業發展的迫切需要,數據可視化的需求呈現爆發式增長,將數據轉化為圖形。其出乎意料的洞察力讓用戶能更直觀快速地看到相應的信息,能夠對數據有更全面的了解,數據可視化成為一種必然趨勢。
數據可視化的發展歷史久遠,最早可追溯至遠古時代。1800年前,為了繪制海上主要風向的箭頭圖和天氣圖,人們開始嘗試用含有等高線的地磁圖來繪制海上風向和天氣圖。柱形圖和折線圖于18世紀首次被William Playfair用來表示一個國家的進出口量。“可視化”一詞來源于美國,可以追溯到20世紀50年代計算機圖形學的早期。那時,人們用電腦制作出第一批圖形圖表。1987年,NSF(美國國家科學基金會)的《科學計算中的視覺化》把可視化首次作為一種組織性的次領域提出來,認為可視化是一種能夠處理大量科學數據集的工具,能夠提高科學家們從數據中發現現象的能力。20世紀90年代初,一個被稱為“信息可視化”的新研究領域誕生,旨在為許多應用領域對于抽象的異質性數據集的分析工作提供支持。同時,我國科研人員已經在可視化領域付出了極大的努力,為各個領域應用數據可視化奠定了堅實的基礎[1]。
周寧[2]在《信息資源可視化模型方法》中指出:我們在觀察世界的時候,往往會運用許多不同的視覺線索。研究表明,大多數視覺信號處理過程都發生在大腦的潛意識階段。可視化是人的思維認知的強化過程,即人的大腦通過人眼觀察某個特定圖形和圖像,從而感知到某個抽象的事物,這一過程是一個強化認知的過程。幫助人們理解事物的規律是數據可視化的最終目的,而繪制的可視化結果只是直觀的過程表現。因此,在計算機領域,可視化(Visualization)技術是一種利用計算機圖形學和圖像處理技術,將數據轉換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術,旨在借助圖形化的手段,以更明確地、有效地傳遞信息,從而達到“百聞不如一見”“一圖勝千言”的效果。
數據分析是把隱藏在一大批看似雜亂無章的數據背后的信息集中和提煉出來,總結出研究對象的內在規律,經歷明確目的和思路、數據收集、數據處理、數據分析、數據可視化、報告撰寫的過程。如果把數據分析看作一個數學問題,數據可視化就是數據分析的子集,數據分析包括了數據可視化。
在大數據時代,一款好的工具能讓你事半功倍,讓用戶快速掌握信息的關鍵點,幫助他們做出更好、更明智的決策。常言道:“工欲善其事,必先利其器”。
由Excel衍生而來的Power BI,整合了Excel Power Query,Power Pivot,Power View和Power Map等一系列工具,堪稱微軟第二次偉大的發明,采用(Data Analysis Expression)數據分析表達式,它使得不懂編程但具備數據分析能力和商業直覺的分析人員能夠便捷而快速地提取、清理和整合各種數據源(mysql,Salesforce等),并創建復雜動態圖形和儀表,堪稱自助式BI 商務智能,是IT傻瓜化和數據分析的完美結合。
Tableau是一款完全的數據可視化軟件,專注于結構化數據的快速可視化,使用者可以快速地實現數據可視化并構建交互界面,只需將數據直接拖放到工具簿中,通過一些簡單的設置就可以獲得想要的可視化圖形,其核心是數據可視化技術,具有獨創的VizQL數據庫和用戶體驗良好且易用的表現形式,是一個人人都能學會的敏捷商務智能工具。
作為一種商業級別的數據圖表,ECharts是一個開放源代碼的數據可視化工具,可用于PC端和移動端的大多數瀏覽器,它由JavaScript實現,底層依靠輕量級矢量圖形庫 ZRender,具有豐富的可視化類型,支持多種數據格式,具有流暢性強的數據前端顯示、動態數據的動畫顯示、更強大的三維可視化,支持跨平臺應用,有數據深度探索和無障礙訪問功能,并提供了多種可視化圖表,支持定制,易于使用,輕松滿足數據大屏、智慧城市、VR、AR等高品質展示需求[3]。
Python語言強大而靈活,并有很強的擴展性,而且其語法相對簡單易懂,即使沒有編程基礎的普通辦公人員也能通過適當的學習輕松掌握,被稱為“膠水語言”。Pyecharts和Plotly模塊是Python數據可視化中的兩個重要工具。Pyecharts在Python和ECharts之間架起了一座橋梁,讓 Python用戶也可以使用 ECharts的強大功能。Plotly是新一代Python繪圖模塊的王者之選,也是各種Web平臺的優先選擇繪圖模塊。
早期的大多數與醫療相關的數據都是紙面形式,而非電子數據存儲,例如官方醫藥記錄、收費記錄、護士的手寫病例記錄、處方藥記錄、X光片記錄、磁共振成像(MRI)記錄、CT影像記錄等。醫學大數據主要有兩個方面:一是發現新知識,認識新規律;二是促進適度醫療,提升醫療的價值。從Google預測流感到如今的循證醫學、基因組分析、預判欺詐分析、設備/遠程監控、病人資料分析等都是醫療大數據的應用,能幫助病人實現疾病的智能化管理,實現數據智能的綠色醫療新生態。
交通擁堵成為人們十分關注的問題。有不同的解決方法解決交通擁擠的問題。大數據為解決交通擁堵問題提供了全新的思路。積極運用大數據技術治理交通擁堵,以交通物聯網、 GIS等技術為支撐,積極構建完善的交通運輸體系,采集各類交通設施基礎數據。深圳利用大數據技術治理交通擁堵的舉措給其他城市提供了借鑒意義[4]。
當人們網購的時候,就產生了電商大數據;而隨著商業信息和數據的激增,電商企業必須依賴于大數據技術來幫助管理者做出科學、合理的決策,以提高其競爭優勢。電商行業大數據的應用包括精準營銷、個性化服務、商品個性化推薦等方面。
大數據時代對可視化技術的需求越來越高。數據信息更新及發展速度之快,要求可視化技術能即時產生數據關聯。面對日益繁雜的數據,常規的可視化方法已經顯得力不從心,甚至無法對數據進行及時有效的處理。因此,大數據時代的到來對數據可視化的發展既是機遇也是挑戰,研究人員需要不斷創新,才能滿足日益擴大的需求。具體包括以下方面。
(1)數據量龐大,超出了單機、外存模型甚至小型計算集群的處理能力極限,而目前的軟件和工具運行效率不高,需要探索全新的思路來解決這個問題。(2)在數據獲取和分析過程中,容易產生數據質量問題,需要對數據的不確定性給予特別關注。(3)數據變化很快,常常是流式數據,務必尋找流數據的實時分析和可視化方法。(4)面對復雜的高維數據,目前的軟件系統的功能主要是統計和基本分析,缺乏分析能力。(5)多源數據的類型和結構各不相同,現有方法很難滿足非結構化、異構數據的處理需求[5]。
數據可視化技術是在大數據時代的背景下出現的,目的是讓人們可以更方便地享受數據帶來的成果。在以計算機圖形繪制為基礎的傳統可視化技術上,隨著計算機技術、數據圖像處理技術和其他主流智能技術的發展,數據可視化技術已取得了一定的發展成果。但隨著數據規模的不斷擴大,數據種類的不斷增加,以及用戶對數據讀取的需求日益增加,現有的可視化技術已經變得力不從心,人們需要繼續研究新的可視化技術,以適應社會發展的步伐。