盧弘杰

摘要:以當(dāng)前我們對人腦思維和認(rèn)知的了解,抽象思維與形象思維是我們聯(lián)系一切事物的根本。在計(jì)算機(jī)技術(shù)日益成熟的今天,大數(shù)據(jù)可視化是當(dāng)代最為熱門的話題之一,隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)可視化技術(shù)與可視分析已逐漸成為科學(xué)發(fā)現(xiàn)與創(chuàng)新的重要方式。如何滿足用戶的應(yīng)用需求,如何通過探索、研究和設(shè)計(jì)新的技術(shù)去引領(lǐng)人們的應(yīng)用意識(shí),是每一位從事相關(guān)內(nèi)容研究工作人員需要深刻思考的問題。本文將對大數(shù)據(jù)可視化與可視分析進(jìn)行論述。
關(guān)鍵詞:計(jì)算機(jī)技術(shù);大數(shù)據(jù);可視化
中圖分類號:TP311? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號:1009-3044(2021)08-0027-03
1 數(shù)據(jù)可視化簡述
關(guān)于數(shù)據(jù)可視化的定義有很多,通常我們在大數(shù)據(jù)分析應(yīng)用中所提到的可視化是指,利用包括圖像和人機(jī)交互等在內(nèi)的計(jì)算機(jī)技術(shù),將已被采集的和需要被模擬的數(shù)據(jù)映射為更加直觀的、滿足人們需要的圖形和圖像。所以我們認(rèn)為,“可視化”就是將人們感興趣的信息數(shù)據(jù)轉(zhuǎn)化為更加便于人們欣賞的圖式化過程。顯然更加側(cè)重人對數(shù)據(jù)、信息和知識(shí)自上而下的加工處理過程。相對于繁雜的數(shù)據(jù),圖表不僅能更加簡潔地表述信息,還適用于大量信息的描繪,即對大量數(shù)據(jù)的承載。這也是數(shù)據(jù)可視化成為大數(shù)據(jù)分析工具不可或缺的功能模塊的主要原因。
數(shù)據(jù)可視化包含三個(gè)分支,科學(xué)可視化、信息可視化和可視分析,其中可視分析是本文主要所討論的一個(gè)分支。可視分析是隨著人工智能的興起而出現(xiàn)的一個(gè)新學(xué)科,它被定義為由可視交互界面為基礎(chǔ)的分析推理科學(xué),將圖形學(xué)、數(shù)據(jù)挖掘、人機(jī)交互等技術(shù)融合在一起,形成人腦智能和機(jī)器智能優(yōu)勢互補(bǔ)和相互提升。
2 大數(shù)據(jù)可視化分析方法
2.1原位交互分析技術(shù)
所謂原位交互分析是指,對那些存在于內(nèi)存的大量數(shù)據(jù)進(jìn)行可視化分析。運(yùn)用此項(xiàng)技術(shù)對數(shù)據(jù)進(jìn)行分析的主要原因在于,當(dāng)面對體量非常龐大的數(shù)據(jù)時(shí),特別是PB量級以上的數(shù)據(jù),將數(shù)據(jù)存入磁盤后再進(jìn)行分析是極為不合適的,這會(huì)大幅度增加I/O的開銷,而在數(shù)據(jù)還在內(nèi)存時(shí)就進(jìn)行可視化分析,則有助于我們實(shí)現(xiàn)數(shù)據(jù)使用與磁盤讀取比例的最大化。但在應(yīng)用此項(xiàng)技術(shù)進(jìn)行數(shù)據(jù)可視化分析時(shí)也容易出現(xiàn)一些問題,比如由人機(jī)交互減少而引起流程中斷和因硬件執(zhí)行單元不能高效共享處理器而導(dǎo)致的流程中斷。
2.2大數(shù)據(jù)存儲(chǔ)技術(shù)
大數(shù)據(jù)存儲(chǔ)技術(shù)是在云服務(wù)的之后出現(xiàn)的,它主要是為解決云服務(wù)無法解決的問題而存在的,比如對EB量級的超大規(guī)模數(shù)據(jù)應(yīng)用。大型企業(yè)之所以會(huì)癡迷于新技術(shù)的研發(fā)與應(yīng)用,主要與數(shù)據(jù)的存儲(chǔ)成本有關(guān),起碼到目前為止,私有集群中的硬盤存儲(chǔ)成本還明顯低于每千兆字節(jié)的云存儲(chǔ)成本。而另一方面,基于云端數(shù)據(jù)庫的數(shù)據(jù)傳輸始終會(huì)受到網(wǎng)絡(luò)帶寬的制約,這也就進(jìn)一步堅(jiān)定了人們應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)數(shù)據(jù)可視化的信念。
2.3可視化分析算法
在大數(shù)據(jù)可視化算法方面,我們不僅要考慮可視化數(shù)據(jù)的規(guī)模,還需要注意到視覺感知的高效算法,比如增加和創(chuàng)新視覺表現(xiàn)方式和與用戶交互的方法。同時(shí),為了滿足使用者的喜好與需求,可視化還必須需要高度的輸出適應(yīng)性,以實(shí)現(xiàn)自動(dòng)學(xué)習(xí)算法與需要的有機(jī)結(jié)合,這會(huì)在一定程度上增加控制參數(shù)搜索空間,在降低探索難度和減少數(shù)據(jù)分析成本的同時(shí),也減少了搜索的時(shí)間。
2.4不確定性的量化
一般情況下,為滿足數(shù)據(jù)分析的實(shí)時(shí)性要求,我們會(huì)在數(shù)據(jù)分析任務(wù)中引入數(shù)據(jù)亞采樣,但這也增加更多不確定性,并且隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,直接處理整個(gè)數(shù)據(jù)集的能力也將受到很大限制。所以,對不確定性因素和元素的量化已成為科學(xué)工程領(lǐng)域里所要研究的重要問題之一。可視化技術(shù)可以為用戶提供更加直觀的不確定性因素視圖,使用戶能夠更加直觀地去了解已存在的這些“不確定性”,增加了用戶選擇正確參數(shù)的概率,降低了誤導(dǎo)性結(jié)果產(chǎn)生的概率。
2.5并行計(jì)算
并行計(jì)算針對可視計(jì)算需要占用大量時(shí)間所提出的一種概念,它有助于我們實(shí)現(xiàn)數(shù)據(jù)分析的實(shí)時(shí)交互。并行計(jì)算的實(shí)現(xiàn),有效減少了整個(gè)體系結(jié)構(gòu)中單個(gè)核心所占有的內(nèi)存量,提升了系統(tǒng)內(nèi)的數(shù)據(jù)移動(dòng)效率。但需要指出的是,若想充分發(fā)揮并行計(jì)算的優(yōu)勢,最大限度實(shí)現(xiàn)它所具有的功能,需要我們重新去設(shè)計(jì)可視化分析算法,重設(shè)計(jì)數(shù)據(jù)模型,必要時(shí),還需要引入具有很強(qiáng)創(chuàng)新性的視覺表現(xiàn)手法和用戶交互手段。
2.6用戶界面與交互設(shè)計(jì)
隨著大數(shù)據(jù)可視化技術(shù)的不斷發(fā)展和應(yīng)用,那些缺少最后可擴(kuò)展性的可視化分析算法設(shè)計(jì)理念逐漸被淘汰掉了,與之相對應(yīng)的,那些復(fù)雜算法和不易輸出簡明結(jié)果的算法也不再被用戶使用,取而代之的是高度人性化的人際交互設(shè)計(jì)理念。因此在大數(shù)據(jù)的可視化分析中,用戶界面與交互設(shè)計(jì)成為當(dāng)前人們所研究的重點(diǎn),新的理念設(shè)計(jì)需要考慮的問題有:用戶驅(qū)動(dòng)的數(shù)據(jù)簡化、可擴(kuò)展性與多級層次、異構(gòu)數(shù)據(jù)融合、交互查詢中的數(shù)據(jù)概要與分流、表示證據(jù)和不確定性、時(shí)變特征分析、設(shè)計(jì)與工程開發(fā)等。
3大數(shù)據(jù)可視化分析案例
大數(shù)據(jù)網(wǎng)絡(luò)安全的可視化設(shè)計(jì):
在白環(huán)境蟲圖可視化分析設(shè)計(jì)中,雖然數(shù)據(jù)量大大增加了,但用戶的理解程度卻提高了。用蟲圖對數(shù)據(jù)進(jìn)行可視化分析的主要目的是監(jiān)測訪問內(nèi)網(wǎng)核心服務(wù)器的異常流量,整體的圖形結(jié)構(gòu)將圍繞內(nèi)網(wǎng)資產(chǎn)和訪問關(guān)系這兩個(gè)核心點(diǎn)來展開布局(如圖1)。
根據(jù)以往的經(jīng)驗(yàn),帶有關(guān)系的數(shù)據(jù)一般使用和弦圖和力導(dǎo)向布局圖。最初我們采用的是和弦圖,圓點(diǎn)內(nèi)部是主機(jī),用戶要通過3個(gè)維度去尋找事件的關(guān)聯(lián)。通過測試發(fā)現(xiàn),用戶很難理解,因此選擇了力導(dǎo)向布局圖(蟲圖)。圖1中的第一個(gè)層級所展示的是全局關(guān)系,第二個(gè)層級是通過對IP或端口的鉆取進(jìn)一步展現(xiàn)相關(guān)性。
在優(yōu)化圖形環(huán)節(jié),我們對去多地方都做了進(jìn)一步調(diào)整,比如考慮用戶對圖形元素疏密程度的適應(yīng)性,只將TOP N展示出來;元素風(fēng)格與界面風(fēng)格保持一致;IP名稱超長時(shí)所省略處理;在交互方面,通過單擊鉆取到單個(gè)端口和IP的信息;鼠標(biāo)滑過時(shí)相關(guān)信息高亮展示,這樣既能讓畫面更加炫酷,又能讓人方便地識(shí)別。
在檢測環(huán)節(jié),通過調(diào)研,用戶對企業(yè)內(nèi)部的流向非常清楚,視覺導(dǎo)向清晰,鉆取信息方便,色彩、動(dòng)效等細(xì)節(jié)的優(yōu)化幫助用戶快速定位問題,提升了安全運(yùn)維效率。
4 大數(shù)據(jù)可視化所面臨的挑戰(zhàn)
隨著大數(shù)據(jù)可視化技術(shù)的不斷成熟,人們對它的使用也越來越廣泛,過程中自然也就會(huì)產(chǎn)生一系列問題。
1) 視覺噪聲
相關(guān)性極強(qiáng)的數(shù)據(jù)無法被分離成獨(dú)立的對象來顯示。
2) 信息丟失
在減少可視數(shù)據(jù)集的過程中,經(jīng)常會(huì)丟失很多信息。
3) 大型圖像感知
數(shù)據(jù)可視化不僅受限于設(shè)備的長度比及分辨率,也受限于現(xiàn)實(shí)世界的感受。
4) 高速圖像變換
大數(shù)據(jù)可視化帶給用戶的感受是直觀的,但過于快速的圖像變換則會(huì)導(dǎo)致用戶無法對數(shù)據(jù)強(qiáng)度的變化做出反應(yīng)。
5) 高性能要求
在靜態(tài)可視化中,設(shè)備性能優(yōu)勢體現(xiàn)的不算明顯,因此我們常常會(huì)忽略掉它們對可視化效果的影響,但在動(dòng)態(tài)可視化中,對性能的要求就會(huì)比較高,一旦滿足不了動(dòng)態(tài)可視化的要求,或者無法呈現(xiàn)出較高質(zhì)量的效果,那么設(shè)備缺陷就會(huì)暴露無遺。
除上述內(nèi)容外,可感知交互的擴(kuò)展性也是大數(shù)據(jù)可視化面臨的重要挑戰(zhàn),在大規(guī)模數(shù)據(jù)庫中查詢數(shù)據(jù),會(huì)有很大概率產(chǎn)生高延遲,從而降低交互率。在多方面因素的限制下,人機(jī)互動(dòng)下的大數(shù)據(jù)可視化將是未來可預(yù)見的重要挑戰(zhàn)之一。
5大數(shù)據(jù)可視化技術(shù)的發(fā)展方向
5.1 可視化技術(shù)聯(lián)系數(shù)據(jù)挖掘
表面上看,大數(shù)據(jù)可視化與數(shù)據(jù)挖掘相類似,甚至?xí)屓水a(chǎn)生一種錯(cuò)覺,即可視化技術(shù)就是數(shù)據(jù)挖掘,理由是,數(shù)學(xué)可視分析和數(shù)據(jù)挖掘的目標(biāo)都是從數(shù)據(jù)中獲取信息。但事實(shí)上,它們所應(yīng)用的手段是完全不一樣的。數(shù)據(jù)挖掘是利用計(jì)算機(jī)將那些隱藏的數(shù)據(jù)知識(shí)挖掘出來給予用戶,而數(shù)據(jù)可視化分析則是將復(fù)雜、不易觀察的數(shù)據(jù)轉(zhuǎn)換成易于理解的圖形符號,更傾向于探索性地分析數(shù)據(jù)。兩者的相似點(diǎn)是我們推進(jìn)可視化技術(shù)聯(lián)系數(shù)據(jù)挖掘的基礎(chǔ),不同點(diǎn)則是我們進(jìn)行整合研究的主要?jiǎng)恿Α?/p>
5.2 可視化技術(shù)聯(lián)系人機(jī)交互
我們在研究計(jì)算機(jī)技術(shù)時(shí),主要實(shí)現(xiàn)的內(nèi)容之一就是用戶與數(shù)據(jù)的交互,其目的是要使用戶更好地掌控?cái)?shù)據(jù)。從當(dāng)前各個(gè)科技分支發(fā)展的方向和應(yīng)用情況看,我們還無法真正做到完全掌控?cái)?shù)據(jù),所以,當(dāng)我們在發(fā)展可視化技術(shù)時(shí),在人機(jī)交互層面上取得重要突破,自然也就成為可視化研究的一個(gè)重要方向。
5.3 可視化技術(shù)聯(lián)系大規(guī)模、高緯度、非結(jié)構(gòu)化數(shù)據(jù)
大數(shù)據(jù)時(shí)代下,大規(guī)模和高緯度數(shù)據(jù)層出不窮,而且它們又多是非結(jié)構(gòu)化的,將這樣的數(shù)據(jù)用可視化形式完美地展現(xiàn)出來,其難度可想而知。所以,當(dāng)我們在這樣一個(gè)較為復(fù)雜的時(shí)代環(huán)境下發(fā)展可視化技術(shù)時(shí),就必須想辦法建立與大規(guī)模、高緯度、非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)系,這也就成為我們進(jìn)行可視化技術(shù)研究的一個(gè)重要方向。
6 結(jié)束語
大數(shù)據(jù)可視化與可視分析是一項(xiàng)較為復(fù)雜的研究課題,雖然它所表現(xiàn)出的直接效果看上去很簡單,但在技術(shù)的研究設(shè)計(jì)上既需要工作人員站在用戶的視角,盡可能滿足人們的視覺需求,又要時(shí)刻注意技術(shù)之間的相互作用與聯(lián)系。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與人們需求的日益提高,我們大數(shù)據(jù)可視化技術(shù)還需要進(jìn)行更進(jìn)一步的探究,要做到用新的創(chuàng)意和技術(shù)去引領(lǐng)用戶,而不是僅僅滿足于迎合用戶的實(shí)際需求。
參考文獻(xiàn):
[1] 陳鐳,劉玉,楊琴.高校實(shí)驗(yàn)室大數(shù)據(jù)可視化平臺(tái)研究[J].計(jì)算機(jī)時(shí)代,2020(11):43-46.
[2] 羅浩,汪鵬,趙浩宇.基于醫(yī)療大數(shù)據(jù)的可視化分析與應(yīng)用[J].中國醫(yī)療設(shè)備,2020,35(11):122-124,128.
[3] 陽建中,陳慧蓉,姜愉,等.基于大數(shù)據(jù)的坭興陶產(chǎn)品可視化方案選擇[J].信息技術(shù)與信息化,2020(10):250-252.
[4] 李躍勇.大數(shù)據(jù)分析方法與關(guān)鍵技術(shù)研究[J].產(chǎn)業(yè)創(chuàng)新研究,2020(20):36-37.
[5] 沈雅.常用的大數(shù)據(jù)可視化分析工具[J].計(jì)算機(jī)與網(wǎng)絡(luò),2020,46(20):39.
[6] 李鴻奎,程昭龍,周蕾,等.智能變電站設(shè)備管控大數(shù)據(jù)分析系統(tǒng)研究[J].機(jī)械與電子,2020,38(10):72-76,80.
[7] 楊春波,凌松.基于大數(shù)據(jù)框架的智能電網(wǎng)分析和可視化應(yīng)用[J].電子器件,2020,43(5):1004-1009.
[8] 李天輝.基于python的數(shù)據(jù)分析可視化研究與實(shí)現(xiàn)[J].電子測試,2020(20):78-79.
【通聯(lián)編輯:聞翔軍】