999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺論大數(shù)據(jù)時代數(shù)據(jù)可視化技術(shù)對于數(shù)據(jù)分析的價值

2020-03-15 05:49:04吳揚(yáng)楊祎
科海故事博覽·中旬刊 2020年3期

吳揚(yáng) 楊祎

摘 要 數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。數(shù)據(jù)分析的最終目的都是要兜售自己的觀點(diǎn)和結(jié)論的,用最鮮明有效的方式展現(xiàn)出來。在進(jìn)入互聯(lián)網(wǎng)時代,大數(shù)據(jù)給人類提供更多的契機(jī)去挖掘和探索未知的知識領(lǐng)域,與此同時人類也進(jìn)入了一個如何使用好該類資源的關(guān)鍵時間節(jié)點(diǎn)。因?yàn)殡S著大數(shù)據(jù)時代的到來,對數(shù)據(jù)解讀的難度和消息干擾力度也隨之增加。在這樣的背景下,數(shù)據(jù)可視化的重要性日益突顯。依托于認(rèn)知心理學(xué)的可視化技術(shù)是從人類認(rèn)識事物的根本出發(fā)提供數(shù)據(jù)分析的解讀方案,從而從容應(yīng)對了大數(shù)據(jù)時代帶來的部分挑戰(zhàn)及避免數(shù)據(jù)統(tǒng)計(jì)分析陷阱。可視化是一套科學(xué)和美學(xué)融合的解決方案,在未來的發(fā)展中值得期待。

關(guān)鍵詞 數(shù)據(jù)可視化 技術(shù)與設(shè)計(jì) 數(shù)據(jù)解讀

中圖分類號:TN919.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-0745(2020)03-0018-03

在很多城市,私家車的數(shù)量持續(xù)增長而交通并沒有更加擁堵甚至還有所改善的時候,這是因?yàn)樾盘枱艉蛿z像頭除了地理位置以外有了數(shù)據(jù)處理等AI技術(shù)帶來的其他維度的有效地互聯(lián)互通。大數(shù)據(jù)時代的變革讓人受益,在這個時代,人類接觸的幾乎所有事務(wù)都可能轉(zhuǎn)化為數(shù)據(jù)資源。數(shù)據(jù)成為與自然資源、人力資源同樣重要的戰(zhàn)略資源,引起了科技界和企業(yè)界的高度重視。[1]2012年1月,在瑞士小鎮(zhèn)達(dá)沃斯舉辦的世界經(jīng)濟(jì)論壇上大數(shù)據(jù)成為探討的主題之一并發(fā)布報(bào)告“Big data,big impact:New possibilities for international development”。[2]

1 數(shù)據(jù)解讀在大數(shù)據(jù)時代的面臨的挑戰(zhàn)

《史記·蕭相國世家》中記載“何獨(dú)先入收秦丞相御史律令圖書藏之……漢王所以具知天下厄塞,戶口多少,強(qiáng)弱之處,民所疾苦者,以何具得秦圖書也。”這是歷史上數(shù)據(jù)分析幫助人類決策取得成功的經(jīng)典案例。數(shù)據(jù)的采集與分析不是一個新問題。但在大數(shù)據(jù)時代,傳統(tǒng)科學(xué)也要面臨新的挑戰(zhàn)。

1.1 大數(shù)據(jù)特征所決定

大數(shù)據(jù)首先應(yīng)該具備其代表性意義的3V特征[3],即大規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。然而數(shù)據(jù)量的增長并不與數(shù)據(jù)價值呈線性比例增長,反而使我們在其中獲取知識的難度增大。因此,有機(jī)構(gòu)提出大數(shù)據(jù)還具有第四個V,價值密度低(Value)[4]。大數(shù)據(jù)這四個特征,對于數(shù)據(jù)科學(xué)的各個領(lǐng)域均增加了不同程度的復(fù)雜性。

1.2 數(shù)字化統(tǒng)計(jì)結(jié)果會有掩蓋性

“謊言有三,普通謊言、嚴(yán)重謊言、統(tǒng)計(jì)數(shù)據(jù)。”這是源于19世紀(jì)英國政壇的一句名言,足以揭示數(shù)據(jù)化的統(tǒng)計(jì)結(jié)果對人類獲取知識并進(jìn)行決策的危險。[5]誤導(dǎo)決策者的方式主要有:(1)選擇有誤導(dǎo)性的代表值,如經(jīng)常提及的“精心挑選的平均數(shù)”;(2)對統(tǒng)計(jì)數(shù)字進(jìn)行模糊字眼描述;(3)大量樣本充分掩蓋了個別重要數(shù)據(jù),造成對一些重要的信息的忽略和錯誤估計(jì)。在大數(shù)據(jù)時代,樣本量可以等同于數(shù)據(jù)總量。美國統(tǒng)計(jì)學(xué)家赫夫的著作《統(tǒng)計(jì)陷阱》(How to lie with statistics)中,描述了各種數(shù)據(jù)誤導(dǎo)現(xiàn)象。自1954年出版以來,至今暢銷。[6]

筆者針對第二點(diǎn)做一下舉例分析。美國《星期日》周報(bào)提到“一個嬰兒到第N 個月就能坐直”。許多父母看到這則消息,馬上聯(lián)想到自己的孩子,如果他們的孩子到這個月份還坐不直,就會懷疑孩子存在“ 軟骨”、“發(fā)育不正常”等問題。這個標(biāo)準(zhǔn)是什么意思呢?據(jù)了解,這是孩子出生到能坐直時間的中位數(shù)。也就是說半數(shù)的孩子在N個月時一定是坐不直的,沒有什么可擔(dān)心的。“標(biāo)準(zhǔn)”一詞,意味著達(dá)不到此數(shù)據(jù)就不合格,可是中位數(shù)是不能作為標(biāo)準(zhǔn)的。然而我們免去這些復(fù)雜的統(tǒng)計(jì)學(xué)分析,在大數(shù)據(jù)時代下將正常嬰兒坐立時間用分布圖表示,任何人不再有機(jī)會使用數(shù)據(jù)進(jìn)行誤導(dǎo)。這樣能更充分、更科學(xué)的制定出相關(guān)數(shù)據(jù),供大家參考。

數(shù)據(jù)分析人員的工種多樣性。用戶正從少數(shù)數(shù)據(jù)專家用戶發(fā)展為廣泛領(lǐng)域的工程技術(shù)人員。在大數(shù)據(jù)和新媒體時代有分析理解數(shù)據(jù)需求的人員從傳統(tǒng)的數(shù)據(jù)分析人員和商業(yè)用戶延伸到社會中幾乎每位信息消費(fèi)者。然而術(shù)業(yè)有專攻,不可能所有人都受過統(tǒng)計(jì)學(xué)訓(xùn)練并能夠讀懂傳統(tǒng)分析結(jié)果(summary),由此可見可視化的普惠性和低門檻借助 Web、移動端、互聯(lián)網(wǎng)及物聯(lián)網(wǎng)等新型環(huán)境便于普通用戶使用。可擴(kuò)展的可視化系統(tǒng)已經(jīng)是大數(shù)據(jù)可視化的發(fā)展趨勢之一。

2 數(shù)據(jù)可視化手段

數(shù)據(jù)可視化是是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究,是使數(shù)據(jù)分析結(jié)果簡明之致的視覺化表現(xiàn)和傳達(dá)過程。[7]這個過程并非簡單地“直譯”數(shù)據(jù),而是要從大量數(shù)據(jù)中把隱藏在深處或各種數(shù)據(jù)之間的關(guān)聯(lián)信息挖掘出來,是一種知識和價值的發(fā)現(xiàn)過程。最終豐富數(shù)據(jù)閱讀者的認(rèn)識體系并輔助其做出正確決策。其中,這種數(shù)據(jù)的視覺表現(xiàn)形式被定義為,一種以某種概要形式抽提出來的信息,包括相應(yīng)信息單位的各種屬性和變量。它是一個處于不斷演變之中的概念,其邊界在不斷地?cái)U(kuò)大。主要指的是技術(shù)上較為高級的技術(shù)方法,而這些技術(shù)方法允許利用圖形、圖像處理、計(jì)算機(jī)視覺以及用戶界面,通過表達(dá)、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。與立體建模之類的特殊技術(shù)方法相比,數(shù)據(jù)可視化所涵蓋的技術(shù)方法要廣泛得多。

人類從外界獲得的信息約有 80% 以上來自于視覺系統(tǒng)[8],可視化正是利用人類識別圖像的天賦來促進(jìn)更有效地理解數(shù)據(jù)。基于此原理,可視化技術(shù)將難以直接顯示或不可見的數(shù)據(jù)映射為可以感知的圖形、顏色、文理、符號等,以提高數(shù)據(jù)識別效率并高效傳遞有用的信息。[9]MIT 的學(xué)者用眼動儀觀察用戶觀看可視化數(shù)據(jù)的過程,發(fā)現(xiàn):首先,看一眼便能記住的可視化圖形中要含有被記住的內(nèi)容。[10]筆者借一句英文中諺語歸納一下數(shù)據(jù)可視化的價值:“一圖勝千言”。(“A picture is worth a thousand words”)

從對數(shù)據(jù)的認(rèn)知角度而言,數(shù)據(jù)的以下四個性質(zhì)可以為人類提供相關(guān)知識。它們是關(guān)聯(lián)性、特征性、次序性以及數(shù)量性。可視化的多個變量可以不同程度展示出數(shù)據(jù)的這四個相關(guān)性質(zhì)。

數(shù)據(jù)的關(guān)聯(lián)性可以使用的變量包括顏色、位置、形狀和方向。數(shù)據(jù)的特征性最常使用的變量是顏色,其次是紋理、明度等級和尺寸。數(shù)據(jù)的次序性最佳表現(xiàn)變量是明度等級,其次分別是顏色和尺寸。對于數(shù)據(jù)規(guī)模的大小我們常用尺寸變量來表示。

筆者對可視化實(shí)現(xiàn)的功能進(jìn)行梳理,可以歸納出數(shù)據(jù)可視化的幾大分類。換言之,根據(jù)目標(biāo)、意圖以及數(shù)據(jù)的表現(xiàn)形式我們大致可以看到可視化會出現(xiàn)五種類型。

(1)時序可視化(RunTime Visualization),隨著時間而變化的數(shù)據(jù)通過可視化的形式來表現(xiàn)。

(2)分布可視化(Distribution Visualization),將所關(guān)心的局部與整體之間的關(guān)系——例如最大、最小用可視化的方式進(jìn)行表現(xiàn)。

(3)關(guān)聯(lián)可視化(Relationship Visualization),尋找數(shù)據(jù)各個變量之間存在的關(guān)系。

(4)比較可視化(Comparative Visualization),尋找數(shù)據(jù)變量之間的價值比較。

(5)空間可視化(Spatial visualization),旨在表現(xiàn)在地圖上承載的信息。

3 數(shù)據(jù)分析的案例分析[11]

假設(shè)三個組分別采集到如下數(shù)據(jù):

使用python中的statsmodels,對上述數(shù)據(jù)整理并做線性回歸。筆者展示關(guān)鍵部分代碼以及打印出的關(guān)鍵結(jié)果信息。

統(tǒng)計(jì)結(jié)果可以讓數(shù)據(jù)分析人員接受這個模型,但需要將數(shù)據(jù)做一下可視化。

從數(shù)據(jù)可視化之后的圖片信息可以看到,筆者只認(rèn)為對A組做線性回歸是相對科學(xué)的解決方案。所以不要輕易相信summary statistics,聰明的人先對數(shù)據(jù)做可視化。

4 數(shù)據(jù)可視化發(fā)展方向

4.1 AR技術(shù)在數(shù)據(jù)可視化中的應(yīng)用

人類是在三維世界中進(jìn)行物體識別,然而在數(shù)據(jù)可視化中,3D效果的使用卻始終不溫不火甚至飽受質(zhì)疑。其原因是3D圖像可以扭曲感知從而扭曲數(shù)據(jù)。[12]其根本原因是數(shù)據(jù)可視化的展示載體是一個平面。AR技術(shù)使數(shù)據(jù)閱讀者更身臨其境,這大大有利于數(shù)據(jù)分析師構(gòu)建更符合人類觀察習(xí)慣的數(shù)據(jù)可視化作品。

4.2 數(shù)據(jù)可視化的視覺合理性研究

可視化研究的重要理論基礎(chǔ)之一是認(rèn)知心理學(xué)。這是一門研究有關(guān)人類如何感知和認(rèn)識世界的理論,研究人類感知和思維信的過程。[13]不可思議的是最不可識別的可視化圖像 54%來自于政府部門(美國),他們采用的可視化圖像往往是相同的模板和類似的美學(xué)特征。因此,容易造成識別的混亂。若要促成數(shù)據(jù)可視化對信息更有效的傳達(dá)以及讓閱讀者對數(shù)據(jù)有更深刻的洞察,技術(shù)與設(shè)計(jì)、科學(xué)與美學(xué)需要并駕齊驅(qū)。

4.3 鉆取技術(shù)在數(shù)據(jù)可視化中的應(yīng)用

計(jì)算機(jī)技術(shù)迅猛發(fā)展為大數(shù)據(jù)產(chǎn)業(yè)提供了強(qiáng)有力的支持。然而工程師們往往更專注后臺的存儲、算法、算力等方面的研究。其實(shí)在筆者看來計(jì)算機(jī)前端的發(fā)展同樣為數(shù)據(jù)分析帶歷史性的變革。這些技術(shù)可以讓數(shù)據(jù)分析人員縱向了解各個級別的數(shù)據(jù),而非僅僅展示出來的橫向部分。

在大多數(shù)情況下,可視化同時包含多個維度和度量。維度是指考察數(shù)據(jù)的角度。度量是某個維度的取值或某些維度的計(jì)算結(jié)果。好的可視化結(jié)果可以幫助數(shù)據(jù)分析師找到特征明顯的維度和度量特征。如今非常火熱的機(jī)器學(xué)習(xí)技術(shù),主要依靠的就是數(shù)據(jù)的特征。[14]

鉆取技術(shù)可以幫助數(shù)據(jù)分析師細(xì)化這些特征。其更大的意義在于,將可視化的成果變成更有力的數(shù)據(jù)分析工具。

參考文獻(xiàn):

[1] 陶雪嬌,胡曉峰,劉洋. 大數(shù)據(jù)研究綜述[J]. 系統(tǒng)仿真學(xué)報(bào),2013, 08:57.

[2] World Economic Forum. Big data, big impact: New possibilities for international development[R/OL].[2012-10-02].http://www.eforum.org/docs/WEF_TC_MFS_BigDataBiglmpact_Briefing_2012.pdf.

[3] Grobelnik M Big-data computing Creating revolutionary breakthroughs in commerce, science, and socicty [R/OL].[2012-10-02]. http://videolectures. Net.

[4] Barwick H.The “four Vs” of Big Data.Implementing Information Infrastructure Symposium [EB/OL].[2012-10-02].http://www.compute rworld.com.

[5] Best J. Damned lies and statistics:untangling numbers from the media,politicians, and activists,Berkeley :University of California Press,2001.

[6] Huff D.How to lie with statistics[M].New?York:Norton,1954.

[7] 楊祎,張建成等.基于Python的第三方標(biāo)準(zhǔn)庫Ploy.ly實(shí)現(xiàn)的數(shù)據(jù)可視化在信息解讀中的應(yīng)用[J].IT經(jīng)理世界,2020.

[8] CARD S K, MACKINLAY J D,SHNEIDERMAN B.Readings in Information Visualization: Using Vision to Think[M].San Francisco: Morgan-Kaufmann Publishers,1999:1-712.

[9] CHARLES D H,CHRIS J.The Visualization Handbook[M].New York:Academic Press,2004:76-85.

[10] 蕭冰.上海交通大學(xué)蕭冰詳述基于認(rèn)知心理學(xué)的大數(shù)據(jù)可視化[R].2017.

[11] Arvind Satyanarayan Data from MIT Interactive Data Visualization[Z].2020.

[12] Alberto Cairo? how charts lie [M].W. W. Norton & Company,2019.

[13] 袁國明,周寧.信息可視化和知識可視化的比較研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2006(01):93-94.

[14] 唐宇迪.跟著迪哥學(xué)python 數(shù)據(jù)分析與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].人民郵電出版社,2019.

鄭州宇通客車股份有限公司,河南 鄭州

主站蜘蛛池模板: 91美女视频在线观看| 又猛又黄又爽无遮挡的视频网站| 日韩精品久久无码中文字幕色欲| 日本欧美午夜| 日本一区二区三区精品视频| 国产女人18水真多毛片18精品| 成人亚洲国产| 蜜臀AVWWW国产天堂| 国产真实乱子伦视频播放| 日本影院一区| 九九视频在线免费观看| 欧美亚洲欧美| www.国产福利| 久久伊伊香蕉综合精品| 久久毛片基地| 久久久久久久久亚洲精品| 国产美女精品人人做人人爽| 午夜国产在线观看| 亚洲VA中文字幕| 国产丝袜无码精品| 亚洲精品在线91| 国产av色站网站| 操国产美女| 91亚洲免费| 久久黄色免费电影| 亚洲第一综合天堂另类专| 国产精品妖精视频| 青青草a国产免费观看| 日韩高清成人| 动漫精品啪啪一区二区三区| 免费在线国产一区二区三区精品 | 欧美精品高清| 九九精品在线观看| 亚洲人成影院在线观看| 在线精品自拍| 欧美第九页| 亚洲视频二| 亚洲Av综合日韩精品久久久| 色欲不卡无码一区二区| 亚洲AV无码不卡无码| 亚洲综合18p| 欧美中出一区二区| 91精品免费高清在线| 国产精品私拍在线爆乳| 欧美精品一二三区| 成人精品免费视频| 国产清纯在线一区二区WWW| 亚洲激情区| 91精品视频在线播放| 91在线激情在线观看| 欧美日韩一区二区三区在线视频| 国产日产欧美精品| 久久99这里精品8国产| 国产激情无码一区二区APP| 少妇露出福利视频| 伊人激情综合| 亚洲欧美一区在线| 国产自在线拍| 亚洲精品在线观看91| 精品伊人久久久大香线蕉欧美| 国产中文一区a级毛片视频| 天堂亚洲网| 国产欧美综合在线观看第七页| 成年看免费观看视频拍拍| 欧美精品xx| 国产情精品嫩草影院88av| 免费一级α片在线观看| 无码免费视频| 欧美日韩北条麻妃一区二区| 欧美国产日韩一区二区三区精品影视| 永久在线精品免费视频观看| 91福利在线观看视频| 国产视频 第一页| 亚洲婷婷丁香| 欧美伦理一区| 色窝窝免费一区二区三区| 国产91特黄特色A级毛片| 日韩乱码免费一区二区三区| 久久精品无码专区免费| 久久国产精品影院| 67194亚洲无码| 国产九九精品视频|