999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于色差法的高維數據展示方法初探

2011-11-01 08:49:10吳翌琳林寅陳昊
統計與決策 2011年7期
關鍵詞:可視化水平方法

吳翌琳,林寅,陳昊

(中國人民大學統計學院,北京100872)

基于色差法的高維數據展示方法初探

吳翌琳,林寅,陳昊

(中國人民大學統計學院,北京100872)

隨著計算機技術的普及,我們面向的數據越來越趨于高維化,而從理論上說直觀描述高維數據是一件比較困難的事情。文章通過對幾種高維數據展示方法的總結和創新,成功構造了一種全新的描述高維數據的方法即色差法(MCD)。

高維數據;色差;色階;RGB

0 引言

隨著計算機技術的高速發展及其在統計應用領域的普及,目前統計學者面對的數據,無論是經濟領域、商業管理領域、工程領域,還是教育心理領域等,都是高維度的數據矩陣。對這些數據的分析,入手點落在對高維度數據的一個直觀描述上面。

多維數據比二維和三維數據在展示上存在著諸多困難。傳統的笛卡爾坐標系在展示二維三維數據上存在著優勢,但是在三維以上就無能為力。然而目前幾乎所有科學、工程和商業領域的數據都是高維的,即數據集通常都包含多于三維的變量。高維數據的產生,迫切需要開發處理這些數據的工具和方法。可視化是高維數據分析的重要且必不可少的工具,它可以觀測到數據的復雜結構和模式。許多數據處理方法實質上是基于可視化的,如散點圖和直方圖,但多數可視化方法只能同時表示兩個變量,這些傳統方法的弱點也給其他學科的研究帶來了諸多的不便。

我們以一個經濟學上的例子來闡述高維數據可視化的意義。我們知道一個地區的經濟發展的快慢會由很多的諸如GDP、失業率等指標來反應。如果我們僅選取一個或者兩個因素,尚可通過散點圖、直方圖等來比較經濟的發展水平。但是如果選擇了3個指標或者更多的指標,就很難畫出高維的散點圖來比較了,所以這個時候就不得不使用一些高維數據的可視化方法來幫助比較。

因此,本文旨在對已有的高維數據直接描述方法進行比較分析,同時提出利用計算機色階和色差來展示高維數據的方法,以期為高維數據的模型研究提供前期較為直觀的數據展示。

1 色差法的基本概念及操作原理

1.1 色差法基本原理

色差法的基本原理為:每個樣本按照維度分段,然后在每段色帶上根據樣本的數值分布來體現為不同的顏色。從而,一個樣本就是一個橫向的色帶,所有的樣本組成一個色板。

色差法可以根據需要進行分段長度以及樣本寬度的調整,考慮到人眼對顏色的識別效應我們建議最小的可識別色塊面積應該大于10×10像素。由于形狀對于色差法沒有數據上的意義,所以我們建議使用色差法的研究學者可以采取放大的方法來觀察局部差異,也采取縮小的方法來觀察整體差異。這就是色差法優于臉譜法和安德魯曲線方法之處。

1.2 色階

從理論上說,色階是顏色亮度的指數指標,從白到黑一種是256種亮度。目前表示顏色有著多種方法,像最常見的RGB示色法,HSL示色法以及CMYK四色印刷表示法等。一方面為了讓色階的變化能夠保存連續性,另一方面根據理論研究表示在黑白兩色的相近色方面人類肉眼的判讀力比在尋常色譜圖上的判讀力小。此外,為了避開色階的循環性,我們采取RGB的標示法,以紫色表示數據中的最大值,紅色表示數據中的最小值,結合人們對顏色以及熱度的差別,從暖色開始到冷色就是極小值到極大值的過程。

由于顏色的表示方法取決于各種不同的系統環境(包括數值范圍),我們采用的是被廣泛使用的RGB坐標表示方法,每一種原色的強度依照8比特的最高值分為256個值。實際上我們采用RGB方法忽略了部分的顏色。正常來講RGB方法能夠表示1670萬種顏色,不過人眼只能識別其中100萬種。而本文的色差法選擇的顏色范圍基本滿足HSL方法中的色相變化規律,不過由于HSL編碼在不同的設備上可能會對飽和度等的定義存在差異,類似的方法還有HSV顏色編碼方法,而實際上本文采用色差法的RGB色階就是HSL定義的純色階(不包含白色以及黑色以及灰色等與飽和度亮度有關的數值),這是肉眼能夠清晰辨別級別的基礎。所以說色差法并不僅僅是把數值映射到顏色板上,還考慮了人眼的識別效率,從而能夠更好展示數據特點,達到滿足高維數據展示的要求。

從RGB表示方法來看,紫色是R:255,G:0,B:255,然后從R開始遞減,最后的紅色是R255G0B0。根據色譜的分界點我們做出了如表1的表格。

從色階變化來看,我們發現盡管RGB是連續的一個色階,但是RGB的變化并不是一味增長,但是為了數據表示的方便我們還必須進行單一的連續化,所以我們定義了如表2的轉化關系。

2 色差法的應用

根據研究對象和目的的不同,色差法有兩種使用方式,精細使用以及粗糙使用,雖然使用的方式不同,但是其原理都是相同的。

2.1 精細使用

精細使用就是先確定某個具體維度的最大值和最小值,然后轉化為0到1275的一個位置參數,總共1276個位置,最小值賦值1,最大值賦值1275,允許中間有空值。精細使用的方法中顏色對應的是數據的水平。以此類推,每一組數據都按照此法來進行轉化,從數據變為對應的顏色,畫成一個色帶。那么N組數據就對應有N條色帶,組成一個色板。該使用方法適用于數據跨度比較大的定距變量。

2.2 粗糙使用

粗糙使用則是把單維度的所有數據排序,然后再根據位置映射到0至1275之間,粗糙使用的方法中顏色對應的是數據的相對位置。其他的均與精細使用相同。這種使用方法主要關心的是數據的秩,適用于排名數據或者一些非參數模型的數據展示。

2.3 兩種使用方法的差異

(1)當數據比較“稀疏”的時候,采用精細方法對于數據的水平很敏感,如果有差異能夠很快看出來;當數據比較“密集”的時候,采用粗糙的方法對于數據的相對位置很敏感,如果有差異能夠很快看出來。

(2)粗糙使用對于樣本量比較小的數據,由于采用相對位置,能夠擴大顏色的跨度,從而相對來說差異會顯得更“明顯”,尤其是對于相鄰的數據,這時候可能會對數據的差異程度產生誤判(從顏色角度看)。

(3)精細和粗糙僅僅是針對數據度量的兩個尺度,即實際水平和相對水平來談的,跟最后的結果并無直接關系。

3 色差法實證分析

為了能更加清楚地闡述色差法的作用,我們使用的數據是一個隨機模擬的6維數據,樣本數為12。數據表1。我們用臉譜法、平行坐標軸法、安德魯斯曲線法、色差法這四種方法分別描述此高維數據如表3。

表1 數據分位點與顏色表示

表2 數值與顏色轉化表

表3 模擬生成的數據

3.1 臉譜圖、平行坐標軸法、安德魯斯曲線法展示

臉譜圖、平行坐標軸法、安德魯斯曲線法分別見圖1、2、3。對比這三種方法,我們不難發現每一種方法都各有其優點,比如臉譜圖發容易發現異常樣本點,平行坐標法直觀展示同一樣本在不同維度上的變化,安德魯斯曲線法利用巧妙的降維體現樣本之間的近似程度。總體而言,雖然以上每一種的方法都能有效的描述出高維數據,但是通過圖形是難以對于數據的分布有個大體的判斷。而我們所提出的色差法則可以通過顏色的不同,對于總體數據的分布有個初步的認識。

3.2 色差法(MCD)

3.2.1 相對水平

首先對數據使用色差法進行相對水平的展示。根據每個維度數據特征,按照自身維度內部的大小,進行0~1標準化,這樣表示出來的分布特征是每個維度內部的特征。其圖像特點是每一列都會有最小值(紅色)和最大值(紫色)。這樣,單列抽出來分析的時候,能夠看清楚每個維度分布。相對水平的主要缺點就是不同列之間不能夠直接的比較。

為了以防讀者遺忘,我們把色帶的顏色所包含的意義再次闡述一下。依照下圖:隨著顏色由紅色向紫色過渡,數據從大到小過渡,紅色代表最小的數,紫色代表最大的數。則相對水平色板如圖4。

相對水平色板展示的是樣本在不同維度下的相對位置,為樣本整體水平的相對位置和均衡度給出相應的判斷,比如這個色板展示的結果看來,樣本1在第4、5、6個維度上顯示出較弱水平,而前面第1、2、3維度也沒有表示較高位置的冷色系出現,因此可以斷定樣本1在這12個樣本的比較中相對水平較低。而再看看樣本3,其六個維度的數據分布在兩端,可見該樣本的均衡度較差,數據較為極端化。總體而言,相對水平色板類似于平行坐標法,但比之更為直觀易懂。

從應用角度看來,相對水平的色板適用于展示經濟方面競爭力評價或者指標體系評價的高維數據,以顏色漸變直觀看出比較對象間的競爭關系,水平差異以及發展結構,為進一步指標選取和模型構建打下基礎。

3.2.2 絕對水平

另一種常用的色板是絕對水平的色板,其構建方法如下:首先按照每個維度計算出標準差,然后數據除以標準差以便去除量綱,不需要進行中心化。從而所有的數據現在呈現于同一個“度量范圍”。然后進行0~1化后再映射到0~1276。其圖像特點是整個色板只有一個最小值(紅色)和最大值(紫色),其應用特點是全部數據可比,可以看出每一列的最值與其他值的區別(看出偏離程度),此外還可以看出不同的列之間數據水平的差異。絕對水平的缺點主要是削弱了每一列內部的分布色彩差異,數據量擴大導致了相鄰的數據色階差異程度縮小。絕對水平色板如圖5。

我們可以看出來,這12樣本6維度的數據中,最大值為第2行第2列的數,最小值為第2行第6列的數,整個色板淺藍和綠色為主,說明中間的數據較多,數據分布相對均衡。絕對水平色板適用于進行維度方向的比較,比如從第一維度和第二維度的比較看來,第二維度的水平要顯著的高于第一維度,如果維度表示的是時間序列,則通過色板可以看出第二年比第一年有顯著的增長。

從應用角度看來,絕對水平色板適應于對樣本在不同維度上的變化趨勢做分析,因此,尤其適用于時間序列數據,每個維度即為一個時間點,從上圖可以顯著看出,假設這批數據為時間序列數據的話,第2期是一個峰值,第4和第6期分別為兩個低谷,可以看出樣本數據的波動性。同時,該色板也適用于分析同一口徑的高維數據,比如說心里研究的量表或者問卷調查的分類數據等,看出不同指標間的水平差異。

4 色差法的缺陷

雖然色差法克服了多個維度之間的展示問題,但是本身卻有著一個嚴峻的缺陷,那就是因素水平。每一個維度,色差法最多能夠提供的水平位置數目是1275,再多的水平已經超過了人眼的識別范圍。而且,如果考慮人眼的識別效率,當一組數據的個數大于500個的時候,人眼可能很難分辨出顏色的細微差異。這一點可能是制約色差法推廣使用的最大弱點。因為我們知道,多元統計分析常常要與超高維數據,超大量數據打交道,僅僅500個可識別水平可能很難滿足研究學者的需要。

不過,由于現在精密儀器的推廣與使用,我們可以借助儀器的判斷來辨別出實際顏色的差異,因而在實際的使用中,我們可以處理的水平數是可以達到色差法理論允許的最大值的,即1275個水平。這個承受水平對于一般的研究來說應該是可以滿足的。

5 結論

面對規模宏大,結構復雜的數據海洋,如何能夠在不損失數據信息的前提下刻畫數據系統特征的變化,是統計學者面臨的一個重要課題。高維數據的可視化表示具有形象直觀的特點,易于學者發現隱含于高維數據中的模式。

該方法可以廣泛應用于經濟數據、教育心理數據、商業行為數據等不同研究主題的分析,也適用于展示時間維度、區域維度、多指標維度的數據信息,能夠更好地協助系統分析人員的思維和判斷,及時發現大規模數據中隱含的普遍規律與特殊現象,提高數據分析的效率。

本文提出了基于色差法來展示高維數據的方法,并且給出了色差法的理論基礎,應用背景以及使用說明,最后還給了一個基于其他三種成熟方法和色差法的實證分析。通過小規模的實證分析,我們可以清楚地看出色差法的使用價值,進一步開發可以使之成為高維數據可視化的一個新方法。

[1](美)斯滕伯格(Sternberg,R.J.).認知心理學[M].北京:中國輕工業出版社,2006.

[2]賈俊平.統計學(第二版)[M].北京:清華大學出版社,2007.

[3]約翰遜(Johnson,R.A.).威克恩(Wichern,D.W.).實用多元統計分析(第6版)[M].北京:清華大學出版社,2008.

[4]余肖生.高維數據可視化方法研究[J].情報科學,2007,(1).

[5]彭紅毅.一種改進的高維數據可視化模型[J].計算機科學,2007,(4).

[6]王家亮.基于局部適應性的高動態范圍圖像顯示方法[J].計算機應用,2007,(4).

[7]王德青.高維數據可視化在統計分析中的作用[J].數據,2009,(7).

[8]孟輝.基于徑向坐標可視化的高維數據分析方法[J].軟件技術與數據庫,2010,(1).

[9]Richard A,Johnson,Dean W,Wichern.Applied Multivariate Statistical Analysis(5thEdition)[M].Oxford:Oxford Press,2005.

[10]Wolfgang Hardle,Leopold Simar.Applied Multivariate Statistical Analysis(2ndEdition)[M].New York:Springer,2007.

F064.1

A

1002-6487(2011)07-0035-03

吳翌琳(1983-),女,廣東潮州人,博士研究生,研究方向:經濟統計分析。

(責任編輯/亦民)

猜你喜歡
可視化水平方法
基于CiteSpace的足三里穴研究可視化分析
張水平作品
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
加強上下聯動 提升人大履職水平
人大建設(2019年12期)2019-05-21 02:55:32
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
做到三到位 提升新水平
中國火炬(2010年8期)2010-07-25 11:34:30
主站蜘蛛池模板: 亚洲综合精品香蕉久久网| 熟妇无码人妻| 婷婷亚洲视频| 久久伊人色| 国产精品久久久久婷婷五月| 成年女人a毛片免费视频| 97se亚洲综合不卡| 亚洲色图欧美在线| 色婷婷视频在线| www精品久久| 亚洲日本在线免费观看| 欧美性天天| 黄色福利在线| 综合色88| 欧美精品H在线播放| 东京热av无码电影一区二区| 456亚洲人成高清在线| 免费在线成人网| 乱人伦中文视频在线观看免费| 亚洲色图另类| 青青操国产| 国产一级片网址| 一级香蕉人体视频| 香蕉久人久人青草青草| 在线国产毛片| 国产办公室秘书无码精品| 热这里只有精品国产热门精品| 91麻豆久久久| 欧洲熟妇精品视频| 亚洲综合色区在线播放2019| 久久精品国产免费观看频道| 国产精品手机视频一区二区| 国产成人无码Av在线播放无广告| 精品国产免费观看一区| 91成人在线观看视频| 日本道综合一本久久久88| 亚洲欧州色色免费AV| 青青热久免费精品视频6| 人妻少妇久久久久久97人妻| 红杏AV在线无码| 亚洲成人黄色网址| 91青青草视频| 99精品视频播放| 色天堂无毒不卡| 亚洲精品无码AⅤ片青青在线观看| 久久精品娱乐亚洲领先| 国产乱子伦精品视频| 一级一级特黄女人精品毛片| 九九热视频在线免费观看| 制服丝袜一区二区三区在线| 国产成熟女人性满足视频| 国产精品成| 99久久精品免费观看国产| 婷婷午夜影院| 久热中文字幕在线| 国产区成人精品视频| 精品国产成人国产在线| 在线高清亚洲精品二区| 国产呦精品一区二区三区下载| 久久精品国产精品国产一区| 国产精品成人啪精品视频| 国产精品欧美亚洲韩国日本不卡| 伊人成人在线视频| 欧美a网站| 亚洲Aⅴ无码专区在线观看q| 香蕉eeww99国产在线观看| 丰满人妻中出白浆| 麻豆精品视频在线原创| 2020精品极品国产色在线观看| 2021亚洲精品不卡a| 丰满人妻被猛烈进入无码| 亚洲成人播放| 亚洲成人高清无码| 白浆视频在线观看| 亚洲国产在一区二区三区| 日韩精品亚洲人旧成在线| 国产欧美又粗又猛又爽老| 国产福利免费在线观看| 欧美日韩在线亚洲国产人| 超碰免费91| 国产va欧美va在线观看| 久久77777|