全栈工程师?
嗯.....目前并不是!

可視化設計的精髓之——數值可視化(上)

本文作者將數據與視覺圖形的複雜關係梳理清楚,與大家分享可視化設計的精髓——數值可視化。

可視化設計一直是交互和視覺設計領域裡的熱門話題。

可視化設計從來沒有人梳理清楚數據與視覺元素之間的關係,網上有非常多創意的可視化案例,但往往都只是一些零散的創意點,並不能系統幫助設計人員做數據可視化。

作為對數據有着非常深厚的興趣,同時有有着多年交互經驗的我來說,自然對數據可視化非常感興趣。通過平時的積累,再加上最近一次和部門同事會議討論數據可視化獲得的靈感,終於將數據與視覺圖形的複雜關係梳理清楚。

第一章:數值可視化的本質

第一部分,我們先熱身,從視覺屬性的角度看數值可視化的本質。數值可視化的本質就是用各種視覺屬性來表達數據值的大小。視覺屬性有這麼幾類:位置、長短、面積、顏色。對應視覺設計的點,線、面和色值。

在此部分,我們介紹各種類圖表時,只介紹最基礎的圖標。其他的很多種形態各異的圖表都可以圍繞基礎的圖片進行變化,我們將在後面的章節展開介紹。

1. 通過節點的位置來表示數據值——折線圖

折線圖是數據可視化中最常見的圖形之一,折線圖雖然是線圖,但是它的線只是作為點的輔助鏈接,線的長度並不表達實際的信息。真正表達數據的是點的相對位置。點裡橫坐標越遠時,表示相對值越大。

2. 通過元素的長短來表示數據值:柱狀圖

柱狀圖的柱子雖然有寬度,但是寬度並不代表真正的信息,柱狀圖是通過長度來表達數值的。柱狀圖相比折線圖,更強調單個數值的大小,而折線圖更強調數值的變化趨勢。

在傳統的圖表分類中,有幾種類似的圖表,都是用長度來表示數值的:柱狀圖、條形圖、直方圖。在本書中,為了方便大家的理解,我們將柱狀圖當成基本圖形,而將條形圖和直方圖當成是柱狀圖的變式。我們將在後面的章節詳細介紹柱狀圖及其變式。

3. 通過元素的相對面積來表示數據值:餅圖、氣泡圖、面積圖

餅圖是通過在一個圓裡面所佔面積的大小來表示數值的,環形圖是餅圖的變式,它可以在圖的中心表達主題。

氣泡圖也是通過氣泡的大小來表達數據值的。

面積圖實際上是折線圖的一種變式。與折線圖不同的是,面積圖是通過折線直線圍成的面積來表示數值大小的,所以面積圖更強調的絕對值大小,面積圖的縱軸起點需要為零。

4. 通過顏色來表示數據值:熱力圖

熱力圖時通過顏色來表達數值的。一般來說,熱力圖可以通過兩種顏色的維度來表達數值:

  • 一是顏色的深淺,顏色越深,數值越大;
  • 二是色值的冷暖,顏色越冷,數值越小,顏色越熱,數值越大。

通過以上第一部分內容的熱身,了解到數值可是化的本質就是通過位置、長短、面積、顏色來表達數值的大小,所有的數值可視化都是在這個框架下進行的。

在有的書中, 還講到了角度、斜率、體積、密度、紋理等等元素。本文並不打算介紹太複雜的分法,太多的元素沒有抓住視覺設計的本質,不容易理解。

我們認為從視覺平面設計的四個基本元素觸發就可以了,其他的都可以理解為在此基礎之上的延伸。比如說:角度和斜率,最終都與長度或面積有關;體積在平面上與面積是相通的;紋理可以算作顏色的一種;點的密度實際上與點的位置有關。

從下章開始,我們根據數據結構來看數據可視化。在做數據可視化之前必須要弄清楚數據結構,如果不能從數據結構出發來考慮數據的可視化,那麼你永遠只能“只見樹木,不見森林”。

我們在遇到一個可視化的問題時,需要有數據的思維,將你需要可視化的問題抽象成數據表格,那麼數據可視化的問題將不再是一些離散的問題,你的思路也會變得清晰。根據數據結構,我們將數據的類型分為:單個數據,一維表格,二維表格。

第二章:單個數據的可視化

單個數值數據,如速度15km/h,深度10km等,從數據的角度上來說是最簡單的,其僅有一個數值,一眼就能看明白,如果用傳統柱狀圖等圖表表示和直接顯示數字沒什麼太大區別。

所以,一般單個數據的可視化,並不適用傳統圖表方式,其可視化的核心思想在於根據上下文用擬物的方式,將其與我們現世界中數值的事物聯繫在一起。

單個數據的可視化需要區分清楚兩種情況:

  1. 用戶對數字本身是有所理解的。高度、深度、速度等等,這種情況下,對數據進行可視化的是一種感覺,將這個數字更形象地傳遞給用戶。
  2. 用戶對數字本身缺乏背景信息。比如說:空氣質量降、水量等等,用戶從他們實際的生活經驗中可能無法判斷某個具體的數值代表什麼樣的含義。這種情況下,我們需要可視化的是這種數據的背景信息。

1. 僅將數字形象化

如果是奔跑的速度15km/h,那麼可以畫一個運動員跑步的圖來表達這個數字。

如果是奔跑的速度70km/h,那麼就可以畫一隻獵豹奔跑,通過模糊的背景來表達奔跑的速度快。如果要描述山的高度5km,就可以畫以座聳入雲霄的山,給人一種高山的直觀形象,更多的創意設計都可以圍繞想象展開。

2. 對數字進行評價

如果僅僅表達一個數字是不完整的,那麼需要對數字進行標刻、評價以幫助理解,比如:汽車行駛的速度,分為慢速、中等和超速,如下左圖所示。

同樣的道理,當報告單個降水量數據時,人們對於降水量數據是缺乏背景信息,不知道50毫米的降水量到底是多還是少,必須輔助以評價信息。在表達評價信息時,你需要根據背景展開聯想。比如說:降水量50毫米,我們可能想象到的就是用一個試管接了50毫米深的水。

如右圖所示:

所有的對單個數據進行評價的可視化,都可以採用這種方式:先通過擬物的方式畫出評價刻度,然後標明(或指向)當前的數字值。

第三章:一維表格數據可視化

一維表格如下圖所示,數據表格中只有一行或者一列數據。

一般來說,我們如果要將一組一維表格可視化,那麼需要在拿到數據后,我們需要對數據可視化的目標進行分析,跟進目標可將數據分為以下幾類:

  • 強調絕對數值的數據;
  • 強調趨勢的數據;
  • 百分比數據;
  • 不同類型的數據。

3.1 強調絕對數值的數據

在現實世界中,很多的數據是有倍數關係的,數字的大小就代表了絕對值的大小。比如:收入10000元的就是收入5000元的2倍,GDP一萬億就是五千億的兩倍,這種數據稱之為等比數據。等比數據的絕對值大小是有意義的,當你需要強調這種數據絕對值大小的時候,應該用真實的長度,或者面積來表示數值。

3.1.1 柱狀圖

使用柱狀態圖來表示這種強調絕對值大小的數據是常規的方式。柱狀圖的起點從0開始,柱子的長度代表數據的大小。如果一個柱子的長度是另一個的兩倍,那麼數值也是另一個的兩倍,非常直觀。

如下圖所示,各行業平均薪資水平,是適合用柱形圖來表示的。

需要強調的是,因為柱狀圖的視覺感受就非常強調單個數據的大小,柱狀圖的閱讀者一般視覺會被柱子本身所吸引,不會去注意縱軸的起點,用戶往往會默認柱子的長度代表絕對數值的大小。所以柱狀圖的縱軸的起點必須從零開始,所有不從零開始的柱狀圖都是對柱狀圖的誤用,甚至有廣告故意使用不從零開始的柱形圖對閱讀者進行誤導性宣傳。

如下左圖所示,實際的使用效果可能不到10%,但是右圖則看起來像是效果翻倍了。如果用戶不仔細看,就會形成效果翻倍的印象。

3.1.2 直方圖 

直方圖與柱狀圖的區別比較微妙,很多人弄不清楚其中的區別,誤用和混用的情況非常常見。在視覺外觀上,柱狀圖和直方圖的區別僅僅是間隙的大小,但是其數據本質的區別在於表達連續的區間上數量的分佈

看如下一組數據:

分別使用柱狀圖和直方圖來表達以上表格:

從圖中可以看出,柱狀圖(上)與直方圖(下)是不同的。如果橫軸是連續的區間,那麼直方圖更加適合表達一種連續區間的數量分佈。

統計學中,直方圖的縱軸要求是計數數據,也就是說,直方圖是用於統計某個區間內的對象個數。

直方圖一般在統計學,數據分析和科學實驗領域用的比較多。本書並不是講述統計學的書,我們不去深入探討直方圖。只需要記住當滿足一下兩個條件時,應該使用直方圖:

  1. 橫坐標是連續的數字區間;
  2. 縱坐標是計數數據,統計的是個數。

以上兩個條件,有一個不滿足時,就不應該使用直方圖,而是普通的柱狀圖。

比如說有如下數據:

上圖中,使用直方圖就是錯誤的,因為縱坐標並不是計數數據,使用柱狀圖是正確的。當然,如果想要強調薪資隨年齡的變化趨勢,還可以使用折線圖,我們將在後面解釋折線圖。

3.1.3 柱狀圖變式:條形圖

我們經常能看到一些橫向排版的柱狀圖,我們稱之為條形圖。條形圖的基本功能與柱狀圖是相同的,但是條形圖與柱狀圖最大的區別在於排版。在英文的排版中,因為文案長度的問題,有的文案很長,所以一般會採用橫向的條形圖。

如圖所示:

條形圖還有一個很大的排版優勢,能將文字和條形在一側顯示,能夠對分類附加說明。

因為中文的文案長度都很好控制,所以在中文的圖表中,條形圖相對比較少見。且因為中國的基礎教育中,橫軸表示自變量,縱軸表示因變量數值,所以很多人都不習慣看條形圖。所以在中國,如果不是因為排版的原因,請慎用這種橫向的條形圖,而在拉丁語系的國家可以多用這種橫向條形圖。

3.1.4 柱狀圖變式:計數條形圖

計數條形圖一般是在線下用得比較多,在平面設計或互聯網界面中,計數條形圖可以模擬線下的場景,增加界面設計的趣味性。

計數條形圖示例如下:

3.1.5 柱狀圖變式:徑向柱狀圖、徑向條形圖、螺旋圖

某些情況下,為了適應排版的區域,或者增加圖形的趣味性,會對柱形圖進行扭曲變形。

對柱狀圖的橫軸進行扭曲變形,就是徑向柱狀圖,如下圖所示。徑向柱狀圖最大的優點就是能在某些區域內能方便排版,第二個優點是能將按順序排列的柱狀圖首尾進行對比。

將條形圖的柱子進行扭曲,就是徑向條形圖。與徑向柱狀圖類似,徑向條形圖的最大優點仍然是排版。在很多海報或者雜誌中,採用這兩種變式,可以是的整個界面更加美觀協調。

但是,因為徑向條形圖的圓的內環和外環之間周長和直徑都不相等,所以不同的人對圖的理解可能有所偏差。徑向條形圖實際上是通過角度,而不是長度來表示數據大小的,這一點很可能會對用戶造成混淆。一般情況下需要慎用。

螺旋圖是在徑向柱狀圖的基礎上進一步拓展的,螺旋圖可以用戶表達一個大型的數據集合,其適應排版的優勢更加明顯。並且可以將其立體化設計,做出一些非常有創意的可視化設計圖。

徑向柱狀圖、徑向條形圖、螺旋圖幾類柱狀圖的變式,都在某種程度上賦予了柱狀圖新視覺風格和趣味性。但是又部分損失了柱狀圖最大的優勢:強調絕對數值的大小,這幾種變式都使得柱狀圖柱子的長度不那麼容易對比。

3.1.6 柱形圖變式:用擬物代替柱子

傳統的柱狀圖表達數據可能會比較枯燥,在平面設計,海報宣傳頁面中,一般會添加擬物的元素,使得數據的表達更加生動。其基本的思路都是圍繞着數據主體展開聯想,用擬物的對象代替柱子。

示例1:如果描述的是足球相關的內容,那麼可以用踢球的形象代替柱子。

示例2:如果描述的是星體相關的內容,那麼可以用星體的形象代替柱子。

示例3:如果描述的是男女差異,那麼可以用男女的形象代替柱子。

示例4:如果是抽煙相關的數據,正好用煙頭的形狀代替柱子。

示例5:如果是山的高度,那麼可以用山的形態。

3.1.7 柱形圖變式:按某些維度展開重組設計

上一節中,用擬物代替柱子的思路仍然是在柱狀圖的框架下的。但是很多時候,甚至可以拋開柱狀圖的束縛,根據關鍵詞展開聯想。在聯想的過程中,我們只需要記住第一章中提到的數據可視化的本質:通過位置、長短、大小、顏色四個視覺元素來表示數據大小。

示例1:各省葡萄產量(假設數據)

這裡面有兩個可以展開的點:葡萄和地點。

示例2:城市和省份PM2.5值(假設數據)

PM2.5是一個沒有形象的概念,所以可視化的時候,不太可能在PM2.5上面展開。那麼這種數據只能以地點為關鍵詞展開,以地圖的方式呈現

省份在地圖上本身就是一個形狀大小固定的面,可以通過顏色熱力圖來表示數值(下圖,左)。而城市在全國地圖上只是一個點,不能通過顏色熱力圖來表示,只能創造一個面,在通過面的大小和顏色來表示(下圖,右)。

示例3:各網站訪問量

圖中實際上是造了一張地圖,每個網站相當於地圖上的一個城市,再用一個面的大小代表訪問量,與上一個示例中的右圖本質上是一樣的。

示例4:遷徙地圖

網上一些非常酷炫的遷徙地圖,單個城市的遷徙圖的數據原型仍然是一維數組。

對於這組數據,可以以“地圖”為依據展開。以地圖為維度展開設計時,需要表達的是各個城市與北京的連線。連線的長短信息已經被城市到北京的距離所用,於是只能用連線的顏色來表示數值。

需要補充說明的是,這些形式的數據可視化提高了數據的可讀性和趣味性,但都會在某種程度上損失原來表格中的精度信息。

3.2 強調趨勢的數據

多數情況下,我們做可視化的目的是為了將數值的大小表示出來,但是在有的情況下,可視化的目的是為了突出隨時間變化的趨勢。時間是所有數據變量裡面最具有特殊性的一種,也是最重要的一種。時間變量的形式除了有年,月,日,小時,分,秒等等之外,還有變化形式,如年齡 {1歲,2歲,...} ,年級 {一年級,二年級,…} ,次數 {第1次,第2次,...} 等等。

柱狀圖中,強調數據的絕對數值,並且將所有的對象變量都一視同仁地處理。當然,柱狀圖也是可以表達時間趨勢的,但是很多情況下折線圖更好。

3.2.1 折線圖

我們來看一下折線圖與柱狀圖的區別。

第一,折線圖與柱狀圖的視覺強調不同。對於柱狀圖來說,每根柱子是一個獨立的視覺元素。而折線圖中,一整條線是一個獨立的元素。所以他們側重點自然有所不同。柱狀圖側重單個數據的大小,而折線圖側重數據的變化趨勢。

第二,柱狀圖的起點必須為零,折線圖的起點可以不為零。為了說明這個道理,需要看一個示例。

如下圖所示,起點為1000的圖表。兩個圖形雖然都表示了趨勢變化,但是左側的柱形圖柱子的長短很容易讓人去對比它的絕對值,很容易讓人覺得11-2的數據是11-5的兩倍,在很多情況下,這會造成嚴重的誤導。但是右側的折線圖不會給人這樣的問題,折線圖給人的感覺,並不會讓人對比倍數關係,而是看趨勢的變化。 

所以對於變化的趨勢相比數值較小,但又需要強調趨勢,弱化絕對值的數據,只能使用折線圖,或折線圖的變式。

3.2.2 折線圖的變式:曲線圖

將數據點用貝塞爾曲線連接起來,其功能與折線圖基本上沒有差別,只是在視覺樣式上更加柔和。

3.2.3 折線圖的變式:均線圖

對於數據波動較大的情況,如果想要了解它的趨勢,最好的辦法是輔助以均線。均線是計算當前節點上前後幾天的平均值,均線的波動比原數據波動更小,能更好的反應趨勢。

均線有很多種不同的算法,我們在此不詳細介紹。需要注意區分的是,數據波動較大的數據並不是散點圖。散點圖與折線圖的數據邏輯是完全不同的, 我們將在後面介紹散點圖。

3.2.4 折線圖的變式:面積圖

面積圖主要用途也是用來表示趨勢的變化的,但是面積圖會用純色或者漸變色來填充折線圖的區域。一旦有了顏色的填充,視覺感受就完全不同了,能讓人感受到絕對值的大小。所以面積圖的起點必須為零。所以與柱狀圖有同樣的問題,當趨勢變化很小,但絕對值很大的數據,只適合用傳統的折線圖,不適合用面積圖。

3.2.5 折線圖的變式:股指走勢圖

股指走勢圖對摺線圖做了幾點變化:

  • 當點間距很小的時候,根據格式塔原理,人的視覺就會自動將其連成線,於是折線圖的連接線就可以去掉了。
  • 對每個節點可以大做文章。紅色表示收盤高於開盤,綠色反之。還能表示當天最高值和最低值。

3.3 百分比數據

百分比數據往往不是原始數據,而是原始數據進過轉化而來的。本節討論的百分比數據,都是指的在同一個維度下,且沒有重合的數據。表中的數據加起來,應當等於100%。

3.3.1 餅圖或環形圖

一般來說,百分比的數據使用餅圖(或環形圖)的方式表達,這是最常規的。

環形圖與餅圖不同點在於環形圖可以將主題與圖更好地融合。

但是餅圖只是一種保守的表達方式,並沒有什麼趣味性。在實際的可視化設計中,往往會採用其變式。變式應該如何變,還是需要根據上下文的環境展開聯想。

3.3.2 餅圖變式:將餅形轉化成對象擬物形態。

示例一:如果是描述人體的成分,那麼可視化可以圍繞人形展開,將餅的形狀變成人的形狀。

再比如,如果你想描述一個蘋果的成分佔比,那麼你可以考慮將餅形換成蘋果的樣式,然後在這基礎之上做設計。

示例二:如果你想描述各類行業人群佔比,那麼你可以考慮畫出100個人,各類行業的人用不用樣式的圖形,如左下圖所示;而當你想描述各類槍殺案件槍支的來源,下右圖所示。

總之,這些設計的思路都是以基本的餅圖為出發點,然後根據描述的對象展開聯想,對象是什麼樣子,就把餅圖更換成它的圖形,然後圍繞它的圖形做設計。

需要注意的是,有重合的數據不能使用這種方式在一張圖裡表達,比如:一群人中女人48%,老年人30%。這兩個百分比數據是不能出現在一個圖裡的。

3.4 同一對象不同類型數據

當你需要對一個人的運動能力進行多方面評估的時候,有以下一維數據:

這組數據可視化的時候,也不能使用柱形圖,原因仍然是因為比例關係。速度90分,耐力60分,並不能說明速度是耐力的1.5倍。而如果畫成柱狀圖,就很容易讓人對比他們的絕對數值。

而使用折線圖,並不能說是完全錯誤的,但使用折線圖也不夠恰當。一般折線圖要求各個數據是同質的,但是人在各方面的特質其實並不是一類的數據,每個數據都應該擁有自己的縱軸。所以通過雷達圖的方式表達更合適。並且雷達圖相當於對每個數據做了一個背景評價。

關於一個一維表格上的各個數據是否是同質的問題,一般來說可以這麼判斷:有單位,並且相同單位的數據才是同質的。單位不同的數據是不同質的。沒有單位的數據,一般來說都是不同質的。還有一些人為定的得分的數據,都是沒有單位的數據。比如各種類型的測試,只要是不同的測試,那麼得分都是不同質的數據。

另外, 雷達圖不僅僅可以用於不同同質的數據。雷達圖有一個很大的優點是能夠根據形態來判斷一個事物在各方面的綜合素質,所以有時候對於同質性的數據也會用雷達圖,每個雷達圖代表一個個體,雷達圖的形態對比個體的差異。

第四章:數據邏輯解析

如果你想對數據可視化有更深入的理解,本章的內容對你非常有用。對於對邏輯不太感興趣的人來說,本章的內容可能稍微有點難以理解。

在上一章中,對一維表格可視化進行了比較簡單的講述。但是,細心的讀者可能會發現有幾個問題:

  • 直方圖和柱狀圖僅僅只是在形態方面的差異嗎?他們的內在本質到底有什麼不同?
  • 介紹雷達圖的時候,說了一組數據中還存在有不同質的數據,那麼是否所有不同質的數據都可以用雷達圖表示?
  • 描述數據,計數統計數據,百分比數據都有什麼不同,他們到底是怎麼來的?

我們再次找出之前例子中的一維表格,這些看起來都是一維表格的數據,到底邏輯上有什麼區別呢?

4.1 表格的變化維度

表格中,第一個數據是“11月1日的股指收盤點數”,第二個數據是“11月2日的股指收盤點數”,以此類推。我們會發現,整個表格其實就是“ {11月1日,11月2日,11月5日,…} 的股指收盤點數”。括號中的內容在數據表格中是可以變化的,所以我們稱之為表格的變化維度,這個例子中表格的變化維度為“日期”。

我們再來看另一個表格:

這個表格可以概況為“ {互聯網行業,金融業,製造業,…} 平均薪資水平”,表格的變化維度為行業

以下這個表格可以概況為:“ {瀋陽,南充,天津,…} 遷往北京人口數量”。

以下這組數據,可以概況為:“小李同學 {技術得分,力量得分,速度得分,…} ”

把以上四組一維表格放到一起,我們來看看有什麼特點:

  • {11月1日,11月2日,11月5日,…} 股指收盤點數
  • {互聯網行業,金融業,製造業,…} 薪資水平
  • {瀋陽,南充,天津,…} 遷往北京人口數量
  • 小李同學{技術,力量,速度,…}

我們發現:

  1. 每一句話中,都只有一個括號,代表一個表格的變化維度。只有一個變化維度的,就是第一章介紹的一維表格。
  2. 每句話中的“的”字被着重標出,在“的”字之前的變化維度,都統稱為“主體”,而在“的”字之後的,是需要可視化的指標,我們稱之為“指標”。那麼,以上的所有數據表格,都可以描述為“主體”的“指標”。
  3. 前面三組數據,括號都在“的”字前面,表格變化的維度是“主體”,而後一組數據,維度是“指標”。

“指標”分為同質和不同質。比如南京市的 {出口額,投資額,進口額} ,這三個指標都是金額,他們是同一類的數據,我們稱之為同質的。但是有的指標,如身高,體重,他們單位都不相同,這種數據就是不同質的。

還有一種數據是沒有單位的,或者是人造的得分,比如:技術,力量等,這種數據之間,都是不同質的。不同質的數據,我們不應當用一個縱坐標軸來表示它,如果這幾個不同質的數據還有可比性的話,那麼,最合適的方式是使用雷達圖。如果這幾個不通質數據沒有可比性的話,就應該把他們拆解成獨立的數據來表示。

補充說明:到底什麼樣的指標叫具有“可比性”的呢?

技術、力量、智商等等,是不同類的數據。這些數據都是分數越高越強 {好} ,他們都是單向的,所以他們是具有可比性的,可以出現在同一張雷達圖中。同樣的,如果幾個指標都是越低越強 {好} 的,那麼他們也是具有可比性的。但是身高,體重,很明顯,數值既不是越大越好,也不是越小越好,所以身高和技術,智商在一起就不是具有可比性的。

但是也有特例,我們經常會看到對籃球運動員的綜合素質評估的雷達圖裡面就有身高,力量,技術等等。其實這裡面也就隱含了一個假設:在一定範圍內籃球運動員的是越高越好,於是就和其他的指標一樣都成單向的了,所以在一起是可比性的數據。

所以當表格的變化維度是“指標”的時候,需要分為兩種情況:有可比性的和沒有可比性的。有可比性可以在一個雷達圖中可視化,如某人 {技術,力量,智商,顏值} ;而沒有可比性的則不能再一個雷達圖中,需要拆解成多個獨立數據單獨可視化。比如,某人 {身高,體重,顏值,智商} 這組數據就不能在一個雷達圖中。

4.2 百分比數據

上一節中我們描述了變量的定義,並區分了幾種數據的類型。然而,我們會發現還有很多的數據類型並不是以上的那些數據類型。比如百分比數據。百分比數據並不是原始的數據,一定是通過某種方法計算轉化過來的。

我們仍然看例子:

  • {11月1日,11月2日,11月5日,…} 股指收盤點數
  • {互聯網行業,金融業,製造業,…} 平均薪資
  • {瀋陽,南充,天津,…} 遷往北京人口數量
  • {一班,二班,三班,…} 捐款金額

我們看看這幾組數據的“指標”分別是:股指點數,薪資水平,人口數量,捐款金額。那麼這幾種指標有什麼不同呢?

最大的不同點在於是否可以累加,比如說:股指點數,把每天的點數累加在一起沒有意義,所以股指點數是不可累加的;同樣平均薪資水平也是不可累加的。但是遷往北京的人口數量卻是可以累加的,累加起來就是遷往北京的人口總數,這個數據是有意義的。同樣,捐款金額也是可以累加的指標,累加在一起等於捐款總額。

所以存在兩種類型的指標:可累加和不可累加。

對於可累加的數據是,我們可以將其轉換為另一種數據形式,那就是百分百數據。

我們只要用每個數字,除以這一組數字累加和,就能把這組數據轉換為百分百數據。

那麼這組數據就可以表述為: {瀋陽,南充,天津,…} 遷往北京人口數量的百分比,於是這組數據就變成了百分比數據。同樣,捐款金額轉化為百分比數據后,就成了: {一班,二班,三班,…} 捐款金額百分比。這些百分百數據,都可以使用餅圖及其變式來可視化。

對於不可累加的數據,其內在數據邏輯就決定了,這組數據不能直接轉化為百分百數據。

4.3 計數數據,計數百分比數據

對於任何一組一維表格,都可以轉化為計數數據。根據指標的區間,來統計對象的數量。

我們可以看到, {11月1日,11月2日,11月5日,…} 的股指收盤點數,點數這個指標,是一系列的數字,我們可以給這個數字劃分區間,然後計算落在每個區間的天數。比如說以上數據中,990點及以下的有1天,990-999的有2天,1000-1009的有2天,1010及以上的有1天

於是,就將以上描述數據,轉化為了計數數據,如下表所示:

以上一維表格可以表述為:收盤 {990點及以下,990-999,1000-1009,1010及以上} 的天數。

同樣的, {互聯網行業,金融業,製造業,…} 薪資水平這組一維表格,也可以轉化為計數數據。薪資水平8000及以上的有2個行業,6000-7999的有2個行業,6000以下的有2個行業

以上一維表格可以表述為:薪資水平 {6000以下,6000-7999,8000及以上} 行業個數。

同理,其他的描述數據,都可以轉化為這樣的計數數據。如:遷入北京人口 {10萬及以上,8-9.9萬,8萬以下} 城市個數。

這樣,所有的一維表格,都可以根據值的區間劃分轉化為計數數據。對於以上的這些計數數據,變量的值是一個連續的區間,那麼這類數據適合用沒有間隙的直方圖來表示,而不是普通的柱狀圖。

計數數據是可累加的,可以轉換為按百分比計算的數據。

4.4 二維表格

二維表格是指的有兩個變化維度的表格。我們來看一個二維表格的例子:

上表的表達式為: {城市A,城市B,城市C}  {1月,2月,…} 的GDP值。表達式中,有兩個括號,這兩個變量都在“的”字前面,都是“主體”。我們用字母代替對象,表達式可以抽象為: {A1,A2,…}  {B1,B2,…} 的具體指標。再來看另一個二維表格:

上表的表達式為: {七歲,八歲,九歲,…} 男童的 {平均身高,平均體重} 。表格中,仍然是有兩個變化維度。表達式可以抽象為: {主體1,主體2,…} 的 {指標1,指標2,…}

所以,二維表格的基礎類型可以分為兩類:

  • 第一類,表達式: {A1,A2,…}  {B1,B2,…} 的單個指標。如 {城市A,城市B,城市C}  {1月,2月,…} 的GDP值
  • 第二類,表達式: {主體1,主體2,…} 的 {指標1,指標2,…} 。如 {七歲,八歲,九歲,…} 男童的 {身高,體重}

這兩類二維表格,在邏輯上有着較大的區別,需要分開介紹。

因篇幅原因,二維表格數據的可視化我們將在後面的文章中介紹。

 

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《可視化設計的精髓之——數值可視化(上)》
文章链接:https://www.pmbear.com/%e5%8f%af%e8%a6%96%e5%8c%96%e8%a8%ad%e8%a8%88%e7%9a%84%e7%b2%be%e9%ab%93%e4%b9%8b-%e6%95%b8%e5%80%bc%e5%8f%af%e8%a6%96%e5%8c%96%ef%bc%88%e4%b8%8a%ef%bc%89/
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

大前端WP主题 更专业 更方便

联系我们联系我们