Matplotlib實戰(zhàn)之平行坐標系繪制詳解
平行坐標系是一種統(tǒng)計圖表,它包含多個垂直平行的坐標軸,每個軸表示一個字段,并用刻度標明范圍。通過在每個軸上找到數(shù)據(jù)點的落點,并將它們連接起來形成折線,可以很容易地展示多維數(shù)據(jù)。
隨著數(shù)據(jù)增多,折線會堆疊,分析者可以從中發(fā)現(xiàn)數(shù)據(jù)的特性和規(guī)律,比如發(fā)現(xiàn)數(shù)據(jù)之間的聚類關(guān)系。
盡管平行坐標系與折線圖表面上看起來相似,但它并不表示趨勢,各個坐標軸之間也沒有因果關(guān)系。
因此,在使用平行坐標系時,軸的順序是可以人為決定的,這會影響閱讀的感知和判斷。較近的兩根坐標軸會使對比感知更強烈。
因此,為了得出最合適和美觀的排序方式,通常需要進行多次試驗和比較。
同時,嘗試不同的排序方式也可能有助于得出更多的結(jié)論。
此外,平行坐標系的每個坐標軸很可能具有不同的數(shù)據(jù)范圍,這容易導致讀者的誤解。
因此,在繪制圖表時,最好明確標明每個軸上的最小值和最大值。
1. 主要元素
平行坐標系是一種常用的數(shù)據(jù)可視化方法,用于展示多個維度的數(shù)據(jù),并通過連接這些維度的線段來揭示它們之間的關(guān)系。
它的主要元素包括:
- 坐標軸:平行坐標系通常由垂直于數(shù)據(jù)維度的坐標軸組成,每個坐標軸代表一個數(shù)據(jù)維度。
- 數(shù)據(jù)點:每個數(shù)據(jù)點在平行坐標系中由一條連接各個坐標軸的線段表示,線段的位置和形狀反映了數(shù)據(jù)點在各個維度上的取值。
- 連接線:連接線用于將同一數(shù)據(jù)點在不同維度上的線段連接起來,形成數(shù)據(jù)點的輪廓,幫助觀察者理解數(shù)據(jù)點在各個維度上的變化趨勢。
2. 適用的場景
平行坐標系適用的場景有:
- 多維數(shù)據(jù)分析:平行坐標系適用于展示多個維度的數(shù)據(jù),幫助觀察者發(fā)現(xiàn)不同維度之間的關(guān)系和趨勢,例如在探索數(shù)據(jù)集中的模式、異常值或相關(guān)性時。
- 數(shù)據(jù)分類和聚類:通過觀察數(shù)據(jù)點的輪廓和分布,可以幫助觀察者識別不同的數(shù)據(jù)類別或聚類。
- 數(shù)據(jù)交互與過濾:平行坐標系可以支持交互式數(shù)據(jù)探索和過濾,通過選擇或操作特定的坐標軸或線段,可以對數(shù)據(jù)進行篩選和聚焦。
3. 不適用的場景
平行坐標系不適用的場景有:
- 數(shù)據(jù)維度過多:當數(shù)據(jù)維度過多時,平行坐標系的可讀性和解釋性可能會下降,因為線段之間的交叉和重疊會導致視覺混亂。
- 數(shù)據(jù)維度之間差異較大:如果數(shù)據(jù)在不同維度上的取值范圍差異較大,那么線段之間的比較和分析可能會受到影響,因為較小的取值范圍可能會被較大的取值范圍所掩蓋。
- 數(shù)據(jù)具有時間序列:平行坐標系并不適用于展示時間序列數(shù)據(jù),因為它無法準確地表示數(shù)據(jù)的時間順序。在這種情況下,其他的數(shù)據(jù)可視化方法,如折線圖或時間軸圖,可能更適合。
4. 分析實戰(zhàn)
平行坐標系適用于展示具有相同屬性的一系列數(shù)據(jù),每個坐標系代表一種屬性。
這次選用了國家統(tǒng)計局公開的教育類數(shù)據(jù):databook.top/nation/A0M
選取其中幾類具有相同屬性的數(shù)據(jù):
- A0M06:各級各類學校專任教師數(shù)
- A0M07:各級各類學校招生數(shù)
- A0M08:各級各類學校在校學生數(shù)
- A0M09:各級各類學校畢業(yè)生數(shù)
4.1. 數(shù)據(jù)來源
四個原始數(shù)據(jù)集是按照年份統(tǒng)計的:
fp = "d:/share/A0M06.csv" df = pd.read_csv(fp) df
這是教師相關(guān)統(tǒng)計數(shù)據(jù),其他3個數(shù)據(jù)集的結(jié)構(gòu)也類似。
4.2. 數(shù)據(jù)清理
平行坐標系比較的是屬性,不需要每年的數(shù)據(jù)。
所以,對于上面4個數(shù)據(jù)集,分別提取2022年的小學,初中,高中,特殊教育相關(guān)4
個屬性的數(shù)據(jù)。
import os files = { "教師數(shù)": "A0M06.csv", "招生數(shù)": "A0M07.csv", "在校學生數(shù)": "A0M08.csv", "畢業(yè)學生數(shù)": "A0M09.csv", } data_dir = "d:/share" data = pd.DataFrame() for key in files: fp = os.path.join(data_dir, files[key]) df = pd.read_csv(fp) df_filter = pd.DataFrame( [[ key, df.loc[225, "value"], df.loc[135, "value"], df.loc[90, "value"], df.loc[270, "value"], ]], columns=["name", "小學", "初中", "高中", "特殊教育"], ) data = pd.concat([data, df_filter]) data
4.3. 分析結(jié)果可視化
平行坐標系在 matplotlib
中沒有直接提供,實現(xiàn)起來也不難:
import matplotlib.pyplot as plt from matplotlib.path import Path import matplotlib.patches as patches import numpy as np xnames = data.loc[:, "name"] ynames = ["小學", "初中", "高中", "特殊教育"] ys = np.array(data.iloc[:, 1:].values.tolist()) ymins = ys.min(axis=0) ymaxs = ys.max(axis=0) dys = ymaxs - ymins ymins -= dys * 0.05 # Y軸的上下限增加 5% 的冗余 ymaxs += dys * 0.05 #每個坐標系的上下限不一樣,調(diào)整顯示方式 zs = np.zeros_like(ys) zs[:, 0] = ys[:, 0] zs[:, 1:] = (ys[:, 1:] - ymins[1:]) / dys[1:] * dys[0] + ymins[0] fig, host = plt.subplots(figsize=(10, 4)) axes = [host] + [host.twinx() for i in range(ys.shape[1] - 1)] for i, ax in enumerate(axes): ax.set_ylim(ymins[i], ymaxs[i]) ax.spines["top"].set_visible(False) ax.spines["bottom"].set_visible(False) if ax != host: ax.spines["left"].set_visible(False) ax.yaxis.set_ticks_position("right") ax.spines["right"].set_position(("axes", i / (ys.shape[1] - 1))) host.set_xlim(0, ys.shape[1] - 1) host.set_xticks(range(ys.shape[1])) host.set_xticklabels(ynames, fontsize=14) host.tick_params(axis="x", which="major", pad=7) host.spines["right"].set_visible(False) host.xaxis.tick_top() host.set_title("各類學校的師生數(shù)目比較", fontsize=18, pad=12) colors = plt.cm.Set1.colors legend_handles = [None for _ in xnames] for j in range(ys.shape[0]): verts = list( zip( [x for x in np.linspace(0, len(ys) - 1, len(ys) * 3 - 2, endpoint=True)], np.repeat(zs[j, :], 3)[1:-1], ) ) codes = [Path.MOVETO] + [Path.CURVE4 for _ in range(len(verts) - 1)] path = Path(verts, codes) patch = patches.PathPatch( path, facecolor="none", lw=2, alpha=0.7, edgecolor=colors[j] ) legend_handles[j] = patch host.add_patch(patch) host.legend( xnames, loc="lower center", bbox_to_anchor=(0.5, -0.18), ncol=len(xnames), fancybox=True, shadow=True, ) plt.tight_layout() plt.show()
從圖表中,可以看出一下幾點,和我們對實際情況的印象是差不多的:
- 教師數(shù)量遠小于學生數(shù)量
- 從小學到初中,高中,學生數(shù)量不斷減少
- 招生數(shù)量和畢業(yè)生數(shù)量差不多
平行坐標系用于比較不同數(shù)據(jù)集的相同屬性。
以上就是Matplotlib實戰(zhàn)之平行坐標系繪制詳解的詳細內(nèi)容,更多關(guān)于Matplotlib平行坐標系的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
對python3.4 字符串轉(zhuǎn)16進制的實例詳解
今天小編就為大家分享一篇對python3.4 字符串轉(zhuǎn)16進制的實例詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06淺談pytorch和Numpy的區(qū)別以及相互轉(zhuǎn)換方法
今天小編就為大家分享一篇淺談pytorch和Numpy的區(qū)別以及相互轉(zhuǎn)換方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07python 實現(xiàn)得到當前時間偏移day天后的日期方法
今天小編就為大家分享一篇python 實現(xiàn)得到當前時間偏移day天后的日期方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12python實現(xiàn)旋轉(zhuǎn)和水平翻轉(zhuǎn)的方法
今天小編就為大家分享一篇python實現(xiàn)旋轉(zhuǎn)和水平翻轉(zhuǎn)的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10