import?pandas?as?pd?
import?seaborn?as?sns?
sns.set(style="darkgrid",?font_scale=1.2)?
df?=?pd.read_csv(?
??"/content/melb_housing.csv",??
??usecols=["Regionname",?"Type",?"Rooms",?"Distance",?"Price"]?
)?
df.head()

該數(shù)據(jù)集包含了墨爾本房屋的一些特征及其價(jià)格。

Seaborn的離散函數(shù)允許創(chuàng)建3種不同類型的分布區(qū)，分別是:

柱狀圖
Kde(核密度估計(jì))圖
Ecdf圖

我們只需要調(diào)整kind參數(shù)來選擇plot的類型。

示例 1

第一個(gè)例子是創(chuàng)建一個(gè)基本直方圖。它將連續(xù)變量的取值范圍劃分為離散的箱子，并顯示每個(gè)箱子中有多少個(gè)值。

sns.displot(?
??data=df,?
??x="Price",?
??kind="hist",?
??aspect=1.4?
)

我們將df的名稱傳遞給數(shù)據(jù)參數(shù)。參數(shù)x接受要繪制的列名。aspect參數(shù)調(diào)整大小的寬高比。它也可以改變高度。

示例 2

在第一個(gè)例子中，我們可以清楚地看到價(jià)格欄中有一些異常值。柱狀圖在右邊有一條長(zhǎng)尾，這表明價(jià)格非常高的房子很少。

減少這種異常值影響的一種方法是對(duì)值取對(duì)數(shù)。displot函數(shù)可以使用log_scale參數(shù)執(zhí)行此操作。

sns.displot(?
??data=df,?
??x="Price",?
??kind="hist",?
??aspect=1.4,?
??log_scale=10?
)

價(jià)格以10的冪表示。現(xiàn)在我們對(duì)房?jī)r(jià)的分布有了一個(gè)更好的概述。

示例 3

我們還可以調(diào)整直方圖中的箱數(shù)量。在某些情況下，最好使用較少的箱數(shù)量，這樣我們就可以得到一個(gè)更結(jié)構(gòu)化的概述。

用于此調(diào)整的參數(shù)是box。

sns.displot(?
??data=df,?
??x="Price",?
??kind="hist",?
??aspect=1.4,?
??log_scale=10,?
??bins=20?
)

示例 4

數(shù)據(jù)集還包含分類變量。例如，類型列有3個(gè)類別，分別是h(房屋)、t(聯(lián)排房屋)和u(單位)。我們可能需要分別檢查每款的分布情況。

一種選擇是在相同的可視化中用不同的顏色顯示它們。我們只需要將列的名稱傳遞給hue參數(shù)。

sns.displot(?
??data=df,?
??x="Price",?
??hue="Type",?
??kind="hist",?
??aspect=1.4,?
??log_scale=10,?
??bins=20?
)

這個(gè)圖為我們提供了2條信息:

每個(gè)類別的大小與房屋的數(shù)量有關(guān)。h類是最大的一類。
每類房屋的價(jià)格分布。

示例 5

另一個(gè)檢查每個(gè)類別分布的選項(xiàng)是創(chuàng)建單獨(dú)的子圖。我們可以對(duì)這個(gè)任務(wù)使用col或row參數(shù)。給定列中的每個(gè)類別都有一個(gè)子圖。

sns.displot(?
??data=df,?
??x="Price",?
??col="Type",?
??kind="hist",?
??aspect=1.4,?
??log_scale=10,?
??bins=20?
)

例子 6

displot函數(shù)還允許生成二維直方圖。因此，我們得到了關(guān)于兩列中值的觀察值(即行)分布的概述。

我們使用價(jià)格和距離列創(chuàng)建一個(gè)。我們只是將列名傳遞給x和y參數(shù)。

sns.displot(?
??data=df,?
??x="Price",?
??y="Distance",?
??col="Type",?
??kind="hist",?
??height=5,?
??aspect=1.2,?
??log_scale=(10,0),?
??bins=20?
)

較暗的區(qū)域密度更大，所以它們包含了更多的觀測(cè)數(shù)據(jù)。兩列看起來都是正態(tài)分布，因?yàn)槊芗膮^(qū)域在中心。

你可能已經(jīng)注意到，我們使用了一個(gè)元組作為log_scale參數(shù)的參數(shù)。因此，我們可以為每個(gè)列傳遞不同的比例。

例子 7

Kde圖還可以用于可視化變量的分布。它們和直方圖很相似。然而，kde圖使用連續(xù)的概率密度曲線來表示分布，而不是使用離散的箱。

kind參數(shù)設(shè)置為“kde”，以生成kde圖。

sns.displot(?
??data=df,?
??x="Price",?
??kind="kde",?
??aspect=1.4,?
??log_scale=10?
)

示例 8

與直方圖類似，可以為不同的類別分別繪制kde圖。我們的數(shù)據(jù)集包含房屋的區(qū)域信息。我們看看不同地區(qū)的價(jià)格變化。

sns.displot(?
??data=df,?
??x="Price",?
??hue="Regionname",?
??kind="kde",?
??height=6,?
??aspect=1.4,?
??log_scale=10?
)

南方大都市區(qū)的平均房?jī)r(jià)似乎最高。

示例 9

另一種檢查變量分布的方法是使用ecdf圖。它表示低于給定列中每個(gè)唯一值的觀察值的比例或計(jì)數(shù)。

這是一種可視化的累計(jì)和。因此，我們能夠看到更密集的值范圍。

sns.displot(?
??data=df,?
??x="Distance",?
??kind="ecdf",?
??height=6,?
??aspect=1.4,?
??stat="count"?
)

曲線斜率高的值范圍有更多的觀測(cè)值。例如，我們沒有很多房子的距離超過30。與此相反，在10到15的距離范圍內(nèi)有很多房子。

示例10

ecdf圖也支持hue、col和row參數(shù)。因此，我們可以在一個(gè)列中區(qū)分不同類別之間的分布。

sns.displot(?
??data=df,?
??x="Distance",?
??kind="ecdf",?
??hue="Type",?
??height=6,?
??aspect=1.4,?
??stat="count"?
)

對(duì)于數(shù)據(jù)分析或機(jī)器學(xué)習(xí)任務(wù)，了解變量(即特征)的分布是非常重要的。我們?nèi)绾翁幚斫o定的任務(wù)可能取決于分布。

在這篇文章中，我們看到了如何使用Seaborn的displot函數(shù)來分析價(jià)格和距離欄的分布。

以上就是Python+Seaborn繪制分布圖的示例詳解的詳細(xì)內(nèi)容，更多關(guān)于Python Seaborn分布圖的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

Python+Seaborn繪制分布圖的示例詳解

目錄

前言

示例 1

示例 2

示例 3

示例 4

示例 5

例子 6

例子 7

示例 8

示例 9

示例10

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具