Python實現(xiàn)畫箱線圖展示數(shù)據(jù)分布情況
Python畫箱線圖展示數(shù)據(jù)分布情況
箱線圖(Boxplot)是一種常用的統(tǒng)計圖表,用于展示數(shù)據(jù)的分布情況。
它由五個統(tǒng)計量組成:
最小值、第一四分位數(shù)(Q1)、中位數(shù)(Q2)、第三四分位數(shù)(Q3)和最大值。
通過這些統(tǒng)計量,可以直觀地了解數(shù)據(jù)的集中趨勢、離散程度以及是否存在異常值。
構(gòu)成要素
1.中位數(shù)(Q2):
- 箱線圖中的中間線代表數(shù)據(jù)的中位數(shù),即將數(shù)據(jù)按大小排列后中間位置的數(shù)值。
2.四分位數(shù)(Q1和Q3):
- 箱體的上邊界(Q3)和下邊界(Q1)分別表示數(shù)據(jù)的第三四分位數(shù)和第一四分位數(shù)。
- 箱子的高度即為四分位距(IQR),是Q3和Q1的差值,用來衡量數(shù)據(jù)的離散程度。
3.盒須:
- 箱體外部的直線(盒須)延伸至數(shù)據(jù)集的最大值和最小值,用來顯示非異常值的范圍。
- 盒須外部的點表示可能的異常值,即相對于主體數(shù)據(jù)分布偏離較大的數(shù)據(jù)點。
4.異常值:
- 在盒須外部的點表示可能存在的異常值,即與其他數(shù)據(jù)點相比顯著偏離的數(shù)據(jù)。
使用場景
箱線圖常用于以下情況:
- 數(shù)據(jù)分布比較:可以同時比較多組數(shù)據(jù)的分布情況,幫助觀察各組數(shù)據(jù)的中位數(shù)、四分位數(shù)和離散程度。
- 異常值檢測:通過觀察箱體外部的點,可以快速發(fā)現(xiàn)可能的異常值或離群點。
- 數(shù)據(jù)分散度分析:箱體的長度和位置反映了數(shù)據(jù)的分散程度,有助于對數(shù)據(jù)的離散程度進行比較。
# 創(chuàng)建示例數(shù)據(jù) data = { 'Group': ['A'] * 11 + ['B'] * 10 + ['C'] * 10, 'Value': [23, 25, 19, 21, 24, 27, 22, 20, 21, 24, -1, # Group A 30, 28, 36, 31, 34, 29, 35, 33, 32, 30, # Group B 15, 17, 14, 16, 13, 18, 14, 15, 17, 16] # Group C } # 轉(zhuǎn)換為 DataFrame df = pd.DataFrame(data) # 設(shè)置繪圖風(fēng)格 sns.set(style="whitegrid") # 繪制箱線圖 plt.figure(figsize=(10, 6)) sns.boxplot(x='Group', y='Value', data=df) # 添加標(biāo)題和標(biāo)簽 plt.title('Box Plot of Three Groups') plt.xlabel('Group') plt.ylabel('Value') # 顯示圖表 # plt.show() plt.savefig('./boxPlot_seaborn.png')
- 中位數(shù)(箱體內(nèi)部的橫線):每個組的數(shù)據(jù)中間值。
- 四分位數(shù)(箱體的上下邊緣):分別表示25%和75%的數(shù)據(jù)點。
- 最小值和最大值(盒須的末端):除去異常值后數(shù)據(jù)的范圍。
- 異常值(箱體外的點):與其他數(shù)據(jù)點相距較遠(yuǎn)的數(shù)值。
自定義箱線圖
print('自定義箱線圖') # 示例數(shù)據(jù) data = [ {'Min': 10, '50%': 50, 'Mean': 55, '95%': 90, '99%': 97, 'Max': 100}, {'Min': 20, '50%': 60, 'Mean': 65, '95%': 85, '99%': 92, 'Max': 95}, {'Min': 5, '50%': 40, 'Mean': 45, '95%': 80, '99%': 88, 'Max': 90} ] # 準(zhǔn)備箱線圖數(shù)據(jù) box_data = [] means = [] positions = [] for i, d in enumerate(data): box_data.append([d['Min'], d['50%'], d['95%'], d['99%'], d['Max']]) means.append(d['Mean']) positions.append(i + 1) # 創(chuàng)建圖形 fig, ax = plt.subplots() # 繪制箱線圖主體 ax.boxplot(box_data, vert=False, positions=positions, patch_artist=True, showmeans=False, meanline=True, widths=0.6) # 添加均值點 for i, mean in enumerate(means): ax.plot(mean, positions[i], 'ro') # 設(shè)置軸標(biāo)簽 ax.set_yticks(np.arange(1, len(data) + 1)) ax.set_yticklabels([f'Data {i + 1}' for i in range(len(data))]) # 添加標(biāo)題和標(biāo)簽 plt.title('Custom Box Plot with Multiple Data Sets') plt.xlabel('Value') # 顯示圖形 plt.show() plt.savefig('./boxPlot_auto.png')
print('自定義箱線圖') plt.clf() # 清除當(dāng)前圖形內(nèi)容 # 數(shù)據(jù) # Min、50%、Mean、95%、99%、Max data = [ {'data1':[10,50,44,90,97,100]}, {'data2':[20,60,65,85,92,95]}, {'data3':[5,40,45,80,88,90]} ] # 準(zhǔn)備箱線圖數(shù)據(jù) box_data = [d[list(d.keys())[0]] for d in data] # 提取數(shù)據(jù) labels = [list(d.keys())[0] for d in data] means = [d[list(d.keys())[0]][2] for d in data] # 創(chuàng)建圖形 fig, ax = plt.subplots() # 繪制箱線圖主體 bp = ax.boxplot(box_data, vert=False, patch_artist=True, showmeans=True,meanline=True) # 添加均值點 for i, mean in enumerate(means): ax.plot(mean, i+1, 'ro') # 設(shè)置軸標(biāo)簽 ax.set_yticklabels(labels) # 添加標(biāo)題和標(biāo)簽 plt.title('Custom Box Plot with Multiple Data Sets') plt.xlabel('Value') # 顯示圖形 # plt.show() plt.savefig('./boxPlot_auto.png')
box_data
提供了要繪制的數(shù)據(jù)。vert=False
表示繪制水平的箱線圖。patch_artist=True
使得箱線圖的箱體部分被填充顏色。showmeans=True
在箱線圖中顯示均值。meanline=True
用線條表示均值。
總結(jié)
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Tkinter組件實現(xiàn)Radiobutton的示例
Radiobutton組件用于實現(xiàn)多選一的問題,本文主要介紹了Tkinter組件實現(xiàn)Radiobutton的示例,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-01-01關(guān)于python函數(shù)的建立、調(diào)用、傳參、返回值詳解
這篇文章主要介紹了關(guān)于python函數(shù)的建立、調(diào)用、傳參、返回值詳解,Python?還支持自定義函數(shù),即將一段有規(guī)律的、可重復(fù)使用的代碼定義成函數(shù),從而達(dá)到一次編寫多次調(diào)用的目的,需要的朋友可以參考下2023-07-07Python OpenCV學(xué)習(xí)之特征點檢測與匹配詳解
提取圖像的特征點是圖像領(lǐng)域中的關(guān)鍵任務(wù),不管在傳統(tǒng)還是在深度學(xué)習(xí)的領(lǐng)域中,特征代表著圖像的信息,對于分類、檢測任務(wù)都是至關(guān)重要的。這篇文章主要為大家詳細(xì)介紹了OpenCV特征點檢測與匹配,需要的可以參考一下2022-01-01LeetCode189輪轉(zhuǎn)數(shù)組python示例
這篇文章主要為大家介紹了LeetCode189輪轉(zhuǎn)數(shù)組python解法示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-08-08Django實現(xiàn)在線無水印抖音視頻下載(附源碼及地址)
該項目功能簡單,完全復(fù)制SaveTweetVedio的項目。用戶觀看抖音視頻時選擇復(fù)制視頻鏈接,輸入到下載輸入欄,即可下載無水印視頻,還可掃描二維碼手機上預(yù)覽。親測成功。2021-05-05用python刪除java文件頭上版權(quán)信息的方法
在使用他人代碼時,為不保留文件頭部版權(quán)信息,需要一個個刪掉,下面是用python刪除java文件頭上的版權(quán)信息的方法2014-07-07