Python獲取excel的數(shù)據(jù)并繪制箱型圖和直方圖的方法實(shí)例
根據(jù)箱型圖、直方圖的代碼和數(shù)據(jù)的條件查詢方法,畫出航空公司男性和女性用戶的年齡分布箱型圖和直方圖。
圖形簡介
1. 箱線圖
箱線圖(Box-plot)又稱為盒式圖或箱型圖,箱型圖是用來表示一組數(shù)據(jù)的分布(統(tǒng)計(jì)不同取值可能出現(xiàn)的次數(shù))。
25%分位數(shù)(下四分位數(shù)):序列中有25%的數(shù)據(jù)小于這個(gè)數(shù)
中位數(shù)(50%分位數(shù)):序列中有50%的數(shù)據(jù)小于這個(gè)數(shù)
75%分位數(shù)(上四分位數(shù)):序列中有75%的數(shù)據(jù)小于這個(gè)數(shù)
最大值:序列100%的數(shù)據(jù)小于這個(gè)數(shù)
最小值:序列沒有數(shù)據(jù)小于這個(gè)數(shù)
2.直方圖
直方圖(Bar),形狀類似柱狀圖卻有著與柱狀圖完全不同的含義。直方圖牽涉統(tǒng)計(jì)學(xué)概念,首先要對(duì)數(shù)據(jù)進(jìn)行分組,然后統(tǒng)計(jì)每個(gè)分組內(nèi)數(shù)據(jù)元的數(shù)量。在平面直角坐標(biāo)系中,橫軸標(biāo)出每個(gè)組的端點(diǎn),縱軸表示頻數(shù),每個(gè)矩形的高代表對(duì)應(yīng)的頻數(shù),這樣的統(tǒng)計(jì)圖稱為頻數(shù)分布直方圖。
頻數(shù)分布直方圖需要經(jīng)過頻數(shù)乘以組距的計(jì)算過程才能得出每個(gè)分組的數(shù)量,同一個(gè)直方圖的組距是一個(gè)固定不變的值,所以如果直接用縱軸表示數(shù)量,每個(gè)矩形的高代表對(duì)應(yīng)的數(shù)據(jù)元數(shù)量,既能保持分布狀態(tài)不變,又能直觀地看出每個(gè)分組的數(shù)量,如下圖所示
引入模塊
首先我們的目的是獲取excel文件并作圖,那么就要引入相關(guān)的模塊
import pandas as pd from pyecharts import options as opts from pyecharts.charts import Boxplot from pyecharts.charts import Bar
若沒有pandas和pyecharts這兩個(gè)模塊!
就需要在cmd命令窗口或Anaconda Prompt窗口輸入以下命令:
pip install pandas pip install pyecharts
---------------------------------------------------------------------------------------------------------------------------------
Pandas 是 Python 語言的一個(gè)擴(kuò)展程序庫,用于數(shù)據(jù)分析。
pyecharts是一款將python與echarts結(jié)合的強(qiáng)大的數(shù)據(jù)可視化工具。Echarts 是百度開源的一個(gè)數(shù)據(jù)可視化 JS 庫, Echarts可以生成非常棒的可視化交互圖,pyecharts的開發(fā)讓在python平臺(tái)上也可以直接使用數(shù)據(jù)生成圖。
獲取數(shù)據(jù)
利用pandas中的方法獲取指定文件指定工作表中的全部數(shù)據(jù),其數(shù)據(jù)是一個(gè)列表形式,注意這里’航空公司數(shù)據(jù)-剔除空年齡.xlsx‘文件與當(dāng)前寫的xx.ipynb文件需要在同一文件夾內(nèi)才能獲取到數(shù)據(jù),因?yàn)槲沂褂玫氖窍鄬?duì)路徑,也可以使用絕對(duì)路徑來獲取‘航空公司數(shù)據(jù)-剔除空年齡.xlsx’文件。
下面是用相對(duì)路徑來獲取。
data = pd.read_excel(r'航空公司數(shù)據(jù)-剔除空年齡.xlsx') data
或者用絕對(duì)路徑來獲取。
data = pd.read_excel(r'D:\新建文件夾 (2)\航空公司數(shù)據(jù)-剔除空年齡.xlsx') data
處理數(shù)據(jù)
根據(jù)性別來分開查詢數(shù)據(jù)
表格對(duì)象中實(shí)現(xiàn)條件查詢的方法:
data1 = data['性別']=="男" data2 = data['性別']=="女"
data11=data.loc[data1,:] data11
data22=data.loc[data2,:] data22
做完以上步驟再把年齡提取出來
y1 = [data11['年齡'].tolist()] y2 = [data22['年齡'].tolist()]
畫圖
箱型圖
畫圖前先把年齡的最小值,下四分位數(shù),中位數(shù),上四分位數(shù),最大值提取出來
男性年齡
c = Boxplot() c.prepare_data(y1)
女性年齡
c = Boxplot() c.prepare_data(y2)
完成以上步驟開始畫圖
c = Boxplot() # 先創(chuàng)建出圖形對(duì)象 c.add_xaxis([""]) # 必須輸入,但多數(shù)時(shí)候不需要 c.add_yaxis("男", c.prepare_data(y1), # 數(shù)據(jù)經(jīng)過prepare_data方法處理得到[最小值,下四分位數(shù),中位數(shù),上四分位數(shù),最大值] itemstyle_opts = opts.ItemStyleOpts(color='skyblue', border_color='blue', ) ) c.add_yaxis("女", c.prepare_data(y2), itemstyle_opts = opts.ItemStyleOpts(color='#aa1010', border_color='black', ) ) c.set_global_opts(title_opts=opts.TitleOpts(title="男女性年齡分布箱型圖"), yaxis_opts=opts.AxisOpts( type_="value", name="年齡", # 單位 splitarea_opts=opts.SplitAreaOpts( is_show=True, areastyle_opts=opts.AreaStyleOpts(opacity=1) ), ), ) c.render_notebook()
直方圖
畫圖前先把每個(gè)年齡段有多少人提取出來
男性直方圖
dist = data11['年齡'].value_counts().sort_index() dist
x = [i for i in dist.index] y = dist.tolist() c = ( Bar() .add_xaxis(x) .add_yaxis("男", y, category_gap=0, # 設(shè)置柱子之間的間距為0 color='#ff8080') .set_global_opts(title_opts=opts.TitleOpts(title="男性直方圖"), xaxis_opts=opts.AxisOpts( name="年齡", # 單位 ), yaxis_opts=opts.AxisOpts( type_="value", name="人數(shù)", # 單位 splitarea_opts=opts.SplitAreaOpts( is_show=True,areastyle_opts=opts.AreaStyleOpts(opacity=1) ), ), ) ) c.render_notebook()
女性直方圖
dict = data22['年齡'].value_counts().sort_index() dict
x = [i for i in dict.index] y = dict.tolist() c = ( Bar() .add_xaxis(x) .add_yaxis("女", y, category_gap=0, # 設(shè)置柱子之間的間距為0 color='#ff8080') .set_global_opts(title_opts=opts.TitleOpts(title="女性直方圖"), xaxis_opts=opts.AxisOpts( name="年齡", # 單位 ), yaxis_opts=opts.AxisOpts( type_="value", name="人數(shù)", # 單位 splitarea_opts=opts.SplitAreaOpts( is_show=True,areastyle_opts=opts.AreaStyleOpts(opacity=1) ), ), ) ) c.render_notebook()
總結(jié)
到此這篇關(guān)于Python獲取excel的數(shù)據(jù)并繪制箱型圖和直方圖的文章就介紹到這了,更多相關(guān)Python繪制箱型圖和直方圖內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python實(shí)現(xiàn)新版正方系統(tǒng)滑動(dòng)驗(yàn)證碼識(shí)別
這篇文章主要介紹了基于Python實(shí)現(xiàn)新版正方系統(tǒng)滑動(dòng)驗(yàn)證碼識(shí)別算法和方案,文中示例代碼對(duì)我們的學(xué)習(xí)和工作有一定的幫助,感興趣的可以了解一下2021-12-12python opencv pytesseract 驗(yàn)證碼識(shí)別的實(shí)現(xiàn)
這篇文章主要介紹了python opencv pytesseract 驗(yàn)證碼識(shí)別的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08Python面向?qū)ο髮?shí)現(xiàn)數(shù)據(jù)分析的實(shí)例詳解
這篇文章主要通過幾個(gè)實(shí)例為大家詳細(xì)介紹了Python面向?qū)ο髮?shí)現(xiàn)數(shù)據(jù)分析的方法,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定幫助,需要的可以參考一下2023-01-01Python QListView教程的實(shí)現(xiàn)
QListView是PyQt中的一個(gè)強(qiáng)大控件,用于展示列表數(shù)據(jù),本文主要介紹了Python QListView教程的實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的可以了解一下2025-04-04純numpy卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手寫數(shù)字識(shí)別的實(shí)踐
本文主要介紹了純numpy卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手寫數(shù)字識(shí)別的實(shí)踐,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-08-08Python GUI編程學(xué)習(xí)筆記之tkinter事件綁定操作詳解
這篇文章主要介紹了Python GUI編程學(xué)習(xí)筆記之tkinter事件綁定操作,結(jié)合實(shí)例形式分析了Python GUI編程tkinter事件綁定常見操作技巧與使用注意事項(xiàng),需要的朋友可以參考下2020-03-03python sklearn常用分類算法模型的調(diào)用
這篇文章主要介紹了python sklearn常用分類算法模型的調(diào)用,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-10-10