詳解用Python為直方圖繪制擬合曲線的兩種方法
直方圖是用于展示數(shù)據(jù)的分組分布狀態(tài)的一種圖形,用矩形的寬度和高度表示頻數(shù)分布,通過(guò)直方圖,用戶可以很直觀的看出數(shù)據(jù)分布的形狀、中心位置以及數(shù)據(jù)的離散程度等。
在python中一般采用matplotlib庫(kù)的hist來(lái)繪制直方圖,至于如何給直方圖添加擬合曲線(密度函數(shù)曲線),一般來(lái)說(shuō)有以下兩種方法。
方法一:采用matplotlib中的mlab模塊
mlab模塊是Python中強(qiáng)大的3D作圖工具,立體感效果極佳。在這里使用mlab可以跳出直方圖二維平面圖形的限制,在此基礎(chǔ)上再添加一條曲線。在這里,我們以鳶尾花iris中的數(shù)據(jù)為例,來(lái)舉例說(shuō)明。
import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt import pandas # Load dataset url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" names = ['sepal-length', 'sepal-width','petal-length', 'petal-width', 'class'] dataset = pandas.read_csv(url, names=names) print(dataset.head(10)) # descriptions print(dataset.describe()) x = dataset.iloc[:,0] #提取第一列的sepal-length變量 mu =np.mean(x) #計(jì)算均值 sigma =np.std(x) mu,sigma
以上為通過(guò)python導(dǎo)入鳶尾花iris數(shù)據(jù),然后提取第一列的sepal-length變量為研究對(duì)象,計(jì)算出其均值、標(biāo)準(zhǔn)差,接下來(lái)就繪制帶擬合曲線的直方圖。
num_bins = 30 #直方圖柱子的數(shù)量 n, bins, patches = plt.hist(x, num_bins,normed=1, facecolor='blue', alpha=0.5) #直方圖函數(shù),x為x軸的值,normed=1表示為概率密度,即和為一,綠色方塊,色深參數(shù)0.5.返回n個(gè)概率,直方塊左邊線的x值,及各個(gè)方塊對(duì)象 y = mlab.normpdf(bins, mu, sigma)#擬合一條最佳正態(tài)分布曲線y plt.plot(bins, y, 'r--') #繪制y的曲線 plt.xlabel('sepal-length') #繪制x軸 plt.ylabel('Probability') #繪制y軸 plt.title(r'Histogram : $\mu=5.8433$,$\sigma=0.8253$')#中文標(biāo)題 u'xxx' plt.subplots_adjust(left=0.15)#左邊距 plt.show()
以上命令主要采用mlab.normpdf基于直方圖的柱子數(shù)量、均值、方差來(lái)擬合曲線,然后再用plot畫出來(lái),這種方法的一個(gè)缺點(diǎn)就是畫出的正態(tài)分布擬合曲線(紅色虛線)并不一定能很好反映數(shù)據(jù)的分布情況,如上圖所示。
方法二:采用seaborn庫(kù)中的distplot繪制
Seaborn其實(shí)是在matplotlib的基礎(chǔ)上進(jìn)行了更高級(jí)的API封裝,從而使得作圖更加容易,在大多數(shù)情況下使用seaborn就能做出很具有吸引力的圖,而使用matplotlib就能制作具有更多特色的圖。應(yīng)該把Seaborn視為matplotlib的補(bǔ)充,而不是替代物。
import seaborn as sns sns.set_palette("hls") #設(shè)置所有圖的顏色,使用hls色彩空間 sns.distplot(x,color="r",bins=30,kde=True) plt.show()
在這里主要使用sns.distplot(增強(qiáng)版dist),柱子數(shù)量bins也設(shè)置為30,kde=True表示是否顯示擬合曲線,如果為False則只出現(xiàn)直方圖。
在這里注意一下它與前邊mlab.normpdf方法不同的是,擬合曲線不是正態(tài)的,而是更好地?cái)M合了數(shù)據(jù)的分布情況,如上圖,因此比mlab.normpdf更為準(zhǔn)確。
進(jìn)一步設(shè)置sns.distplot,可以采用kde_kws(擬合曲線的設(shè)置)、hist_kws(直方柱子的設(shè)置),可以得到:
import seaborn as sns import matplotlib as mpl sns.set_palette("hls") mpl.rc("figure", figsize=(6,4)) sns.distplot(x,bins=30,kde_kws={"color":"seagreen", "lw":3 }, hist_kws={ "color": "b" }) plt.show()
其中,lw為曲線粗細(xì)程度。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
django實(shí)現(xiàn)圖片上傳數(shù)據(jù)庫(kù)并顯示
這篇文章主要為大家詳細(xì)介紹了django實(shí)現(xiàn)圖片上傳數(shù)據(jù)庫(kù)并顯示,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08selenium+超級(jí)鷹實(shí)現(xiàn)模擬登錄12306
這篇文章主要介紹了selenium+超級(jí)鷹實(shí)現(xiàn)模擬登錄12306,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01python讀取csv和txt數(shù)據(jù)轉(zhuǎn)換成向量的實(shí)例
今天小編就為大家分享一篇python讀取csv和txt數(shù)據(jù)轉(zhuǎn)換成向量的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-02-02python循環(huán)控制之break和continue流程控制語(yǔ)句
這篇文章主要介紹了python循環(huán)控制之break流程控制語(yǔ)句,Python中提供了兩個(gè)關(guān)鍵字用來(lái)控制循環(huán)語(yǔ)句,分別是break和continue,本文都有介紹,需要的朋友可以參考一下2022-03-03python中is與雙等于號(hào)“==”的區(qū)別示例詳解
Python中有很多運(yùn)算符,下面這篇文章主要給大家介紹了關(guān)于python中is與雙等于號(hào)“==”區(qū)別的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。2017-11-11Python定時(shí)任務(wù)框架APScheduler原理及常用代碼
這篇文章主要介紹了Python定時(shí)任務(wù)框架APScheduler原理及常用代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-10-10