Python實(shí)現(xiàn)8個(gè)概率分布公式的方法詳解
前言
在本文中,我們將介紹一些常見(jiàn)的分布并通過(guò)Python 代碼進(jìn)行可視化以直觀地顯示它們。
概率和統(tǒng)計(jì)知識(shí)是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的核心; 我們需要統(tǒng)計(jì)和概率知識(shí)來(lái)有效地收集、審查、分析數(shù)據(jù)。
現(xiàn)實(shí)世界中有幾個(gè)現(xiàn)象實(shí)例被認(rèn)為是統(tǒng)計(jì)性質(zhì)的(即天氣數(shù)據(jù)、銷(xiāo)售數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等)。這意味著在某些情況下,我們已經(jīng)能夠開(kāi)發(fā)出方法來(lái)幫助我們通過(guò)可以描述數(shù)據(jù)特征的數(shù)學(xué)函數(shù)來(lái)模擬自然。
“概率分布是一個(gè)數(shù)學(xué)函數(shù),它給出了實(shí)驗(yàn)中不同可能結(jié)果的發(fā)生概率。”
了解數(shù)據(jù)的分布有助于更好地模擬我們周?chē)氖澜纭K梢詭椭覀兇_定各種結(jié)果的可能性,或估計(jì)事件的可變性。所有這些都使得了解不同的概率分布在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中非常有價(jià)值。
1.均勻分布
最直接的分布是均勻分布。均勻分布是一種概率分布,其中所有結(jié)果的可能性均等。例如,如果我們擲一個(gè)公平的骰子,落在任何數(shù)字上的概率是 1/6。這是一個(gè)離散的均勻分布。

但是并不是所有的均勻分布都是離散的——它們也可以是連續(xù)的。它們可以在指定范圍內(nèi)取任何實(shí)際值。a 和 b 之間連續(xù)均勻分布的概率密度函數(shù) (PDF) 如下:

讓我們看看如何在 Python 中對(duì)它們進(jìn)行編碼:
import?numpy?as?np??
import?matplotlib.pyplot?as?plt?
from?scipy?import?stats?
?
#?for?continuous??
a?=?0?
b?=?50?
size?=?5000?
?
X_continuous?=?np.linspace(a,?b,?size)?
continuous_uniform?=?stats.uniform(loc=a,?scale=b)?
continuous_uniform_pdf?=?continuous_uniform.pdf(X_continuous)?
?
#?for?discrete?
X_discrete?=?np.arange(1,?7)?
discrete_uniform?=?stats.randint(1,?7)?
discrete_uniform_pmf?=?discrete_uniform.pmf(X_discrete)??
?
#?plot?both?tables?
fig,?ax?=?plt.subplots(nrows=1,?ncols=2,?figsize=(15,5))?
#?discrete?plot?
ax[0].bar(X_discrete,?discrete_uniform_pmf)?
ax[0].set_xlabel("X")?
ax[0].set_ylabel("Probability")?
ax[0].set_title("Discrete?Uniform?Distribution")?
#?continuous?plot?
ax[1].plot(X_continuous,?continuous_uniform_pdf)?
ax[1].set_xlabel("X")?
ax[1].set_ylabel("Probability")?
ax[1].set_title("Continuous?Uniform?Distribution")?
plt.show()

2.高斯分布
高斯分布可能是最常聽(tīng)到也熟悉的分布。它有幾個(gè)名字:有人稱(chēng)它為鐘形曲線,因?yàn)樗母怕蕡D看起來(lái)像一個(gè)鐘形,有人稱(chēng)它為高斯分布,因?yàn)槭紫让枋鏊牡聡?guó)數(shù)學(xué)家卡爾·高斯命名,還有一些人稱(chēng)它為正態(tài)分布,因?yàn)樵缙诘慕y(tǒng)計(jì)學(xué)家 注意到它一遍又一遍地再次發(fā)生。
正態(tài)分布的概率密度函數(shù)如下:

σ 是標(biāo)準(zhǔn)偏差,μ 是分布的平均值。要注意的是,在正態(tài)分布中,均值、眾數(shù)和中位數(shù)都是相等的。
當(dāng)我們繪制正態(tài)分布的隨機(jī)變量時(shí),曲線圍繞均值對(duì)稱(chēng)——一半的值在中心的左側(cè),一半在中心的右側(cè)。并且,曲線下的總面積為 1。
mu?=?0?
variance?=?1?
sigma?=?np.sqrt(variance)?
x?=?np.linspace(mu?-?3*sigma,?mu?+?3*sigma,?100)?
?
plt.subplots(figsize=(8,?5))?
plt.plot(x,?stats.norm.pdf(x,?mu,?sigma))?
plt.title("Normal?Distribution")?
plt.show()

對(duì)于正態(tài)分布來(lái)說(shuō)。經(jīng)驗(yàn)規(guī)則告訴我們數(shù)據(jù)的百分比落在平均值的一定數(shù)量的標(biāo)準(zhǔn)偏差內(nèi)。這些百分比是:
- 68% 的數(shù)據(jù)落在平均值的一個(gè)標(biāo)準(zhǔn)差內(nèi)。
- 95% 的數(shù)據(jù)落在平均值的兩個(gè)標(biāo)準(zhǔn)差內(nèi)。
- 99.7% 的數(shù)據(jù)落在平均值的三個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。
3.對(duì)數(shù)正態(tài)分布
對(duì)數(shù)正態(tài)分布是對(duì)數(shù)呈正態(tài)分布的隨機(jī)變量的連續(xù)概率分布。因此,如果隨機(jī)變量 X 是對(duì)數(shù)正態(tài)分布的,則 Y = ln(X) 具有正態(tài)分布。
這是對(duì)數(shù)正態(tài)分布的 PDF:

對(duì)數(shù)正態(tài)分布的隨機(jī)變量只取正實(shí)數(shù)值。因此,對(duì)數(shù)正態(tài)分布會(huì)創(chuàng)建右偏曲線。
讓我們?cè)?Python 中繪制它:
X?=?np.linspace(0,?6,?500)?
?
std?=?1?
mean?=?0?
lognorm_distribution?=?stats.lognorm([std],?loc=mean)?
lognorm_distribution_pdf?=?lognorm_distribution.pdf(X)?
?
fig,?ax?=?plt.subplots(figsize=(8,?5))?
plt.plot(X,?lognorm_distribution_pdf,?label="μ=0,?σ=1")?
ax.set_xticks(np.arange(min(X),?max(X)))?
?
std?=?0.5?
mean?=?0?
lognorm_distribution?=?stats.lognorm([std],?loc=mean)?
lognorm_distribution_pdf?=?lognorm_distribution.pdf(X)?
plt.plot(X,?lognorm_distribution_pdf,?label="μ=0,?σ=0.5")?
?
std?=?1.5?
mean?=?1?
lognorm_distribution?=?stats.lognorm([std],?loc=mean)?
lognorm_distribution_pdf?=?lognorm_distribution.pdf(X)?
plt.plot(X,?lognorm_distribution_pdf,?label="μ=1,?σ=1.5")?
?
plt.title("Lognormal?Distribution")?
plt.legend()?
plt.show()

4.泊松分布
泊松分布以法國(guó)數(shù)學(xué)家西蒙·丹尼斯·泊松的名字命名。這是一個(gè)離散的概率分布,這意味著它計(jì)算具有有限結(jié)果的事件——換句話(huà)說(shuō),它是一個(gè)計(jì)數(shù)分布。因此,泊松分布用于顯示事件在指定時(shí)期內(nèi)可能發(fā)生的次數(shù)。
如果一個(gè)事件在時(shí)間上以固定的速率發(fā)生,那么及時(shí)觀察到事件的數(shù)量(n)的概率可以用泊松分布來(lái)描述。例如,顧客可能以每分鐘 3 次的平均速度到達(dá)咖啡館。我們可以使用泊松分布來(lái)計(jì)算 9 個(gè)客戶(hù)在 2 分鐘內(nèi)到達(dá)的概率。
下面是概率質(zhì)量函數(shù)公式:

λ 是一個(gè)時(shí)間單位的事件率——在我們的例子中,它是 3。k 是出現(xiàn)的次數(shù)——在我們的例子中,它是 9。這里可以使用 Scipy 來(lái)完成概率的計(jì)算。
from?scipy?import?stats? print(stats.poisson.pmf(k=9,?mu=3))?
輸出:
0.002700503931560479
泊松分布的曲線類(lèi)似于正態(tài)分布,λ 表示峰值。
X?=?stats.poisson.rvs(mu=3,?size=500)?
?
plt.subplots(figsize=(8,?5))?
plt.hist(X,?density=True,?edgecolor="black")?
plt.title("Poisson?Distribution")?
plt.show()

5.指數(shù)分布
指數(shù)分布是泊松點(diǎn)過(guò)程中事件之間時(shí)間的概率分布。指數(shù)分布的概率密度函數(shù)如下:

λ 是速率參數(shù),x 是隨機(jī)變量。
X?=?np.linspace(0,?5,?5000)?
?
exponetial_distribtuion?=?stats.expon.pdf(X,?loc=0,?scale=1)?
?
plt.subplots(figsize=(8,5))?
plt.plot(X,?exponetial_distribtuion)?
plt.title("Exponential?Distribution")?
plt.show()

6.二項(xiàng)分布
可以將二項(xiàng)分布視為實(shí)驗(yàn)中成功或失敗的概率。有些人也可能將其描述為拋硬幣概率。
參數(shù)為 n 和 p 的二項(xiàng)式分布是在 n 個(gè)獨(dú)立實(shí)驗(yàn)序列中成功次數(shù)的離散概率分布,每個(gè)實(shí)驗(yàn)都問(wèn)一個(gè)是 - 否問(wèn)題,每個(gè)實(shí)驗(yàn)都有自己的布爾值結(jié)果:成功或失敗。
本質(zhì)上,二項(xiàng)分布測(cè)量?jī)蓚€(gè)事件的概率。一個(gè)事件發(fā)生的概率為 p,另一事件發(fā)生的概率為 1-p。
這是二項(xiàng)分布的公式:

- P = 二項(xiàng)分布概率
- = 組合數(shù)
- x = n次試驗(yàn)中特定結(jié)果的次數(shù)
- p = 單次實(shí)驗(yàn)中,成功的概率
- q = 單次實(shí)驗(yàn)中,失敗的概率
- n = 實(shí)驗(yàn)的次數(shù)
可視化代碼如下:
X?=?np.random.binomial(n=1,?p=0.5,?size=1000)?
?
plt.subplots(figsize=(8,?5))?
plt.hist(X)?
plt.title("Binomial?Distribution")?
plt.show()

7.學(xué)生 t 分布
學(xué)生 t 分布(或簡(jiǎn)稱(chēng) t 分布)是在樣本量較小且總體標(biāo)準(zhǔn)差未知的情況下估計(jì)正態(tài)分布總體的均值時(shí)出現(xiàn)的連續(xù)概率分布族的任何成員。它是由英國(guó)統(tǒng)計(jì)學(xué)家威廉·西利·戈塞特(William Sealy Gosset)以筆名“student”開(kāi)發(fā)的。
PDF如下:

n 是稱(chēng)為“自由度”的參數(shù),有時(shí)可以看到它被稱(chēng)為“d.o.f.” 對(duì)于較高的 n 值,t 分布更接近正態(tài)分布。
import?seaborn?as?sns?
from?scipy?import?stats?
?
X1?=?stats.t.rvs(df=1,?size=4)?
X2?=?stats.t.rvs(df=3,?size=4)?
X3?=?stats.t.rvs(df=9,?size=4)?
?
plt.subplots(figsize=(8,5))?
sns.kdeplot(X1,?label?=?"1?d.o.f")?
sns.kdeplot(X2,?label?=?"3?d.o.f")?
sns.kdeplot(X3,?label?=?"6?d.o.f")?
plt.title("Student's?t?distribution")?
plt.legend()?
plt.show()

8.卡方分布
卡方分布是伽馬分布的一個(gè)特例;對(duì)于 k 個(gè)自由度,卡方分布是一些獨(dú)立的標(biāo)準(zhǔn)正態(tài)隨機(jī)變量的 k 的平方和。
PDF如下:

這是一種流行的概率分布,常用于假設(shè)檢驗(yàn)和置信區(qū)間的構(gòu)建。
在 Python 中繪制一些示例圖:
X?=?np.arange(0,?6,?0.25)?
?
plt.subplots(figsize=(8,?5))?
plt.plot(X,?stats.chi2.pdf(X,?df=1),?label="1?d.o.f")?
plt.plot(X,?stats.chi2.pdf(X,?df=2),?label="2?d.o.f")?
plt.plot(X,?stats.chi2.pdf(X,?df=3),?label="3?d.o.f")?
plt.title("Chi-squared?Distribution")?
plt.legend()?
plt.show()

掌握統(tǒng)計(jì)學(xué)和概率對(duì)于數(shù)據(jù)科學(xué)至關(guān)重要。在本文展示了一些常見(jiàn)且常用的分布,希望對(duì)你有所幫助。
以上就是Python實(shí)現(xiàn)8個(gè)概率分布公式的方法詳解的詳細(xì)內(nèi)容,更多關(guān)于Python概率分布的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
pip安裝python庫(kù)時(shí)報(bào)Failed?building?wheel?for?xxx錯(cuò)誤的解決方法
最近在使用pip安裝python的時(shí)候遇到些問(wèn)題,所以下面這篇文章主要給大家介紹了關(guān)于pip安裝python庫(kù)時(shí)報(bào)Failed?building?wheel?for?xxx錯(cuò)誤的解決方法,需要的朋友可以參考下2023-01-01
運(yùn)行tensorflow python程序,限制對(duì)GPU和CPU的占用操作
今天小編就為大家分享一篇運(yùn)行tensorflow python程序,限制對(duì)GPU和CPU的占用操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02
python?使用第三方庫(kù)requests-toolbelt?上傳文件流的示例
這篇文章主要介紹了python?使用第三方庫(kù)requests-toolbelt?上傳文件流,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-09-09
Python利用flask sqlalchemy實(shí)現(xiàn)分頁(yè)效果
這篇文章主要為大家詳細(xì)介紹了利用flask sqlalchemy實(shí)現(xiàn)分頁(yè)效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-07-07
Python使用Qt5實(shí)現(xiàn)水平導(dǎo)航欄的示例代碼
本文主要介紹了Python使用Qt5實(shí)現(xiàn)水平導(dǎo)航欄的示例代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03
Django上傳excel表格并將數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)的詳細(xì)步驟
這篇文章主要介紹了Django上傳excel表格并將數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù),將文件上傳到服務(wù)器指定路徑,其實(shí)很簡(jiǎn)單,本文分三個(gè)步驟給大家詳細(xì)介紹,需要的朋友可以參考下2022-06-06
python dataclass 快速創(chuàng)建數(shù)據(jù)類(lèi)的方法
在Python中,dataclass是一種用于快速創(chuàng)建數(shù)據(jù)類(lèi)的裝飾器和工具,本文實(shí)例代碼中我們定義了一個(gè)Person數(shù)據(jù)類(lèi),并使用fields()函數(shù)遍歷其字段,打印出每個(gè)字段的名稱(chēng)、類(lèi)型、默認(rèn)值和元數(shù)據(jù),對(duì)python dataclass 數(shù)據(jù)類(lèi)相關(guān)知識(shí)感興趣的朋友一起看看吧2024-03-03
Python中使用kitti數(shù)據(jù)集實(shí)現(xiàn)自動(dòng)駕駛(繪制出所有物體的行駛軌跡)
這篇文章主要介紹了Python中使用kitti數(shù)據(jù)集實(shí)現(xiàn)自動(dòng)駕駛——繪制出所有物體的行駛軌跡,本次內(nèi)容主要是畫(huà)出kitti車(chē)的行駛的軌跡,需要的朋友可以參考下2022-06-06

