快捷導(dǎo)航

Python實(shí)現(xiàn)概率分布公式及可視化詳解

更新時(shí)間：2025年05月14日 10:29:52 作者：知來者逆

在機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)課題里,時(shí)常要頻繁地使用統(tǒng)計(jì)概率的理論來輔助進(jìn)行數(shù)據(jù)處理與研究,所以本文我們就來聊聊Python實(shí)現(xiàn)概率分布公式及可視化的相關(guān)知識(shí)吧

前言

在機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)課題里，時(shí)常要頻繁地使用統(tǒng)計(jì)概率的理論來輔助進(jìn)行數(shù)據(jù)處理與研究。因此，理解和掌握一定的統(tǒng)計(jì)概率知識(shí)是非常必要的。在科學(xué)研究和城市研究領(lǐng)域，統(tǒng)計(jì)概率理論的應(yīng)用也十分常見。為了理好的理解概率分布，先看看以下的相關(guān)概念：

隨機(jī)變量 (Random Variable)：一個(gè)隨機(jī)變量是一個(gè)可以取多個(gè)可能值的量，這些值是根據(jù)某種概率分布來確定的。
密度函數(shù) (Density Functions)：在連續(xù)隨機(jī)變量中，密度函數(shù)描述了隨機(jī)變量的可能取值范圍內(nèi)每個(gè)值出現(xiàn)的概率密度。它通常用于計(jì)算概率、期望值等。
伯努利分布 (Bernoulli Distribution)：一種離散概率分布，描述了一個(gè)隨機(jī)變量只有兩種可能取值（通常表示為0和1）的情況，比如拋硬幣的結(jié)果。
二項(xiàng)式分布 (Binomial Distribution)：用于描述在一系列獨(dú)立重復(fù)試驗(yàn)中成功次數(shù)的概率分布，每次試驗(yàn)只有兩個(gè)可能的結(jié)果，且成功概率相同。
均勻分布 (Uniform Distribution)：在一定范圍內(nèi)每個(gè)可能的值具有相同的概率分布，沒有明顯的偏向。
泊松分布 (Poisson Distribution)：用于描述在固定時(shí)間或空間內(nèi)隨機(jī)事件發(fā)生次數(shù)的概率分布，常用于描述稀有事件。
正態(tài)分布 (Normal Distribution)：又稱為高斯分布，是一種連續(xù)分布，其在統(tǒng)計(jì)學(xué)中極為常見，通常呈鐘形曲線，對(duì)稱分布。
長(zhǎng)尾分布 (Long-Tailed Distribution)：指概率分布的尾部（較大或較小的值）相對(duì)較長(zhǎng)的分布，表示存在極端值的可能性較大。
學(xué)生 t 檢驗(yàn)分布 (Student’s t-test Distribution)：用于小樣本情況下統(tǒng)計(jì)推斷的分布，主要用于比較兩組數(shù)據(jù)的均值是否有顯著差異。
對(duì)數(shù)正態(tài)分布 (Lognormal Distribution)：一種連續(xù)分布，其對(duì)數(shù)服從正態(tài)分布，常用于描述正值數(shù)據(jù)，如財(cái)務(wù)數(shù)據(jù)、股票收益等。
指數(shù)分布 (Exponential Distribution)：用于描述連續(xù)時(shí)間內(nèi)等待隨機(jī)事件發(fā)生的時(shí)間間隔的概率分布，常用于描述時(shí)間間隔、壽命等。
威布爾分布 (Weibull Distribution)：一種連續(xù)分布，常用于描述時(shí)間到達(dá)、壽命等，具有靈活的形狀，可以適應(yīng)不同類型的數(shù)據(jù)。
伽馬分布 (Gamma Distribution)：一種連續(xù)分布，廣泛用于描述正值隨機(jī)變量的分布，也可用于描述等待時(shí)間、壽命等。
卡方分布 (Chi-square Distribution)：用于統(tǒng)計(jì)推斷中的分布，通常用于檢驗(yàn)觀察值與期望值之間的擬合度。
中心極限定理 (Central Limit Theorem)：該定理表明，當(dāng)從任何分布中抽取大量獨(dú)立隨機(jī)變量并計(jì)算它們的平均值時(shí)，這些平均值的分布將近似于正態(tài)分布，不受原始分布的影響

高斯分布

高斯分布可能是最常聽到也熟悉的分布。它有幾個(gè)名字：有人稱它為鐘形曲線，因?yàn)樗母怕蕡D看起來像一個(gè)鐘形，有人稱它為高斯分布，因?yàn)槭紫让枋鏊牡聡?guó)數(shù)學(xué)家卡爾·高斯命名，還有一些人稱它為正態(tài)分布，因?yàn)樵缙诘慕y(tǒng)計(jì)學(xué)家注意到它一遍又一遍地再次發(fā)生。正態(tài)分布的概率密度函數(shù)如下：σ 是標(biāo)準(zhǔn)偏差，μ 是分布的平均值。要注意的是，在正態(tài)分布中，均值、眾數(shù)和中位數(shù)都是相等的。當(dāng)我們繪制正態(tài)分布的隨機(jī)變量時(shí)，曲線圍繞均值對(duì)稱——一半的值在中心的左側(cè)，一半在中心的右側(cè)。并且，曲線下的總面積為 1。

mu = 0 
variance = 1 
sigma = np.sqrt(variance) 
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100) 
 
plt.subplots(figsize=(8, 5)) 
plt.plot(x, stats.norm.pdf(x, mu, sigma)) 
plt.title("Normal Distribution") 
plt.show()

對(duì)于正態(tài)分布來說。經(jīng)驗(yàn)規(guī)則告訴我們數(shù)據(jù)的百分比落在平均值的一定數(shù)量的標(biāo)準(zhǔn)偏差內(nèi)。這些百分比是：

68% 的數(shù)據(jù)落在平均值的一個(gè)標(biāo)準(zhǔn)差內(nèi)。
95% 的數(shù)據(jù)落在平均值的兩個(gè)標(biāo)準(zhǔn)差內(nèi)。
99.7% 的數(shù)據(jù)落在平均值的三個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。?

對(duì)數(shù)正態(tài)分布

對(duì)數(shù)正態(tài)分布是對(duì)數(shù)呈正態(tài)分布的隨機(jī)變量的連續(xù)概率分布。因此，如果隨機(jī)變量 X 是對(duì)數(shù)正態(tài)分布的，則 Y = ln(X) 具有正態(tài)分布。這是對(duì)數(shù)正態(tài)分布的 PDF：對(duì)數(shù)正態(tài)分布的隨機(jī)變量只取正實(shí)數(shù)值。因此，對(duì)數(shù)正態(tài)分布會(huì)創(chuàng)建右偏曲線。讓我們?cè)?Python 中繪制它：

X = np.linspace(0, 6, 500) 
 
std = 1 
mean = 0 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
 
fig, ax = plt.subplots(figsize=(8, 5)) 
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1") 
ax.set_xticks(np.arange(min(X), max(X))) 
 
std = 0.5 
mean = 0 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5") 
 
std = 1.5 
mean = 1 
lognorm_distribution = stats.lognorm([std], loc=mean) 
lognorm_distribution_pdf = lognorm_distribution.pdf(X) 
plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5") 
 
plt.title("Lognormal Distribution") 
plt.legend() 
plt.show()

泊松分布

泊松分布以法國(guó)數(shù)學(xué)家西蒙·丹尼斯·泊松的名字命名。這是一個(gè)離散的概率分布，這意味著它計(jì)算具有有限結(jié)果的事件——換句話說，它是一個(gè)計(jì)數(shù)分布。因此，泊松分布用于顯示事件在指定時(shí)期內(nèi)可能發(fā)生的次數(shù)。如果一個(gè)事件在時(shí)間上以固定的速率發(fā)生，那么及時(shí)觀察到事件的數(shù)量（n）的概率可以用泊松分布來描述。例如，顧客可能以每分鐘 3 次的平均速度到達(dá)咖啡館。我們可以使用泊松分布來計(jì)算 9 個(gè)客戶在 2 分鐘內(nèi)到達(dá)的概率。下面是概率質(zhì)量函數(shù)公式：λ 是一個(gè)時(shí)間單位的事件率——在我們的例子中，它是 3。k 是出現(xiàn)的次數(shù)——在我們的例子中，它是 9。這里可以使用 Scipy 來完成概率的計(jì)算。

from scipy import stats 

???????print(stats.poisson.pmf(k=9, mu=3))

結(jié)果如下

0.002700503931560479

泊松分布的曲線類似于正態(tài)分布，λ 表示峰值。

X = stats.poisson.rvs(mu=3, size=500) 
 
plt.subplots(figsize=(8, 5)) 
plt.hist(X, density=True, edgecolor="black") 
plt.title("Poisson Distribution") 
plt.show()

指數(shù)分布

指數(shù)分布是泊松點(diǎn)過程中事件之間時(shí)間的概率分布。指數(shù)分布的概率密度函數(shù)如下：λ 是速率參數(shù)，x 是隨機(jī)變量。

X = np.linspace(0, 5, 5000) 
 
exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1) 
 
plt.subplots(figsize=(8,5)) 
plt.plot(X, exponetial_distribtuion) 
plt.title("Exponential Distribution") 
plt.show()

二項(xiàng)分布

可以將二項(xiàng)分布視為實(shí)驗(yàn)中成功或失敗的概率。有些人也可能將其描述為拋硬幣概率。參數(shù)為 n 和 p 的二項(xiàng)式分布是在 n 個(gè)獨(dú)立實(shí)驗(yàn)序列中成功次數(shù)的離散概率分布，每個(gè)實(shí)驗(yàn)都問一個(gè)是 - 否問題，每個(gè)實(shí)驗(yàn)都有自己的布爾值結(jié)果：成功或失敗。本質(zhì)上，二項(xiàng)分布測(cè)量?jī)蓚€(gè)事件的概率。一個(gè)事件發(fā)生的概率為 p，另一事件發(fā)生的概率為 1-p。這是二項(xiàng)分布的公式：

P = 二項(xiàng)分布概率
= 組合數(shù)
x = n次試驗(yàn)中特定結(jié)果的次數(shù)
p = 單次實(shí)驗(yàn)中，成功的概率
q = 單次實(shí)驗(yàn)中，失敗的概率
n = 實(shí)驗(yàn)的次數(shù)

可視化代碼如下：

X = np.random.binomial(n=1, p=0.5, size=1000) 
 
plt.subplots(figsize=(8, 5)) 
plt.hist(X) 
plt.title("Binomial Distribution") 
plt.show()

學(xué)生 t 分布

學(xué)生 t 分布（或簡(jiǎn)稱 t 分布）是在樣本量較小且總體標(biāo)準(zhǔn)差未知的情況下估計(jì)正態(tài)分布總體的均值時(shí)出現(xiàn)的連續(xù)概率分布族的任何成員。它是由英國(guó)統(tǒng)計(jì)學(xué)家威廉·西利·戈塞特（William Sealy Gosset）以筆名“student”開發(fā)的。PDF如下：n 是稱為“自由度”的參數(shù)，有時(shí)可以看到它被稱為“d.o.f.” 對(duì)于較高的 n 值，t 分布更接近正態(tài)分布。

import seaborn as sns 
from scipy import stats 
 
X1 = stats.t.rvs(df=1, size=4) 
X2 = stats.t.rvs(df=3, size=4) 
X3 = stats.t.rvs(df=9, size=4) 
 
plt.subplots(figsize=(8,5)) 
sns.kdeplot(X1, label = "1 d.o.f") 
sns.kdeplot(X2, label = "3 d.o.f") 
sns.kdeplot(X3, label = "6 d.o.f") 
plt.title("Student's t distribution") 
plt.legend() 
plt.show()

卡方分布

卡方分布是伽馬分布的一個(gè)特例；對(duì)于 k 個(gè)自由度，卡方分布是一些獨(dú)立的標(biāo)準(zhǔn)正態(tài)隨機(jī)變量的 k 的平方和。PDF如下：這是一種流行的概率分布，常用于假設(shè)檢驗(yàn)和置信區(qū)間的構(gòu)建。在 Python 中繪制一些示例圖：

X = np.arange(0, 6, 0.25) 
 
plt.subplots(figsize=(8, 5)) 
plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f") 
plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f") 
plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f") 
plt.title("Chi-squared Distribution") 
plt.legend() 
plt.show()

到此這篇關(guān)于Python實(shí)現(xiàn)概率分布公式及可視化詳解的文章就介紹到這了,更多相關(guān)Python概率分布內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: