Python實現(xiàn)概率分布公式及可視化詳解
前言
在機器學(xué)習(xí)或者深度學(xué)習(xí)課題里,時常要頻繁地使用統(tǒng)計概率的理論來輔助進行數(shù)據(jù)處理與研究。因此,理解和掌握一定的統(tǒng)計概率知識是非常必要的。在科學(xué)研究和城市研究領(lǐng)域,統(tǒng)計概率理論的應(yīng)用也十分常見。為了理好的理解概率分布,先看看以下的相關(guān)概念:
- 隨機變量 (Random Variable):一個隨機變量是一個可以取多個可能值的量,這些值是根據(jù)某種概率分布來確定的。
- 密度函數(shù) (Density Functions):在連續(xù)隨機變量中,密度函數(shù)描述了隨機變量的可能取值范圍內(nèi)每個值出現(xiàn)的概率密度。它通常用于計算概率、期望值等。
- 伯努利分布 (Bernoulli Distribution):一種離散概率分布,描述了一個隨機變量只有兩種可能取值(通常表示為0和1)的情況,比如拋硬幣的結(jié)果。
- 二項式分布 (Binomial Distribution):用于描述在一系列獨立重復(fù)試驗中成功次數(shù)的概率分布,每次試驗只有兩個可能的結(jié)果,且成功概率相同。
- 均勻分布 (Uniform Distribution):在一定范圍內(nèi)每個可能的值具有相同的概率分布,沒有明顯的偏向。
- 泊松分布 (Poisson Distribution):用于描述在固定時間或空間內(nèi)隨機事件發(fā)生次數(shù)的概率分布,常用于描述稀有事件。
- 正態(tài)分布 (Normal Distribution):又稱為高斯分布,是一種連續(xù)分布,其在統(tǒng)計學(xué)中極為常見,通常呈鐘形曲線,對稱分布。
- 長尾分布 (Long-Tailed Distribution):指概率分布的尾部(較大或較小的值)相對較長的分布,表示存在極端值的可能性較大。
- 學(xué)生 t 檢驗分布 (Student’s t-test Distribution):用于小樣本情況下統(tǒng)計推斷的分布,主要用于比較兩組數(shù)據(jù)的均值是否有顯著差異。
- 對數(shù)正態(tài)分布 (Lognormal Distribution):一種連續(xù)分布,其對數(shù)服從正態(tài)分布,常用于描述正值數(shù)據(jù),如財務(wù)數(shù)據(jù)、股票收益等。
- 指數(shù)分布 (Exponential Distribution):用于描述連續(xù)時間內(nèi)等待隨機事件發(fā)生的時間間隔的概率分布,常用于描述時間間隔、壽命等。
- 威布爾分布 (Weibull Distribution):一種連續(xù)分布,常用于描述時間到達、壽命等,具有靈活的形狀,可以適應(yīng)不同類型的數(shù)據(jù)。
- 伽馬分布 (Gamma Distribution):一種連續(xù)分布,廣泛用于描述正值隨機變量的分布,也可用于描述等待時間、壽命等。
- 卡方分布 (Chi-square Distribution):用于統(tǒng)計推斷中的分布,通常用于檢驗觀察值與期望值之間的擬合度。
- 中心極限定理 (Central Limit Theorem):該定理表明,當從任何分布中抽取大量獨立隨機變量并計算它們的平均值時,這些平均值的分布將近似于正態(tài)分布,不受原始分布的影響
高斯分布
高斯分布可能是最常聽到也熟悉的分布。它有幾個名字:有人稱它為鐘形曲線,因為它的概率圖看起來像一個鐘形,有人稱它為高斯分布,因為首先描述它的德國數(shù)學(xué)家卡爾·高斯命名,還有一些人稱它為正態(tài)分布,因為早期的統(tǒng)計學(xué)家 注意到它一遍又一遍地再次發(fā)生。正態(tài)分布的概率密度函數(shù)如下:σ 是標準偏差,μ 是分布的平均值。要注意的是,在正態(tài)分布中,均值、眾數(shù)和中位數(shù)都是相等的。當我們繪制正態(tài)分布的隨機變量時,曲線圍繞均值對稱——一半的值在中心的左側(cè),一半在中心的右側(cè)。并且,曲線下的總面積為 1。
mu = 0 variance = 1 sigma = np.sqrt(variance) x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100) plt.subplots(figsize=(8, 5)) plt.plot(x, stats.norm.pdf(x, mu, sigma)) plt.title("Normal Distribution") plt.show()
對于正態(tài)分布來說。經(jīng)驗規(guī)則告訴我們數(shù)據(jù)的百分比落在平均值的一定數(shù)量的標準偏差內(nèi)。這些百分比是:
- 68% 的數(shù)據(jù)落在平均值的一個標準差內(nèi)。
- 95% 的數(shù)據(jù)落在平均值的兩個標準差內(nèi)。
- 99.7% 的數(shù)據(jù)落在平均值的三個標準差范圍內(nèi)。?
對數(shù)正態(tài)分布
對數(shù)正態(tài)分布是對數(shù)呈正態(tài)分布的隨機變量的連續(xù)概率分布。因此,如果隨機變量 X 是對數(shù)正態(tài)分布的,則 Y = ln(X) 具有正態(tài)分布。這是對數(shù)正態(tài)分布的 PDF:對數(shù)正態(tài)分布的隨機變量只取正實數(shù)值。因此,對數(shù)正態(tài)分布會創(chuàng)建右偏曲線。讓我們在 Python 中繪制它:
X = np.linspace(0, 6, 500) std = 1 mean = 0 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) fig, ax = plt.subplots(figsize=(8, 5)) plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1") ax.set_xticks(np.arange(min(X), max(X))) std = 0.5 mean = 0 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5") std = 1.5 mean = 1 lognorm_distribution = stats.lognorm([std], loc=mean) lognorm_distribution_pdf = lognorm_distribution.pdf(X) plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5") plt.title("Lognormal Distribution") plt.legend() plt.show()
泊松分布
泊松分布以法國數(shù)學(xué)家西蒙·丹尼斯·泊松的名字命名。這是一個離散的概率分布,這意味著它計算具有有限結(jié)果的事件——換句話說,它是一個計數(shù)分布。因此,泊松分布用于顯示事件在指定時期內(nèi)可能發(fā)生的次數(shù)。如果一個事件在時間上以固定的速率發(fā)生,那么及時觀察到事件的數(shù)量(n)的概率可以用泊松分布來描述。例如,顧客可能以每分鐘 3 次的平均速度到達咖啡館。我們可以使用泊松分布來計算 9 個客戶在 2 分鐘內(nèi)到達的概率。下面是概率質(zhì)量函數(shù)公式:λ 是一個時間單位的事件率——在我們的例子中,它是 3。k 是出現(xiàn)的次數(shù)——在我們的例子中,它是 9。這里可以使用 Scipy 來完成概率的計算。
from scipy import stats ???????print(stats.poisson.pmf(k=9, mu=3))
結(jié)果如下
0.002700503931560479
泊松分布的曲線類似于正態(tài)分布,λ 表示峰值。
X = stats.poisson.rvs(mu=3, size=500) plt.subplots(figsize=(8, 5)) plt.hist(X, density=True, edgecolor="black") plt.title("Poisson Distribution") plt.show()
指數(shù)分布
指數(shù)分布是泊松點過程中事件之間時間的概率分布。指數(shù)分布的概率密度函數(shù)如下:λ 是速率參數(shù),x 是隨機變量。
X = np.linspace(0, 5, 5000) exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1) plt.subplots(figsize=(8,5)) plt.plot(X, exponetial_distribtuion) plt.title("Exponential Distribution") plt.show()
二項分布
可以將二項分布視為實驗中成功或失敗的概率。有些人也可能將其描述為拋硬幣概率。參數(shù)為 n 和 p 的二項式分布是在 n 個獨立實驗序列中成功次數(shù)的離散概率分布,每個實驗都問一個是 - 否問題,每個實驗都有自己的布爾值結(jié)果:成功或失敗。本質(zhì)上,二項分布測量兩個事件的概率。一個事件發(fā)生的概率為 p,另一事件發(fā)生的概率為 1-p。這是二項分布的公式:
- P = 二項分布概率
- = 組合數(shù)
- x = n次試驗中特定結(jié)果的次數(shù)
- p = 單次實驗中,成功的概率
- q = 單次實驗中,失敗的概率
- n = 實驗的次數(shù)
可視化代碼如下:
X = np.random.binomial(n=1, p=0.5, size=1000) plt.subplots(figsize=(8, 5)) plt.hist(X) plt.title("Binomial Distribution") plt.show()
學(xué)生 t 分布
學(xué)生 t 分布(或簡稱 t 分布)是在樣本量較小且總體標準差未知的情況下估計正態(tài)分布總體的均值時出現(xiàn)的連續(xù)概率分布族的任何成員。它是由英國統(tǒng)計學(xué)家威廉·西利·戈塞特(William Sealy Gosset)以筆名“student”開發(fā)的。PDF如下:n 是稱為“自由度”的參數(shù),有時可以看到它被稱為“d.o.f.” 對于較高的 n 值,t 分布更接近正態(tài)分布。
import seaborn as sns from scipy import stats X1 = stats.t.rvs(df=1, size=4) X2 = stats.t.rvs(df=3, size=4) X3 = stats.t.rvs(df=9, size=4) plt.subplots(figsize=(8,5)) sns.kdeplot(X1, label = "1 d.o.f") sns.kdeplot(X2, label = "3 d.o.f") sns.kdeplot(X3, label = "6 d.o.f") plt.title("Student's t distribution") plt.legend() plt.show()
卡方分布
卡方分布是伽馬分布的一個特例;對于 k 個自由度,卡方分布是一些獨立的標準正態(tài)隨機變量的 k 的平方和。PDF如下:這是一種流行的概率分布,常用于假設(shè)檢驗和置信區(qū)間的構(gòu)建。在 Python 中繪制一些示例圖:
X = np.arange(0, 6, 0.25) plt.subplots(figsize=(8, 5)) plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f") plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f") plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f") plt.title("Chi-squared Distribution") plt.legend() plt.show()
到此這篇關(guān)于Python實現(xiàn)概率分布公式及可視化詳解的文章就介紹到這了,更多相關(guān)Python概率分布內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
零基礎(chǔ)學(xué)Python(一)Python環(huán)境安裝
本文是此系列的第一篇,所以開始先胡扯一番,然后再分別介紹LINUX系統(tǒng),windows系統(tǒng),MAC系統(tǒng)下如何安裝Python環(huán)境,希望對大家有所幫助2014-08-08NumPy創(chuàng)建數(shù)組的多種方式實現(xiàn)
在使用NumPy時,通常需要先創(chuàng)建一個數(shù)組,然后再對這個數(shù)組進行各種操,本文主要介紹了NumPy創(chuàng)建數(shù)組的多種方式實現(xiàn),具有一定的參考價值,感興趣的可以了解一下2023-06-06pytorch __init__、forward與__call__的用法小結(jié)
這篇文章主要介紹了pytorch __init__、forward與__call__的用法小結(jié),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-02-02Python3實現(xiàn)英文字母轉(zhuǎn)換哥特式字體實例代碼
這篇文章主要給大家介紹了關(guān)于Python3實現(xiàn)英文字母轉(zhuǎn)換哥特式字體的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09