快捷導(dǎo)航

python?dowhy數(shù)據(jù)估計因果分析功能探索

更新時間：2024年02月01日 10:55:05 作者：小寒聊python

這篇文章主要為大家介紹了python?dowhy數(shù)據(jù)估計因果分析功能實例探索,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

python dowhy數(shù)據(jù)分析庫

今天給大家分享一個神奇的 python 庫，dowhy

dowhy 是一個開源的 Python 庫，旨在簡化因果推斷的過程，特別是針對那些希望從數(shù)據(jù)中估計因果效應(yīng)的研究者和數(shù)據(jù)科學(xué)家。通過它可以輕松地定義因果模型、識別因果效應(yīng)、估計這些效應(yīng)以及進行健壯性檢驗。它建立在 Pandas、NumPy 和 scikit-learn 等流行庫之上，提供了一個直觀且強大的工具，用于根據(jù)觀測數(shù)據(jù)估計因果效應(yīng)。

什么是因果分析？

因果分析是統(tǒng)計分析的一個分支，旨在理解和量化變量之間的因果關(guān)系。它的目的是回答諸如 “改變一個變量對另一個變量有什么影響？” 之類的問題?；?“哪些因素影響特定結(jié)果？” 與僅僅識別變量之間關(guān)系的相關(guān)性不同，因果分析試圖確定一個變量是否直接影響另一個變量。

從本質(zhì)上講，因果分析不僅僅是描述關(guān)聯(lián)性，還致力于在變量之間建立因果關(guān)系。這在流行病學(xué)、經(jīng)濟學(xué)、社會科學(xué)和醫(yī)療保健等領(lǐng)域至關(guān)重要。

庫的安裝

可以直接通過 pip 進行安裝。

pip install dowhy

加載數(shù)據(jù)集

import numpy as np
import pandas as pd
from dowhy import CausalModel
import dowhy.datasets
rvar = 1 if np.random.uniform() >0.5 else 0 
data_dict = dowhy.datasets.xy_dataset(10000, effect=rvar, sd_error=0.2) 
df = data_dict['df']
df[["Treatment", "Outcome", "w0"]].head()

建立因果模型

現(xiàn)在你可以使用 DoWhy 定義因果模型。這涉及指定分析中的變量、治療、結(jié)果和潛在的混雜因素。

model= CausalModel(
        data=df,
        treatment=data_dict["treatment_name"],
        outcome=data_dict["outcome_name"],
        common_causes=data_dict["common_causes_names"]
        )
model.view_model(layout="dot")

CausalModel 是 DoWhy 庫中用于定義因果模型的核心類。這個類的構(gòu)造函數(shù)接受幾個關(guān)鍵參數(shù)來指定模型的不同部分。

data，包含所有相關(guān)數(shù)據(jù)的 DataFrame。這應(yīng)該包括處理變量、結(jié)果變量、共同原因（共變量）、以及（如果有的話）工具變量。

treatment，指定作為處理（干預(yù)）的變量名。在因果推斷中，我們關(guān)心的是改變這個變量會如何影響結(jié)果變量。

outcome，指定結(jié)果變量的名稱。這是我們想要了解其因果效應(yīng)的變量。

common_causes，一個包含所有已知共同原因（也稱為共變量或混雜變量）名稱的列表。這些是既影響處理變量又影響結(jié)果變量的變量，必須控制以避免偏差。

instruments，一個包含所有工具變量名稱的列表（如果有的話）。工具變量是與處理變量相關(guān)但只通過它影響結(jié)果變量的變量，常用于處理內(nèi)生性問題。

從圖中可以看出，w0 為混雜變量，它既影響處理變量 treatment 又影響結(jié)果變量 outcome。

估計因果效應(yīng)

現(xiàn)在我們可以估計因果效應(yīng)并確定估計是否正確。為簡單起見，此示例使用線性回歸。

estimate = model.estimate_effect(model.identify_effect(),
        method_name="backdoor.linear_regression")
# Plot Slope of line between treamtent and outcome =causal effect

這行代碼使用 DoWhy 庫來估計因果效應(yīng)。

首先，model.identify_effect() 方法被調(diào)用來確定從觀測數(shù)據(jù)中是否可以識別出處理對結(jié)果的因果效應(yīng)。這個識別過程通?；谥付ǖ囊蚬麍D，它會查看是否存在任何未控制的后門路徑。

然后，通過指定 method_name="backdoor.linear_regression"，它使用線性回歸來估計效應(yīng)，同時控制了所有通過識別過程發(fā)現(xiàn)的后門路徑的變量。這意味著它會估計在控制了所有已知的共同原因后，處理對結(jié)果的直接效應(yīng)。

下面，我們來繪制處理變量和結(jié)果變量之間的因果效應(yīng)。在這個圖表中，斜率表示因果效應(yīng)的大小，即處理變量的每個單位變化將導(dǎo)致結(jié)果變量變化多少單位。如果斜率為正，則意味著處理與結(jié)果之間存在正相關(guān)；如果斜率為負，則存在負相關(guān)。

dowhy.plotter.plot_causal_effect(estimate, df[data_dict["treatment_name"]], df[data_dict["outcome_name"]])

以上就是python dowhy數(shù)據(jù)估計因果分析功能探索的詳細內(nèi)容，更多關(guān)于python dowhy數(shù)據(jù)分析的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python?dowhy數(shù)據(jù)估計因果分析功能探索

目錄

python dowhy數(shù)據(jù)分析庫

什么是因果分析？

庫的安裝

加載數(shù)據(jù)集

建立因果模型

估計因果效應(yīng)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python?dowhy數(shù)據(jù)估計因果分析功能探索

目錄

python dowhy數(shù)據(jù)分析庫

什么是因果分析？

庫的安裝

加載數(shù)據(jù)集

建立因果模型

估計因果效應(yīng)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

什么是因果分析？