Python使用VIF實現(xiàn)檢測多重共線性

更新時間：2023年12月26日 11:37:13 作者：python收藏家

多重共線性是指多元回歸模型中有兩個或兩個以上的自變量,它們之間具有高度的相關性,本文主要介紹了如何使用VIF實現(xiàn)檢測多重共線性,需要的可以參考下

多重共線性是指多元回歸模型中有兩個或兩個以上的自變量，它們之間具有高度的相關性。當某些特征高度相關時，我們可能很難區(qū)分它們對因變量的個體影響。多重共線性可以使用各種技術來檢測，其中一種技術是方差膨脹因子（VIF）。

在VIF方法中，我們選擇每個特征并將其與所有其他特征進行回歸。對于每個回歸，因子計算如下：

其中，R平方是線性回歸中的決定系數(shù)。它的值介于0和1之間。

正如我們從公式中看到的，R平方的值越大，VIF越大。因此，VIF越大，相關性越強。這與較高的R平方值表示較強的共線性的事實一致。通常，VIF高于5表示高多重共線性。

使用statmodels實現(xiàn)VIF

statsmodels提供了一個名為variance_inflation_factor()的函數(shù)來計算VIF。

語法：statmodels.stats.outliers_influence.variance_inflation_factor（exog，exog_idx）

主要參數(shù)：

exog：一個數(shù)組，包含對其執(zhí)行線性回歸的特征。

exog_idx：要測量其對其他特征的影響的附加特征的索引。

示例

下例中使用的數(shù)據(jù)集包含500人的身高、體重、性別和體重指數(shù)。這里的因變量是指數(shù)。

import pandas as pd  
  
# the dataset   
data = pd.read_csv('BMI.csv') 
  
# printing first few rows 
print(data.head())

輸出

Gender Height Weight Index
0 Male 174 96 4
1 Male 189 87 2
2 Female 185 110 4
3 Female 195 104 3
4 Male 149 61 3

方法

每個特征索引都被傳遞給variance_inflation_factor()以找到相應的VIF。

這些值以Pandas DataFrame的形式存儲。

from statsmodels.stats.outliers_influence import variance_inflation_factor 

# creating dummies for gender 
data['Gender'] = data['Gender'].map({'Male':0, 'Female':1}) 

# the independent variables set 
X = data[['Gender', 'Height', 'Weight']] 

# VIF dataframe 
vif_data = pd.DataFrame() 
vif_data["feature"] = X.columns 

# calculating VIF for each feature 
vif_data["VIF"] = [variance_inflation_factor(X.values, i) 
						for i in range(len(X.columns))] 

print(vif_data)

輸出