import pandas as pd

data = pd.DataFrame(
    data={
        'age': [2,7,10,16,20],
        'height': [70,90,143,166,178],
        'score': [98,37,103,76,53]
    }
)

使用corr()方法計算相關(guān)性系數(shù)：

# 計算相關(guān)性系數(shù)的列 必須都是數(shù)值型的數(shù)據(jù)！
corr = data.loc[:, ["age","height"]].corr()?? ??? ?# 會計算兩兩列之間的相關(guān)性系數(shù)
print("corr\n", corr)
"""
corr
? ? ? ? ? ? age ? height
age ? ? 1.00000 ?0.96043
height ?0.96043 ?1.00000
"""

自身與自身的相關(guān)性系數(shù)為 1

計算多列相關(guān)性系數(shù)：

corr = data.loc[:, ["age","height","score"]].corr()
print("corr\n", corr)
"""
corr
? ? ? ? ? ? ?age ? ?height ? ? score
age ? ? 1.000000 ?0.960430 -0.340053
height ?0.960430 ?1.000000 -0.096782
score ?-0.340053 -0.096782 ?1.000000
"""

pandas相關(guān)系數(shù)-DataFrame.corr()參數(shù)

DataFrame.corr(method='pearson', min_periods=1)

參數(shù)說明

method：可選值為{‘pearson’, ‘kendall’, ‘spearman’}
pearson：Pearson相關(guān)系數(shù)來衡量兩個數(shù)據(jù)集合是否在一條線上面，即針對線性數(shù)據(jù)的相關(guān)系數(shù)計算，針對非線性數(shù)據(jù)便會有誤差。
kendall：用于反映分類變量相關(guān)性的指標(biāo)，即針對無序序列的相關(guān)系數(shù)，非正太分布的數(shù)據(jù)
spearman：非線性的，非正太分布的數(shù)據(jù)的相關(guān)系數(shù)
min_periods：樣本最少的數(shù)據(jù)量
返回值：各類型之間的相關(guān)系數(shù)DataFrame表格。

為區(qū)分不同參數(shù)之間的區(qū)別，我們實驗如下：

from pandas import DataFrame
import pandas as pd
x=[a for a in range(100)]
#構(gòu)造一元二次方程，非線性關(guān)系
def y_x(x):
    return 2*x**2+4
y=[y_x(i) for i in x]
 
data=DataFrame({'x':x,'y':y})
 
#查看下data的數(shù)據(jù)結(jié)構(gòu)
data.head()
Out[34]: 
   x   y
0  0   4
1  1   6
2  2  12
3  3  22
4  4  36
 
data.corr()
Out[35]: 
          x         y
x  1.000000  0.967736
y  0.967736  1.000000
 
data.corr(method='spearman')
Out[36]: 
     x    y
x  1.0  1.0
y  1.0  1.0
 
data.corr(method='kendall')
Out[37]: 
     x    y
x  1.0  1.0
y  1.0  1.0

因為y經(jīng)由函數(shù)構(gòu)造出來，x和y的相關(guān)系數(shù)為1，但從實驗結(jié)構(gòu)可知pearson系數(shù)，針對非線性數(shù)據(jù)有一定的誤差。

需要說明，數(shù)據(jù)之間的相關(guān)關(guān)系，并不代表其之間的因果關(guān)系，相關(guān)系數(shù)為1，只能說明二者之間具備完全相關(guān)性，但不能說y是x的果。

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: