詳解Python進行數(shù)據(jù)相關(guān)性分析的三種方式

更新時間：2022年04月15日 11:19:04 作者：Mr數(shù)據(jù)楊

相關(guān)系數(shù)量化數(shù)據(jù)集的變量或特征之間的關(guān)聯(lián)。這些統(tǒng)計數(shù)據(jù)對科學和技術(shù)非常重要，Python?有很好的工具可以用來計算它們。SciPy、NumPy?和Pandas相關(guān)方法以及數(shù)據(jù)可視化功能，感興趣的可以了解一下

線性相關(guān)實現(xiàn)

線性相關(guān)性測量變量或數(shù)據(jù)集特征之間的數(shù)學關(guān)系與線性函數(shù)的接近程度。如果兩個特征之間的關(guān)系更接近某個線性函數(shù)，那么它們的線性相關(guān)性更強，相關(guān)系數(shù)的絕對值也更高。

線性回歸：SciPy 實現(xiàn)

線性回歸是尋找盡可能接近特征之間實際關(guān)系的線性函數(shù)的過程。換句話說，您確定最能描述特征之間關(guān)聯(lián)的線性函數(shù)，這種線性函數(shù)也稱為回歸線。

import pandas as pd
x = pd.Series(range(10, 20))
y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])

使用scipy.stats.linregress()對兩個長度相同的數(shù)組執(zhí)行線性回歸。

result = scipy.stats.linregress(x, y)
scipy.stats.linregress(xy)
LinregressResult(slope=7.4363636363636365, intercept=-85.92727272727274, rvalue=0.7586402890911869, pvalue=0.010964341301680825, stderr=2.257878767543913)

result.slope # 回歸線的斜率
7.4363636363636365

result.intercept # 回歸線的截距
-85.92727272727274

result.rvalue # 相關(guān)系數(shù)
0.7586402890911869

result.pvalue #  p值
0.010964341301680825

result.stderr # 估計梯度的標準誤差
2.257878767543913

未來更多內(nèi)容參考機器學習專欄中的線性回歸內(nèi)容。

等級相關(guān)

比較與兩個變量或數(shù)據(jù)集特征相關(guān)的數(shù)據(jù)的排名或排序。如果排序相似則相關(guān)性強、正且高。但是如果順序接近反轉(zhuǎn)，則相關(guān)性為強、負和低。換句話說等級相關(guān)性僅與值的順序有關(guān)，而不與數(shù)據(jù)集中的特定值有關(guān)。

圖1和圖2顯示了較大的 x 值始終對應于較大的 y 值的觀察結(jié)果，這是完美的正等級相關(guān)。圖3說明了相反的情況即完美的負等級相關(guān)。

排名：SciPy 實現(xiàn)

使用 scipy.stats.rankdata() 來確定數(shù)組中每個值的排名。

import numpy as np
import scipy.stats
x = np.arange(10, 20)
y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])

# 獲取排名序
scipy.stats.rankdata(x)  # 單調(diào)遞增
array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])
scipy.stats.rankdata(y)
array([ 2.,  1.,  3.,  4.,  5.,  6.,  7.,  8., 10.,  9.])
scipy.stats.rankdata(z) # 單調(diào)遞減
array([10.,  9.,  8.,  7.,  6.,  5.,  4.,  3.,  2.,  1.])

rankdata() 將nan值視為極大。

scipy.stats.rankdata([8, np.nan, 0, 2])
array([3., 4., 1., 2.])

等級相關(guān)性：NumPy 和 SciPy 實現(xiàn)

使用 scipy.stats.spearmanr() 計算 Spearman 相關(guān)系數(shù)。

result = scipy.stats.spearmanr(x, y)
result
SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06)

result.correlation
0.9757575757575757

result.pvalue
1.4675461874042197e-06

rho, p = scipy.stats.spearmanr(x, y)
rho
0.9757575757575757

p
1.4675461874042197e-06

等級相關(guān)性：Pandas 實現(xiàn)

使用 Pandas 計算 Spearman 和 Kendall 相關(guān)系數(shù)。

import numpy as np
import scipy.stats
x = np.arange(10, 20)
y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16])

x, y, z = pd.Series(x), pd.Series(y), pd.Series(z)
xy = pd.DataFrame({'x-values': x, 'y-values': y})
xyz = pd.DataFrame({'x-values': x, 'y-values': y, 'z-values': z})

計算 Spearman 的 rho，method=spearman。

x.corr(y, method='spearman')
0.9757575757575757

xy.corr(method='spearman')
          x-values  y-values
x-values  1.000000  0.975758
y-values  0.975758  1.000000

xyz.corr(method='spearman')
          x-values  y-values  z-values
x-values  1.000000  0.975758 -1.000000
y-values  0.975758  1.000000 -0.975758
z-values -1.000000 -0.975758  1.000000

xy.corrwith(z, method='spearman')
x-values   -1.000000
y-values   -0.975758
dtype: float64

計算 Kendall 的 tau， method=kendall。

x.corr(y, method='kendall')
0.911111111111111

xy.corr(method='kendall')
          x-values  y-values
x-values  1.000000  0.911111
y-values  0.911111  1.000000

xyz.corr(method='kendall')
          x-values  y-values  z-values
x-values  1.000000  0.911111 -1.000000
y-values  0.911111  1.000000 -0.911111
z-values -1.000000 -0.911111  1.000000

xy.corrwith(z, method='kendall')
x-values   -1.000000
y-values   -0.911111
dtype: float64