欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

利用Python計(jì)算KS的實(shí)例詳解

 更新時(shí)間:2020年03月03日 10:32:26   作者:淺笑古今  
這篇文章主要介紹了利用Python計(jì)算KS的實(shí)例詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

在金融領(lǐng)域中,我們的y值和預(yù)測(cè)得到的違約概率剛好是兩個(gè)分布未知的兩個(gè)分布。好的信用風(fēng)控模型一般從準(zhǔn)確性、穩(wěn)定性和可解釋性來(lái)評(píng)估模型。

一般來(lái)說(shuō)。好人樣本的分布同壞人樣本的分布應(yīng)該是有很大不同的,KS正好是有效性指標(biāo)中的區(qū)分能力指標(biāo):KS用于模型風(fēng)險(xiǎn)區(qū)分能力進(jìn)行評(píng)估,KS指標(biāo)衡量的是好壞樣本累計(jì)分布之間的差值。

好壞樣本累計(jì)差異越大,KS指標(biāo)越大,那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。

1、crosstab實(shí)現(xiàn),計(jì)算ks的核心就是好壞人的累積概率分布,我們采用pandas.crosstab函數(shù)來(lái)計(jì)算累積概率分布。

2、roc_curve實(shí)現(xiàn),sklearn庫(kù)中的roc_curve函數(shù)計(jì)算roc和auc時(shí),計(jì)算過(guò)程中已經(jīng)得到好壞人的累積概率分布,同時(shí)我們利用sklearn.metrics.roc_curve來(lái)計(jì)算ks值

3、ks_2samp實(shí)現(xiàn),調(diào)用stats.ks_2samp()函數(shù)來(lái)計(jì)算。鏈接scipy.stats.ks_2samp¶為ks_2samp()實(shí)現(xiàn)源碼,這里實(shí)現(xiàn)了詳細(xì)過(guò)程

4、直接調(diào)用stats.ks_2samp()計(jì)算ks

import pandas as pd 
import numpy as np
from sklearn.metrics import roc_curve
from scipy.stats import ks_2samp
 
def ks_calc_cross(data,pred,y_label):
  '''
  功能: 計(jì)算KS值,輸出對(duì)應(yīng)分割點(diǎn)和累計(jì)分布函數(shù)曲線圖
  輸入值:
  data: 二維數(shù)組或dataframe,包括模型得分和真實(shí)的標(biāo)簽
  pred: 一維數(shù)組或series,代表模型得分(一般為預(yù)測(cè)正類(lèi)的概率)
  y_label: 一維數(shù)組或series,代表真實(shí)的標(biāo)簽({0,1}或{-1,1})
  輸出值:
  'ks': KS值,'crossdens': 好壞客戶累積概率分布以及其差值gap
  '''
  crossfreq = pd.crosstab(data[pred[0]],data[y_label[0]])
  crossdens = crossfreq.cumsum(axis=0) / crossfreq.sum()
  crossdens['gap'] = abs(crossdens[0] - crossdens[1])
  ks = crossdens[crossdens['gap'] == crossdens['gap'].max()]
  return ks,crossdens
 
def ks_calc_auc(data,pred,y_label):
  '''
  功能: 計(jì)算KS值,輸出對(duì)應(yīng)分割點(diǎn)和累計(jì)分布函數(shù)曲線圖
  輸入值:
  data: 二維數(shù)組或dataframe,包括模型得分和真實(shí)的標(biāo)簽
  pred: 一維數(shù)組或series,代表模型得分(一般為預(yù)測(cè)正類(lèi)的概率)
  y_label: 一維數(shù)組或series,代表真實(shí)的標(biāo)簽({0,1}或{-1,1})
  輸出值:
  'ks': KS值
  '''
  fpr,tpr,thresholds= roc_curve(data[y_label[0]],data[pred[0]])
  ks = max(tpr-fpr)
  return ks
 
def ks_calc_2samp(data,pred,y_label):
  '''
  功能: 計(jì)算KS值,輸出對(duì)應(yīng)分割點(diǎn)和累計(jì)分布函數(shù)曲線圖
  輸入值:
  data: 二維數(shù)組或dataframe,包括模型得分和真實(shí)的標(biāo)簽
  pred: 一維數(shù)組或series,代表模型得分(一般為預(yù)測(cè)正類(lèi)的概率)
  y_label: 一維數(shù)組或series,代表真實(shí)的標(biāo)簽({0,1}或{-1,1})
  輸出值:
  'ks': KS值,'cdf_df': 好壞客戶累積概率分布以及其差值gap
  '''
  Bad = data.loc[data[y_label[0]]==1,pred[0]]
  Good = data.loc[data[y_label[0]]==0, pred[0]]
  data1 = Bad.values
  data2 = Good.values
  n1 = data1.shape[0]
  n2 = data2.shape[0]
  data1 = np.sort(data1)
  data2 = np.sort(data2)
  data_all = np.concatenate([data1,data2])
  cdf1 = np.searchsorted(data1,data_all,side='right')/(1.0*n1)
  cdf2 = (np.searchsorted(data2,data_all,side='right'))/(1.0*n2)
  ks = np.max(np.absolute(cdf1-cdf2))
  cdf1_df = pd.DataFrame(cdf1)
  cdf2_df = pd.DataFrame(cdf2)
  cdf_df = pd.concat([cdf1_df,cdf2_df],axis = 1)
  cdf_df.columns = ['cdf_Bad','cdf_Good']
  cdf_df['gap'] = cdf_df['cdf_Bad']-cdf_df['cdf_Good']
  return ks,cdf_df
 
data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0],
    'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9]}
 
data = pd.DataFrame(data)
ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])
 
ks2=ks_calc_auc(data,['pred'], ['y_label'])
 
ks3=ks_calc_2samp(data,['pred'], ['y_label'])
 
get_ks = lambda y_pred,y_true: ks_2samp(y_pred[y_true==1], y_pred[y_true!=1]).statistic
ks4=get_ks(data['pred'],data['y_label'])
print('KS1:',ks1['gap'].values)
print('KS2:',ks2)
print('KS3:',ks3[0])
print('KS4:',ks4)

輸出結(jié)果:

KS1: [ 0.83333333]
KS2: 0.833333333333
KS3: 0.833333333333
KS4: 0.833333333333

當(dāng)數(shù)據(jù)中存在NAN數(shù)據(jù)時(shí),有一些問(wèn)題需要注意!

例如,我們?cè)谠瓟?shù)據(jù)中增加了y_label=0,pred=np.nan這樣一組數(shù)據(jù)

data = {'y_label':[1,1,1,1,1,1,0,0,0,0,0,0,0],
'pred':[0.5,0.6,0.7,0.6,0.6,0.8,0.4,0.2,0.1,0.4,0.3,0.9,np.nan]}

此時(shí)執(zhí)行

ks1,crossdens=ks_calc_cross(data,['pred'], ['y_label'])

輸出結(jié)果

KS1: [ 0.83333333]

執(zhí)行

ks2=ks_calc_auc(data,['pred'], ['y_label'])

將會(huì)報(bào)以下錯(cuò)誤

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

執(zhí)行

ks3=ks_calc_2samp(data,['pred'], ['y_label'])

輸出結(jié)果

KS3: 0.714285714286

執(zhí)行

ks4=get_ks(data['pred'],data['y_label'])

輸出結(jié)果

KS4: 0.714285714286

我們從上述結(jié)果中可以看出

三種方法計(jì)算得到的ks值均不相同。

ks_calc_cross計(jì)算時(shí)忽略了NAN,計(jì)算得到了數(shù)據(jù)正確的概率分布,計(jì)算的ks與我們手算的ks相同

ks_calc_auc函數(shù)由于內(nèi)置函數(shù)無(wú)法處理NAN值,直接報(bào)錯(cuò)了,所以如果需要ks_calc_auc計(jì)算ks值時(shí),需要提前去除NAN值。

ks_calc_2samp計(jì)算得到的ks因?yàn)閟earchsorted()函數(shù)(有興趣的同學(xué)可以自己模擬數(shù)據(jù)看下這個(gè)函數(shù)),會(huì)將Nan值默認(rèn)排序?yàn)樽畲笾?,從而改變了?shù)據(jù)的原始累積分布概率,導(dǎo)致計(jì)算得到的ks和真實(shí)的ks有誤差。

總結(jié)

在實(shí)際情況下,我們一般計(jì)算違約概率的ks值,這時(shí)是不存在NAN值的。所以以上三種方法計(jì)算ks值均可。但是當(dāng)我們計(jì)算單變量的ks值時(shí),有時(shí)數(shù)據(jù)質(zhì)量不好,存在NAN值時(shí),繼續(xù)采用ks_calc_auc和ks_calc_2samp就會(huì)存在問(wèn)題。

解決辦法有兩個(gè)

1. 提前去除數(shù)據(jù)中的NAN值

2. 直接采用ks_calc_cross計(jì)算。

以上這篇利用Python計(jì)算KS的實(shí)例詳解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • JupyterNotebook設(shè)置Python環(huán)境的方法步驟

    JupyterNotebook設(shè)置Python環(huán)境的方法步驟

    這篇文章主要介紹了JupyterNotebook設(shè)置Python環(huán)境的方法步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • Python格式化輸出字符串方法小結(jié)【%與format】

    Python格式化輸出字符串方法小結(jié)【%與format】

    這篇文章主要介紹了Python格式化輸出字符串方法,結(jié)合實(shí)例形式總結(jié)分析了使用%與format函數(shù)進(jìn)行字符串格式化操作相關(guān)實(shí)現(xiàn)技巧與注意事項(xiàng),需要的朋友可以參考下
    2018-10-10
  • Django與pyecharts結(jié)合的實(shí)例代碼

    Django與pyecharts結(jié)合的實(shí)例代碼

    這篇文章主要介紹了Django與pyecharts結(jié)合的實(shí)例代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-05-05
  • 如何處理Python3.4 使用pymssql 亂碼問(wèn)題

    如何處理Python3.4 使用pymssql 亂碼問(wèn)題

    這篇文章主要介紹了如何處理Python3.4 使用pymssql 亂碼問(wèn)題的相關(guān)資料,涉及到python pymssql相關(guān)知識(shí),對(duì)此感興趣的朋友一起學(xué)習(xí)吧
    2016-01-01
  • Python中讀取和加解密PDF文件的詳細(xì)教程

    Python中讀取和加解密PDF文件的詳細(xì)教程

    在Python中讀取和加密PDF文件是一項(xiàng)常見(jiàn)且實(shí)用的任務(wù),尤其對(duì)于需要處理大量文檔自動(dòng)化處理的場(chǎng)景,本文將詳細(xì)介紹如何使用Python讀取PDF文件內(nèi)容以及如何使用不同的庫(kù)來(lái)給PDF文件加密,需要的朋友可以參考下
    2024-08-08
  • python3連接mysql獲取ansible動(dòng)態(tài)inventory腳本

    python3連接mysql獲取ansible動(dòng)態(tài)inventory腳本

    Ansible Inventory 是包含靜態(tài) Inventory 和動(dòng)態(tài) Inventory 兩部分的,靜態(tài) Inventory 指的是在文件中指定的主機(jī)和組,動(dòng)態(tài) Inventory 指通過(guò)外部腳本獲取主機(jī)列表。這篇文章主要介紹了python3連接mysql獲取ansible動(dòng)態(tài)inventory腳本,需要的朋友可以參考下
    2020-01-01
  • Python Numpy運(yùn)行報(bào)錯(cuò)IndexError與形狀不匹配的問(wèn)題解決辦法

    Python Numpy運(yùn)行報(bào)錯(cuò)IndexError與形狀不匹配的問(wèn)題解決辦法

    在使用Numpy進(jìn)行數(shù)據(jù)處理和科學(xué)計(jì)算時(shí),IndexError和形狀不匹配(Shape Mismatch)是常見(jiàn)的錯(cuò)誤類(lèi)型,這些錯(cuò)誤通常發(fā)生在數(shù)組索引操作、數(shù)組運(yùn)算或數(shù)組重塑時(shí),本文將通過(guò)一個(gè)具體的例子來(lái)詳細(xì)分析這些錯(cuò)誤的原因和解決辦法,需要的朋友可以參考下
    2024-07-07
  • Python?虛擬環(huán)境的價(jià)值和常用命令詳解

    Python?虛擬環(huán)境的價(jià)值和常用命令詳解

    在實(shí)際項(xiàng)目開(kāi)發(fā)中,我們通常會(huì)根據(jù)自己的需求去下載各種相應(yīng)的框架庫(kù),如Scrapy、Beautiful?Soup等,但是可能每個(gè)項(xiàng)目使用的框架庫(kù)并不一樣,或使用框架的版本不一樣,今天給大家分享下Python?虛擬環(huán)境的價(jià)值和常用命令,感興趣的朋友一起看看吧
    2022-05-05
  • Python導(dǎo)入父文件夾中模塊并讀取當(dāng)前文件夾內(nèi)的資源

    Python導(dǎo)入父文件夾中模塊并讀取當(dāng)前文件夾內(nèi)的資源

    這篇文章主要給大家介紹了關(guān)于Python導(dǎo)入父文件夾中模塊并讀取當(dāng)前文件夾內(nèi)資源的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-11-11
  • python并發(fā)編程之多進(jìn)程、多線程、異步和協(xié)程詳解

    python并發(fā)編程之多進(jìn)程、多線程、異步和協(xié)程詳解

    本篇文章詳細(xì)的介紹了python并發(fā)編程之多進(jìn)程、多線程、異步和協(xié)程,對(duì)初學(xué)python有一定的了解作用,需要的朋友可以參考下。
    2016-10-10

最新評(píng)論