pandas的分箱操作實(shí)現(xiàn)
在pandas中,分箱操作是指將連續(xù)的數(shù)值型數(shù)據(jù)按照一定的規(guī)則劃分為離散的箱子或區(qū)間,這有助于對(duì)數(shù)據(jù)進(jìn)行分析、可視化以及建立統(tǒng)計(jì)模型。
1、pd.cut()方法
這個(gè)函數(shù)可以根據(jù)指定的分箱邊界將數(shù)據(jù)劃分到不同的區(qū)間,可以指定分箱的邊界、標(biāo)簽、以及是否包括邊界。
pd.cut(bins, right: bool = True, labels=None, retbins: bool = False, precision: int = 3, include_lowest: bool = False, duplicates: str = "raise", ordered: bool = True,)
- bins,判斷的邊界
- right: bool = True,是否包含最右邊的邊界
- labels=None,判斷結(jié)果的標(biāo)簽
- retbins: bool = False,是否歸還bins,
- precision: int = 3,存儲(chǔ)和顯示箱子標(biāo)簽的精度。
- include_lowest: bool = False,第一個(gè)區(qū)間是否包含左區(qū)間
- duplicates: str = "raise",如果箱子的邊不是唯一的,拋出ValueError或刪除非唯一的邊。
- ordered: bool = True,
- 標(biāo)簽是否有序。應(yīng)用于返回類型
- 如果為true,得到的分類變量是有序的。
- 如果為False,則返回結(jié)果類別將是無(wú)序的(必須提供標(biāo)簽)。
import pandas as pd import numpy as np data=[0,60,70,90,100,110,20,30,40,50] bins=[0,30,60,100] lables=['Low','Medium','High'] print(pd.cut(data,bins=bins,labels=lables)) print(pd.cut(data,bins=bins,labels=lables,include_lowest=True))
2、 pd.qcut()方法
該函數(shù)根據(jù)數(shù)據(jù)的分位數(shù)來(lái)進(jìn)行分箱操作,可以保證每個(gè)箱子內(nèi)的數(shù)據(jù)數(shù)量大致相等。有助于創(chuàng)建等頻分箱。
pd.qcut( x, q, labels=None, retbins: bool = False, precision: int = 3, duplicates: str = "raise",)
參數(shù)
- x:需要處理的數(shù)據(jù),需要時(shí)一維數(shù)組或Series
- q:分位數(shù),需要與labels數(shù)組長(zhǎng)度一致
- labels=None,數(shù)組或者為空(默認(rèn)為空),用作結(jié)果箱的標(biāo)簽,必須和一樣長(zhǎng)的結(jié)果箱,如果為False,則只返回的整數(shù)指示箱里。如果為True,則引發(fā)錯(cuò)誤。
- retbins: bool = False,是否返回bins
- precision: int = 3,存儲(chǔ)和顯示箱子標(biāo)簽的精度
- duplicates: str = "raise",如果箱子的邊不是唯一的,拋出ValueError或刪除非唯一的邊。
import pandas as pd import numpy as np df=pd.DataFrame(np.random.randint(0,101,size=100),columns=['value']) print(df) df['level'],bins=pd.qcut(df['value'],q=4,labels=['low','medium','high','higher'],retbins=True) print(df) print(bins) print(df['level'].value_counts())
df
修改后的df
bins以及value_counts
可以看到數(shù)據(jù)進(jìn)行劃分時(shí)的區(qū)間為:1-28.5、28.5- 50,50-73,73-99。根據(jù)value_counts可以看出每個(gè)分區(qū)數(shù)量是等頻的。
3、自定義分箱
我們可以自定義函數(shù)通過(guò)使用apple進(jìn)行自定義分箱。一下為例子
import pandas as pd import numpy as np s=pd.Series(np.random.randint(0,90,size=100),name='age') def custom_age_binning(age): if age<=30: return 'young' elif age<=60: return 'middle-aged' else: return 'senior' custom_bins=s.apply(custom_age_binning) print(custom_bins)
分箱操作的作用
數(shù)據(jù)理解與可視化; 將連續(xù)數(shù)據(jù)分成幾個(gè)離散的箱子可以幫助我們更好地理解數(shù)據(jù)的分布情況。通過(guò)繪制分箱后的數(shù)據(jù)直方圖、柱狀圖等圖表,可以更清楚地看到數(shù)據(jù)的分布模式,有助于發(fā)現(xiàn)數(shù)據(jù)的特征和異常情況。
特征工程;在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模中,將連續(xù)數(shù)據(jù)分箱可以將數(shù)值型特征轉(zhuǎn)換為類別型特征,從而適應(yīng)某些模型的需求,或者提高模型的性能。例如,某些算法對(duì)類別型數(shù)據(jù)更為敏感,分箱后的特征可以提供更多信息。
處理異常值: 將連續(xù)數(shù)據(jù)進(jìn)行分箱可以幫助處理異常值的影響。異常值可能會(huì)對(duì)分析和建模產(chǎn)生干擾,通過(guò)將數(shù)據(jù)分箱,可以將異常值分到合適的區(qū)間中,減少其影響。
降低模型復(fù)雜性; 在一些情況下,使用連續(xù)數(shù)據(jù)可能會(huì)導(dǎo)致模型過(guò)于復(fù)雜,容易過(guò)擬合。分箱可以降低模型的復(fù)雜性,使模型更具有泛化能力。
缺失值處理: 在分箱過(guò)程中,你可以將缺失值劃分到一個(gè)單獨(dú)的箱子中,從而對(duì)缺失值進(jìn)行特殊處理,而不是直接刪除或填充缺失值。
解決線性關(guān)系的問(wèn)題:有時(shí)候數(shù)據(jù)之間的關(guān)系可能不是線性的,通過(guò)分箱可以在一定程度上捕捉非線性的關(guān)系,使建模更加準(zhǔn)確。
滿足業(yè)務(wù)需求;在實(shí)際業(yè)務(wù)中,可能需要將連續(xù)數(shù)據(jù)劃分成具有業(yè)務(wù)意義的區(qū)間,以滿足特定的業(yè)務(wù)需求。例如,將年齡數(shù)據(jù)劃分成不同的年齡段,以便更好地理解不同年齡段的特點(diǎn)。
總之,分箱操作可以幫助我們更好地理解數(shù)據(jù)、提取特征、處理異常值和滿足業(yè)務(wù)需求,從而為數(shù)據(jù)分析和建模提供更多的靈活性和可解釋性。
到此這篇關(guān)于pandas的分箱操作實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)pandas 分箱操作內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
關(guān)于Python排序sort()函數(shù)和sorted()函數(shù)
這篇文章主要介紹了關(guān)于Python排序sort()函數(shù)和sorted()函數(shù),利用Python中的內(nèi)置函數(shù)去實(shí)現(xiàn)直接排序,需要的朋友可以參考下2023-04-04Python django使用多進(jìn)程連接mysql錯(cuò)誤的解決方法
這篇文章主要介紹了Python django使用多進(jìn)程連接mysql錯(cuò)誤的解決方法,詳細(xì)的介紹了解決方法,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-10-10Python實(shí)現(xiàn)自動(dòng)化網(wǎng)頁(yè)操作步驟
這篇文章主要介紹Python如何實(shí)現(xiàn)自動(dòng)化網(wǎng)頁(yè)操作,文中有詳細(xì)的流程步驟和代碼示例,對(duì)我們的學(xué)習(xí)或工作有一定的幫助,需要的朋友可以參考下2023-06-06如何利用python實(shí)現(xiàn)kmeans聚類
K-Means是聚類算法的一種,以距離來(lái)判斷數(shù)據(jù)點(diǎn)間的相似度并對(duì)數(shù)據(jù)進(jìn)行聚類,下面這篇文章主要給大家介紹了關(guān)于如何利用python實(shí)現(xiàn)kmeans聚類的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下2022-05-05python+opencv實(shí)現(xiàn)移動(dòng)偵測(cè)(幀差法)
這篇文章主要為大家詳細(xì)介紹了python+opencv實(shí)現(xiàn)移動(dòng)偵測(cè),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-03-03