pandas pd.cut()與pd.qcut()的具體實現(xiàn)
1、pd.cut函數(shù)有7個參數(shù),主要用于對數(shù)據(jù)從最大值到最小值進行等距劃分
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)
參數(shù):
x : 輸入待cut的一維數(shù)組
bins : cut的段數(shù),一般為整型,但也可以為序列向量。
right : 布爾值,確定右區(qū)間是否開閉,取True時右區(qū)間閉合
labels : 數(shù)組或布爾值,默認為None,用來標識分后的bins,長度必須與結(jié)果bins相等,返回值為整數(shù)或者對bins的標識
retbins : 布爾值,可選。是否返回數(shù)值所在分組,Ture則返回
precision : 整型,bins小數(shù)精度,也就是數(shù)據(jù)以幾位小數(shù)顯示
include_lowest : 布爾類型,是否包含左區(qū)間
2、pd.qcut函數(shù),按照數(shù)據(jù)出現(xiàn)頻率百分比劃分,比如要把數(shù)據(jù)分為四份,則四段分別是數(shù)據(jù)的0-25%,25%-50%,50%-75%,75%-100%
pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')
代碼示例:
import numpy as np from numpy import * import pandas as pd df = pd.DataFrame() df['data'] = [1,2,2,2,2,6,7,8,9,0]#這里注意箱邊界值需要唯一,不然qcut時程序會報錯 df['cut']=pd.cut(df['data'],5) df['qcut']=pd.qcut(df['data'],5) df.head(10)
運行結(jié)果如圖:
可以看到cut列各個分段之間間距相等,qcut由于數(shù)據(jù)中‘2’較多,所以2附近間距較小,2之后的分段間距較大。
到此這篇關于pandas pd.cut()與pd.qcut()的具體實現(xiàn)的文章就介紹到這了,更多相關pandas pd.cut()與pd.qcut()內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
pyhton中__pycache__文件夾的產(chǎn)生與作用詳解
這篇文章主要介紹了pyhton中__pycache__文件夾的產(chǎn)生與作用詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-11-11詳解Python中數(shù)據(jù)類型的轉(zhuǎn)換
這篇文章主要為大家詳細介紹了Python中數(shù)據(jù)類型轉(zhuǎn)換的相關資料,文中的示例代碼講解詳細,具有一定的參考價值,感興趣的小伙伴可以了解一下2023-03-03pytorch transform數(shù)據(jù)處理轉(zhuǎn)c++問題
這篇文章主要介紹了pytorch transform數(shù)據(jù)處理轉(zhuǎn)c++問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-02-02Python+eval函數(shù)實現(xiàn)動態(tài)地計算數(shù)學表達式詳解
Python的 eval() 允許從基于字符串或基于編譯代碼的輸入中計算任意Python表達式。當從字符串或編譯后的代碼對象的任何輸入中動態(tài)計算Python表達式時,此函數(shù)非常方便。本文將利用eval實現(xiàn)動態(tài)地計算數(shù)學表達式,需要的可以參考一下2022-09-09