pandas中的數(shù)據(jù)去重處理的實現(xiàn)方法
數(shù)據(jù)去重可以使用duplicated()和drop_duplicates()兩個方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重復(fù)行
參數(shù):
subset:列標(biāo)簽或標(biāo)簽序列,可選
僅考慮用于標(biāo)識重復(fù)項的某些列,默認情況下使用所有列
keep:{‘first',‘last',F(xiàn)alse},默認'first'
- first:標(biāo)記重復(fù),True除了第一次出現(xiàn)。
- last:標(biāo)記重復(fù),True除了最后一次出現(xiàn)。
- 錯誤:將所有重復(fù)項標(biāo)記為True。
import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read_csv('./demo_duplicate.csv') print(df) print(df['Seqno'].unique()) # [0. 1.] # 使用duplicated 查看 重復(fù)值 # 參數(shù) keep 可以標(biāo)記重復(fù)值 {'first','last',F(xiàn)alse} print(df['Seqno'].duplicated()) ''' 0 False 1 True 2 True 3 True 4 False Name: Seqno, dtype: bool ''' # 刪除 series 重復(fù)數(shù)據(jù) print(df['Seqno'].drop_duplicates()) ''' 0 0.0 4 1.0 Name: Seqno, dtype: float64 ''' # 刪除 dataframe 重復(fù)數(shù)據(jù) print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 來 去重 ''' Price Seqno Symbol time 0 1623.0 0.0 APPL 1473411962 4 1649.0 1.0 APPL 1473411963 ''' # drop_dujplicates() 第二個參數(shù) keep 包含的值 有: first、last、False print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一個 ''' Price Seqno Symbol time 3 1623.0 0.0 APPL 1473411963 4 1649.0 1.0 APPL 1473411963 '''
pandas 去除重復(fù)行
DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )
subset : 指定列,默認情況下使用所有列
keep : {'first','last',F(xiàn)alse},默認'first'
first
:刪除重復(fù)項保留第一次出現(xiàn)的。last
:刪除重復(fù)項保留最后一次出現(xiàn)的。false:刪除所有重復(fù)項。
inplace : 布爾值,默認為False 是否刪除重復(fù)項或返回副本
栗子:
到此這篇關(guān)于pandas中的數(shù)據(jù)去重處理的實現(xiàn)方法的文章就介紹到這了,更多相關(guān)Pandas 數(shù)據(jù)去重內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用百度翻譯開發(fā)平臺實現(xiàn)英文翻譯為中文功能示例
這篇文章主要介紹了Python使用百度翻譯開發(fā)平臺實現(xiàn)英文翻譯為中文功能,結(jié)合實例形式分析了Python使用request請求與百度翻譯API接口交互實現(xiàn)翻譯功能相關(guān)操作技巧,需要的朋友可以參考下2019-08-08Python3中bytes類型轉(zhuǎn)換為str類型
Python 3最重要的新特性之一是對字符串和二進制數(shù)據(jù)流做了明確的區(qū)分。這篇文章主要介紹了Python3中bytes類型轉(zhuǎn)換為str類型的相關(guān)知識,需要的朋友可以參考下2018-09-09Python實現(xiàn)功能全面的學(xué)生管理系統(tǒng)
這篇文章主要為大家詳細介紹了Python實現(xiàn)功能全面的學(xué)生管理系統(tǒng),文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-05-05python?DataFrame中stack()方法、unstack()方法和pivot()方法淺析
這篇文章主要給大家介紹了關(guān)于python?DataFrame中stack()方法、unstack()方法和pivot()方法的相關(guān)資料,pandas中這三種方法都是用來對表格進行重排的,其中stack()是unstack()的逆操作,需要的朋友可以參考下2022-04-04