pandas刪除重復(fù)數(shù)據(jù)簡單方法
1、pandas中重復(fù)索引問題
df = df[~df.index.duplicated()]
2、pandas刪除重復(fù)數(shù)據(jù)行
# 首先導(dǎo)入常用的兩個包 import pandas as pd import numpy as np # 1.刪除完全重復(fù)的行 df.drop_duplicates() 2.按k列進(jìn)行去重,對于重復(fù)項,保留第一次出現(xiàn)的值 df.drop_duplicates('k',keep='first') 3、k2和k1兩列進(jìn)行去重 df.drop_duplicates(['k2','k1'], keep='first') """ keep:{‘first', ‘last', False}, 默認(rèn)值 ‘first' first:保留第一次出現(xiàn)的重復(fù)行,刪除后面的重復(fù)行。 last:刪除前面的重復(fù)項,保留最后一次出現(xiàn)的重復(fù)行。 False:刪除所有重復(fù)項 """
3、drop_duplicates()函數(shù)的語法
df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)
參數(shù)說明如下:
- subset:表示要進(jìn)去重的列名,默認(rèn)為 None。
- keep:有三個可選參數(shù),分別是 first、last、False,默認(rèn)為 first,表示只保留第一次出現(xiàn)的重復(fù)項,刪除其余重復(fù)項,last 表示只保留最后一次出現(xiàn)的重復(fù)項,F(xiàn)alse 則表示刪除所有重復(fù)項。
- inplace:布爾值參數(shù),默認(rèn)為 False 表示刪除重復(fù)項后返回一個副本,若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項。
附:pandas數(shù)據(jù)處理——取出重復(fù)數(shù)據(jù)
平常我們用pandas做重復(fù)數(shù)據(jù)處理時,常常調(diào)用到drop_duplicates方法來去除重。
現(xiàn)在我不想完全去除重復(fù),而是把重復(fù)數(shù)據(jù)輸出,現(xiàn)有數(shù)據(jù)如下所示:
方法:
重復(fù)數(shù)據(jù)保留一個,duplicate_bool輸出的是bool類型值,通過判斷bool==True,取出重復(fù)行。
duplicate_bool = df.duplicated(subset=['id'], keep='first') repeat=df.loc[duplicate_bool == True] repeat復(fù)制
輸出:
總結(jié)
到此這篇關(guān)于pandas刪除重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)pandas刪除重復(fù)數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python?實操顯示數(shù)據(jù)圖表并固定時間長度
這篇文章主要介紹了Python?實操顯示數(shù)據(jù)圖表并固定時間長度,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-08-08Python3 ffmpeg視頻轉(zhuǎn)換工具使用方法解析
這篇文章主要介紹了Python3 ffmpeg視頻轉(zhuǎn)換工具使用方法解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-08-08python3列表刪除大量重復(fù)元素remove()方法的問題詳解
這篇文章主要給大家介紹了關(guān)于python3列表刪除大量重復(fù)元素remove()方法的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01