欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

pandas刪除重復(fù)數(shù)據(jù)簡單方法

 更新時間:2023年07月07日 12:03:04   作者:**星光*  
這篇文章主要給大家介紹了關(guān)于pandas刪除重復(fù)數(shù)據(jù)的簡單方法,在數(shù)據(jù)處理過程中常常會遇到重復(fù)的問題,文中通過實例代碼介紹的非常詳細(xì),需要的朋友可以參考下

 1、pandas中重復(fù)索引問題

df = df[~df.index.duplicated()]

2、pandas刪除重復(fù)數(shù)據(jù)行

# 首先導(dǎo)入常用的兩個包
import pandas as pd
import numpy as np
 
# 1.刪除完全重復(fù)的行
df.drop_duplicates()
 
2.按k列進行去重,對于重復(fù)項,保留第一次出現(xiàn)的值
df.drop_duplicates('k',keep='first')
 
3、k2和k1兩列進行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep:{‘first', ‘last', False}, 默認(rèn)值 ‘first'
first:保留第一次出現(xiàn)的重復(fù)行,刪除后面的重復(fù)行。
last:刪除前面的重復(fù)項,保留最后一次出現(xiàn)的重復(fù)行。
False:刪除所有重復(fù)項
"""

 3、drop_duplicates()函數(shù)的語法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

參數(shù)說明如下:

  • subset:表示要進去重的列名,默認(rèn)為 None。
  • keep:有三個可選參數(shù),分別是 first、last、False,默認(rèn)為 first,表示只保留第一次出現(xiàn)的重復(fù)項,刪除其余重復(fù)項,last 表示只保留最后一次出現(xiàn)的重復(fù)項,F(xiàn)alse 則表示刪除所有重復(fù)項。
  • inplace:布爾值參數(shù),默認(rèn)為 False 表示刪除重復(fù)項后返回一個副本,若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項。

附:pandas數(shù)據(jù)處理——取出重復(fù)數(shù)據(jù)

平常我們用pandas做重復(fù)數(shù)據(jù)處理時,常常調(diào)用到drop_duplicates方法來去除重。

現(xiàn)在我不想完全去除重復(fù),而是把重復(fù)數(shù)據(jù)輸出,現(xiàn)有數(shù)據(jù)如下所示:

方法:

重復(fù)數(shù)據(jù)保留一個,duplicate_bool輸出的是bool類型值,通過判斷bool==True,取出重復(fù)行。

duplicate_bool = df.duplicated(subset=['id'], keep='first')
repeat=df.loc[duplicate_bool == True]
repeat復(fù)制

輸出:

 總結(jié)

到此這篇關(guān)于pandas刪除重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)pandas刪除重復(fù)數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評論