欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

pandas刪除重復(fù)數(shù)據(jù)簡(jiǎn)單方法

 更新時(shí)間:2023年07月07日 12:03:04   作者:**星光*  
這篇文章主要給大家介紹了關(guān)于pandas刪除重復(fù)數(shù)據(jù)的簡(jiǎn)單方法,在數(shù)據(jù)處理過(guò)程中常常會(huì)遇到重復(fù)的問(wèn)題,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

 1、pandas中重復(fù)索引問(wèn)題

df = df[~df.index.duplicated()]

2、pandas刪除重復(fù)數(shù)據(jù)行

# 首先導(dǎo)入常用的兩個(gè)包
import pandas as pd
import numpy as np
 
# 1.刪除完全重復(fù)的行
df.drop_duplicates()
 
2.按k列進(jìn)行去重,對(duì)于重復(fù)項(xiàng),保留第一次出現(xiàn)的值
df.drop_duplicates('k',keep='first')
 
3、k2和k1兩列進(jìn)行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep:{‘first', ‘last', False}, 默認(rèn)值 ‘first'
first:保留第一次出現(xiàn)的重復(fù)行,刪除后面的重復(fù)行。
last:刪除前面的重復(fù)項(xiàng),保留最后一次出現(xiàn)的重復(fù)行。
False:刪除所有重復(fù)項(xiàng)
"""

 3、drop_duplicates()函數(shù)的語(yǔ)法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

參數(shù)說(shuō)明如下:

  • subset:表示要進(jìn)去重的列名,默認(rèn)為 None。
  • keep:有三個(gè)可選參數(shù),分別是 first、last、False,默認(rèn)為 first,表示只保留第一次出現(xiàn)的重復(fù)項(xiàng),刪除其余重復(fù)項(xiàng),last 表示只保留最后一次出現(xiàn)的重復(fù)項(xiàng),F(xiàn)alse 則表示刪除所有重復(fù)項(xiàng)。
  • inplace:布爾值參數(shù),默認(rèn)為 False 表示刪除重復(fù)項(xiàng)后返回一個(gè)副本,若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)。

附:pandas數(shù)據(jù)處理——取出重復(fù)數(shù)據(jù)

平常我們用pandas做重復(fù)數(shù)據(jù)處理時(shí),常常調(diào)用到drop_duplicates方法來(lái)去除重。

現(xiàn)在我不想完全去除重復(fù),而是把重復(fù)數(shù)據(jù)輸出,現(xiàn)有數(shù)據(jù)如下所示:

方法:

重復(fù)數(shù)據(jù)保留一個(gè),duplicate_bool輸出的是bool類型值,通過(guò)判斷bool==True,取出重復(fù)行。

duplicate_bool = df.duplicated(subset=['id'], keep='first')
repeat=df.loc[duplicate_bool == True]
repeat復(fù)制

輸出:

 總結(jié)

到此這篇關(guān)于pandas刪除重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)pandas刪除重復(fù)數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評(píng)論