快捷導(dǎo)航

Pandas 中的 drop_duplicates()詳解

更新時(shí)間：2023年09月26日 11:25:53 作者：紅水母

Pandas 中的 drop_duplicates() 函數(shù)用于從 DataFrame 中刪除重復(fù)的行,該函數(shù)有一些參數(shù),允許你進(jìn)行不同方式的重復(fù)行處理,本文給大家介紹Pandas 中的 drop_duplicates(),感興趣的朋友跟隨小編一起看看吧

Pandas 中的 drop_duplicates()

Pandas 中的 drop_duplicates() 函數(shù)用于從 DataFrame 中刪除重復(fù)的行。該函數(shù)有一些參數(shù)，允許你進(jìn)行不同方式的重復(fù)行處理。以下是 drop_duplicates() 函數(shù)的主要參數(shù)解析：

subset（可選參數(shù)）：

作用：指定要考慮重復(fù)的列。

默認(rèn)值：None，表示考慮整個(gè)行的重復(fù)。

示例：df.drop_duplicates(subset=[‘column1’, ‘column2’])

keep（可選參數(shù)）：

作用：指定保留哪些重復(fù)行。

可選值：‘first’：保留第一次出現(xiàn)的重復(fù)行（默認(rèn)值）。

‘last’：保留最后一次出現(xiàn)的重復(fù)行。

False：刪除所有重復(fù)行，不保留任何重復(fù)行。示例：df.drop_duplicates(keep=‘last’)

inplace（可選參數(shù)）：

作用：如果設(shè)置為 True，將在原始 DataFrame 上執(zhí)行刪除操作，不返回新的 DataFrame。

默認(rèn)值：False，表示返回一個(gè)新的 DataFrame，原始 DataFrame 不受影響。

示例：df.drop_duplicates(inplace=True)

ignore_index（可選參數(shù)）：

作用：如果設(shè)置為 True，刪除后的 DataFrame 將重新索引，以便索引從零開(kāi)始。

默認(rèn)值：False。

示例：df.drop_duplicates(ignore_index=True)

subset 和 keep 參數(shù)的組合：

通常，subset 參數(shù)用于指定要考慮重復(fù)的列，而 keep 參數(shù)用于控制保留哪些重復(fù)行。例如，df.drop_duplicates(subset=[‘column1’, ‘column2’], keep=‘last’) 表示在 ‘column1’ 和 ‘column2’ 列上考慮重復(fù)，但保留最后一次出現(xiàn)的重復(fù)行。

drop_duplicates() 函數(shù)通常用于數(shù)據(jù)清洗，以刪除數(shù)據(jù)中的重復(fù)記錄，以便進(jìn)行分析或建模。

你可以根據(jù)具體的需求使用不同的參數(shù)組合來(lái)執(zhí)行不同的重復(fù)行處理操作。

補(bǔ)充：

Pandas-去重函數(shù)drop_duplicates()詳解

Panda DataFrame 對(duì)象提供了一個(gè)數(shù)據(jù)去重的函數(shù) drop_duplicates()，本節(jié)對(duì)該函數(shù)的用法做詳細(xì)介紹。

格式介紹

drop_duplicates()函數(shù)的語(yǔ)法格式如下：

data.drop_duplicates(subset=['a','b','b'],keep='first',inplace=True)

參數(shù)說(shuō)明如下：
subset：表示要進(jìn)去重的列名，默認(rèn)為 None。
keep：有三個(gè)可選參數(shù)，分別是 first、last、False，默認(rèn)為 first，表示只保留第一次出現(xiàn)的重復(fù)項(xiàng)，刪除其余重復(fù)項(xiàng)，last 表示只保留最后一次出現(xiàn)的重復(fù)項(xiàng)，F(xiàn)alse 則表示刪除所有重復(fù)項(xiàng)。
inplace：布爾值參數(shù)，默認(rèn)為 False 表示刪除重復(fù)項(xiàng)后返回一個(gè)副本，若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)。

示例數(shù)據(jù)

代碼：

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
print (data)

打印結(jié)果

實(shí)際應(yīng)用

1、默認(rèn)保留第一次出現(xiàn)的重復(fù)項(xiàng)

代碼：

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates()
print (data_del)

打印結(jié)果

在這里插入圖片描述

2、刪除所有重復(fù)項(xiàng)

代碼：

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates(keep=False)
print (data_del)

打印結(jié)果

在這里插入圖片描述

3、根據(jù)指定列標(biāo)簽去重

代碼：

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates(subset=['b'],keep=False)
print (data_del)

打印結(jié)果

在這里插入圖片描述

4、指定多列同時(shí)去重

代碼：

import pandas as pd
data = pd.DataFrame({
    'a':[2,1,1,1,1,1,2],
    'b':[1,3,2,4,1,1,5],
    'c':[1,3,2,4,1,1,3],
    'd':[1,3,2,4,1,1,8]
})
data_del = data.drop_duplicates(subset=['b','c'],keep=False)
print (data_del)

打印結(jié)果