快捷導(dǎo)航

pandas刪除重復(fù)數(shù)據(jù)簡(jiǎn)單方法

更新時(shí)間：2023年07月07日 12:03:04 作者：**星光*

這篇文章主要給大家介紹了關(guān)于pandas刪除重復(fù)數(shù)據(jù)的簡(jiǎn)單方法,在數(shù)據(jù)處理過(guò)程中常常會(huì)遇到重復(fù)的問(wèn)題,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

1、pandas中重復(fù)索引問(wèn)題

df = df[~df.index.duplicated()]

2、pandas刪除重復(fù)數(shù)據(jù)行

# 首先導(dǎo)入常用的兩個(gè)包
import pandas as pd
import numpy as np
 
# 1.刪除完全重復(fù)的行
df.drop_duplicates()
 
2.按k列進(jìn)行去重，對(duì)于重復(fù)項(xiàng)，保留第一次出現(xiàn)的值
df.drop_duplicates('k',keep='first')
 
3、k2和k1兩列進(jìn)行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep：{‘first', ‘last', False}, 默認(rèn)值 ‘first'
first：保留第一次出現(xiàn)的重復(fù)行，刪除后面的重復(fù)行。
last：刪除前面的重復(fù)項(xiàng)，保留最后一次出現(xiàn)的重復(fù)行。
False：刪除所有重復(fù)項(xiàng)
"""

3、drop_duplicates()函數(shù)的語(yǔ)法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

參數(shù)說(shuō)明如下：

subset：表示要進(jìn)去重的列名，默認(rèn)為 None。
keep：有三個(gè)可選參數(shù)，分別是 first、last、False，默認(rèn)為 first，表示只保留第一次出現(xiàn)的重復(fù)項(xiàng)，刪除其余重復(fù)項(xiàng)，last 表示只保留最后一次出現(xiàn)的重復(fù)項(xiàng)，F(xiàn)alse 則表示刪除所有重復(fù)項(xiàng)。
inplace：布爾值參數(shù)，默認(rèn)為 False 表示刪除重復(fù)項(xiàng)后返回一個(gè)副本，若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)。

附：pandas數(shù)據(jù)處理——取出重復(fù)數(shù)據(jù)

平常我們用pandas做重復(fù)數(shù)據(jù)處理時(shí)，常常調(diào)用到drop_duplicates方法來(lái)去除重。

現(xiàn)在我不想完全去除重復(fù)，而是把重復(fù)數(shù)據(jù)輸出，現(xiàn)有數(shù)據(jù)如下所示：

方法：

重復(fù)數(shù)據(jù)保留一個(gè)，duplicate_bool輸出的是bool類型值，通過(guò)判斷bool==True，取出重復(fù)行。

duplicate_bool = df.duplicated(subset=['id'], keep='first')
repeat=df.loc[duplicate_bool == True]
repeat復(fù)制

輸出：

總結(jié)

到此這篇關(guān)于pandas刪除重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)pandas刪除重復(fù)數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

python學(xué)習(xí)之基于Python的人臉識(shí)別技術(shù)學(xué)習(xí)
面部識(shí)別技術(shù)的應(yīng)用越來(lái)越廣泛，它廣泛應(yīng)用于安全系統(tǒng)、人機(jī)交互、社交媒體、醫(yī)療保健等領(lǐng)域。本文介紹了基于Python的人臉識(shí)別技術(shù)，感興趣的小伙伴可以參考閱讀
2023-03-03
Python搭建FTP服務(wù)器的方法示例
本篇文章主要介紹了Python搭建FTP服務(wù)器的方法示例，小編覺(jué)得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
2018-01-01
python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解
這篇文章主要介紹了python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2019-08-08
淺析Python如何優(yōu)雅地處理超時(shí)和延遲加載問(wèn)題
在網(wǎng)絡(luò)爬蟲開發(fā)中,超時(shí)（Timeout）和延遲加載（Lazy Loading）是兩個(gè)常見的技術(shù)挑戰(zhàn),本文將介紹如何在Python中優(yōu)雅地處理超時(shí)和延遲加載,并提供完整的代碼實(shí)現(xiàn),有需要的小伙伴可以參考下
2025-07-07
Python 如何用一行代碼實(shí)現(xiàn)for循環(huán)初始化數(shù)組
這篇文章主要介紹了Python 用一行代碼實(shí)現(xiàn)for循環(huán)初始化數(shù)組的操作，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2021-03-03
Vue的el-scrollbar實(shí)現(xiàn)自定義滾動(dòng)
本篇文章給大家分享了Vue的el-scrollbar實(shí)現(xiàn)自定義滾動(dòng)實(shí)現(xiàn)的過(guò)程和實(shí)例代碼，對(duì)此有需要的朋友可以參考下。
2018-05-05
關(guān)于jupyter代碼自動(dòng)補(bǔ)全設(shè)置方式
這篇文章主要介紹了關(guān)于jupyter代碼自動(dòng)補(bǔ)全設(shè)置方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
2024-06-06
python中class類與方法的用法實(shí)例詳解
類(class)是python中很重要的一個(gè)概念,也是我們面象對(duì)象編程中最重要的概念主之一,這篇文章主要給大家介紹了關(guān)于python中class類與方法用法的相關(guān)資料,需要的朋友可以參考下
2022-04-04
Python基礎(chǔ)之元組與文件知識(shí)總結(jié)
今天帶大家復(fù)習(xí)一下Python基礎(chǔ)知識(shí),文中詳細(xì)介紹了Python元祖與文件,對(duì)正在學(xué)習(xí)python基礎(chǔ)的小伙伴們很有幫助,需要的朋友可以參考下
2021-05-05
python使用whisper讀取藍(lán)牙耳機(jī)語(yǔ)音并轉(zhuǎn)為文字
這篇文章主要為大家詳細(xì)介紹了python如何使用whisper讀取藍(lán)牙耳機(jī)語(yǔ)音并識(shí)別轉(zhuǎn)為文字,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解下
2025-05-05