pandas刪除重復(fù)數(shù)據(jù)簡(jiǎn)單方法
1、pandas中重復(fù)索引問(wèn)題
df = df[~df.index.duplicated()]
2、pandas刪除重復(fù)數(shù)據(jù)行
# 首先導(dǎo)入常用的兩個(gè)包
import pandas as pd
import numpy as np
# 1.刪除完全重復(fù)的行
df.drop_duplicates()
2.按k列進(jìn)行去重,對(duì)于重復(fù)項(xiàng),保留第一次出現(xiàn)的值
df.drop_duplicates('k',keep='first')
3、k2和k1兩列進(jìn)行去重
df.drop_duplicates(['k2','k1'], keep='first')
"""
keep:{‘first', ‘last', False}, 默認(rèn)值 ‘first'
first:保留第一次出現(xiàn)的重復(fù)行,刪除后面的重復(fù)行。
last:刪除前面的重復(fù)項(xiàng),保留最后一次出現(xiàn)的重復(fù)行。
False:刪除所有重復(fù)項(xiàng)
"""3、drop_duplicates()函數(shù)的語(yǔ)法
df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)
參數(shù)說(shuō)明如下:
- subset:表示要進(jìn)去重的列名,默認(rèn)為 None。
- keep:有三個(gè)可選參數(shù),分別是 first、last、False,默認(rèn)為 first,表示只保留第一次出現(xiàn)的重復(fù)項(xiàng),刪除其余重復(fù)項(xiàng),last 表示只保留最后一次出現(xiàn)的重復(fù)項(xiàng),F(xiàn)alse 則表示刪除所有重復(fù)項(xiàng)。
- inplace:布爾值參數(shù),默認(rèn)為 False 表示刪除重復(fù)項(xiàng)后返回一個(gè)副本,若為 Ture 則表示直接在原數(shù)據(jù)上刪除重復(fù)項(xiàng)。
附:pandas數(shù)據(jù)處理——取出重復(fù)數(shù)據(jù)
平常我們用pandas做重復(fù)數(shù)據(jù)處理時(shí),常常調(diào)用到drop_duplicates方法來(lái)去除重。
現(xiàn)在我不想完全去除重復(fù),而是把重復(fù)數(shù)據(jù)輸出,現(xiàn)有數(shù)據(jù)如下所示:

方法:
重復(fù)數(shù)據(jù)保留一個(gè),duplicate_bool輸出的是bool類型值,通過(guò)判斷bool==True,取出重復(fù)行。
duplicate_bool = df.duplicated(subset=['id'], keep='first') repeat=df.loc[duplicate_bool == True] repeat復(fù)制
輸出:

總結(jié)
到此這篇關(guān)于pandas刪除重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)pandas刪除重復(fù)數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python學(xué)習(xí)之基于Python的人臉識(shí)別技術(shù)學(xué)習(xí)
面部識(shí)別技術(shù)的應(yīng)用越來(lái)越廣泛,它廣泛應(yīng)用于安全系統(tǒng)、人機(jī)交互、社交媒體、醫(yī)療保健等領(lǐng)域。本文介紹了基于Python的人臉識(shí)別技術(shù),感興趣的小伙伴可以參考閱讀2023-03-03
python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解
這篇文章主要介紹了python機(jī)器學(xué)習(xí)包mlxtend的安裝和配置詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-08-08
淺析Python如何優(yōu)雅地處理超時(shí)和延遲加載問(wèn)題
在網(wǎng)絡(luò)爬蟲開發(fā)中,超時(shí)(Timeout)和延遲加載(Lazy Loading)是兩個(gè)常見的技術(shù)挑戰(zhàn),本文將介紹如何在Python中優(yōu)雅地處理超時(shí)和延遲加載,并提供完整的代碼實(shí)現(xiàn),有需要的小伙伴可以參考下2025-07-07
Python 如何用一行代碼實(shí)現(xiàn)for循環(huán)初始化數(shù)組
這篇文章主要介紹了Python 用一行代碼實(shí)現(xiàn)for循環(huán)初始化數(shù)組的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-03-03
Vue的el-scrollbar實(shí)現(xiàn)自定義滾動(dòng)
本篇文章給大家分享了Vue的el-scrollbar實(shí)現(xiàn)自定義滾動(dòng)實(shí)現(xiàn)的過(guò)程和實(shí)例代碼,對(duì)此有需要的朋友可以參考下。2018-05-05
關(guān)于jupyter代碼自動(dòng)補(bǔ)全設(shè)置方式
這篇文章主要介紹了關(guān)于jupyter代碼自動(dòng)補(bǔ)全設(shè)置方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-06-06
Python基礎(chǔ)之元組與文件知識(shí)總結(jié)
今天帶大家復(fù)習(xí)一下Python基礎(chǔ)知識(shí),文中詳細(xì)介紹了Python元祖與文件,對(duì)正在學(xué)習(xí)python基礎(chǔ)的小伙伴們很有幫助,需要的朋友可以參考下2021-05-05
python使用whisper讀取藍(lán)牙耳機(jī)語(yǔ)音并轉(zhuǎn)為文字
這篇文章主要為大家詳細(xì)介紹了python如何使用whisper讀取藍(lán)牙耳機(jī)語(yǔ)音并識(shí)別轉(zhuǎn)為文字,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解下2025-05-05

