快捷導(dǎo)航

pandas中DataFrame檢測重復(fù)值的實(shí)現(xiàn)

更新時(shí)間：2021年05月26日 10:20:10 作者：乘風(fēng)破浪的熊爸

本文主要介紹了pandas DataFrame檢測重復(fù)值，主要包括了檢查整行整列的檢測，以及多列是否重復(fù)，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

本文詳解如何使用pandas查看dataframe的重復(fù)數(shù)據(jù)，判斷是否重復(fù)，以及如何去重

DataFrame.duplicated(subset=None, keep='first')

subset：如果你認(rèn)為幾個(gè)字段重復(fù)，則數(shù)據(jù)重復(fù)，就把那幾個(gè)字段以列表形式放到subset后面。默認(rèn)是所有字段重復(fù)為重復(fù)數(shù)據(jù)。

keep:

默認(rèn)為'first' ,也就是如果有重復(fù)數(shù)據(jù)，則第一條出現(xiàn)的定義為False，后面的重復(fù)數(shù)據(jù)為True。
如果為'last'，也就是如果有重復(fù)數(shù)據(jù)，則最后一條出現(xiàn)的定義為False，后面的重復(fù)數(shù)據(jù)為True。
如果為False，則所有重復(fù)的為True

下面舉例

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

在這里插入圖片描述

# 默認(rèn)為keep="first",第一條重復(fù)的為False,后面重復(fù)的為True
# 一般不會(huì)設(shè)置keep，保持keep為默認(rèn)值。
df.duplicated()

結(jié)果
0    False
1     True
2    False
3    False
4    False
dtype: bool

# keep="last",,最后一條重復(fù)的為False,后面重復(fù)的為True
df.duplicated(keep="last")

結(jié)果
0     True
1    False
2    False
3    False
4    False
dtype: bool

# keep=False,,所有重復(fù)的為True
df.duplicated(keep=False)

結(jié)果
0     True
1     True
2    False
3    False
4    False
dtype: bool

# sub是子，subset是子集
# 標(biāo)記只要brand重復(fù)為重復(fù)值。
df.duplicated(subset='brand')

結(jié)果

0    False
1     True
2    False
3     True
4     True
dtype: bool


# 只要brand重復(fù)brand和style重復(fù)的為重復(fù)值。
df.duplicated(subset=['brand','style'])

結(jié)果

0    False
1     True
2    False
3    False
4     True
dtype: bool


# 顯示重復(fù)記錄，通過布爾索引
df[df.duplicated()]

在這里插入圖片描述

# 查詢重復(fù)值的個(gè)數(shù)。
df.duplicated().sum()

結(jié)果
1

到此這篇關(guān)于pandas中DataFrame檢測重復(fù)值的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)pandas DataFrame檢測重復(fù)值內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

相關(guān)文章

pygame游戲之旅創(chuàng)建游戲窗口界面
這篇文章主要為大家詳細(xì)介紹了pygame游戲之旅，教大家如何創(chuàng)建游戲窗口界面，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-11-11
Python 實(shí)現(xiàn)Numpy中找出array中最大值所對應(yīng)的行和列
今天小編就為大家分享一篇Python 實(shí)現(xiàn)Numpy中找出array中最大值所對應(yīng)的行和列，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-11-11
python GUI庫圖形界面開發(fā)之PyQt5不規(guī)則窗口實(shí)現(xiàn)與顯示GIF動(dòng)畫的詳細(xì)方法與實(shí)例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5不規(guī)則窗口與顯示GIF動(dòng)畫的詳細(xì)方法與實(shí)例,需要的朋友可以參考下
2020-03-03
教你如何用pycharm安裝pyqt5及其相關(guān)配置
這篇文章主要介紹了教你如何用pycharm安裝pyqt5及其相關(guān)配置，首先通過單獨(dú)創(chuàng)建一個(gè)文件夾來專門存放pyqt5的代碼并建立虛擬環(huán)境展開文章敘述，需要的小伙伴可以參考一下
2022-04-04
Pycharm如何對python文件進(jìn)行打包
這篇文章主要介紹了Pycharm如何對python文件進(jìn)行打包，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-02-02
python使用matplotlib畫餅狀圖
這篇文章主要為大家詳細(xì)介紹了python使用matplotlib畫餅狀圖，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-09-09
Python機(jī)器學(xué)習(xí)性能度量利用鳶尾花數(shù)據(jù)繪制P-R曲線
這篇文章主要為大家介紹了Python機(jī)器學(xué)習(xí)性能度量利用鳶尾花數(shù)據(jù)繪制P-R曲線示例學(xué)習(xí)，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪
2023-02-02
python和shell監(jiān)控linux服務(wù)器的詳細(xì)代碼
這篇文章主要為大家介紹了使用python和shell監(jiān)控linux服務(wù)器的詳細(xì)代碼，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-06-06
Vscode?遠(yuǎn)程切換Python虛擬環(huán)境的詳細(xì)步驟
使用VSCode遠(yuǎn)程切換Python虛擬環(huán)境涉及安裝VSCode和必要擴(kuò)展、連接遠(yuǎn)程服務(wù)器、創(chuàng)建或激活虛擬環(huán)境,并選擇對應(yīng)Python解釋器,詳細(xì)步驟包括安裝Python和Remote-SSH擴(kuò)展,感興趣的朋友一起看看吧
2024-09-09
Python單元測試的9個(gè)技巧技巧
這篇文章主要給大家分享的是Python單元測試常見的幾個(gè)技巧，文章會(huì)講解requests的一些細(xì)節(jié)實(shí)現(xiàn)以及pytest的使用等，感興趣的小伙伴不妨和小編一起閱讀下面文章的具體內(nèi)容吧
2021-09-09