Pandas去除重復項函數(shù)詳解drop_duplicates()
更新時間:2024年02月20日 17:01:28 作者:ckSpark
這篇文章主要介紹了Pandas去除重復項函數(shù)drop_duplicates(),具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
drop_duplicates函數(shù)用途
pandas中的drop_duplicates()函數(shù)
可以通過SQL中關鍵字distinct的用法來理解
根據指定的字段對數(shù)據集進行去重處理
drop_duplicates()函數(shù)的具體參數(shù)
用法:
DataFrame.drop_duplicates(subset=None, keep=‘first', inplace=False)
參數(shù)說明:
| 參數(shù) | 說明 |
|---|---|
| subset | 根據指定的列名進行去重,默認整個數(shù)據集 |
| keep | 可選{‘first’, ‘last’, False},默認first,即默認保留第一次出現(xiàn)的重復值,并刪去其他重復的數(shù)據,F(xiàn)alse是指刪去所有重復數(shù)據。 |
| inplace | 是否對數(shù)據集本身進行修改,默認False |
drop_duplicates用法舉例
根據指定字段進行去重
保留第一次出現(xiàn)的數(shù)據
import pandas as pd
#創(chuàng)建數(shù)據框
df=pd.DataFrame({
'a':[1,2,4,3,3,3,4],
'b':[2,3,3,4,4,5,3]
})
print('去重前:\n',df)
#根據字段a進行去重,保留第一次出現(xiàn)的數(shù)據
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重后:\n',df)
>>>
去重前:
a b
0 1 2
1 2 3
2 4 3
3 3 4
4 3 4
5 3 5
6 4 3
去重后:
a b
0 1 2
1 2 3
2 4 3
3 3 4
總結
以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
Python隨機數(shù)種子(random seed)的設置小結
隨機數(shù)種子是控制偽隨機數(shù)生成器的初始值,通過設置相同的種子,可以確保隨機數(shù)序列的一致性,本文主要介紹了Python隨機數(shù)種子(random seed)的設置,感興趣的可以了解一下2025-03-03
Python?pydash庫處理大規(guī)模數(shù)據集執(zhí)行復雜操作
在數(shù)據處理和分析領域,Python一直是一種強大的編程語言,然而,在處理大規(guī)模數(shù)據集和執(zhí)行復雜操作時,有時候需要更高效的工具,在本文中,我們將深入探討pydash庫,這是一個專注于提高Python代碼性能的工具2023-12-12
如何讀取.npy文件以及如何實現(xiàn)將數(shù)組保存為圖片
這篇文章主要介紹了如何讀取.npy文件以及如何實現(xiàn)將數(shù)組保存為圖片問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02
Python基礎之python循環(huán)控制語句break/continue詳解
Python中提供了兩個關鍵字用來控制循環(huán)語句,分別是break和continue,接下來通過兩個案例來區(qū)分這兩個控制語句的不同,感興趣的朋友一起看看吧2021-09-09

