快捷導(dǎo)航

詳解pandas使用drop_duplicates去除DataFrame重復(fù)項(xiàng)參數(shù)

更新時(shí)間：2019年08月01日 11:12:45 作者：OraYang

這篇文章主要介紹了詳解pandas使用drop_duplicates去除DataFrame重復(fù)項(xiàng)參數(shù)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

Pandas之drop_duplicates：去除重復(fù)項(xiàng)

方法

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

參數(shù)

這個(gè)drop_duplicate方法是對(duì)DataFrame格式的數(shù)據(jù)，去除特定列下面的重復(fù)行。返回DataFrame格式的數(shù)據(jù)。

subset : column label or sequence of labels, optional 用來(lái)指定特定的列，默認(rèn)所有列
keep : {‘first', ‘last', False}, default ‘first' 刪除重復(fù)項(xiàng)并保留第一次出現(xiàn)的項(xiàng)
inplace : boolean, default False 是直接在原來(lái)數(shù)據(jù)上修改還是保留一個(gè)副本

DataFrame中存在重復(fù)的行或者幾行中某幾列的值重復(fù)，這時(shí)候需要去掉重復(fù)行，示例如下：

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

代碼中subset對(duì)應(yīng)的值是列名，表示只考慮這兩列，將這兩列對(duì)應(yīng)值相同的行進(jìn)行去重。默認(rèn)值為subset=None表示考慮所有列。

keep='first'表示保留第一次出現(xiàn)的重復(fù)行，是默認(rèn)值。keep另外兩個(gè)取值為"last"和False，分別表示保留最后一次出現(xiàn)的重復(fù)行和去除所有重復(fù)行。

inplace=True表示直接在原來(lái)的DataFrame上刪除重復(fù)項(xiàng)，而默認(rèn)值False表示生成一個(gè)副本。

將副本賦值給dataframe：

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

這一行代碼與文章開(kāi)頭提到的那行代碼效果等效，但是如果在該DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就會(huì)報(bào)如下錯(cuò)誤：

SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.

所以如果想對(duì)DataFrame去重，最好采用開(kāi)頭提到的那行代碼。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

教你用Python+selenium搭建自動(dòng)化測(cè)試環(huán)境
今天給大家?guī)?lái)的是關(guān)于Python的相關(guān)知識(shí),文章圍繞著如何用Python+selenium搭建自動(dòng)化測(cè)試環(huán)境展開(kāi),文中有非常詳細(xì)的介紹,需要的朋友可以參考下
2021-06-06
Python正則抓取網(wǎng)易新聞的方法示例
這篇文章主要介紹了Python正則抓取網(wǎng)易新聞的方法,結(jié)合實(shí)例形式較為詳細(xì)的分析了Python使用正則進(jìn)行網(wǎng)易新聞抓取操作的相關(guān)實(shí)現(xiàn)技巧與注意事項(xiàng),需要的朋友可以參考下
2017-04-04
Python實(shí)現(xiàn)網(wǎng)站文件的全備份和差異備份
這篇文章主要介紹了Python實(shí)現(xiàn)網(wǎng)站文件的全備份和差異備份,需要的朋友可以參考下
2014-11-11
Python保存圖片的3種情況代碼實(shí)例
這篇文章主要給大家介紹了關(guān)于Python保存圖片的3種情況,在Python中我們可以使用多種方法來(lái)保存圖片,包括使用Python內(nèi)置的庫(kù)和第三方庫(kù),需要的朋友可以參考下
2023-10-10
es+flask搜索小項(xiàng)目實(shí)現(xiàn)分頁(yè)+高亮的示例代碼
本文主要介紹了es+flask搜索小項(xiàng)目實(shí)現(xiàn)分頁(yè)+高亮的示例代碼，文中通過(guò)示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2022-01-01
五個(gè)Python迷你版小程序附代碼
在使用Python的過(guò)程中，我最喜歡的就是Python的各種第三方庫(kù)，能夠完成很多操作。下面就給大家介紹5個(gè)通過(guò) Python 構(gòu)建的實(shí)戰(zhàn)項(xiàng)目，來(lái)實(shí)踐 Python 編程能力。歡迎收藏學(xué)習(xí)，喜歡點(diǎn)贊支持
2021-11-11
Python中NumPy的矩陣與通用函數(shù)
這篇文章主要介紹了Python中NumPy的矩陣與通用函數(shù),Numpy是python的一種開(kāi)源的數(shù)值計(jì)算擴(kuò)展。這種工具可用來(lái)存儲(chǔ)和處理大型矩陣，比Python自身的嵌套列表結(jié)構(gòu)要高效的多支持大量的維度數(shù)組與矩陣運(yùn)算,需要的朋友可以參考下
2023-07-07
python爬取酷狗音樂(lè)排行榜
這篇文章主要為大家詳細(xì)介紹了python爬取酷狗音樂(lè)排行榜，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2019-02-02
Python基礎(chǔ)教程之pytest參數(shù)化詳解
參數(shù)化就是把測(cè)試過(guò)程中的數(shù)據(jù)提取出來(lái),通過(guò)參數(shù)傳遞不同的數(shù)據(jù)來(lái)驅(qū)動(dòng)用例運(yùn)行,這篇文章主要給大家介紹了關(guān)于Python基礎(chǔ)教程之pytest參數(shù)化的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
2022-01-01
解決pyCharm中 module 調(diào)用失敗的問(wèn)題
今天小編就為大家分享一篇解決pyCharm中 module 調(diào)用失敗的問(wèn)題，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2020-02-02