pandas DataFrame 刪除重復(fù)的行的實(shí)現(xiàn)方法
1. 建立一個(gè)DataFrame
C=pd.DataFrame({'a':['dog']*3+['fish']*3+['dog'],'b':[10,10,12,12,14,14,10]})
2. 判斷是否有重復(fù)項(xiàng)
用duplicated( )函數(shù)判斷
C.duplicated()
3. 有重復(fù)項(xiàng),則可以用drop_duplicates()移除重復(fù)項(xiàng)
C.drop_duplicates()
4. Duplicated( )和drop_duplicates( )方法是以默認(rèn)的方式判斷全部的列(上面的例子中是看兩個(gè)變量a和b是否都是重復(fù)出現(xiàn))。
我們也可以對(duì)特定的列進(jìn)行重復(fù)項(xiàng)判斷。
C.duplicated(['a']) C.drop_duplicates(['a']) C.duplicated(['b']) C.drop_duplicates(['b'])
5. norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#上面的命令去掉UNIT_ID和KPI_ID列中重復(fù)的行,并保留重復(fù)出現(xiàn)的行中第一次出現(xiàn)的行
補(bǔ)充:
- 當(dāng)keep=False時(shí),就是去掉所有的重復(fù)行
- 當(dāng)keep=‘first'時(shí),就是保留第一次出現(xiàn)的重復(fù)行
- 當(dāng)keep='last'時(shí)就是保留最后一次出現(xiàn)的重復(fù)行。
(注意,這里的參數(shù)是字符串,要加引號(hào)?。。。?/p>
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python檢測(cè)遠(yuǎn)程服務(wù)器tcp端口的方法
這篇文章主要介紹了python檢測(cè)遠(yuǎn)程服務(wù)器tcp端口的方法,涉及Python操作socket檢測(cè)tcp端口的技巧,需要的朋友可以參考下2015-03-03Python編程入門之Hello World的三種實(shí)現(xiàn)方式
這篇文章主要介紹了Python編程入門之Hello World的三種實(shí)現(xiàn)方式,實(shí)例分析了print輸出函數(shù)的使用及控制臺(tái)輸出的相關(guān)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-11-11python中py文件與pyc文件相互轉(zhuǎn)換的方法實(shí)例
pyc是一種二進(jìn)制文件,是由py文件經(jīng)過(guò)編譯后,生成的文件,下面這篇文章主要給大家介紹了關(guān)于python中py文件與pyc文件相互轉(zhuǎn)換的相關(guān)資料,需要的朋友可以參考下2022-05-05Python3利用Qt5實(shí)現(xiàn)簡(jiǎn)易的五子棋游戲
這篇文章主要為大家詳細(xì)介紹了Python3利用Qt5實(shí)現(xiàn)簡(jiǎn)易的五子棋游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-05-05學(xué)會(huì)迭代器設(shè)計(jì)模式,幫你大幅提升python性能
這篇文章主要介紹了python 迭代器設(shè)計(jì)模式的相關(guān)資料,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-01-01python中for循環(huán)把字符串或者字典添加到列表的方法
今天小編就為大家分享一篇python中for循環(huán)把字符串或者字典添加到列表的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07Scrapy爬蟲(chóng)多線程導(dǎo)致抓取錯(cuò)亂的問(wèn)題解決
本文針對(duì)Scrapy爬蟲(chóng)多線程導(dǎo)致抓取錯(cuò)亂的問(wèn)題進(jìn)行了深入分析,并提出了相應(yīng)的解決方案,具有一定的參考價(jià)值,感興趣的可以了解一下2023-11-11