DataFrame數(shù)據(jù)框模糊查詢與去重方式
1.數(shù)據(jù)框模糊查詢
數(shù)據(jù)框查詢使用contains函數(shù)+正則表達(dá)式來(lái)實(shí)現(xiàn)。
語(yǔ)法格式如下:
data[data.列名.str.contains()]
1.1查詢以某某開(kāi)頭的數(shù)據(jù)
data[data.列名.str.contains('^某某')]1.2查詢包含某某的數(shù)據(jù)
data[data.列名.str.contains('某某')]1.3查詢以某某結(jié)尾的數(shù)據(jù)
data[data.列名.str.contains('某某$')]上述DataFrame模糊查詢是針對(duì)某列數(shù)據(jù)元素格式全為str格式,方可使用該方法!
若遇到下面這樣的報(bào)錯(cuò):
ValueError: Cannot mask with non-boolean array containing NA / NaN values
可能某列數(shù)據(jù)元素格式不全是str格式,可能存在int格式等等,因此把某列的數(shù)據(jù)格式統(tǒng)一成str格式就可以了!
解決方法如下:
data['列名']=data['列名'].apply(str)#把非字符串格式改為字符串格式
1.4多條件查詢
data[data.source.str.contains('某某|某某1')]1.5對(duì)條件查詢結(jié)果進(jìn)行刪除
data[-data.source.str.contains('某某|某某1')]2.數(shù)據(jù)框去重
數(shù)據(jù)框去重使用drop_duplicates函數(shù)可以按某列去重,也可以按多列去重。
語(yǔ)法格式如下:
DataFrame.drop_duplicates(subset=None,keep='first',inplace=False)
參數(shù)解析:
DataFrame:待去重的數(shù)據(jù)框。subset:用來(lái)指定特定的列。根據(jù)指定的列對(duì)數(shù)據(jù)框去重。默認(rèn)值為None,即DataFrame中一行元素全部相同時(shí)才去除。keep:對(duì)重復(fù)值的處理方式??蛇x參數(shù)有first,last,False。默認(rèn)值first,即保留重復(fù)數(shù)據(jù)第一條。若選last為保留重復(fù)數(shù)據(jù)的最后一條,若選False則刪除全部重復(fù)數(shù)據(jù)。inplace:是否在原數(shù)據(jù)集上操作。默認(rèn)值False,返回新數(shù)據(jù)框(原數(shù)據(jù)框不改變)。值為T(mén)rue時(shí)直接在原數(shù)據(jù)視圖上刪重,沒(méi)有返回值。
2.1按某列去重
data.drop_duplicates(subset='列名',keep='first',inplace=False)
2.2按多列去重
data.drop_duplicates(subset=['列名','列名1'],keep='first',inplace=False)
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python中對(duì)二維列表中一維列表的調(diào)用方法
在本文里小編給大家整理的是關(guān)于python中對(duì)二維列表中一維列表的調(diào)用方法,正在學(xué)習(xí)的朋友們可以參考下。2020-06-06
詳解pandas數(shù)據(jù)合并與重塑(pd.concat篇)
這篇文章主要介紹了詳解pandas數(shù)據(jù)合并與重塑(pd.concat篇),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07
從零學(xué)python系列之?dāng)?shù)據(jù)處理編程實(shí)例(一)
本文目的:用一個(gè)實(shí)例總結(jié)學(xué)習(xí)到的with語(yǔ)句,函數(shù),列表推導(dǎo),集合,排序,字符分割等內(nèi)容2014-05-05
python安裝virtualenv虛擬環(huán)境步驟圖文詳解
這篇文章主要介紹了python安裝virtualenv虛擬環(huán)境步驟,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-09-09
python groupby 函數(shù) as_index詳解
今天小編就為大家分享一篇python groupby 函數(shù) as_index詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-12-12
Python實(shí)現(xiàn)網(wǎng)絡(luò)端口轉(zhuǎn)發(fā)和重定向的方法
這篇文章主要介紹了Python實(shí)現(xiàn)網(wǎng)絡(luò)端口轉(zhuǎn)發(fā)和重定向的方法,結(jié)合實(shí)例形式分析了Python基于threading和socket模塊實(shí)現(xiàn)端口轉(zhuǎn)發(fā)與重定向的具體操作技巧,需要的朋友可以參考下2016-09-09
關(guān)于pip安裝opencv-python遇到的問(wèn)題
這篇文章主要介紹了關(guān)于pip安裝opencv-python遇到的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02
Python之多線程爬蟲(chóng)抓取網(wǎng)頁(yè)圖片的示例代碼
本篇文章主要介紹了Python之多線程爬蟲(chóng)抓取網(wǎng)頁(yè)圖片的示例代碼,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-01-01

