pandas中對(duì)文本類型數(shù)據(jù)的處理小結(jié)
下面看下pandas中字符串類處理函數(shù)吧,內(nèi)容如下所示:
1.英文字母大小寫轉(zhuǎn)換及填充
s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe'])
- 大寫轉(zhuǎn)小寫: s.str.lower()
- 小寫轉(zhuǎn)大寫:s.str.upper()
- 轉(zhuǎn)為新聞標(biāo)題形式:s.str.title()
- 首字母大寫,其余小寫:s.str.capitalize()
- 將原來的大寫和小寫,分別轉(zhuǎn)為小寫和大寫,即大小寫互換:s.str.swapcase()
- 將文字內(nèi)容用某種字符填充到固定長(zhǎng)度,會(huì)從兩邊進(jìn)行填充:s.str.center(4,'*')
- 將文字內(nèi)容用某種字符填充到固定長(zhǎng)度,可以設(shè)置填充方向(默認(rèn)為left,可以設(shè)置為left,right,both):s.str.pad(width=10, side=‘right', fillchar='-')
- 將文字內(nèi)容用某種字符填充到固定長(zhǎng)度,會(huì)從文字的右方進(jìn)行填充,即原來的字符串在左邊:s.str.ljust(4,'-')
- 將文字內(nèi)容用某種字符填充到固定長(zhǎng)度,會(huì)從文字的左方進(jìn)行填充,即原來的字符串在右邊:s.str.rjust(4,'-')
- 將文字內(nèi)容用某種字符按照指定的方向(left,right,both)填充到固定長(zhǎng)度: s.str.pad(3,side=‘left',fillchar='*')
- 在字符串前添加0到指定長(zhǎng)度:
- s = pd.Series(['-1', ‘1', ‘1000', 10, np.nan])
- s.str.zfill(3)
2.字符串合并與拆分
2.1 多列字符串合并
注意:多列字符串在合并時(shí),推薦使用cat函數(shù),該函數(shù)是按照索引進(jìn)行合并的。
s=pd.DataFrame({'col1':['a', 'b', np.nan, 'd'],'col2':['A', 'B', 'C', 'D']}) # 1.有一個(gè)缺失值的行不進(jìn)行合并 s['col1'].str.cat([s['col2']]) # 2.用固定字符(*)替換缺失值,并進(jìn)行合并 s['col1'].str.cat([s['col2']],na_rep='*') # 3.用固定字符(*)替換缺失值,并用分隔符(,)進(jìn)行合并 s['col1'].str.cat([s['col2']],na_rep='*',sep=',') # 4.索引不一致的合并 #創(chuàng)建series s = pd.Series(['a', 'b', np.nan, 'd']) t = pd.Series(['d', 'a', 'e', 'c'], index=[3, 0, 4, 2]) #合并 s.str.cat(t, join='left', na_rep='-') s.str.cat(t, join='right', na_rep='-') s.str.cat(t, join='outer', na_rep='-') s.str.cat(t, join='inner', na_rep='-')
2.2 一列 列表形式的文本合并為一列
s = pd.Series([['lion', 'elephant', 'zebra'], [1.1, 2.2, 3.3], [ 'cat', np.nan, 'dog'], ['cow', 4.5, 'goat'], ['duck', ['swan', 'fish'], 'guppy']]) #以下劃線進(jìn)行拼接 s.str.join('_')
使用前:
使用后:
2.3 一列字符串與自身合并成為一列
s = pd.Series(['a', 'b', 'c']) #指定數(shù)字 s.str.repeat(repeats=2) #指定列表 s.str.repeat(repeats=[1, 2, 3])
使用該函數(shù)后,效果圖分別如下:
2.4 一列字符串拆分為多列
2.4.1 partition函數(shù)
partition函數(shù),會(huì)將某列字符串拆分為3列,其中2列為值,1列為分隔符。
有兩個(gè)參數(shù)進(jìn)行設(shè)置,分別為:sep(分隔符,默認(rèn)為空格),expand(是否生成dataframe,默認(rèn)為True)
s = pd.Series(['Linda van der Berg', 'George Pitt-Rivers']) #默認(rèn)寫法,以空格分割,會(huì)以第一個(gè)分隔符進(jìn)行拆分 s.str.partition() #另一寫法,會(huì)以最后一個(gè)分隔符進(jìn)行拆分 s.str.rpartition() #以固定符號(hào)作為分隔符 s.str.partition('-', expand=False) #拆分索引 idx = pd.Index(['X 123', 'Y 999']) idx.str.partition()
2.4.2 split函數(shù)
split函數(shù)會(huì)按照分隔符拆分為多個(gè)值。
參數(shù):
pat(分隔符,默認(rèn)為空格);
n(限制分隔的輸出,即查找?guī)讉€(gè)分隔符,默認(rèn)-1,表示全部);
expend(是否生成dataframe,默認(rèn)為False)。
s = pd.Series(["this is a regular sentence","https://docs.python.org/3/tutorial/index.html",np.nan]) #1.默認(rèn)按照空格進(jìn)行拆分 s.str.split() #2.按照空格進(jìn)行拆分,并限制2個(gè)分隔符的輸出 s.str.split(n=2) #3.以指定符號(hào)拆分,并生成新的dataframe s.str.split(pat = "/",expend=True) #4.使用正則表達(dá)式來進(jìn)行拆分,并生成新的dataframe s = pd.Series(["1+1=2"]) s.str.split(r"\+|=", expand=True)
2.4.3 rsplit函數(shù)
如果不設(shè)置n的值,rsplit和split效果是相同的。區(qū)別是,split是從開始進(jìn)行限制,rsplit是從末尾進(jìn)行限制。
s = pd.Series(["this is a regular sentence","https://docs.python.org/3/tutorial/index.html",np.nan]) #區(qū)別于split s.str.rsplit(n=2)
3.字符串統(tǒng)計(jì)
3.1 統(tǒng)計(jì)某列字符串中包含某個(gè)字符串的個(gè)數(shù)
s = pd.Series(['dog', '', 5,{'foo' : 'bar'},[2, 3, 5, 7],('one', 'two', 'three')]) s.str.len()
3.2 統(tǒng)計(jì)字符串長(zhǎng)度
s = pd.Series(['dog', '', 5,{'foo' : 'bar'},[2, 3, 5, 7],('one', 'two', 'three')]) s.str.len()
效果圖如下:
4.字符串內(nèi)容查找(包含正則)
4.1 extract
可通過正則表達(dá)式來提取指定內(nèi)容,小括號(hào)內(nèi)的會(huì)生成一列
s = pd.Series(['a1', 'b2', 'c3']) #按照小括號(hào)內(nèi)的進(jìn)行提取,生成兩列 s.str.extract(r'([ab])(\d)') #加上問號(hào)后,如果有一個(gè)匹配不上,還可以繼續(xù)匹配 s.str.extract(r'([ab])?(\d)') #可以對(duì)生成的新列進(jìn)行重命名 s.str.extract(r'(?P<letter>[ab])(?P<digit>\d)') #生成1列 s.str.extract(r'[ab](\d)', expand=True)
4.2 extractall
區(qū)別于extract,該函數(shù)可以提取所有符合條件的元素
s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"]) #提取所有符合條件的數(shù)字,結(jié)果為多重索引1列 s.str.extractall(r"[ab](\d)") #提取符合條件的數(shù)字,并重命名,結(jié)果為多重索引1列 s.str.extractall(r"[ab](?P<digit>\d)") #提取符合條件的a、b和數(shù)字,結(jié)果為多重索引多列 s.str.extractall(r"(?P<letter>[ab])(?P<digit>\d)") #提取符合條件的a、b和數(shù)字,添加問號(hào)后,一個(gè)匹配不上可以繼續(xù)向后匹配,結(jié)果為多重索引多列 s.str.extractall(r"(?P<letter>[ab])?(?P<digit>\d)")
4.3 find
查詢固定字符串在目標(biāo)字符串中的最小索引。
若需要查詢的字符串未出現(xiàn)在目標(biāo)字符串中,則顯示為-1
s = pd.Series(['appoint', 'price', 'sleep','amount']) s.str.find('p')
顯示結(jié)果如下:
4.4 rfind
查詢固定字符串在目標(biāo)字符串中的最大索引。
若需要查詢的字符串未出現(xiàn)在目標(biāo)字符串中,則顯示為-1。
s = pd.Series(['appoint', 'price', 'sleep','amount']) s.str.rfind('p',start=1)
查詢結(jié)果如下:
4.5 findall
查找系列/索引中所有出現(xiàn)的模式或正則表達(dá)式
s = pd.Series(['appoint', 'price', 'sleep','amount']) s.str.findall(r'[ac]')
顯示結(jié)果如下:
4.6 get
從列表、元組或字符串中的每個(gè)元素中提取元素的系列/索引。
s = pd.Series(["String", (1, 2, 3), ["a", "b", "c"], 123, -456, {1: "Hello", "2": "World"}]) s.str.get(1)
效果如下圖:
4.7 match
確定每個(gè)字符串是否與參數(shù)中的正則表達(dá)式匹配。
s = pd.Series(['appoint', 'price', 'sleep','amount']) s.str.match('^[ap].*t')
匹配效果圖如下:
5.字符串邏輯判斷
5.1 contains函數(shù)
測(cè)試模式或正則表達(dá)式是否包含在系列或索引的字符串中。
參數(shù):
pat,字符串或正則表達(dá)式;
case,是否區(qū)分大小寫,默認(rèn)為True,即區(qū)分大小寫;
flags,是否傳遞到re模塊,默認(rèn)為0;
na,對(duì)缺失值的處理方法,默認(rèn)為nan;
regex,是否將pat參數(shù)當(dāng)作正則表達(dá)式來處理,默認(rèn)為True。
s = pd.Series(['APpoint', 'Price', 'cap','approve',123]) s.str.contains('ap',case=True,na=False,regex=False)
效果圖如下:
5.2 endswith函數(shù)
測(cè)試每個(gè)字符串元素的結(jié)尾是否與字符串匹配。
s = pd.Series(['APpoint', 'Price', 'cap','approve',123]) s.str.endswith('e')
匹配結(jié)果如下:
處理nan值
s = pd.Series(['APpoint', 'Price', 'cap','approve',123]) s.str.endswith('e',na=False)
效果如下:
5.3 startswith函數(shù)
測(cè)試每個(gè)字符串元素的開頭是否與字符串匹配。
s = pd.Series(['APpoint', 'Price', 'cap','approve',123]) s.str.startswith('a',na=False)
匹配如下:
5.4 isalnum函數(shù)
檢查每個(gè)字符串中的所有字符是否都是字母數(shù)字。
s1 = pd.Series(['one', 'one1', '1', '']) s1.str.isalnum()
效果如下:
5.5 isalpha函數(shù)
檢查每個(gè)字符串中的所有字符是否都是字母。
s1 = pd.Series(['one', 'one1', '1', '']) s1.str.isalpha()
效果如下:
5.6 isdecimal函數(shù)
檢查每個(gè)字符串中的所有字符是否都是十進(jìn)制的。
s1 = pd.Series(['one', 'one1', '1','']) s1.str.isdecimal()
效果如下:
5.7 isdigit函數(shù)
檢查每個(gè)字符串中的所有字符是否都是數(shù)字。
s1 = pd.Series(['one', 'one1', '1','']) s1.str.isdigit()
效果如下:
5.8 islower函數(shù)
檢查每個(gè)字符串中的所有字符是否都是小寫。
s1 = pd.Series(['one', 'one1', '1','']) s1.str.islower()
效果如下:
5.9 isnumeric函數(shù)
檢查每個(gè)字符串中的所有字符是否都是數(shù)字。
s1 = pd.Series(['one', 'one1', '1','','3.6']) s1.str.isnumeric()
效果如下:
5.10 isspace函數(shù)
檢查每個(gè)字符串中的所有字符是否都是空格。
s1 = pd.Series([' one', '\t\r\n','1', '',' ']) s1.str.isspace()
效果如下:
5.11 istitle函數(shù)
檢查每個(gè)字符串中的所有字符是否都是標(biāo)題形式的大小寫。
s1 = pd.Series(['leopard', 'Golden Eagle', 'SNAKE', '']) s1.str.istitle()
效果如下:
5.12 isupper函數(shù)
檢查每個(gè)字符串中的所有字符是否都是大寫。
s1 = pd.Series(['leopard', 'Golden Eagle', 'SNAKE', '']) s1.str.isupper()
效果如下:
5.13 get_dummies函數(shù)
按 sep 拆分系列中的每個(gè)字符串并返回一個(gè) 虛擬/指標(biāo)變量的dataframe。
s1 = pd.Series(['leopard', 'Golden Eagle', 'SNAKE', '']) s1.str.get_dummies()
效果如下:
該函數(shù)還可以進(jìn)行此類匹配,注意輸入的形式
s1=pd.Series(['a|b', np.nan, 'a|c']) s1.str.get_dummies()
效果如下:
6.其他
6.1 strip
刪除前導(dǎo)和尾隨字符。
s1 = pd.Series(['1. Ant. ', '2. Bee!\n', '3. Cat?\t', np.nan]) s1.str.strip()
效果如下:
6.2 lstrip
刪除系列/索引中的前導(dǎo)字符。
6.3 rstrip
刪除系列/索引中的尾隨字符。
到此這篇關(guān)于pandas中對(duì)于文本類型數(shù)據(jù)的處理匯總的文章就介紹到這了,更多相關(guān)pandas文本類型數(shù)據(jù)處理內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
從入門到精通:玩轉(zhuǎn)Python?Fire庫(kù)
想快速打造屬于你的Python?GUI應(yīng)用嗎?拋開復(fù)雜的代碼,用Python?Fire庫(kù)就能輕松實(shí)現(xiàn)!本指南將引領(lǐng)你從零起步,駕馭Python?Fire的強(qiáng)大功能,讓編程既簡(jiǎn)單又高效,準(zhǔn)備好了嗎?讓我們開始玩轉(zhuǎn)Python?Fire,開啟你的編程冒險(xiǎn)吧!2024-02-02Python中字符串的基礎(chǔ)介紹及常用操作總結(jié)
字符串輸出格式與輸入的樣子相同,都是用撇號(hào)包裹,撇號(hào)和其它特殊字符用用反斜杠轉(zhuǎn)義。如果字符串中有單撇號(hào)而沒有雙撇號(hào)則用雙撇號(hào)包裹,否則應(yīng)該用單撇號(hào)包裹。后面要介紹的print語(yǔ)句可以不帶撇號(hào)或轉(zhuǎn)義輸出字符串2021-09-09關(guān)于Python?Tkinter?復(fù)選框?->Checkbutton
這篇文章主要介紹了關(guān)于Python?Tkinter復(fù)選框Checkbutton,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-09-09python利用urllib實(shí)現(xiàn)爬取京東網(wǎng)站商品圖片的爬蟲實(shí)例
下面小編就為大家?guī)硪黄猵ython利用urllib實(shí)現(xiàn)爬取京東網(wǎng)站商品圖片的爬蟲實(shí)例。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-08-08Python高階函數(shù)、常用內(nèi)置函數(shù)用法實(shí)例分析
這篇文章主要介紹了Python高階函數(shù)、常用內(nèi)置函數(shù)用法,結(jié)合實(shí)例形式分析了Python高階函數(shù)與常用內(nèi)置函數(shù)相關(guān)功能、原理、使用技巧與操作注意事項(xiàng),需要的朋友可以參考下2019-12-12python 捕獲shell腳本的輸出結(jié)果實(shí)例
下面小編就為大家?guī)硪黄猵ython 捕獲shell腳本的輸出結(jié)果實(shí)例。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-01-01