pandas中對文本類型數據的處理小結

更新時間：2021年11月01日 11:49:15 作者：theskylife

這篇文章主要介紹了pandas中對于文本類型數據的處理匯總,本文通過實例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下

下面看下pandas中字符串類處理函數吧，內容如下所示：

1.英文字母大小寫轉換及填充

s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe'])

大寫轉小寫： s.str.lower()
小寫轉大寫：s.str.upper()
轉為新聞標題形式：s.str.title()
首字母大寫，其余小寫：s.str.capitalize()
將原來的大寫和小寫，分別轉為小寫和大寫，即大小寫互換：s.str.swapcase()
將文字內容用某種字符填充到固定長度，會從兩邊進行填充：s.str.center(4,'*')
將文字內容用某種字符填充到固定長度，可以設置填充方向(默認為left，可以設置為left,right,both)：s.str.pad(width=10, side=‘right', fillchar='-')
將文字內容用某種字符填充到固定長度，會從文字的右方進行填充，即原來的字符串在左邊：s.str.ljust(4,'-')
將文字內容用某種字符填充到固定長度，會從文字的左方進行填充，即原來的字符串在右邊：s.str.rjust(4,'-')
將文字內容用某種字符按照指定的方向(left,right,both)填充到固定長度: s.str.pad(3,side=‘left',fillchar='*')
在字符串前添加0到指定長度：
s = pd.Series(['-1', ‘1', ‘1000', 10, np.nan])
s.str.zfill(3)

2.字符串合并與拆分

2.1 多列字符串合并

注意：多列字符串在合并時，推薦使用cat函數，該函數是按照索引進行合并的。

s=pd.DataFrame({'col1':['a', 'b', np.nan, 'd'],'col2':['A', 'B', 'C', 'D']})
# 1.有一個缺失值的行不進行合并
s['col1'].str.cat([s['col2']])
# 2.用固定字符(*)替換缺失值，并進行合并
s['col1'].str.cat([s['col2']],na_rep='*')
# 3.用固定字符(*)替換缺失值，并用分隔符(,)進行合并
s['col1'].str.cat([s['col2']],na_rep='*',sep=',')
# 4.索引不一致的合并
#創(chuàng)建series
s = pd.Series(['a', 'b', np.nan, 'd'])
t = pd.Series(['d', 'a', 'e', 'c'], index=[3, 0, 4, 2])
#合并
s.str.cat(t, join='left', na_rep='-')
s.str.cat(t, join='right', na_rep='-')
s.str.cat(t, join='outer', na_rep='-')
s.str.cat(t, join='inner', na_rep='-')

2.2 一列列表形式的文本合并為一列

s = pd.Series([['lion', 'elephant', 'zebra'], [1.1, 2.2, 3.3], [
              'cat', np.nan, 'dog'], ['cow', 4.5, 'goat'], ['duck', ['swan', 'fish'], 'guppy']])
#以下劃線進行拼接
s.str.join('_')

使用前：

join使用前

使用后：

join使用后

2.3 一列字符串與自身合并成為一列

s = pd.Series(['a', 'b', 'c'])
#指定數字
s.str.repeat(repeats=2)
#指定列表
s.str.repeat(repeats=[1, 2, 3])

使用該函數后，效果圖分別如下：

repeat數字
repeat指定列表

2.4 一列字符串拆分為多列

2.4.1 partition函數

partition函數，會將某列字符串拆分為3列，其中2列為值，1列為分隔符。
有兩個參數進行設置，分別為：sep(分隔符，默認為空格)，expand(是否生成dataframe，默認為True)

s = pd.Series(['Linda van der Berg', 'George Pitt-Rivers'])
#默認寫法,以空格分割，會以第一個分隔符進行拆分
s.str.partition()
#另一寫法，會以最后一個分隔符進行拆分
s.str.rpartition()
#以固定符號作為分隔符
s.str.partition('-', expand=False)
#拆分索引
idx = pd.Index(['X 123', 'Y 999'])
idx.str.partition()

2.4.2 split函數

split函數會按照分隔符拆分為多個值。
參數：
pat(分隔符，默認為空格);
n(限制分隔的輸出，即查找?guī)讉€分隔符，默認-1，表示全部);
expend(是否生成dataframe，默認為False)。

s = pd.Series(["this is a regular sentence","https://docs.python.org/3/tutorial/index.html",np.nan])
#1.默認按照空格進行拆分
s.str.split()
#2.按照空格進行拆分，并限制2個分隔符的輸出
s.str.split(n=2)
#3.以指定符號拆分，并生成新的dataframe
s.str.split(pat = "/",expend=True)
#4.使用正則表達式來進行拆分，并生成新的dataframe
s = pd.Series(["1+1=2"])
s.str.split(r"\+|=", expand=True)

2.4.3 rsplit函數

如果不設置n的值，rsplit和split效果是相同的。區(qū)別是，split是從開始進行限制，rsplit是從末尾進行限制。

s = pd.Series(["this is a regular sentence","https://docs.python.org/3/tutorial/index.html",np.nan])
#區(qū)別于split
s.str.rsplit(n=2)

3.字符串統(tǒng)計

3.1 統(tǒng)計某列字符串中包含某個字符串的個數

s = pd.Series(['dog', '', 5,{'foo' : 'bar'},[2, 3, 5, 7],('one', 'two', 'three')])
s.str.len()

3.2 統(tǒng)計字符串長度

s = pd.Series(['dog', '', 5,{'foo' : 'bar'},[2, 3, 5, 7],('one', 'two', 'three')])
s.str.len()

效果圖如下：

len

4.字符串內容查找(包含正則)

4.1 extract

可通過正則表達式來提取指定內容，小括號內的會生成一列

s = pd.Series(['a1', 'b2', 'c3'])
#按照小括號內的進行提取，生成兩列
s.str.extract(r'([ab])(\d)')
#加上問號后，如果有一個匹配不上，還可以繼續(xù)匹配
s.str.extract(r'([ab])?(\d)')
#可以對生成的新列進行重命名
s.str.extract(r'(?P<letter>[ab])(?P<digit>\d)')
#生成1列
s.str.extract(r'[ab](\d)', expand=True)

4.2 extractall

區(qū)別于extract，該函數可以提取所有符合條件的元素

s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"])
#提取所有符合條件的數字,結果為多重索引1列
s.str.extractall(r"[ab](\d)")
#提取符合條件的數字，并重命名，結果為多重索引1列
s.str.extractall(r"[ab](?P<digit>\d)")
#提取符合條件的a、b和數字，結果為多重索引多列
s.str.extractall(r"(?P<letter>[ab])(?P<digit>\d)")
#提取符合條件的a、b和數字，添加問號后，一個匹配不上可以繼續(xù)向后匹配，結果為多重索引多列
s.str.extractall(r"(?P<letter>[ab])?(?P<digit>\d)")

4.3 find

查詢固定字符串在目標字符串中的最小索引。
若需要查詢的字符串未出現(xiàn)在目標字符串中，則顯示為-1

s = pd.Series(['appoint', 'price', 'sleep','amount'])
s.str.find('p')

顯示結果如下:

find

4.4 rfind

查詢固定字符串在目標字符串中的最大索引。
若需要查詢的字符串未出現(xiàn)在目標字符串中，則顯示為-1。

s = pd.Series(['appoint', 'price', 'sleep','amount'])
s.str.rfind('p',start=1)

查詢結果如下：

rfind

4.5 findall

查找系列/索引中所有出現(xiàn)的模式或正則表達式

s = pd.Series(['appoint', 'price', 'sleep','amount'])
s.str.findall(r'[ac]')

顯示結果如下：

findall

4.6 get

從列表、元組或字符串中的每個元素中提取元素的系列/索引。

s = pd.Series(["String",
               (1, 2, 3),
               ["a", "b", "c"],
               123,
               -456,
               {1: "Hello", "2": "World"}])
s.str.get(1)

效果如下圖：

get

4.7 match

確定每個字符串是否與參數中的正則表達式匹配。

s = pd.Series(['appoint', 'price', 'sleep','amount'])
s.str.match('^[ap].*t')

匹配效果圖如下：

match

5.字符串邏輯判斷

5.1 contains函數

測試模式或正則表達式是否包含在系列或索引的字符串中。
參數：
pat，字符串或正則表達式；
case，是否區(qū)分大小寫，默認為True,即區(qū)分大小寫；
flags，是否傳遞到re模塊，默認為0;
na，對缺失值的處理方法，默認為nan;
regex，是否將pat參數當作正則表達式來處理，默認為True。

s = pd.Series(['APpoint', 'Price', 'cap','approve',123])
s.str.contains('ap',case=True,na=False,regex=False)

效果圖如下：

contains

5.2 endswith函數

測試每個字符串元素的結尾是否與字符串匹配。

s = pd.Series(['APpoint', 'Price', 'cap','approve',123])
s.str.endswith('e')

匹配結果如下：

在這里插入圖片描述

處理nan值

s = pd.Series(['APpoint', 'Price', 'cap','approve',123])
s.str.endswith('e',na=False)

效果如下：

在這里插入圖片描述

5.3 startswith函數

測試每個字符串元素的開頭是否與字符串匹配。

s = pd.Series(['APpoint', 'Price', 'cap','approve',123])
s.str.startswith('a',na=False)

匹配如下:

在這里插入圖片描述

5.4 isalnum函數

檢查每個字符串中的所有字符是否都是字母數字。

s1 = pd.Series(['one', 'one1', '1', ''])
s1.str.isalnum()

效果如下：

在這里插入圖片描述

5.5 isalpha函數

檢查每個字符串中的所有字符是否都是字母。

s1 = pd.Series(['one', 'one1', '1', ''])
s1.str.isalpha()

效果如下：

在這里插入圖片描述

5.6 isdecimal函數

檢查每個字符串中的所有字符是否都是十進制的。

s1 = pd.Series(['one', 'one1', '1',''])
s1.str.isdecimal()

效果如下：

在這里插入圖片描述

5.7 isdigit函數

檢查每個字符串中的所有字符是否都是數字。

s1 = pd.Series(['one', 'one1', '1',''])
s1.str.isdigit()

效果如下：

在這里插入圖片描述

5.8 islower函數

檢查每個字符串中的所有字符是否都是小寫。

s1 = pd.Series(['one', 'one1', '1',''])
s1.str.islower()

效果如下：

在這里插入圖片描述

5.9 isnumeric函數

檢查每個字符串中的所有字符是否都是數字。

s1 = pd.Series(['one', 'one1', '1','','3.6'])
s1.str.isnumeric()

效果如下：

在這里插入圖片描述

5.10 isspace函數

檢查每個字符串中的所有字符是否都是空格。

s1 = pd.Series([' one', '\t\r\n','1', '',' '])
s1.str.isspace()

效果如下：

![isspace](https://img-blog.csdnimg.cn/ae2370a417bc4bddabbe9731e1637da3.png

5.11 istitle函數

檢查每個字符串中的所有字符是否都是標題形式的大小寫。

s1 = pd.Series(['leopard', 'Golden Eagle', 'SNAKE', ''])
s1.str.istitle()

效果如下：

在這里插入圖片描述

5.12 isupper函數

檢查每個字符串中的所有字符是否都是大寫。

s1 = pd.Series(['leopard', 'Golden Eagle', 'SNAKE', ''])
s1.str.isupper()

效果如下：

在這里插入圖片描述

5.13 get_dummies函數

按 sep 拆分系列中的每個字符串并返回一個虛擬/指標變量的dataframe。

s1 = pd.Series(['leopard', 'Golden Eagle', 'SNAKE', ''])
s1.str.get_dummies()

效果如下：

在這里插入圖片描述

該函數還可以進行此類匹配，注意輸入的形式

s1=pd.Series(['a|b', np.nan, 'a|c'])
s1.str.get_dummies()

效果如下：

在這里插入圖片描述

6.其他

6.1 strip

刪除前導和尾隨字符。

s1 = pd.Series(['1. Ant.  ', '2. Bee!\n', '3. Cat?\t', np.nan])
s1.str.strip()

效果如下：

在這里插入圖片描述

6.2 lstrip

刪除系列/索引中的前導字符。

6.3 rstrip

刪除系列/索引中的尾隨字符。

到此這篇關于pandas中對于文本類型數據的處理匯總的文章就介紹到這了,更多相關pandas文本類型數據處理內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

從入門到精通：玩轉Python?Fire庫
想快速打造屬于你的Python?GUI應用嗎？拋開復雜的代碼,用Python?Fire庫就能輕松實現(xiàn)！本指南將引領你從零起步,駕馭Python?Fire的強大功能,讓編程既簡單又高效,準備好了嗎？讓我們開始玩轉Python?Fire,開啟你的編程冒險吧！
2024-02-02
用vue.js組件模擬v-model指令實例方法
在本篇文章里小編給各位整理的是關于用vue.js組件模擬v-model指令實例方法和相關代碼，需要的朋友們可以跟著學習下。
2019-07-07
Python中字符串的基礎介紹及常用操作總結
字符串輸出格式與輸入的樣子相同，都是用撇號包裹，撇號和其它特殊字符用用反斜杠轉義。如果字符串中有單撇號而沒有雙撇號則用雙撇號包裹，否則應該用單撇號包裹。后面要介紹的print語句可以不帶撇號或轉義輸出字符串
2021-09-09
關于Python?Tkinter?復選框?-＞Checkbutton
這篇文章主要介紹了關于Python?Tkinter復選框Checkbutton，文章圍繞主題展開詳細的內容介紹，具有一定的參考價值，需要的小伙伴可以參考一下
2022-09-09
python利用urllib實現(xiàn)爬取京東網站商品圖片的爬蟲實例
下面小編就為大家?guī)硪黄猵ython利用urllib實現(xiàn)爬取京東網站商品圖片的爬蟲實例。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-08-08
Python高階函數、常用內置函數用法實例分析
這篇文章主要介紹了Python高階函數、常用內置函數用法,結合實例形式分析了Python高階函數與常用內置函數相關功能、原理、使用技巧與操作注意事項,需要的朋友可以參考下
2019-12-12
收藏整理的一些Python常用方法和技巧
這篇文章主要介紹了收藏的一些Python常用方法和技巧,本文講解了逆轉字符串的三種方法、遍歷字典的四種方法、遍歷list的三種方法、字典排序的方法等Python常用技巧和方法,需要的朋友可以參考下
2015-05-05
詳解Python中expandtabs()方法的使用
這篇文章主要介紹了詳解Python中expandtabs()方法的使用,是Python入門中的基礎知識,需要的朋友可以參考下
2015-05-05
python 捕獲shell腳本的輸出結果實例
下面小編就為大家?guī)硪黄猵ython 捕獲shell腳本的輸出結果實例。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-01-01
Python爬取某平臺短視頻的方法
這篇文章主要介紹了Python爬取某平臺短視頻的方法,本文給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2021-02-02

pandas中對文本類型數據的處理小結

目錄

1.英文字母大小寫轉換及填充

2.字符串合并與拆分

2.1 多列字符串合并

2.2 一列 列表形式的文本合并為一列

2.3 一列字符串與自身合并成為一列

2.4 一列字符串拆分為多列

2.4.1 partition函數

2.4.2 split函數

2.4.3 rsplit函數

3.字符串統(tǒng)計

3.1 統(tǒng)計某列字符串中包含某個字符串的個數

3.2 統(tǒng)計字符串長度

4.字符串內容查找(包含正則)

4.1 extract

4.2 extractall

4.3 find

4.4 rfind

4.5 findall

4.6 get

4.7 match

5.字符串邏輯判斷

5.1 contains函數

5.2 endswith函數

5.3 startswith函數

5.4 isalnum函數

5.5 isalpha函數

5.6 isdecimal函數

5.7 isdigit函數

5.8 islower函數

5.9 isnumeric函數

5.10 isspace函數

5.11 istitle函數

5.12 isupper函數

5.13 get_dummies函數

6.其他

6.1 strip

6.2 lstrip

6.3 rstrip

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

2.2 一列列表形式的文本合并為一列