python使用正則表達(dá)式匹配反斜杠\遇到的問(wèn)題
遇到的問(wèn)題:
在做爬蟲(chóng)的時(shí)候,爬取的url鏈接內(nèi)還有轉(zhuǎn)義字符,反斜杠 \
,打算用正則的re.sub()替換掉的時(shí)候遇到了問(wèn)題,這是要做替換的字符串
最開(kāi)始直接寫(xiě)
re.sub("\\","",item)
編譯器漏紅了
然后就是找解決辦法,最后發(fā)現(xiàn)要用四個(gè)反斜杠才可以,也就是使用
re.sub("\\\\","",item)
查了查資料,簡(jiǎn)單說(shuō)說(shuō)我自己的理解。
正則表達(dá)式
首先就是正則表達(dá)式,對(duì)于正則表達(dá)式來(lái)說(shuō),他的語(yǔ)法是獨(dú)立的,有自己的語(yǔ)法,在正則表達(dá)式中,由于反斜杠 \
是一個(gè)特殊字符,可以和其他字母形成轉(zhuǎn)義字符,所以要想表示一個(gè)反斜杠 \
就必須寫(xiě)成 \\
這種形式。所以對(duì)于正則表達(dá)式來(lái)說(shuō),如果要匹配一個(gè)\
就要寫(xiě)成\\
,像這樣:
python字符串
在python中,如果想要輸出一個(gè)反斜杠\
字符,同樣要使用轉(zhuǎn)義:
>>> print("\\") \
同樣是因?yàn)樵趐ython中反斜杠也是一個(gè)特殊字符。
綜上
當(dāng)寫(xiě)成
item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0" item = re.sub("\\\\","",item)
首先傳入的一個(gè)參數(shù)是一個(gè)字符串,所以python中的字符串解析器會(huì)把"\\\\"
解析成\\
,解析之后會(huì)再傳遞給正則表達(dá)式的解析器。由于正則表達(dá)式也有自己的語(yǔ)法結(jié)構(gòu),所以當(dāng)它看到\\
時(shí),會(huì)把它解析為一個(gè)\
,所以這時(shí)候正則匹配就會(huì)只匹配一個(gè)\
。
貼一個(gè)Stackoverflow上的回答:
If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:
regex("\\\\")
is interpreted as…
regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…
regex(\\)
is interpreted as a regex that matches a single backslash.
原文地址:Can’t escape the backslash with regex?
當(dāng)然還可以使用 raw string來(lái)寫(xiě),也就是寫(xiě)成
re.sub(r'\\','',item)
由于使用了r'\\'
,python的字符串解析器看到r'\\'
之后,就直接將外層的r''
去掉然后傳遞給re解析器,re解析器會(huì)再次解析\\
為\
,匹配內(nèi)容是一個(gè)反斜杠\
字符串方法replace()
除了使用正則替換之外,還可以使用字符串的replace()
str.replace(old, new[, max])
old – 將被替換的子字符串。
new – 新字符串,用于替換old子字符串。
max – 可選字符串, 替換不超過(guò) max 次
>>> item 'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0' >>> item.replace('\\','') 'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0' >>>
需要注意的是不論是正則的re.sub()還是str.replace(),使用之后都不會(huì)對(duì)原始字符串改變:
import re urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0' print(urL.replace('\\','')) print(urL) print(re.sub(r'\\','',urL)) print(urL)
總結(jié)
到此這篇關(guān)于python使用正則表達(dá)式匹配反斜杠\遇到問(wèn)題的文章就介紹到這了,更多相關(guān)python正則表達(dá)式匹配反斜杠\內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python中路徑字符串斜杠替換方式
- python指定路徑斜杠與反斜杠遇到的問(wèn)題
- python中的正斜杠與反斜杠實(shí)例驗(yàn)證
- 一篇文章搞懂Python反斜杠的相關(guān)問(wèn)題
- python正則表達(dá)式 匹配反斜杠的操作方法
- python如何輸出反斜杠
- Python字符串和正則表達(dá)式中的反斜杠(''\'')問(wèn)題詳解
- Python中正反斜杠(‘/’和‘\’)的意義與用法
- python中的反斜杠問(wèn)題深入講解
- 解決Python正則表達(dá)式匹配反斜杠''''\''''問(wèn)題
- Python3.6-MySql中插入文件路徑,丟失反斜杠的解決方法
- 一文詳細(xì)介紹Python兩條斜杠 // 的作用和用法
相關(guān)文章
Python操作Excel工作簿的示例代碼(\*.xlsx)
這篇文章主要介紹了Python操作Excel工作簿的示例代碼(\*.xlsx),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-03-03詳解Python中pandas的安裝操作說(shuō)明(傻瓜版)
這篇文章主要介紹了Python中pandas的安裝操作說(shuō)明,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-04-04解決Python出現(xiàn)_warn_unsafe_extraction問(wèn)題的方法
這篇文章主要為大家詳細(xì)介紹了解決Python出現(xiàn)'_warn_unsafe_extraction'問(wèn)題的方法,感興趣的小伙伴們可以參考一下2016-03-03Python常用爬蟲(chóng)代碼總結(jié)方便查詢
今天小編就為大家分享一篇關(guān)于Python常用爬蟲(chóng)代碼總結(jié)方便查詢,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-02-02詳解Python如何循環(huán)遍歷Numpy中的Array
Numpy是Python中常見(jiàn)的數(shù)據(jù)處理庫(kù),是數(shù)據(jù)科學(xué)中經(jīng)常使用的庫(kù)。在本文中,我們將學(xué)習(xí)如何迭代遍歷訪問(wèn)矩陣中的元素,需要的可以參考一下2022-04-04Python基于PyGraphics包實(shí)現(xiàn)圖片截取功能的方法
這篇文章主要介紹了Python基于PyGraphics包實(shí)現(xiàn)圖片截取功能的方法,涉及PyGraphics包的安裝及基于PyGraphics包實(shí)現(xiàn)圖片的打開(kāi)、讀取、截取等相關(guān)操作技巧,需要的朋友可以參考下2017-12-12Pycharm中import torch報(bào)錯(cuò)的快速解決方法
這篇文章主要介紹了Pycharm中import torch報(bào)錯(cuò)的快速解決方法,很多朋友容易碰到這個(gè)問(wèn)題,今天小編特此把解決方案分享到腳本之家平臺(tái)供大家參考,需要的朋友可以參考下2020-03-03