python使用正則表達式匹配反斜杠\遇到的問題

更新時間：2022年09月02日 14:26:32 作者：weixin_42576837

在學習Python正則式的過程中,有一個問題一直困擾我,如何去匹配一個反斜杠（即“\”）,下面這篇文章主要給大家介紹了關于python使用正則表達式匹配反斜杠\的相關資料,需要的朋友可以參考下

遇到的問題：

在做爬蟲的時候，爬取的url鏈接內(nèi)還有轉義字符，反斜杠 \，打算用正則的re.sub()替換掉的時候遇到了問題，這是要做替換的字符串

最開始直接寫

re.sub("\\","",item)

編譯器漏紅了

然后就是找解決辦法，最后發(fā)現(xiàn)要用四個反斜杠才可以，也就是使用

re.sub("\\\\","",item)

查了查資料，簡單說說我自己的理解。

正則表達式

首先就是正則表達式，對于正則表達式來說，他的語法是獨立的，有自己的語法，在正則表達式中，由于反斜杠 \ 是一個特殊字符，可以和其他字母形成轉義字符，所以要想表示一個反斜杠 \ 就必須寫成 \\ 這種形式。所以對于正則表達式來說，如果要匹配一個\ 就要寫成\\，像這樣：

$匹配反斜杠\$

python字符串

在python中，如果想要輸出一個反斜杠\字符，同樣要使用轉義：

>>> print("\\")
\

同樣是因為在python中反斜杠也是一個特殊字符。

綜上

當寫成

    item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0"
    item = re.sub("\\\\","",item)

首先傳入的一個參數(shù)是一個字符串，所以python中的字符串解析器會把"\\\\"解析成
\\，解析之后會再傳遞給正則表達式的解析器。由于正則表達式也有自己的語法結構，所以當它看到\\時，會把它解析為一個\，所以這時候正則匹配就會只匹配一個\。

貼一個Stackoverflow上的回答:

If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:

regex("\\\\") is interpreted as…

regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…

regex(\\) is interpreted as a regex that matches a single backslash.

原文地址：Can’t escape the backslash with regex?

當然還可以使用 raw string來寫，也就是寫成

re.sub(r'\\','',item)

由于使用了r'\\'，python的字符串解析器看到r'\\'之后，就直接將外層的r''去掉然后傳遞給re解析器，re解析器會再次解析\\為\，匹配內(nèi)容是一個反斜杠\

字符串方法replace()

除了使用正則替換之外，還可以使用字符串的replace()

str.replace(old, new[, max])
old – 將被替換的子字符串。
new – 新字符串，用于替換old子字符串。
max – 可選字符串, 替換不超過 max 次

>>> item
'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0'
>>> item.replace('\\','')
'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0'
>>>

需要注意的是不論是正則的re.sub()還是str.replace()，使用之后都不會對原始字符串改變：

import re

urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0'
print(urL.replace('\\',''))
print(urL)

print(re.sub(r'\\','',urL))
print(urL)