快捷導(dǎo)航

python使用正則表達(dá)式匹配反斜杠\遇到的問題

更新時(shí)間：2022年09月02日 14:26:32 作者：weixin_42576837

在學(xué)習(xí)Python正則式的過程中,有一個(gè)問題一直困擾我,如何去匹配一個(gè)反斜杠（即“\”）,下面這篇文章主要給大家介紹了關(guān)于python使用正則表達(dá)式匹配反斜杠\的相關(guān)資料,需要的朋友可以參考下

遇到的問題：

在做爬蟲的時(shí)候，爬取的url鏈接內(nèi)還有轉(zhuǎn)義字符，反斜杠 \，打算用正則的re.sub()替換掉的時(shí)候遇到了問題，這是要做替換的字符串

最開始直接寫

re.sub("\\","",item)

編譯器漏紅了

然后就是找解決辦法，最后發(fā)現(xiàn)要用四個(gè)反斜杠才可以，也就是使用

re.sub("\\\\","",item)

查了查資料，簡單說說我自己的理解。

正則表達(dá)式

首先就是正則表達(dá)式，對于正則表達(dá)式來說，他的語法是獨(dú)立的，有自己的語法，在正則表達(dá)式中，由于反斜杠 \ 是一個(gè)特殊字符，可以和其他字母形成轉(zhuǎn)義字符，所以要想表示一個(gè)反斜杠 \ 就必須寫成 \\ 這種形式。所以對于正則表達(dá)式來說，如果要匹配一個(gè)\ 就要寫成\\，像這樣：

$匹配反斜杠\$

python字符串

在python中，如果想要輸出一個(gè)反斜杠\字符，同樣要使用轉(zhuǎn)義：

>>> print("\\")
\

同樣是因?yàn)樵趐ython中反斜杠也是一個(gè)特殊字符。

綜上

當(dāng)寫成

    item = "https:\/\/jobs.51job.com/guangzhou-thq\/137115906.html?s=sou_sou_soulb&t=0_0"
    item = re.sub("\\\\","",item)

首先傳入的一個(gè)參數(shù)是一個(gè)字符串，所以python中的字符串解析器會(huì)把"\\\\"解析成
\\，解析之后會(huì)再傳遞給正則表達(dá)式的解析器。由于正則表達(dá)式也有自己的語法結(jié)構(gòu)，所以當(dāng)它看到\\時(shí)，會(huì)把它解析為一個(gè)\，所以這時(shí)候正則匹配就會(huì)只匹配一個(gè)\。

貼一個(gè)Stackoverflow上的回答:

If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:

regex("\\\\") is interpreted as…

regex("\\" [escaped backslash] followed by "\\" [escaped backslash])
is interpreted as…

regex(\\) is interpreted as a regex that matches a single backslash.

原文地址：Can’t escape the backslash with regex?

當(dāng)然還可以使用 raw string來寫，也就是寫成

re.sub(r'\\','',item)

由于使用了r'\\'，python的字符串解析器看到r'\\'之后，就直接將外層的r''去掉然后傳遞給re解析器，re解析器會(huì)再次解析\\為\，匹配內(nèi)容是一個(gè)反斜杠\

字符串方法replace()

除了使用正則替換之外，還可以使用字符串的replace()

str.replace(old, new[, max])
old – 將被替換的子字符串。
new – 新字符串，用于替換old子字符串。
max – 可選字符串, 替換不超過 max 次

>>> item
'https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0'
>>> item.replace('\\','')
'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0'
>>>

需要注意的是不論是正則的re.sub()還是str.replace()，使用之后都不會(huì)對原始字符串改變：

import re

urL ='https:\/\/jobs.51job.com\/guangzhou-thq\/137735415.html?s=sou_sou_soulb&t=0_0'
print(urL.replace('\\',''))
print(urL)

print(re.sub(r'\\','',urL))
print(urL)

結(jié)果