python使用正则表达式匹配反斜杠\\遇到的问题-偶像资源网

遇到的问题：

在做爬虫的时候，爬取的url链接内还有转义字符，反斜杠 \\，打算用正则的re.sub()替换掉的时候遇到了问题，这是要做替换的字符串

$python使用正则表达式匹配反斜杠\\遇到的问题$

最开始直接写

re.sub(\"\\\\\",\"\",item)

编译器漏红了

$python使用正则表达式匹配反斜杠\\遇到的问题$

然后就是找解决办法，最后发现要用四个反斜杠才可以，也就是使用

re.sub(\"\\\\\\\\\",\"\",item)

查了查资料，简单说说我自己的理解。

正则表达式

首先就是正则表达式，对于正则表达式来说，他的语法是独立的，有自己的语法，在正则表达式中，由于反斜杠 \\ 是一个特殊字符，可以和其他字母形成转义字符，所以要想表示一个反斜杠 \\ 就必须写成 \\\\ 这种形式。所以对于正则表达式来说，如果要匹配一个\\ 就要写成\\\\，像这样：

$python使用正则表达式匹配反斜杠\\遇到的问题$

python字符串

在python中，如果想要输出一个反斜杠\\字符，同样要使用转义：

>>> print(\"\\\\\")
\\

同样是因为在python中反斜杠也是一个特殊字符。

综上

当写成

    item = \"https:\\/\\/jobs.51job.com/guangzhou-thq\\/137115906.html?s=sou_sou_soulb&t=0_0\"
    item = re.sub(\"\\\\\\\\\",\"\",item)

首先传入的一个参数是一个字符串，所以python中的字符串解析器会把"\\\\\\\\"解析成
\\\\，解析之后会再传递给正则表达式的解析器。由于正则表达式也有自己的语法结构，所以当它看到\\\\时，会把它解析为一个\\，所以这时候正则匹配就会只匹配一个\\。

贴一个Stackoverflow上的回答:

If you’re putting this in a string within a program, you may actually
need to use four backslashes (because the string parser will remove
two of them when “de-escaping” it for the string, and then the regex
needs two for an escaped regex backslash).
For instance:

regex("\\\\\\\\") is interpreted as…

regex("\\\\" [escaped backslash] followed by "\\\\" [escaped backslash])
is interpreted as…

regex(\\\\) is interpreted as a regex that matches a single backslash.

原文地址：Can’t escape the backslash with regex?

当然还可以使用 raw string来写，也就是写成

re.sub(r\'\\\\\',\'\',item)

由于使用了r'\\\\'，python的字符串解析器看到r'\\\\'之后，就直接将外层的r''去掉然后传递给re解析器，re解析器会再次解析\\\\为\\，匹配内容是一个反斜杠\\

字符串方法replace()

除了使用正则替换之外，还可以使用字符串的replace()

str.replace(old, new[, max])
old – 将被替换的子字符串。
new – 新字符串，用于替换old子字符串。
max – 可选字符串, 替换不超过 max 次

>>> item
\'https:\\\\/\\\\/jobs.51job.com/guangzhou-thq\\\\/137115906.html?s=sou_sou_soulb&t=0_0\'
>>> item.replace(\'\\\\\',\'\')
\'https://jobs.51job.com/guangzhou-thq/137115906.html?s=sou_sou_soulb&t=0_0\'
>>>

需要注意的是不论是正则的re.sub()还是str.replace()，使用之后都不会对原始字符串改变：

import re

urL =\'https:\\/\\/jobs.51job.com\\/guangzhou-thq\\/137735415.html?s=sou_sou_soulb&t=0_0\'
print(urL.replace(\'\\\\\',\'\'))
print(urL)

print(re.sub(r\'\\\\\',\'\',urL))
print(urL)

$python使用正则表达式匹配反斜杠\\遇到的问题$

总结

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END