一篇文章彻底搞懂python正则表达式

目录

前言1. 正则表达式的基本概念2. python的正则表达式re模块3. 正则表达式语法(1)匹配单个字符(2)匹配多个字符(3)边界匹配(4)分组匹配4. re模块相关方法使用总结

前言

有时候字符串匹配解决不了问题,这个时候就需要正则表达式来处理。因为每一次匹配(比如找以什么开头的,以什么结尾的字符串要写好多个函数)都要单独完成,我们可以给它制定一个规则。

主要应用:爬虫的时候需要爬取各种信息,使用正则表达式可以很方便的处理需要的数据。

1. 正则表达式的基本概念

    使用单个字符串来描述匹配一系列符合某个语法规则的字符串。
    是对字符串操作的一种逻辑公式。
    应用场景:处理文本和数据。
    正则表达式过程:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功,否则失败。

2. python的正则表达式re模块

import re

匹配过程:r\’imooc\’是原字符串,先生成Pattern对象,从头开始找,得到一个Match(或Search等)实例,最后有一个匹配结果。

一篇文章彻底搞懂python正则表达式

# 用find和startswith找字符串
str1 = \'imooc python\'
print(str1.find(\'11\'))
-1
print(str1.find(\'imooc\'))
0
print(str1.startswith(\'imooc\'))
True

使用正则表达式:

import re
pa = re.compile(r\'imooc\')   #  compile生成一个pattern对象,r\'imooc\'读原字符串,否则需要转义
ma = pa.match(str1)  # 匹配不到返回为None,返回一个对象
print(ma)

<re.Match object; span=(0, 5), match=\'imooc\'>

print(ma.group())  # 返回一个字符串或字符串组成的元组ma.groups()
imooc

print(ma.span())  # 返回所在字符串的位置
print(ma.string)  # 返回原字符串
print(ma.re)     # 返回实例

(0, 5)
imooc python
re.compile(\'imooc\')
# 匹配大小写,后面加上大写
pa = re.compile(r\'imooc\', re.I)
print(pa)

re.compile(\'imooc\', re.IGNORECASE)

ma = pa.match(\'imooc python\')
print(ma.group())

imooc
ma = pa.match(\'Imooc python\')
print(ma.group())

Imooc
# 如果只有一个,可以直接生成一个match对象,也可以达到同样的效果
ma = re.match(r\'imooc\', str1)
print(ma)
print(ma.group())

<re.Match object; span=(0, 5), match=\'imooc\'>
imooc

3. 正则表达式语法

基本语法:适用于多种语言。

(1)匹配单个字符

一篇文章彻底搞懂python正则表达式

1)\’.\’ 的匹配,可以匹配除了\\n外所有字符

ma = re.match(r\'a\', \'a\')
print(ma.group())

ma = re.match(r\'a\', \'b\')
print(type(ma))  # 再调ma.group()则报错

a
<class \'NoneType\'>

# 用.匹配字符
ma = re.match(r\'.\', \'b\')
print(ma.group())

ma = re.match(r\'.\', \'0\')
print(ma.group())

b
0

# 匹配{}中的字符
ma = re.match(r\'{.}\', \'{0}\')
print(ma.group())
ma = re.match(r\'{..}\', \'{01}\')
print(ma.group())

{0}
{01}

2)[…]匹配字符集

# []匹配字符集
ma = re.match(r\'{[abc]}\', \'{a}\')
print(ma.group())
ma = re.match(r\'{[abc]]}\', \'{d}\')  # 匹配不到,则报错
print(ma.group())
ma = re.match(r\'{[a-z]]}\', \'{d}\')
print(ma.group()) # 匹配a-z中任意一个字符

{a}
{d}

ma = re.match(r\'{[a-zA-Z]}\', \'{A}\')
print(ma.group())

{A}

ma = re.match(r\'{[a-zA-Z0-9]}\', \'{0}\')
print(ma.group())

{0}

3) \\w 匹配a-zA-Z0-9, \\W匹配非单词字符

ma = re.match(r\'{[\\w]}\', \'{A}\')
print(ma.group())

ma = re.match(r\'{[\\w]}\', \'{ }\')
print(ma.group())  # 匹配不到

ma = re.match(r\'{[\\W]}\', \'{ }\')
print(ma.group())

{A}
{ }

4)字符集[]匹配

ma = re.match(r\'[[\\w]]\', \'[a]\')
print(ma.group())  # 匹配不到

# 匹配[]需要加转义\\
ma = re.match(r\'\\[[\\w]\\]\', \'[a]\')
print(ma.group())
[a]

(2)匹配多个字符

一篇文章彻底搞懂python正则表达式

1) *匹配

ma = re.match(r\'[A-Z][a-z]\', \'Aa\')
print(ma.group())

ma = re.match(r\'[A-Z][a-z]\', \'A\')
print(ma.group()) # 匹配不到

ma = re.match(r\'[A-Z][a-z]*\', \'Aa\')
print(ma.group())

ma = re.match(r\'[A-Z][a-z]*\', \'Aagfagsagaha\')
print(ma.group())

ma = re.match(r\'[A-Z][a-z]*\', \'Aa123\')
print(ma.group())

Aa
A
Aagfagsagaha
Aa

2)+匹配

# 匹配下划线或字符开头的无限次
ma = re.match(r\'[_a-zA-Z]+[_\\w]*\', \'10\')
print(ma.group())   # 匹配不到
ma = re.match(r\'[_a-zA-Z]+[_\\w]*\', \'_hte10\')
print(ma.group())

_hte10

3)?匹配

# 匹配0-99,01则不对
 ma = re.match(r\'[1-9]?[0-9]\', \'90\')
print(ma.group())

ma = re.match(r\'[1-9]?[0-9]\', \'9\')
print(ma.group())

ma = re.match(r\'[1-9]?[0-9]\', \'09\')
print(ma.group())  # 只匹配到0

90
9
0

4){m} / {mn}匹配

# 匹配邮箱,匹配6次
ma = re.match(r\'[a-zA-Z0-9]{6}\', \'abc123\')
print(ma.group())

abc123
ma = re.match(r\'[a-zA-Z0-9]{6}\', \'abc12\')
print(ma.group()) # 少一个则匹配不到

ma = re.match(r\'[a-zA-Z0-9]{6}\', \'abc1234\')
print(ma.group()) # 多则匹配前6个

abc123

ma = re.match(r\'[a-zA-Z0-9]{6}@163.com\', \'abc123@163.com\')
print(ma.group())

abc123@163.com

# 匹配6-10位的邮箱
ma = re.match(r\'[a-zA-Z0-9]{6, 10}@163.com\', \'abc123@163.com\')
print(ma.group())

4)*? /+? /??匹配 (尽可能少匹配)

ma = re.match(r\'[0-9][a-z]*\', \'1abc\')
print(ma.group())

ma = re.match(r\'[0-9][a-z]*?\', \'1abc\')
print(ma.group())  # 只匹配1

1abc
1

ma = re.match(r\'[0-9][a-z]+?\', \'1abc\')
print(ma.group()) # 只匹配一次

1a

(3)边界匹配

一篇文章彻底搞懂python正则表达式

ma = re.match(r\'[\\w]{4,10}@163.com\', \'imooc@163.com\')
print(ma.group())

imooc@163.com

ma = re.match(r\'[\\w]{4,10}@163.com\', \'imooc@163.comabc\')  # 后面加上abc,match从头开始匹配,则可以找到
print(ma.group())

imooc@163.com

ma = re.match(r\'[\\w]{4,10}@163.com&\', \'imooc@163.comabc\')
print(ma.group())  # 匹配不到
ma = re.match(r\'^[\\w]{4,10}@163.com&\', \'imooc@163.comabc\')
print(ma.group())  # 匹配不到
ma = re.match(r\'^[\\w]{4,10}@163.com&\', \'imooc@163.com\')
print(ma.group())  # 加上^和$,限制开头结尾

imooc@163.com
# 指定开头结尾
ma = re.match(r\'\\Aimooc[\\w]*\', \'imoocpython\')
print(ma.group())
ma = re.match(r\'\\Aimooc[\\w]*\', \'iimoocpython\')
print(ma.group())  # 匹配不到

imoocpython

(4)分组匹配

一篇文章彻底搞懂python正则表达式

这里不再举例。

4. re模块相关方法使用

以上举例都是match,从头到尾匹配,查找子串就不合适了

# 在一个字符串中查找匹配
1:search(pattern, string, flags=0)

# 找到匹配,返回所有匹配部分的列表
2:findall(pattern, string, flags=0)

# 将字符串中匹配正则表达式得部分替换为其它,repl可以替换函数
3:sub(pattern, repl, string, count=0, flags=0)

# 根据匹配分割字符串,返回分割字符串组成的列表
4:split(pattern, string, maxsplit=0, flags=0)
# search
import re
str1 = \'imooc videonum = 1000\'
print(str1.find(\'1000\'))  # 数字改变则失效

17

info = re.search(r\'\\d+\', str1)
print(info.group())

1000

str1 = \'imooc videonum = 10000\'
info = re.search(r\'\\d+\', str1)
print(info.group())

10000
# findall
# 当有多个数字时

str2 = \'a=100, b=200, c=300\'
info = re.search(r\'\\d+\', str2)
print(info.group())

100

info = re.findall(r\'\\d+\', str2)
print(info.group())

[100, 200, 300]
# sub 替换
str3 = \'imooc videonum = 1000\'
info = re.sub(r\'\\d+\', \'1001\', str3)
print(info)

imooc videonum = 1001
# split
# 分割
str3 = \'imooc:C C++ Java\'
print(re.split(r\':| \', str4))

[imooc, C, C, Java]

以上即为python中的正则表达式的一些知识总结。

总结

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容