正则表达式上
正则表达式
1. 定义
正则表达式是对字符操作的一种逻辑公式,就是用当时定义好的一些特定字符以及这些特定字符的组合,组成一个“规定字符串”,这个规定字符串用来表白对字符串的一种过滤逻辑
2. 作用
(1)表单验证(例如:手机号、邮箱、身份证)
(2)爬虫 – 从网页源码中提取数据
3. 正则表达式对 python 的反对
(1)一般字符:字母、数字、汉字、下划线、以及没有非凡含意的符号
(2)正则中的一般字符:在匹配的时候只匹配与本身雷同的一个字符
4. 例子
表达式 c,在匹配字符串 abcde 时
匹配后果:胜利
匹配到的内容:c
匹配到的地位:开始于 2,完结于 3
match()函数
1. 模板
match(pattern, string, flags=0)
2. 含意
(1)pattern: 是指正则表达式,如果匹配胜利,则返回一个 match 对象,否则返回一个 None
(2)string: 是指要匹配的字符串
(3)flags=0: 是标致位,用于管制正则表达式的匹配形式,如是否辨别大小写,多行匹配等
元字符
用来示意一些非凡含意或者性能
表达式 | 匹配 |
---|---|
. | 小数点能够匹配除了换行符 \n 以外的任意一个字符 |
| | 逻辑或字符 |
[] | 匹配字符集中的任意一个字符 |
[^] | 对字符集求反,也就是下面的补集。^ 必须在方括号的最后面 |
– | 定义 [] 里的一个字符区间,例如 a -z |
\ | 对紧跟其后的一个字符进行本义 |
() | 对表达式进行分组,将圆括号内的内容当作一个整体,并取得匹配的值 |
一些无奈书写或者具备非凡性能的字符,采纳在后面加斜杠进行本义的办法
表达式 | 匹配 |
---|---|
\r | 回车 |
\n | 换行符 |
\\ |
斜杠 |
\^ |
^ |
\$ |
$ |
\. |
. |
预约义匹配字符集
能够同时匹配某个预约义字符集中的任意一个字符
表达式 | 匹配 |
---|---|
\d | 0-9 中的任意一个数字 |
\w | A-Z, a-z,_中的任意一个字符 |
\s | 空格、制表符、换页符等空白字符的其中一个 |
\D | \d 的补集 |
\W | \w 的补集 |
\S | \s 的补集 |
反复匹配
表达式 | 匹配 |
---|---|
{n} | 表达式至多反复 n 次 |
{m,n} | 表达式至多反复 m 次,至少反复 n 次 |
{m,} | 表达式至多反复 m 次 |
? | 表达式呈现 0 或者 1 次 |
+ | 表达式至多呈现 1 次 |
* | 表达式呈现 0 到任意次 |
代码
(1)代码 re_match
import re
# s 就是待匹配的数据
s = 'python and java'
# ptn 就是匹配的模板
ptn = 'python'
result = re.match(ptn, s)
# print(result)
if result:
print(result.group())
else:
print('匹配失败!')
(2)代码 re_examples– 元字符
import re
# 元字符
# . 匹配除了换行符之外的任意一个字符
# a.c 匹配以 a 结尾 c 结尾 两头任意一个除换行以外的字符
e1 = re.match('a.c', 'abc').group()
print(e1)
e2 = re.match('a.c', 'a 我 c').group()
print(e2)
e3 = re.match('a.c', 'a\nc').group()
print(e3) # 报错
# r 原生字符串 不须要进行本义了 本来 python 解释器和正则都将会进行本义
print('\\\\')
print(r'\\\\')
# | 逻辑或操作符
a| b 用来匹配 a 或者是 b
print(re.match('a|b', 'a').group())
print(re.match('a|c', 'c').group())
print(re.match('a|b|c|d', 'cd').group()) # 只有一个 c 哦
# match 是从头开始匹配的 一旦匹配失败就完结了 返回第一个匹配后果
e1 = re.match('a|b', 'ba').group()
print(e1)
e2 = re.match('a|c', 'ba').group()
print(e2) # 报错
e3 = re.search('a|c', 'cba').group()
print(e3) # search 和 match 之间的区别
# []匹配字符集中的一个字符
f1 = re.match('[abc]', 'cba').group()
print(f1)
f2 = re.match('[abc]', 'zba').group()
print(f2) # 报错
f3 = re.match('[abc]2', 'a').group()
print(f3) # 报错
f3 = re.match('[abc]2', 'a2').group()
print(f3) # 能够用来匹配 a2 b2 c2
# [^] 对字符集求反,也就是反操作 尖号必须在方括号的最后面
g1 = re.match('[^abc]3', 'a3').group()
print(g1) # 报错
g2 = re.match('[^abc]3', 'g3').group()
print(g2)
# \ 对紧跟其后的一个字符进行本义(如果没有 r 的话)h1 = re.match(r'5.6', '5.6').group()
print(h1)
h2 = re.match(r'5.6', '596').group()
print(h2)
h3 = re.match(r'5\.6', '596').group()
print(h3) # 报错 \. 示意.
h4 = re.match(r'5\.6', '5.6').group()
print(h4) # 能够运行
(3)代码 re_examples– 预约义匹配字符
# 预约义匹配字符集:能够同时匹配某个预约义字符集中的任意一个字符
# \d 匹配 0 - 9 中的任意一个字符
k1 = re.match(r'123', '123').group()
print(k1)
k2 = re.match(r'\d', '123').group()
print(k2)
k3 = re.match(r'\d\d\d', '123').group()
print(k3)
# \w 匹配字母或数字或下划线的任意一个字符
m1 = re.match(r'\w', 'b123').group()
print(m1)
m2 = re.match(r'\w', 'S123').group()
print(m2)
m3 = re.match(r'\w', '123').group()
print(m3)
m4 = re.match(r'\w', '_123').group()
print(m4)
# \s 匹配空格、制表符、换行符、空白等(1 个)n1 = re.match(r'\s1', '1').group()
print(n1)
n2 = re.match(r'\s2', '\t2').group()
print(n2)
n3 = re.match(r'\s3', '\n3').group()
print(n3)
(4)代码 re_examples– 反复匹配
# 反复匹配
# # {n} 示意表达式反复的匹配 n 次
p1 = re.match(r'\d{4}', '1231').group()
print(p1)
# {m, n}示意表达式至多反复 m 次,至少反复 n 次
q1 = re.match(r'\d{3,4}-\d{7,8}', '1234-1234567').group()
print(q1)
print(re.match(r'\d{3,4}-\d{7,9}', '12345-1234567').group())
print(re.match(r'\d{3,4}-\d{7,9}', '1234-1234567').group())
print(re.match(r'\d{3,4}-\d{6,7}', '1234-123456789').group())
# {m,) 示意至多匹配 m 次 没有下限
ptn1 = r'\d{3,4}-\d{6,}'
s1 = re.match(ptn1, '1234-123456789111111111111111111111111111111').group()
print(s1)
# + 示意至多匹配 1 次 相当于{1,} a+b ab/aab/aaab
print(re.match(r'w[a-z]', 'wa').group())
print(re.match(r'w[a-z]+', 'wa').group())
print(re.match(r'w[a-z]+', 'wee').group())
print(re.match(r'w[a-z]+', 'w').group()) # 报错
# * 示意表达式呈现 0 到任意次数
print(re.match(r'w[a-z]*', 'w').group())
print(re.match(r'w[a-z]*', 'weeeeeeeee').group())
print(re.match(r'w[a-z]*', '1').group()) # 报错