关于爬虫:python爬虫-Day-7

正则表达式上

正则表达式

1.定义
正则表达式是对字符操作的一种逻辑公式，就是用当时定义好的一些特定字符以及这些特定字符的组合，组成一个“规定字符串”，这个规定字符串用来表白对字符串的一种过滤逻辑
2.作用
（1）表单验证（例如：手机号、邮箱、身份证）
（2）爬虫--从网页源码中提取数据
3.正则表达式对python的反对
（1）一般字符：字母、数字、汉字、下划线、以及没有非凡含意的符号
（2）正则中的一般字符：在匹配的时候只匹配与本身雷同的一个字符
4.例子
表达式c，在匹配字符串abcde时
匹配后果：胜利
匹配到的内容：c
匹配到的地位：开始于2，完结于3

match()函数

1.模板
match(pattern, string, flags=0)
2.含意
（1）pattern: 是指正则表达式，如果匹配胜利，则返回一个match对象，否则返回一个None
（2）string: 是指要匹配的字符串
（3）flags=0: 是标致位，用于管制正则表达式的匹配形式，如是否辨别大小写，多行匹配等

元字符

用来示意一些非凡含意或者性能

表达式	匹配
.	小数点能够匹配除了换行符\n以外的任意一个字符
\|	逻辑或字符
[]	匹配字符集中的任意一个字符
[^]	对字符集求反，也就是下面的补集。^必须在方括号的最后面
-	定义[ ]里的一个字符区间，例如a-z
\	对紧跟其后的一个字符进行本义
()	对表达式进行分组，将圆括号内的内容当作一个整体，并取得匹配的值

一些无奈书写或者具备非凡性能的字符，采纳在后面加斜杠进行本义的办法

表达式	匹配
\r	回车
\n	换行符
`\\`	斜杠
`\^`	^
`\$`	$
`\.`	.

预约义匹配字符集

能够同时匹配某个预约义字符集中的任意一个字符

表达式	匹配
\d	0-9 中的任意一个数字
\w	A-Z, a-z，_中的任意一个字符
\s	空格、制表符、换页符等空白字符的其中一个
\D	\d的补集
\W	\w的补集
\S	\s的补集

反复匹配

表达式	匹配
{n}	表达式至多反复n次
{m,n}	表达式至多反复m次，至少反复n次
{m,}	表达式至多反复m次
?	表达式呈现0或者1次
+	表达式至多呈现1次
*	表达式呈现0到任意次

代码

（1）代码re_match

import re# s就是待匹配的数据s = 'python and java'# ptn就是匹配的模板ptn = 'python'result = re.match(ptn, s)# print(result)if result:    print(result.group())else:    print('匹配失败！')

（2）代码re_examples--元字符

import re# 元字符# . 匹配除了换行符之外的任意一个字符# a.c 匹配以a结尾 c结尾 两头任意一个除换行以外的字符e1 = re.match('a.c', 'abc').group()print(e1)e2 = re.match('a.c', 'a我c').group()print(e2)e3 = re.match('a.c', 'a\nc').group()print(e3)  # 报错# r 原生字符串 不须要进行本义了 本来python解释器和正则都将会进行本义print('\\\\')print(r'\\\\')# | 逻辑或操作符a|b用来匹配a或者是bprint(re.match('a|b', 'a').group())print(re.match('a|c', 'c').group())print(re.match('a|b|c|d', 'cd').group())  # 只有一个c哦# match是从头开始匹配的 一旦匹配失败就完结了 返回第一个匹配后果e1 = re.match('a|b', 'ba').group()print(e1)e2 = re.match('a|c', 'ba').group()print(e2)  # 报错e3 = re.search('a|c', 'cba').group()print(e3)  # search 和 match 之间的区别# []匹配字符集中的一个字符f1 = re.match('[abc]', 'cba').group()print(f1)f2 = re.match('[abc]', 'zba').group()print(f2)  # 报错f3 = re.match('[abc]2', 'a').group()print(f3)  # 报错f3 = re.match('[abc]2', 'a2').group()print(f3)  # 能够用来匹配a2 b2 c2# [^] 对字符集求反，也就是反操作 尖号必须在方括号的最后面g1 = re.match('[^abc]3', 'a3').group()print(g1)   # 报错g2 = re.match('[^abc]3', 'g3').group()print(g2)# \ 对紧跟其后的一个字符进行本义（如果没有r的话）h1 = re.match(r'5.6', '5.6').group()print(h1)h2 = re.match(r'5.6', '596').group()print(h2)h3 = re.match(r'5\.6', '596').group()print(h3)  # 报错 \. 示意.h4 = re.match(r'5\.6', '5.6').group()print(h4)  # 能够运行

（3）代码re_examples--预约义匹配字符

# 预约义匹配字符集：能够同时匹配某个预约义字符集中的任意一个字符# \d 匹配0-9中的任意一个字符k1 = re.match(r'123', '123').group()print(k1)k2 = re.match(r'\d', '123').group()print(k2)k3 = re.match(r'\d\d\d', '123').group()print(k3)# \w 匹配字母或数字或下划线的任意一个字符m1 = re.match(r'\w', 'b123').group()print(m1)m2 = re.match(r'\w', 'S123').group()print(m2)m3 = re.match(r'\w', '123').group()print(m3)m4 = re.match(r'\w', '_123').group()print(m4)# \s 匹配空格、制表符、换行符、空白等（1个）n1 = re.match(r'\s1', ' 1').group()print(n1)n2 = re.match(r'\s2', '\t2').group()print(n2)n3 = re.match(r'\s3', '\n3').group()print(n3)

（4）代码re_examples--反复匹配

# 反复匹配# # {n} 示意表达式反复的匹配n次p1 = re.match(r'\d{4}', '1231').group()print(p1)# {m, n}示意表达式至多反复m次， 至少反复n次q1 = re.match(r'\d{3,4}-\d{7,8}', '1234-1234567').group()print(q1)print(re.match(r'\d{3,4}-\d{7,9}', '12345-1234567').group())print(re.match(r'\d{3,4}-\d{7,9}', '1234-1234567').group())print(re.match(r'\d{3,4}-\d{6,7}', '1234-123456789').group())# {m,) 示意至多匹配m次 没有下限ptn1 = r'\d{3,4}-\d{6,}'s1 = re.match(ptn1, '1234-123456789111111111111111111111111111111').group()print(s1)# + 示意至多匹配1次 相当于{1，} a+b ab/aab/aaabprint(re.match(r'w[a-z]', 'wa').group())print(re.match(r'w[a-z]+', 'wa').group())print(re.match(r'w[a-z]+', 'wee').group())print(re.match(r'w[a-z]+', 'w').group())  #  报错# * 示意表达式呈现0到任意次数print(re.match(r'w[a-z]*', 'w').group())print(re.match(r'w[a-z]*', 'weeeeeeeee').group())print(re.match(r'w[a-z]*', '1').group())  # 报错