共计 4232 个字符,预计需要花费 11 分钟才能阅读完成。
re 库的利用
re 库是 Python 中解决正则表达式的规范库,本篇博客介绍 re 库的同时,会简略介绍一下正则表达式语法,如果想深刻学习正则表达式,还须要好好下一番功夫。
正则表达式语法
正则表达式语法由字符和操作符形成,初期阶段把握下述这些内容即可。
操作符 | 阐明 | 例子 | ||
---|---|---|---|---|
. | 任何单个字符,极少不能匹配 | |||
[] | 字符集,对单个字符给出取值范畴 | [abc] 示意匹配 a、b、c,[a-z] 示意 a 到 z 单个字符 | ||
[\^] | 非字符集,对单个字符给出排除范畴 | [\^abc] 示意匹配 非 a、非 b、非 c 的单个字符 | ||
* | 前一个字符 0 次或有限次扩大 | abc* 示意 ab、abc、abcc、abccc 等 | ||
+ | 前一个字符 1 次或有限次扩大 | abc+ 示意 abc、abcc、abccc 等 | ||
? | 前一个字符 0 次或 1 次 | abc? 示意 ab、abc | ||
左右表达式任意一个 | abc | def 示意 abc 或者 def | ||
{m} | 扩大前 1 个字符 m 次 | ab{2}c,示意 abbc | ||
{m,n} | 扩大前 1 个字符 m 到 n 次 | ab{1,2}c,示意 abc、abbc | ||
\^ | 匹配字符串结尾 | \^abc 示意 abc 在字符串结尾 | ||
\$ | 匹配字符串结尾 | abc$ 示意 abc 在字符串结尾 | ||
() | 分组标记,外部仅能应用 | 操作符 | (abc) 示意 abc,(a | b) 示意 a、b |
\d | 数字,等价于 [0-9] | |||
\w | 字符,等价于 [A-Za-z0-9] |
以上示意仅仅为正则表白最根底局部内容,如果心愿深入研究正则表达式,倡议寻找更加全面的材料进行学习,本文只做药引。
re 库根本用法
re 库次要函数如下:
- 根底函数:
compile
; - 性能函数:
search
、match
、findall
、split
、finditer
、sub
。
在正式学习之前,先理解一下原生字符串。
在 Python 中,示意原生字符串,须要在字符串后面加上 r
。
例如 my_str = 'i'am xiangpica'
在程序中会间接报错,如果心愿字符串中 '
能够失常运行,须要加上转移字符 \
,批改为 my_str = 'i\'am xiangpica'
。
但这样联合上文正则表达式中的操作符,就会呈现问题,因为 \
在正则表达式中是有实在含意的,如果你应用 re 库去匹配字符串中的 \
,那须要应用 4 个反斜杠,为了防止这种状况呈现,引入了原生字符串概念。
# 不应用原生字符串的正则表达式 "\\\\"
# 应用原生字符串的正则表达式 r"\\"
在后文会有理论的利用。
接下来在学习一个案例,例如下述代码:
my_str='C:\number'
print(my_str)
C:
umber
本段代码的输入成果如下,\n
被解析成了换行,如果想要屏蔽这种景象,应用 r
即可:
my_str=r'C:\number'
print(my_str)
输入 C:\number
。
re 库相干函数阐明
re.search 函数
该函数用于,在字符串中搜寻正则表达式匹配到的第一个地位的值,返回 match 对象。
函数原型如下:
re.search(pattern,string,flags=0)
需要:在字符串 查理不是猹 good good
中匹配 查理
。
import re
my_str='查理不是猹 good good'
pattern = r'查理'
ret = re.search(pattern,my_str)
print(ret)
返回后果:<re.Match object; span=(2, 5), match='查理'>
。
search
函数的第三个参数 flags
示意正则表达式应用时的管制标记。
re.I
,re.IGNORECASE
:疏忽正则表达式的大小写;re.M
,re.MULTILINE
:正则表达式中的 \^ 操作符可能将给定字符串的每行当做匹配的开始;re.S
,re.DOTALL
:正则表达式中的.
操作符可能匹配所有字符。
最初将匹配到的字符串进行输入,应用下述代码即可实现。
import re
my_str = '查理不是猹 good good'
pattern = r'查理'
ret = re.search(pattern, my_str)
if ret:
print(ret.group(0))
re.match 函数
该函数用于在指标字符串开始地位去匹配正则表达式,返回 match 对象,未匹配胜利返回 None,函数原型如下:
re.match(pattern,string,flags=0)
肯定要留神是指标字符串开始地位。
import re
my_str = '查理不是猹 good good'
pattern = r'猹' # 匹配到数据
pattern = r'good' # 匹配不到数据
ret = re.match(pattern, my_str)
if ret:
print(ret.group(0))
re.match
和 re.search
办法都是一次最多返回一个匹配对象,如果心愿返回多个值,能够通过在 pattern
里加括号结构匹配组返回多个字符串。
re.findall 函数
该函数用于搜寻字符串,以列表格局返回全副匹配到的字符串,函数原型如下:
re.findall(pattern,string,flags=0)
测试代码如下:
import re
my_str = '查理不是猹 good good'
pattern = r'good'
ret = re.findall(pattern, my_str)
print(ret)
re.split 函数
该函数将一个字符串依照正则表达式匹配后果进行宰割,返回一个列表。
函数原型如下:
re.split(pattern, string, maxsplit=0, flags=0)
re.split
函数进行宰割的时候,如果正则表达式匹配到的字符恰好在字符串结尾或者结尾,返回宰割后的字符串列表首尾都多了空格,须要手动去除,例如下述代码:
import re
my_str = '1 查理不是猹 1good1good1'
pattern = r'\d'
ret = re.split(pattern, my_str)
print(ret)
运行后果:
['',' 查理不是猹 ','good','good','']
切换为两头的内容,则能正确的宰割字符串。
import re
my_str = '1 查理不是猹 1good1good1'
pattern = r'good'
ret = re.split(pattern, my_str)
print(ret)
如果在 pattern 中捕捉到括号,那括号中匹配到的后果也会在返回的列表中。
import re
my_str = '1 查理不是猹 1good1good1'
pattern = r'(good)'
ret = re.split(pattern, my_str)
print(ret)
运行后果,你能够比照带括号和不带括号的区别进行学习:
['1 查理 1', 'good', '1', 'good', '1']
maxsplit
参数示意最多进行宰割次数,剩下的字符全副返回到列表的最初一个元素,例如设置匹配 1 次,失去的后果是 ['1 幻想橡皮擦 1', '1good1']
。
re.finditer 函数
搜寻字符串,并返回一个匹配后果的迭代器,每个迭代元素都是 match 对象。函数原型如下:
re.finditer(pattern,string,flags=0)
测试代码如下:
import re
my_str = '1 查理不是猹 1good1good1'
pattern = r'good'
# ret = re.split(pattern, my_str,maxsplit=1)
ret =re.finditer(pattern, my_str)
print(ret)
re.sub 函数
在一个字符串中替换被正则表达式匹配到的字符串,返回替换后的字符串,函数原型如下:
re.sub(pattern,repl,string,count=0,flags=0)
其中 repl
参数是替换匹配字符串的字符串,count
参数是匹配的最大替换次数。
import re
my_str = '1 查理不是猹 1good1good1'
pattern = r'good'
ret = re.sub(pattern, "nice", my_str)
print(ret)
运行之后,失去替换之后的字符串:
1 查理不是猹 1nice1nice1
re 库其它函数
其它比拟常见的函数有:re.fullmatch()
,re.subn()
,re.escape()
,更多内容能够查阅 官网文档,获取一手材料。
re 库的面向对象写法
上文都是函数式写法,re 库能够采纳面向对象的写法,将正则表达式进行编译之后,屡次操作。外围用到的函数是 re.compile
。
该函数原型如下:
regex = re.compile(pattern,flags=0)
其中 pattern
是正则表达式字符串或者原生字符串。
测试代码如下:
import re
my_str = '1 查理不是猹 1good1good1'
# 正则对象
regex = re.compile(pattern = r'good')
ret = regex.sub("nice", my_str)
print(ret)
上述代码将正则表达式编译为一个正则对象,前面在 regex.sub
函数中就不须要在写正则表达式了,应用时,只须要将编译好的 regex 对象替换所有的 re 对象,再去调用对应的办法。
re 库的 match 对象
应用 re 库匹配字符串之后,会返回 match 对象,该对象具备以下属性和办法。
match 对象的属性
.string
:待匹配的文本;.re
:匹配时应用的 pattern 对象;.pos
:正则表达式搜寻文本的开始地位;.endpos
:正则表达式搜寻文本的完结地位。
测试代码如下:
import re
my_str = '1 查理不是猹 1good1good1'
regex = re.compile(pattern = r'g\w+d')
ret = regex.search(my_str)
print(ret)
print(ret.string)
print(ret.re)
print(ret.pos)
print(ret.endpos)
后果输入:
<re.Match object; span=(7, 16), match='good1good'>
1 查理不是猹 1good1good1
re.compile('g\\w+d')
0
17
match 对象的办法
.group(0)
:获取匹配后的字符串;.start()
:匹配字符串在原始字符串的开始地位;.end()
:匹配字符串在原始字符串的结尾地位;.span()
:返回(.start(),.end())
因为内容比较简单,具体代码不再展现。
这篇博客的总结
本篇博客学习了 Python 中 re 库的知识点,重点在 re 库中的各个函数,对正则表达式未做过多阐明,心愿对你有所帮忙。