关于python:抬抬小手学Python内置模块之-re-库一文搞定正则表达式初阶用法

re 库是 Python 中解决正则表达式的规范库，本篇博客介绍 re 库的同时，会简略介绍一下正则表达式语法，如果想深刻学习正则表达式，还须要好好下一番功夫。

正则表达式语法由字符和操作符形成，初期阶段把握下述这些内容即可。

操作符	阐明	例子
.	任何单个字符，极少不能匹配
[]	字符集，对单个字符给出取值范畴	[abc] 示意匹配 a、b、c，[a-z] 示意 a 到 z 单个字符
[\^]	非字符集，对单个字符给出排除范畴	[\^abc] 示意匹配非 a、非 b、非 c 的单个字符
*	前一个字符 0 次或有限次扩大	abc* 示意 ab、abc、abcc、abccc 等
+	前一个字符 1 次或有限次扩大	abc+ 示意 abc、abcc、abccc 等
?	前一个字符 0 次或 1 次	abc? 示意 ab、abc
		左右表达式任意一个	abc	def 示意 abc 或者 def
{m}	扩大前 1 个字符 m 次	ab{2}c，示意 abbc
{m,n}	扩大前 1 个字符 m 到 n 次	ab{1,2}c，示意 abc、abbc
\^	匹配字符串结尾	\^abc 示意 abc 在字符串结尾
\$	匹配字符串结尾	abc$ 示意 abc 在字符串结尾
()	分组标记，外部仅能应用	操作符	(abc) 示意 abc，(a	b) 示意 a、b
\d	数字，等价于 [0-9]
\w	字符，等价于 [A-Za-z0-9]

以上示意仅仅为正则表白最根底局部内容，如果心愿深入研究正则表达式，倡议寻找更加全面的材料进行学习，本文只做药引。

re 库次要函数如下：

根底函数：compile；
性能函数：search、match、findall、split、finditer、sub。

在正式学习之前，先理解一下原生字符串。

在 Python 中，示意原生字符串，须要在字符串后面加上 r。
例如 my_str = 'i'am xiangpica' 在程序中会间接报错，如果心愿字符串中 ' 能够失常运行，须要加上转移字符 \，批改为 my_str = 'i\'am xiangpica'。
但这样联合上文正则表达式中的操作符，就会呈现问题，因为 \ 在正则表达式中是有实在含意的，如果你应用 re 库去匹配字符串中的 \，那须要应用 4 个反斜杠，为了防止这种状况呈现，引入了原生字符串概念。

# 不应用原生字符串的正则表达式  "\\\\"
# 应用原生字符串的正则表达式 r"\\"

在后文会有理论的利用。

接下来在学习一个案例，例如下述代码：

my_str='C:\number'

print(my_str)

C:
umber

本段代码的输入成果如下，\n 被解析成了换行，如果想要屏蔽这种景象，应用 r 即可：

my_str=r'C:\number'

print(my_str)

输入 C:\number。

该函数用于，在字符串中搜寻正则表达式匹配到的第一个地位的值，返回 match 对象。
函数原型如下：

re.search(pattern,string,flags=0)

需要：在字符串 查理不是猹 good good 中匹配 查理 。

import re
my_str='查理不是猹 good good'
pattern = r'查理'

ret = re.search(pattern,my_str)
print(ret)

返回后果：<re.Match object; span=(2, 5), match='查理'>。

search 函数的第三个参数 flags 示意正则表达式应用时的管制标记。

re.I，re.IGNORECASE：疏忽正则表达式的大小写；
re.M，re.MULTILINE：正则表达式中的 \^ 操作符可能将给定字符串的每行当做匹配的开始；
re.S，re.DOTALL：正则表达式中的 . 操作符可能匹配所有字符。

最初将匹配到的字符串进行输入，应用下述代码即可实现。

import re
my_str = '查理不是猹 good good'
pattern = r'查理'

ret = re.search(pattern, my_str)
if ret:
    print(ret.group(0))

该函数用于在指标字符串开始地位去匹配正则表达式，返回 match 对象，未匹配胜利返回 None，函数原型如下：

re.match(pattern,string,flags=0)

肯定要留神是指标字符串开始地位。

import re
my_str = '查理不是猹 good good'
pattern = r'猹' # 匹配到数据
pattern = r'good' # 匹配不到数据

ret = re.match(pattern, my_str)
if ret:
    print(ret.group(0))

re.match 和 re.search 办法都是一次最多返回一个匹配对象，如果心愿返回多个值，能够通过在 pattern 里加括号结构匹配组返回多个字符串。

该函数用于搜寻字符串，以列表格局返回全副匹配到的字符串，函数原型如下：

re.findall(pattern,string,flags=0)

测试代码如下：

import re
my_str = '查理不是猹 good good'
pattern = r'good'
ret = re.findall(pattern, my_str)
print(ret)

该函数将一个字符串依照正则表达式匹配后果进行宰割，返回一个列表。
函数原型如下：

re.split(pattern, string, maxsplit=0, flags=0)

re.split 函数进行宰割的时候，如果正则表达式匹配到的字符恰好在字符串结尾或者结尾，返回宰割后的字符串列表首尾都多了空格，须要手动去除，例如下述代码：

import re
my_str = '1 查理不是猹 1good1good1'

pattern = r'\d'

ret = re.split(pattern, my_str)

print(ret)

运行后果：

['',' 查理不是猹 ','good','good','']

切换为两头的内容，则能正确的宰割字符串。

import re
my_str = '1 查理不是猹 1good1good1'

pattern = r'good'

ret = re.split(pattern, my_str)

print(ret)

如果在 pattern 中捕捉到括号，那括号中匹配到的后果也会在返回的列表中。

import re
my_str = '1 查理不是猹 1good1good1'

pattern = r'(good)'

ret = re.split(pattern, my_str)

print(ret)

运行后果，你能够比照带括号和不带括号的区别进行学习：

['1 查理 1', 'good', '1', 'good', '1']

maxsplit 参数示意最多进行宰割次数，剩下的字符全副返回到列表的最初一个元素，例如设置匹配 1 次，失去的后果是 ['1 幻想橡皮擦 1', '1good1']。

搜寻字符串，并返回一个匹配后果的迭代器，每个迭代元素都是 match 对象。函数原型如下：

re.finditer(pattern,string,flags=0)

测试代码如下：

import re
my_str = '1 查理不是猹 1good1good1'

pattern = r'good'

# ret = re.split(pattern, my_str,maxsplit=1)
ret =re.finditer(pattern, my_str)
print(ret)

在一个字符串中替换被正则表达式匹配到的字符串，返回替换后的字符串，函数原型如下：

re.sub(pattern,repl,string,count=0,flags=0)

其中 repl 参数是替换匹配字符串的字符串，count 参数是匹配的最大替换次数。

import re
my_str = '1 查理不是猹 1good1good1'

pattern = r'good'

ret = re.sub(pattern, "nice", my_str)
print(ret)

运行之后，失去替换之后的字符串：

 1 查理不是猹 1nice1nice1

其它比拟常见的函数有：re.fullmatch()，re.subn()，re.escape()，更多内容能够查阅官网文档，获取一手材料。

上文都是函数式写法，re 库能够采纳面向对象的写法，将正则表达式进行编译之后，屡次操作。外围用到的函数是 re.compile。

该函数原型如下：

regex = re.compile(pattern,flags=0)

其中 pattern 是正则表达式字符串或者原生字符串。

测试代码如下：

import re
my_str = '1 查理不是猹 1good1good1'
# 正则对象
regex = re.compile(pattern = r'good')

ret = regex.sub("nice", my_str)
print(ret)

上述代码将正则表达式编译为一个正则对象，前面在 regex.sub 函数中就不须要在写正则表达式了，应用时，只须要将编译好的 regex 对象替换所有的 re 对象，再去调用对应的办法。

应用 re 库匹配字符串之后，会返回 match 对象，该对象具备以下属性和办法。

.string：待匹配的文本；
.re：匹配时应用的 pattern 对象；
.pos：正则表达式搜寻文本的开始地位；
.endpos：正则表达式搜寻文本的完结地位。

测试代码如下：

import re
my_str = '1 查理不是猹 1good1good1'

regex = re.compile(pattern = r'g\w+d')

ret = regex.search(my_str)
print(ret)
print(ret.string)
print(ret.re)
print(ret.pos)
print(ret.endpos)

后果输入：

<re.Match object; span=(7, 16), match='good1good'>
1 查理不是猹 1good1good1
re.compile('g\\w+d')
0
17

.group(0)：获取匹配后的字符串；
.start()：匹配字符串在原始字符串的开始地位；
.end()：匹配字符串在原始字符串的结尾地位；
.span()：返回 (.start(),.end())

因为内容比较简单，具体代码不再展现。

本篇博客学习了 Python 中 re 库的知识点，重点在 re 库中的各个函数，对正则表达式未做过多阐明，心愿对你有所帮忙。

关于python:抬抬小手学Python内置模块之-re-库一文搞定正则表达式初阶用法

re 库的利用

正则表达式语法

re 库根本用法

re 库相干函数阐明

re.search 函数

re.match 函数

re.findall 函数

re.split 函数

re.finditer 函数

re.sub 函数

re 库其它函数

re 库的面向对象写法

re 库的 match 对象

match 对象的属性

match 对象的办法

这篇博客的总结