正则表达式从小白到入门

前言

正则表达式（Regular Expression，RegExp，regex）使用单个字符串来描述和匹配一系列符合某种句法规则的字符串。此概念来自形式化语言理论，最初由贝尔实验室实现。正则表达式最初在 Perl 中实现，它的推广得益于 UNIX 软件的流行，尤其是 SED，GREP 等。现在许多编程语言都内置了正则表达式引擎，如 PERL、Python、JavaScript、Java、C++ 等。很多文本编辑器也支持正则表达式来进行检索和替换，如 Vim、Sublime Text、Visual Studio Code 等。正则表达式相关的学习文章网上也是一大推，本文主要记录正则表达式的入门教程和常用公式工具，方便大家活学活用。

正则表达式从小白到入门

更新历史

2019年09月12日 – 初稿

阅读原文 – https://wsgzao.github.io/post…

扩展阅读

正则表达式 30 分钟入门教程 – https://deerchao.net/tutorial…

为什么要正则表达式？

为什么需要正则表达式 – 王垠

学习 Unix 最开头，大家都学过正则表达式 (regexp)。可是有没有人考虑过我们为什么需要正则表达式？

正则表达式本来的初衷是用来从无结构的字符串中提取信息，殊不知这正好是 Unix 的缺陷所在。Unix 用无结构的字符串来表示数据，导致了诸多复杂的基于 regexp 的软件的诞生。sed, AWK, Perl, … 都是为了同样的目的来到这个世界上的。如果不是因为 Unix 用字符串来表示数据，我们就会拥有按数据结构类型的直接存储，而不需要折腾 regexp。正则表达式有它自己的价值（针对自然语言），但是我们其实不需要把它应用到程序语言和操作系统里面。

正则表达式本身用一个字符串来表示，这带来另外一些问题。因为正则表达式的本质不是字符串，而是一个数据结构。学过计算理论的人可能知道这个数据结构叫做 NFA（nondeterministic finite automaton，非确定性有限自动机）。所有的数据结构应该由程序语言本身来表示，就像用 Java 构造一个对象用 new ClassA("a") 一样。但是正则表达式强迫你把这个简单的构造函数调用写成一个字符串。所以在这个比方之下，你得写成 new ClassA(\"a\")。这样当你想要组合这些表达式的时候就发现，正则表达式几乎都是不可组合 (compose) 的。你几乎不可能不能把两个 regexp 的变量 A 和 B 安全拼接成一个，比如用 Java 的字符串拼接 A+B。因为你不知道这两个字符串拼在一起之后，那些稀奇古怪的符号会出现什么交叉反应，使得最后的识别的东西根本不是你想要的。

在正则表达式中，由于正则表达式本身的构造函数与数据本身合并到一起，我们不得不对某些 “特殊字符” 进行 escape。这些特殊字符，其实是用来描述 NFA 的记号，它们属于更高一层的语言。可是在正则表达式里，它们与 NFA 节点里的字符混为一谈。比如很简单的一个 block comment 的正则表达式，却要写成这个样子：

/\\\\\*(\[^\\\\\*\]|\[^/\])\*\\\\\*/

显然这样的表达式很容易出错。如果我们用程序语言的表达式来构造这个表达式，它应该是这样：

(@... "/\*" (@\*(@!"\*/")) "\*/")

在这个我自己设计的 Scheme 表达式里，以 @开头的标识符都是构造函数。其中 @... 是构造 sequence，@* 是构造一个 zero-or-more 的匹配，@! 构造一个否定匹配。这个表达式是说：“以 / * 开头，接着零个或者多个不是 * / 的字符，最后接着一个 * /。这样一来清晰明了，什么表达式在什么 “层次” 都很清楚，不需要什么反斜杠 escape，而且这样的表达式可以 compose。比如:

(define reg1 (@... "/\*" (@\*(@!"\*/")) "\*/"))
(define reg2 (@+ "foo"))
(define reg3 (@= "b"))

定义这三个表达式之后，我们之后可以用像 (@... reg1 (@or reg2 reg3)) 这样的表达式来连接 3 个不同的表达式，构造出更大的表达式。这样的构造可以无限的扩展。从这里以及以往的经验，我总结出一个普遍适用的程序设计的教训：尽量不要把多个层次的语言 “压缩” 到一层。我们也看到正则表达式与 “Unix 哲学” 有很大关系。我没有考古，所以不知道孰先孰后，但是它们肯定有直接的因果关系。两者都是 Unix 复杂性的来源。

再来看取自 12306 网站的一段代码

// http://www.12306.cn/mormhweb/js/adKyfw.min.js
d = d.replace("'", "");
d = d.replace("%", "");
d = d.replace("#", "");
d = d.replace("&", "");
d = d.replace("*", "");
d = d.replace("(", "");
d = d.replace(")", "");
d = d.replace("@", "");
d = d.replace("`", "");
d = d.replace("/", "");
d = d.replace("\\", "");
d = d.replace(",", "");
d = d.replace(".", "");
d = d.replace("=", "");
d = d.replace("<", "");
d = d.replace(">", "");

上述代码是在过滤掉不合法的搜索字符（姑且不论客户端过滤是否安全），我们可以用一行正则替换来实现相同的功能：

d = d.replace(/'%#\&\*\(\)@`\/\\,\.=<>/g, '');

正则表达式入门教程推荐

感谢作者deerchao从2006年开始更新至今，谢谢

正则表达式 30 分钟入门教程 – DeerChao

正则表达式 – 教程

Python RegEx

正则表达式在线工具

regexr

regex101

正则表达式测试工具（在线）

正则表达式在线测试

正则表达式基本语法

定义正则表达式的方式在不同的工具中可能有所差别，但正则表达式内容的语法是一致的。正则表达式有三类语法结构：

串接（与操作）。相邻的字符默认为串接关系。例如 harttle 只能匹配 harttle，不可匹配 hart。
选择（或操作，|）。例如：harttle|serene 可以匹配 harttle 或者 serene。选择的优先级级低于串接，因此很多情况下都可以省略括号。
数量（限定符）。最常见的数量限定符包括 +, ?, *，分别表示左侧的字符出现一次或更多，不出现或出现一次，不出现或出现任意次。例如 harttle? 可以匹配 harttl 和 harttle。
组合（括号，()）。组合用来定义操作符的作用范围和优先级。例如 har(ttle)? 可以匹配 harttle 和 har，h(a|u)rttle 可以匹配 harttle 和 hurttle。

常用正则表达式

字符	描述
`\\`	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，”`n`“匹配字符”`n`“。”`\n`“匹配一个换行符。序列”`\`“匹配”`\`“而” `(`“则匹配”`(`“。
`^`	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，`^` 也匹配”`\n`“或”`\r`“之后的位置。
`$`	匹配输入字符串的结束位置。如果设置了 RegExp 对象的 Multiline 属性，`$` 也匹配”`\n`“或”`\r`“之前的位置。
`*`	匹配前面的子表达式零次或多次。例如，zo 能匹配”`z`“、”`zo`“以及”`zoo`“。等价于 {0,}。
`+`	匹配前面的子表达式一次或多次。例如，”`zo+`“能匹配”`zo`“以及”`zoo`“，但不能匹配”`z`“。+ 等价于 {1,}。
`?`	匹配前面的子表达式零次或一次。例如，”`do(es)?`“可以匹配”`do`“或”`does`“中的”`do`“。? 等价于 {0,1}。
`{n}`	n 是一个非负整数。匹配确定的 n 次。例如，”`o{2}`“不能匹配”`Bob`“中的”`o`“，但是能匹配”`food`“中的两个 o。
`{n,}`	n 是一个非负整数。至少匹配 n 次。例如，”`o{2,}`“不能匹配”`Bob`“中的”`o`“，但能匹配”`foooood`“中的所有 o。”`o{1,}`“等价于” `o+`“。”`o{0,}`“则等价于”`o`“。
`{n,m}`	m 和 n 均为非负整数，其中 n<=m。最少匹配 n 次且最多匹配 m 次。例如，”`o{1,3}`“将匹配”`fooooood`“中的前三个 o。”`o{0,1}`“等价于”`o?`“。请注意在逗号和两个数之间不能有空格。
`?`	当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串”`oooo`“，”`o+?`“将匹配单个”`o`“，而” `o+`“将匹配所有”`o`“。
`.`	匹配除”`\n`“之外的任何单个字符。要匹配包括”`\n`“在内的任何字符，请使用像” `(.\|n)` “的模式。
`(pattern)`	匹配 pattern 并获取这一匹配的子字符串。该子字符串用于向后引用。所获取的匹配可以从产生的 Matches 集合得到，在 VBScript 中使用 SubMatches 集合，在 JScript 中则使用 `$0...$9` 属性。要匹配圆括号字符，请使用”`(`“或”`)`“。
`(?:pattern)`	匹配 pattern 但不获取匹配的子字符串，也就是说这是一个非获取匹配，不存储匹配的子字符串用于向后引用。这在使用或字符”`(\|)`“来组合一个模式的各个部分是很有用。例如”`industr(?:y\|ies)`“就是一个比”`industry\|industries`“更简略的表达式。
`(?=pattern)`	正向肯定预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，”`Windows(?=95\|98\|NT\|2000)`“能匹配”`Windows2000`“中的”`Windows`“，但不能匹配” `Windows3.1`“中的”`Windows`“。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
`(?!pattern)`	正向否定预查，在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如”`Windows(?!95\|98\|NT\|2000)`“能匹配”`Windows3.1`“中的”`Windows`“，但不能匹配” `Windows2000`“中的”`Windows`“。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
`(?<=pattern)`	反向肯定预查，与正向肯定预查类似，只是方向相反。例如，”`(?<=95\|98\|NT\|2000)Windows`“能匹配”`2000Windows`“中的”`Windows`“，但不能匹配”`3.1Windows`“中的” `Windows`“。
`(?<!pattern)`	反向否定预查，与正向否定预查类似，只是方向相反。例如”`(?<!95\|98\|NT\|2000)Windows`“能匹配”`3.1Windows`“中的”`Windows`“，但不能匹配”`2000Windows`“中的” `Windows`“。
`x\|y`	匹配 x 或 y。例如，”`z\|food`“能匹配”`z`“或”`food`“。”`(z\|f)ood`“则匹配”`zood`“或” `food`“。
`[xyz]`	字符集合（character class）。匹配所包含的任意一个字符。例如，”`[abc]`“可以匹配”`plain`“中的”`a`“。特殊字符仅有反斜线 `\\` 保持特殊含义，用于转义字符。其它特殊字符如星号、加号、各种括号等均作为普通字符。脱字符 ^ 如果出现在首位则表示负值字符集合；如果出现在字符串中间就仅作为普通字符。连字符 – 如果出现在字符串中间表示字符范围描述；如果如果出现在首位则仅作为普通字符。
`[^xyz]`	排除型（negate）字符集合。匹配未列出的任意字符。例如，”`[^abc]`“可以匹配”`plain`“中的”`plin`“。
`[a-z]`	字符范围。匹配指定范围内的任意字符。例如，”`[a-z]`“可以匹配”`a`“到”`z`“范围内的任意小写字母字符。
`[^a-z]`	排除型的字符范围。匹配任何不在指定范围内的任意字符。例如，”`[^a-z]`“可以匹配任何不在”`a`“到”`z`“范围内的任意字符。
`\b`	匹配一个单词边界，也就是指单词和空格间的位置。例如，”`er\b`“可以匹配”`never`“中的”`er`“，但不能匹配”`verb`“中的”`er`“。
`\B`	匹配非单词边界。”`er\B`“能匹配”`verb`“中的”`er`“，但不能匹配”`never`“中的”`er`“。
`\cx`	匹配由 x 指明的控制字符。例如，`\cM` 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的”`c`“字符。
`\d`	匹配一个数字字符。等价于 `[0-9]`。
`\D`	匹配一个非数字字符。等价于 `[^0-9]`。
`\f`	匹配一个换页符。等价于 `\x0c` 和 `\cL`。
`\n`	匹配一个换行符。等价于 `\x0a` 和 `\cJ`。
`\r`	匹配一个回车符。等价于 `\x0d` 和 `\cM`。
`\s`	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 `[ \f\n\r\t\v]`。
`\S`	匹配任何非空白字符。等价于 `[^ \f\n\r\t\v]`。
`\t`	匹配一个制表符。等价于 `\x09` 和 `\cI`。
`\v`	匹配一个垂直制表符。等价于 `\x0b` 和 `\cK`。
`\w`	匹配包括下划线的任何单词字符。等价于”`[A-Za-z0-9]`“。
`\W`	匹配任何非单词字符。等价于”`[^A-Za-z0-9]`“。
`\xn`	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，”`\x41`“匹配”`A`“。”`\x041`“则等价于”`\x04&1`“。正则表达式中可以使用 ASCII 编码。.
`\num`	向后引用（back-reference）一个子字符串（substring），该子字符串与正则表达式的第 num 个用括号围起来的子表达式（subexpression）匹配。其中 num 是从 1 开始的正整数，其上限可能是 99。例如：”`(.)\1`“匹配两个连续的相同字符。
`\n`	标识一个八进制转义值或一个向后引用。如果 `\n` 之前至少 n 个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字（0-7），则 n 为一个八进制转义值。
`\nm`	标识一个八进制转义值或一个向后引用。如果 `\nm` 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 `\nm` 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字（0-7），则 `\nm` 将匹配八进制转义值 nm。
`\nml`	如果 n 为八进制数字（0-3），且 m 和 l 均为八进制数字（0-7），则匹配八进制转义值 nml。
`\un`	匹配 n，其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如，`\u00A9` 匹配版权符号（©）。

参考文章

Wikipedia 正则表达式

MDN RegExp

正则表达式 30 分钟入门教程 – DeerChao

前言

更新历史

为什么要正则表达式？

正则表达式入门教程推荐

正则表达式在线工具

正则表达式基本语法

常用正则表达式

参考文章

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

正则表达式从小白到入门

前言

更新历史

为什么要正则表达式？

正则表达式入门教程推荐

正则表达式在线工具

正则表达式基本语法

常用正则表达式

参考文章

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复