JavaScript 正则表达式
正则表达式速查与一些应用技巧解说
RegExp 对象
RegExp 对象示意正则表达式,它是对字符串执行模式匹配的弱小工具。
语法
/pattern/attributes
创立 RegExp 对象的语法
new RegExp(_pattern_, _attributes_);
参数
- 参数
_pattern_
是一个字符串,指定了正则表达式的模式或其余正则表达式。 - 参数
_attributes_
是一个可选的字符串,蕴含属性"g"、"i" 和 "m"
,别离用于指定全局匹配、辨别大小写的匹配和多行匹配。ECMAScript 标准化之前,不反对 m
属性。如果 _pattern_
是正则表达式,而不是字符串,则必须省略该参数。
修饰符
修饰符 | 形容 |
---|
i | 执行对大小写不敏感的匹配。 |
g | 执行全局匹配(查找所有匹配而非在找到第一个匹配后进行)。 |
m | 执行多行匹配。 |
方括号
表达式 | 形容 |
---|
[abc] | 查找方括号之间的任何字符。 |
[^abc] | 查找任何不在方括号之间的字符。 |
[0-9] | 查找任何从 0 至 9 的数字。 |
[a-z] | 查找任何从小写 a 到小写 z 的字符。 |
[A-Z] | 查找任何从大写 A 到大写 Z 的字符。 |
[A-z] | 查找任何从大写 A 到小写 z 的字符。 |
[abcd] | 查找给定汇合内的任何字符。 |
[^abcd] | 查找给定汇合外的任何字符。 |
`(red\ | blue\ | green)` | 查找任何指定的选项。 |
元字符
- 元字符(Metacharacter)是领有非凡含意的字符
元字符 | 形容 |
---|
. | 查找单个字符,除了换行和行结束符。 |
\w | 查找单词字符。 |
\W | 查找非单词字符。 |
\d | 查找数字。 |
\D | 查找非数字字符。 |
\s | 查找空白字符。 |
\S | 查找非空白字符。 |
\b | 匹配单词边界。 |
\B | 匹配非单词边界。 |
\0 | 查找 NUL 字符。 |
\n | 查找换行符。 |
\f | 查找换页符。 |
\r | 查找回车符。 |
\t | 查找制表符。 |
\v | 查找垂直制表符。 |
\xxx | 查找以八进制数 xxx 规定的字符。 |
\xdd | 查找以十六进制数 dd 规定的字符。 |
\uxxxx | 查找以十六进制数 xxxx 规定的 Unicode 字符。 |
量词
量词 | 形容 |
---|
n+ | 匹配任何蕴含至多一个 n 的字符串。 |
n* | 匹配任何蕴含零个或多个 n 的字符串。 |
n? | 匹配任何蕴含零个或一个 n 的字符串。 |
n{X} | 匹配蕴含 X 个 n 的序列的字符串。 |
n{X,Y} | 匹配蕴含 X 至 Y 个 n 的序列的字符串。 |
n{X,} | 匹配蕴含至多 X 个 n 的序列的字符串。 |
n$ | 匹配任何结尾为 n 的字符串。 |
^n | 匹配任何结尾为 n 的字符串。 |
hxb(?=n) | 匹配 hxb 其后紧接指定字符串 n 的字符串。 |
hxb(?!n) | 匹配 hxb 其后没有紧接指定字符串 n 的字符串。 |
(?<=n)hxb | 匹配 hxb 其前有指定字符串 n 的字符串。 |
(?<!n)hxb | 匹配 hxb 其前没有指定字符串 n 的字符串。 |
RegExp 对象属性
属性 | 形容 |
---|
global | RegExp 对象是否具备标记 g。 |
ignoreCase | RegExp 对象是否具备标记 i。 |
lastIndex | 一个整数,标示开始下一次匹配的字符地位。 |
multiline | RegExp 对象是否具备标记 m。 |
source | 正则表达式的源文本。 |
RegExp 对象办法
办法 | 形容 |
---|
compile | 编译正则表达式。 |
exec | 检索字符串中指定的值。返回找到的值,并确定其地位。 |
test | 检索字符串中指定的值。返回 true 或 false。 |
反对正则表达式的 String 对象的办法
办法 | 形容 |
---|
search | 检索与正则表达式相匹配的值。 |
match | 找到一个或多个正则表达式的匹配。 |
replace | 替换与正则表达式匹配的子串。 |
split | 把字符串宰割为字符串数组。 |
其余
后面咱们有提到此量词,那么具体说一下他们的应用吧,后面的两个个别是向后匹配
,而前面两个是向前匹配
。
// 假如一种利用场景:咱们须要去除一个字符串中的空格,然而如果是字符串两头的空格,咱们须要保留,那么咱们能够应用此量词来实现。' 前空格 两头有三个空格保留一个 后空格 '.replace(/(^\s*)|(\s*$)|\s(?=\s)/g, ''); // '前空格 两头有三个空格保留一个 后空格'; // 其中 \s(?=\s) 示意空格前面还有空格的咱们才替换掉。// 在看一下第二个量词,示意不等于。'helloworld helloothers'.replace(/hello(?!world)/, ''); // 'helloworld others'; 找到前面不是 world 的 hello 替换掉。// 第三个与第四个恰恰相反'helloworld testworld'.replace(/(?<=test)world/, ''); // 'helloworld test'; 找到后面是 test 的 world 替换掉。'helloworld testworld'.replace(/(?<!hello)world/, ''); // 'helloworld test'; 找到后面不是 hello 的 world 替换掉。
'123@456@789'.replace(/\d+/g, function (a, b, c) { // 没有组的时候,a 为每次匹配的内容,b 为每次匹配到的字符地位,c 为原始字符串。 console.log({ a, b, c }); // {a: '123', b: 0, c: '123@456@789'} // {a: '456', b: 4, c: '123@456@789'} // {a: '789', b: 8, c: '123@456@789'} switch (a) { case '123': return 'test1'; case '456': return 'test2'; case '789': return 'test3'; } return 'test';}); // test1@test2@test3'123@456@789'.replace(/(\d+)/g, function (a, b, c, d) { // 如果咱们写成组的时候,a 为每次匹配的内容,b 为每次组的内容,c 为每次匹配到的字符地位,最初 d 为原始字符串。 console.log({ a, b, c, d }); // {a: '123', b: '123', c: 0, d: '123@456@789'} // {a: '456', b: '456', c: 4, d: '123@456@789'} // {a: '789', b: '789', c: 8, d: '123@456@789'} switch (a) { case '123': return 'test1'; case '456': return 'test2'; case '789': return 'test3'; } return 'test';}); // test1@test2@test3/* ------------------------------ 分割线 ------------------------------ */'123456@qq.com'.replace(/^([\dA-Za-z]\w*)@(qq\.com)$/, function (a, b, c, d, e) { // 当有组的时候,a 为匹配字符串,b 为第一个组的内容,c 为第二个组的内容,以此类推。 // 最初的两个别离为匹配到字符的地位、原始字符串(此处为 d e)。 console.log({ a, b, c, d, e }); // {a: '123456@qq.com', b: '123456', c: 'qq.com', d: 0, e: '123456@qq.com'} return `qq:${b};domain:${c}`;}); // qq:123456;domain:qq.com'123456@qq.com'.replace(/^(?<qq>[\dA-Za-z]\w*)@(?<domain>qq\.com)$/, function (a, b, c, d, e, f) { // 如果咱们给组命名了,那么 a 为匹配字符串,b 为第一个组的内容,c 为第二个组的内容,以此类推。 // 最初的三个别离为匹配到字符的地位、原始字符串(此处为 d e)、以组名为 key 的对象(此处为 f)。 console.log({ a, b, c, d, e, f }); // {a: '123456@qq.com', b: '123456', c: 'qq.com', d: 0, e: '123456@qq.com', f: {qq: '123456', domain: 'qq.com'}} return `qq:${b};domain:${c}`;}); // qq:123456;domain:qq.com
多说一点
当咱们小括号时,每个小括号外面的内容标识一个组
,咱们能够对组
进行命名,甚至援用。
// 假如咱们匹配一个邮箱号,咱们在正则中增加两组小括号。'123456@qq.com'.match(/^([\dA-Za-z]\w*)@(qq\.com)$/);// 那么对应 组1 的内容则是咱们匹配的 qq 局部,组2 则是域名局部。console.log(RegExp.$1); // 123456; 为啥此处组是从 1 开始而不是从 0 呢?因为若从 0 开始,\0 与 NUL 示意符有抵触,且 0 其实就代表字符串自身,没有意义。console.log(RegExp.$2); // qq.com// 咱们甚至能够这样做,进行组的援用或替换。'XiongBiao He'.replace(/(\w+) (\w+)/, '$2$1'); // HeXiongBiao/(helloworld) \1/.test('helloworld helloworld'); // true // \1 代表 组1 的内容,所以以下匹配是谬误的。/(helloworld) \1/.test('helloworld helloothers'); // false// 如果咱们无可奈何写了好几个组,然而只需其中一个,那么咱们能够应用 ?: 来示意对该组不记录。/^(?:red|green|blue) (#[\w\d]{3,6})$/.test('red #F00'); // trueconsole.log(RegExp.$1); // #F00,原本此处应该是 red,然而因为咱们应用了 ?: 操作符来回绝记录,所以此处变成了 #F00。// 咱们还能够对组进行命名,实用于咱们组特地多且难以分辨计算的状况,也不便了解。'123456@qq.com'.match(/^(?<qq>[\dA-Za-z]\w*)@(?<domain>qq\.com)$/);// 当然组名也能够进行援用,然而须要应用 \k 符号。/(?<groupName>helloworld) \k<groupName>/.test('helloworld helloworld'); // true
escape('转码').toLocaleLowerCase().replace(/%u/gi, '\\u');unescape('\u8f6c\u7801'.replace(/\\u/gi, '%u'));