正则表达式速查与一些应用技巧解说
RegExp 对象示意正则表达式,它是对字符串执行模式匹配的弱小工具。
/pattern/attributes
new RegExp(_pattern_, _attributes_);
- 参数
_pattern_
是一个字符串,指定了正则表达式的模式或其余正则表达式。
- 参数
_attributes_
是一个可选的字符串,蕴含属性"g"、"i" 和 "m"
,别离用于指定全局匹配、辨别大小写的匹配和多行匹配。ECMAScript 标准化之前,不反对 m
属性。如果 _pattern_
是正则表达式,而不是字符串,则必须省略该参数。
修饰符 |
形容 |
i |
执行对大小写不敏感的匹配。 |
g |
执行全局匹配(查找所有匹配而非在找到第一个匹配后进行)。 |
m |
执行多行匹配。 |
表达式 |
形容 |
[abc] |
查找方括号之间的任何字符。 |
[^abc] |
查找任何不在方括号之间的字符。 |
[0-9] |
查找任何从 0 至 9 的数字。 |
[a-z] |
查找任何从小写 a 到小写 z 的字符。 |
[A-Z] |
查找任何从大写 A 到大写 Z 的字符。 |
[A-z] |
查找任何从大写 A 到小写 z 的字符。 |
[abcd] |
查找给定汇合内的任何字符。 |
[^abcd] |
查找给定汇合外的任何字符。 |
`(red\ |
blue\ |
green)` |
查找任何指定的选项。 |
- 元字符(Metacharacter)是领有非凡含意的字符
元字符 |
形容 |
. |
查找单个字符,除了换行和行结束符。 |
\w |
查找单词字符。 |
\W |
查找非单词字符。 |
\d |
查找数字。 |
\D |
查找非数字字符。 |
\s |
查找空白字符。 |
\S |
查找非空白字符。 |
\b |
匹配单词边界。 |
\B |
匹配非单词边界。 |
\0 |
查找 NUL 字符。 |
\n |
查找换行符。 |
\f |
查找换页符。 |
\r |
查找回车符。 |
\t |
查找制表符。 |
\v |
查找垂直制表符。 |
\xxx |
查找以八进制数 xxx 规定的字符。 |
\xdd |
查找以十六进制数 dd 规定的字符。 |
\uxxxx |
查找以十六进制数 xxxx 规定的 Unicode 字符。 |
量词 |
形容 |
n+ |
匹配任何蕴含 至多一个 n 的字符串。 |
n* |
匹配任何蕴含 零个或多个 n 的字符串。 |
n? |
匹配任何蕴含 零个或一个 n 的字符串。 |
n{X} |
匹配蕴含 X 个 n 的序列的字符串。 |
n{X,Y} |
匹配蕴含 X 至 Y 个 n 的序列的字符串。 |
n{X,} |
匹配蕴含至多 X 个 n 的序列的字符串。 |
n$ |
匹配任何结尾为 n 的字符串。 |
^n |
匹配任何结尾为 n 的字符串。 |
hxb(?=n) |
匹配 hxb 其后紧接指定字符串 n 的字符串。 |
hxb(?!n) |
匹配 hxb 其后没有紧接指定字符串 n 的字符串。 |
(?<=n)hxb |
匹配 hxb 其前有指定字符串 n 的字符串。 |
(?<!n)hxb |
匹配 hxb 其前没有指定字符串 n 的字符串。 |
属性 |
形容 |
global |
RegExp 对象是否具备标记 g。 |
ignoreCase |
RegExp 对象是否具备标记 i。 |
lastIndex |
一个整数,标示开始下一次匹配的字符地位。 |
multiline |
RegExp 对象是否具备标记 m。 |
source |
正则表达式的源文本。 |
办法 |
形容 |
compile |
编译正则表达式。 |
exec |
检索字符串中指定的值。返回找到的值,并确定其地位。 |
test |
检索字符串中指定的值。返回 true 或 false。 |
办法 |
形容 |
search |
检索与正则表达式相匹配的值。 |
match |
找到一个或多个正则表达式的匹配。 |
replace |
替换与正则表达式匹配的子串。 |
split |
把字符串宰割为字符串数组。 |
后面咱们有提到此量词,那么具体说一下他们的应用吧,后面的两个个别是 向后匹配
,而前面两个是 向前匹配
。
// 假如一种利用场景:咱们须要去除一个字符串中的空格,然而如果是字符串两头的空格,咱们须要保留,那么咱们能够应用此量词来实现。'前空格 两头有三个空格保留一个 后空格'.replace(/(^\s*)|(\s*$)|\s(?=\s)/g, ''); //' 前空格 两头有三个空格保留一个 后空格 ';
// 其中 \s(?=\s) 示意空格前面还有空格的咱们才替换掉。// 在看一下第二个量词,示意不等于。'helloworld helloothers'.replace(/hello(?!world)/, ''); //'helloworld others'; 找到前面不是 world 的 hello 替换掉。// 第三个与第四个恰恰相反
'helloworld testworld'.replace(/(?<=test)world/, ''); //'helloworld test'; 找到后面是 test 的 world 替换掉。'helloworld testworld'.replace(/(?<!hello)world/,''); // 'helloworld test'; 找到后面不是 hello 的 world 替换掉。
'123@456@789'.replace(/\d+/g, function (a, b, c) {
// 没有组的时候,a 为每次匹配的内容,b 为每次匹配到的字符地位,c 为原始字符串。console.log({a, b, c});
// {a: '123', b: 0, c: '123@456@789'}
// {a: '456', b: 4, c: '123@456@789'}
// {a: '789', b: 8, c: '123@456@789'}
switch (a) {
case '123':
return 'test1';
case '456':
return 'test2';
case '789':
return 'test3';
}
return 'test';
}); // test1@test2@test3
'123@456@789'.replace(/(\d+)/g, function (a, b, c, d) {
// 如果咱们写成组的时候,a 为每次匹配的内容,b 为每次组的内容,c 为每次匹配到的字符地位,最初 d 为原始字符串。console.log({a, b, c, d});
// {a: '123', b: '123', c: 0, d: '123@456@789'}
// {a: '456', b: '456', c: 4, d: '123@456@789'}
// {a: '789', b: '789', c: 8, d: '123@456@789'}
switch (a) {
case '123':
return 'test1';
case '456':
return 'test2';
case '789':
return 'test3';
}
return 'test';
}); // test1@test2@test3
/* ------------------------------ 分割线 ------------------------------ */
'123456@qq.com'.replace(/^([\dA-Za-z]\w*)@(qq\.com)$/, function (a, b, c, d, e) {
// 当有组的时候,a 为匹配字符串,b 为第一个组的内容,c 为第二个组的内容,以此类推。// 最初的两个别离为匹配到字符的地位、原始字符串(此处为 d e)。console.log({a, b, c, d, e});
// {a: '123456@qq.com', b: '123456', c: 'qq.com', d: 0, e: '123456@qq.com'}
return `qq:${b};domain:${c}`;
}); // qq:123456;domain:qq.com
'123456@qq.com'.replace(/^(?<qq>[\dA-Za-z]\w*)@(?<domain>qq\.com)$/, function (a, b, c, d, e, f) {
// 如果咱们给组命名了,那么 a 为匹配字符串,b 为第一个组的内容,c 为第二个组的内容,以此类推。// 最初的三个别离为匹配到字符的地位、原始字符串(此处为 d e)、以组名为 key 的对象(此处为 f)。console.log({a, b, c, d, e, f});
// {a: '123456@qq.com', b: '123456', c: 'qq.com', d: 0, e: '123456@qq.com', f: {qq: '123456', domain: 'qq.com'}}
return `qq:${b};domain:${c}`;
}); // qq:123456;domain:qq.com
当咱们小括号时,每个小括号外面的内容标识一个 组
,咱们能够对 组
进行命名,甚至援用。
// 假如咱们匹配一个邮箱号,咱们在正则中增加两组小括号。'123456@qq.com'.match(/^([\dA-Za-z]\w*)@(qq\.com)$/);
// 那么对应 组 1 的内容则是咱们匹配的 qq 局部,组 2 则是域名局部。console.log(RegExp.$1); // 123456; 为啥此处组是从 1 开始而不是从 0 呢?因为若从 0 开始,\0 与 NUL 示意符有抵触,且 0 其实就代表字符串自身,没有意义。console.log(RegExp.$2); // qq.com
// 咱们甚至能够这样做,进行组的援用或替换。'XiongBiao He'.replace(/(\w+) (\w+)/, '$2$1'); // HeXiongBiao
/(helloworld) \1/.test('helloworld helloworld'); // true
// \1 代表 组 1 的内容,所以以下匹配是谬误的。/(helloworld) \1/.test('helloworld helloothers'); // false
// 如果咱们无可奈何写了好几个组,然而只需其中一个,那么咱们能够应用 ?: 来示意对该组不记录。/^(?:red|green|blue) (#[\w\d]{3,6})$/.test('red #F00'); // true
console.log(RegExp.$1); // #F00,原本此处应该是 red,然而因为咱们应用了 ?: 操作符来回绝记录,所以此处变成了 #F00。// 咱们还能够对组进行命名,实用于咱们组特地多且难以分辨计算的状况,也不便了解。'123456@qq.com'.match(/^(?<qq>[\dA-Za-z]\w*)@(?<domain>qq\.com)$/);
// 当然组名也能够进行援用,然而须要应用 \k 符号。/(?<groupName>helloworld) \k<groupName>/.test('helloworld helloworld'); // true
escape('转码').toLocaleLowerCase().replace(/%u/gi, '\\u');
unescape('\u8f6c\u7801'.replace(/\\u/gi, '%u'));