关于javascript:JavaScript-正则表达式

6次阅读

共计 4408 个字符,预计需要花费 12 分钟才能阅读完成。

JavaScript 正则表达式

正则表达式速查与一些应用技巧解说

RegExp 对象

RegExp 对象示意正则表达式,它是对字符串执行模式匹配的弱小工具。

语法

/pattern/attributes

创立 RegExp 对象的语法

new RegExp(_pattern_, _attributes_);

参数

  • 参数 _pattern_ 是一个字符串,指定了正则表达式的模式或其余正则表达式。
  • 参数 _attributes_ 是一个可选的字符串,蕴含属性"g"、"i" 和 "m",别离用于指定全局匹配、辨别大小写的匹配和多行匹配。ECMAScript 标准化之前,不反对 m 属性。如果 _pattern_ 是正则表达式,而不是字符串,则必须省略该参数。

修饰符

  • 修饰符用于规定正则表达式的局部匹配规定(模式)
修饰符 形容
i 执行对大小写不敏感的匹配。
g 执行全局匹配(查找所有匹配而非在找到第一个匹配后进行)。
m 执行多行匹配。

方括号

  • 方括号用于查找某个范畴内的字符
表达式 形容
[abc] 查找方括号之间的任何字符。
[^abc] 查找任何不在方括号之间的字符。
[0-9] 查找任何从 0 至 9 的数字。
[a-z] 查找任何从小写 a 到小写 z 的字符。
[A-Z] 查找任何从大写 A 到大写 Z 的字符。
[A-z] 查找任何从大写 A 到小写 z 的字符。
[abcd] 查找给定汇合内的任何字符。
[^abcd] 查找给定汇合外的任何字符。
`(red\ blue\ green)` 查找任何指定的选项。

元字符

  • 元字符(Metacharacter)是领有非凡含意的字符
元字符 形容
. 查找单个字符,除了换行和行结束符。
\w 查找单词字符。
\W 查找非单词字符。
\d 查找数字。
\D 查找非数字字符。
\s 查找空白字符。
\S 查找非空白字符。
\b 匹配单词边界。
\B 匹配非单词边界。
\0 查找 NUL 字符。
\n 查找换行符。
\f 查找换页符。
\r 查找回车符。
\t 查找制表符。
\v 查找垂直制表符。
\xxx 查找以八进制数 xxx 规定的字符。
\xdd 查找以十六进制数 dd 规定的字符。
\uxxxx 查找以十六进制数 xxxx 规定的 Unicode 字符。

量词

  • 量词用于规定某段内容呈现的数量 / 次数
量词 形容
n+ 匹配任何蕴含 至多一个 n 的字符串。
n* 匹配任何蕴含 零个或多个 n 的字符串。
n? 匹配任何蕴含 零个或一个 n 的字符串。
n{X} 匹配蕴含 X 个 n 的序列的字符串。
n{X,Y} 匹配蕴含 X 至 Y 个 n 的序列的字符串。
n{X,} 匹配蕴含至多 X 个 n 的序列的字符串。
n$ 匹配任何结尾为 n 的字符串。
^n 匹配任何结尾为 n 的字符串。
hxb(?=n) 匹配 hxb 其后紧接指定字符串 n 的字符串。
hxb(?!n) 匹配 hxb 其后没有紧接指定字符串 n 的字符串。
(?<=n)hxb 匹配 hxb 其前有指定字符串 n 的字符串。
(?<!n)hxb 匹配 hxb 其前没有指定字符串 n 的字符串。

RegExp 对象属性

属性 形容
global RegExp 对象是否具备标记 g。
ignoreCase RegExp 对象是否具备标记 i。
lastIndex 一个整数,标示开始下一次匹配的字符地位。
multiline RegExp 对象是否具备标记 m。
source 正则表达式的源文本。

RegExp 对象办法

办法 形容
compile 编译正则表达式。
exec 检索字符串中指定的值。返回找到的值,并确定其地位。
test 检索字符串中指定的值。返回 true 或 false。

反对正则表达式的 String 对象的办法

办法 形容
search 检索与正则表达式相匹配的值。
match 找到一个或多个正则表达式的匹配。
replace 替换与正则表达式匹配的子串。
split 把字符串宰割为字符串数组。

其余

  • 谈谈 ?=?!?<=?<! 量词

后面咱们有提到此量词,那么具体说一下他们的应用吧,后面的两个个别是 向后匹配 ,而前面两个是 向前匹配

// 假如一种利用场景:咱们须要去除一个字符串中的空格,然而如果是字符串两头的空格,咱们须要保留,那么咱们能够应用此量词来实现。'前空格   两头有三个空格保留一个 后空格'.replace(/(^\s*)|(\s*$)|\s(?=\s)/g, ''); //' 前空格 两头有三个空格保留一个 后空格 '; 
// 其中 \s(?=\s) 示意空格前面还有空格的咱们才替换掉。// 在看一下第二个量词,示意不等于。'helloworld helloothers'.replace(/hello(?!world)/, ''); //'helloworld others'; 找到前面不是 world 的 hello 替换掉。// 第三个与第四个恰恰相反
'helloworld testworld'.replace(/(?<=test)world/, ''); //'helloworld test'; 找到后面是 test 的 world 替换掉。'helloworld testworld'.replace(/(?<!hello)world/,''); // 'helloworld test'; 找到后面不是 hello 的 world 替换掉。
  • replace 的应用
'123@456@789'.replace(/\d+/g, function (a, b, c) {
  // 没有组的时候,a 为每次匹配的内容,b 为每次匹配到的字符地位,c 为原始字符串。console.log({a, b, c});
  // {a: '123', b: 0, c: '123@456@789'}
  // {a: '456', b: 4, c: '123@456@789'}
  // {a: '789', b: 8, c: '123@456@789'}
  switch (a) {
    case '123':
      return 'test1';
    case '456':
      return 'test2';
    case '789':
      return 'test3';
  }
  return 'test';
}); // test1@test2@test3

'123@456@789'.replace(/(\d+)/g, function (a, b, c, d) {
  // 如果咱们写成组的时候,a 为每次匹配的内容,b 为每次组的内容,c 为每次匹配到的字符地位,最初 d 为原始字符串。console.log({a, b, c, d});
  // {a: '123', b: '123', c: 0, d: '123@456@789'}
  // {a: '456', b: '456', c: 4, d: '123@456@789'}
  // {a: '789', b: '789', c: 8, d: '123@456@789'}
  switch (a) {
    case '123':
      return 'test1';
    case '456':
      return 'test2';
    case '789':
      return 'test3';
  }
  return 'test';
}); // test1@test2@test3

/* ------------------------------ 分割线 ------------------------------ */

'123456@qq.com'.replace(/^([\dA-Za-z]\w*)@(qq\.com)$/, function (a, b, c, d, e) {
  // 当有组的时候,a 为匹配字符串,b 为第一个组的内容,c 为第二个组的内容,以此类推。// 最初的两个别离为匹配到字符的地位、原始字符串(此处为 d e)。console.log({a, b, c, d, e});
  // {a: '123456@qq.com', b: '123456', c: 'qq.com', d: 0, e: '123456@qq.com'}
  return `qq:${b};domain:${c}`;
}); // qq:123456;domain:qq.com

'123456@qq.com'.replace(/^(?<qq>[\dA-Za-z]\w*)@(?<domain>qq\.com)$/, function (a, b, c, d, e, f) {
  // 如果咱们给组命名了,那么 a 为匹配字符串,b 为第一个组的内容,c 为第二个组的内容,以此类推。// 最初的三个别离为匹配到字符的地位、原始字符串(此处为 d e)、以组名为 key 的对象(此处为 f)。console.log({a, b, c, d, e, f});
  // {a: '123456@qq.com', b: '123456', c: 'qq.com', d: 0, e: '123456@qq.com', f: {qq: '123456', domain: 'qq.com'}}
  return `qq:${b};domain:${c}`;
}); // qq:123456;domain:qq.com

多说一点

  • 的应用

当咱们小括号时,每个小括号外面的内容标识一个 ,咱们能够对 进行命名,甚至援用。

// 假如咱们匹配一个邮箱号,咱们在正则中增加两组小括号。'123456@qq.com'.match(/^([\dA-Za-z]\w*)@(qq\.com)$/);
// 那么对应 组 1 的内容则是咱们匹配的 qq 局部,组 2 则是域名局部。console.log(RegExp.$1); // 123456; 为啥此处组是从 1 开始而不是从 0 呢?因为若从 0 开始,\0 与 NUL 示意符有抵触,且 0 其实就代表字符串自身,没有意义。console.log(RegExp.$2); // qq.com

// 咱们甚至能够这样做,进行组的援用或替换。'XiongBiao He'.replace(/(\w+) (\w+)/, '$2$1'); // HeXiongBiao
/(helloworld) \1/.test('helloworld helloworld'); // true 
// \1 代表 组 1 的内容,所以以下匹配是谬误的。/(helloworld) \1/.test('helloworld helloothers'); // false

// 如果咱们无可奈何写了好几个组,然而只需其中一个,那么咱们能够应用 ?: 来示意对该组不记录。/^(?:red|green|blue) (#[\w\d]{3,6})$/.test('red #F00'); // true
console.log(RegExp.$1); // #F00,原本此处应该是 red,然而因为咱们应用了 ?: 操作符来回绝记录,所以此处变成了 #F00。// 咱们还能够对组进行命名,实用于咱们组特地多且难以分辨计算的状况,也不便了解。'123456@qq.com'.match(/^(?<qq>[\dA-Za-z]\w*)@(?<domain>qq\.com)$/);
// 当然组名也能够进行援用,然而须要应用 \k 符号。/(?<groupName>helloworld) \k<groupName>/.test('helloworld helloworld'); // true 

  • 应用正则进行 Unicode 转化
escape('转码').toLocaleLowerCase().replace(/%u/gi, '\\u');
unescape('\u8f6c\u7801'.replace(/\\u/gi, '%u'));
正文完
 0