乐趣区

关于java:正则表达式的总结

正则表达式学习

  • 正则表达式就用来是解决 <span style=’color:red;background: 背景色彩;font-size: 文字大小;’> 字符串搜寻与替换问题 </span> 的,能够用正则表达式引擎判断一个字符串是不是合乎正则表达式引擎中的定义好的规定,并且规定往往是几个简略地字符示意的,看上去很简洁,只不过如果不会正则表达式的,看起来会更加难懂
  • 正则表达式的作用外围是应用状态机的思维进行模式匹配
  • 集体了解写好正则表达式只须要组合好 <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>惟一匹配 + 反复匹配 + 规定关系</span> 即可

字符

  • 准确匹配,也就是截然不同

    System.out.println("t".matches("t"));  // true
    System.out.println("t*".matches("t\\*"));  // true 留神对于个别字符串 * 不是特殊字符 在正则中 * 是特殊字符,因而要表白其原本的意思须要应用本义(此本义时正则中的本义,不是个别的转义字符),即 \*,然而 \* 并非规范的转义字符,因而应用 \ 字符与 * 字符拼接标识本义(此本义时正则中的本义,而不是个别字符串中的本义),而表白字符则须要 \\
    System.out.println("$".matches("\\$"));  // true
    
    System.out.println("\t".matches("\t"));  // false 正则匹配转义字符,源字符串解析不解析为本义
    System.out.println("\t".matches("\\t")); // true 正则从左到右匹配,在正则中用到了对于 \ 的本义标识 \ 字符串自身,这里匹配时把一般字符串中的转义字符视为两个字符,相当于准确匹配
    System.out.println("\\t".matches("\\t")); // false 
    System.out.println("\\t".matches("\\\\t")); // true 正则表达式中匹配本义,源字符串不匹配本义
    • 对于失常的字符串来说,除了一般字符和转义字符之外,特殊字符有如下几个

      • \ 作为转义字符的标识符,如果想不做为标识符应用,而是独自作为字符串自身应用,必须应用\\
      • ' 单引号,Java 的字符,js 的字符串,都能够应用单引号标识,因而为了防止混同应用 \' 标识单引号自身
      • "双引号,多种语言的字符都应用双引号标识,为了防止混同应用 \" 标识双引号字符自身
    • 正则承受个别的转义字符,也承受正则本人引入的所谓的转义字符(提供正则性能)

      • 对于正则引擎来说 <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>对于个别的转义字符,\与后边的被转译字符视为一个字符(事实上也的确如此),而对于正则本人引入的转义字符,\与后边的被转译字符视为两个字符,只不过这种字符组合形成了本义的性能</span>

        • <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>然而对于待匹配或替换解决的原始字符串不会把转义字符当做一个字符来解决,而是拆开解决</span>
      • <span style=’color:green;background: 背景色彩;font-size: 文字大小;’> 正则本人引入的字符 </span>

        • 让特殊字符失去其本意的本义 System.out.println("t*".matches("t\\*"));
        • 提供非凡性能的本义 \w \d
  • <span style=’color:blue;background: 背景色彩;font-size: 文字大小;’>应用正则表达式引擎提供的特殊字符时务必留神不要与转义字符混同</span>

    • <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>转义字符的作用是让一个特殊字符失去其自身的含意,而作为一个一般的字符,对于一般字符来说即便使其具备非凡的含意</span>

      • 特殊字符以及其自身含有的非凡含意包含:

        • 示意惟一匹配(匹配无限数量的字符)

          • . 匹配一个并且必须是 1 个的 <span style=’color:green;background: 背景色彩;font-size: 文字大小;’> 除了换行符之外的任意字符 </span>
          • \d 匹配一个数字
          • \D除了数字之外的字符
          • \w字母、数字、下划线
          • \W除了字母、数字、下划线之外的字符
          • \s空白字符(空格 + 制表符 + 换页符 + 换行符)
          • \S除了空白字符之外的其余字符
          • 指定范畴的匹配

            • [123] 枚举匹配

              • <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>枚举匹配时须要留神,方括号内能够间接枚举特殊字符,包含 *?+ 等等而不须要做本义即可示意字符串自身</span>
            • [n-m1-2A-b]指定范畴匹配(范畴的起始点与终止点都蕴含)(留神多范畴之间无空格)

              • 应用 ^ 取非 留神仅在范畴匹配,也就是方括号外部应用 ^ 做取非
          • 除了上述的特殊字符外,正则还提供了一些其余的特殊字符,局部特殊字符与一般的转义字符反复

        • 反复匹配(匹配有限数量的字符)(通配符 + 汇合区间)(反复匹配作为修饰符放在惟一匹配的字符后边)

          • 星号 匹配任意多个合乎规定的字符
          • 加号 匹配至多一个
          • ? 匹配 0 个或者 1 个
          • {n} 匹配 n 个
          • {n,m}匹配至多 n 个,至少 m 个, m 省略示意至多含意,n 设置为 0 示意至少含意
      • 对于一般字符的本义

      • 正则表达式中须要进行本义以示意字符自身的特殊字符
      • *
      • .
      • ?
      • +
      • $
      • ^
      • 方括号
      • 圆括号
      • 大括号
      • |
      • \

规定

地位边界 + 正则模式

  • 地位边界用来限度匹配的地位,通过限度匹配的地位筛选掉不符合条件的匹配

单词边界

  • \b字符边界(留神这个正则的特殊字符与一般转义字符中有反复,在正则中显然作为字符边界解决)

    • b 是 boundary 的首字母。在正则引擎里它匹配的是能形成单词的字符 (\w) 和不能形成单词的字符 (\W) 两头的那个地位
  • \B标识非字符边界
  • 案例

    String p = "The cat scattered his food all over the room.";
    System.out.println(p.replaceAll("\\bcat\\b", "*"));  // The * scattered his food all over the room.
    • 留神正则的内置特殊字符的应用形式
    • 留神 replaceAll API 的应用:间接返回更改后的新的 String,而不是把新的 String 赋给原字符串变量援用变量

字符串边界

  • 实用于多行匹配的模式下对于字符串的匹配

    • ^标识字符串的结尾

      • 是否应用 ^ 边界符号的区别在于,是否是针对整个字符串的匹配

        "(T|t)he" => The car is parked in the garage.    // 字符串中的两个 the 都会被选中
        "^(T|t)he" => The car is parked in the garage.   // 只有字符串首部的 The 被选中,因为筛选的是以 The 或者 the 结尾的字符串
    • $标识字符串的结尾

      • 同样的,是否应用 $ 边界符号的区别在于,是否是针对整个字符串的匹配

        "(at\.)" => The fat cat. sat. on the mat.      // cat. sat. mat. 都被选中
        "(at\.)$" => The fat cat. sat. on the mat.     // 只有最初一个 mat. 被选中
  • 字符串边界符号与正则模式的配合应用

    • 在多行字符串的匹配中当只是用字符串边界符号时,仅仅能匹配第一行或最初一行,因为有换行符的存在所以只能匹配一行

      String p1 = String.join("\n", "I am scq000.", "I am scq000.");
      // *
      // I am scq000.
      System.out.println(p1.replaceAll("^I am scq000\\.", "*"));
      
      
      // I am scq000.
      // *
      System.out.println(p1.replaceAll("I am scq000\\.$", "*"));
      
      // 多行无奈匹配
      // I am scq000.
      // I am scq000.
      System.out.println(p1.replaceAll("^I am scq000\\.$", "*"));
    • 多行匹配的引入

      System.out.println(p1.replaceAll("(?m)^I am scq000\\.$", "*"));
      • 应用 (?m) 引入多行模式
      Pattern p = Pattern.compile("^I am scq000\\.$", Pattern.MULTILINE);
      Matcher m = p.matcher(p1);
      System.out.println(m.find());
      • 应用 Pattern 解析正则,引入正则模式
      Pattern p1 = Pattern.compile("^.*b.*$");
      // 输入 false, 因为正则表达式中呈现了 ^ 或 $,默认只会匹配第一行,第二行的 b 匹配不到。System.out.println(p1.matcher("a\nb").find());
      Pattern p2 = Pattern.compile("^.*b.*$",Pattern.MULTILINE);
      // 输入 true, 指定了 Pattern.MULTILINE 模式,就能够匹配多行了。System.out.println(p2.matcher("a\nb").find());
      "/.at(.)?$/" => The fat
                      cat sat
                      on the mat.    只有 mat 匹配
        
      "/.at(.)?$/gm" => The fat
                      cat sat
                      on the mat.   fat sat mat 都匹配

正则模式

  • m 多行模式
  • g 全局模式 匹配全副的合乎规定的而不只是第一个
  • i疏忽大小写
  • 指定模式的两种形式:

    • 在正则表达式中指定

      • 留神 Java 中应用正则表达式模式的形式
      String p1 = String.join("\n", "I Am scq000.", "I am scq000.");
      // 后果为:// I Am scq000.
      // * 
      // 可见第一行并未匹配
      System.out.println(p1.replaceAll("I am scq000\\.", "*"));
      
      // 多行模式 大小写无关模式
      // 后果为:// *
      // * 
      // 可见全副都匹配
      System.out.println(p1.replaceAll("(?mi)I am scq000\\.", "*"));
      • 在最结尾应用 (?m) (?i) 来标识正则模式,也能够应用组合模式(?mi)
      • 全局模式不能应用此办法指定,全局还是非全局更多的是通过 API 的形式,比方replaceAll replaceFirst
    • 在 API 参数中指定

      Pattern p1 = Pattern.compile("^.*b.*$");
      // 输入 false, 因为正则表达式中呈现了 ^ 或 $,默认只会匹配第一行,第二行的 b 匹配不到。System.out.println(p1.matcher("a\nb").find());
      Pattern p2 = Pattern.compile("^.*b.*$",Pattern.MULTILINE);
      // 输入 true, 指定了 Pattern.MULTILINE 模式,就能够匹配多行了。System.out.println(p2.matcher("a\nb").find());
      • Pattern 解析正则时除了提供了多行模式外,还提供了以下几种模式

        • DOTALL 模式 用来解决正则表达式中的 . 通配符不蕴含换行符带来的问题

          Pattern p1 = Pattern.compile("a.*b");
          // 输入 false,默认点 (.) 没有匹配换行符
          System.out.println(p1.matcher("a\nb").find());
          Pattern p2 = Pattern.compile("a.*b", Pattern.DOTALL);
          // 输入 true, 指定 Pattern.DOTALL 模式,能够匹配换行符。System.out.println(p2.matcher("a\nb").find());
        • UNIX_LINES
        • CASE_INSENSITIVE
        • LITERAL
        • UNICODE_CASE
        • CANON_EQ
        • UNICODE_CHARACTER_CLASS
        • 同时应用多个模式的案例

          Pattern p1 = Pattern.compile("^a.*b$");
          // 输入 false
          System.out.println(p1.matcher("cc\na\nb").find());
          Pattern p2 = Pattern.compile("^a.*b$", Pattern.DOTALL);
          // 输入 false, 因为有 ^ 或 & 没有匹配到下一行
          System.out.println(p2.matcher("cc\na\nb").find());
          Pattern p3 = Pattern.compile("^a.*b$", Pattern.MULTILINE);
          // 输入 false,匹配到下一行,但. 没有匹配换行符
          System.out.println(p3.matcher("cc\na\nb").find());
          // 指定多个模式,两头用 | 隔开
          Pattern p4 = Pattern.compile("^a.*b$", Pattern.DOTALL|Pattern.MULTILINE);
          // 输入 true
          System.out.println(p4.matcher("cc\na\nb").find());
      • 以上各个模式的用处可查看源码正文,每一个模式都反对对应的正则表达式内嵌的标识办法,能够参考其正文

子表达式

  • 应用小括号将表达式进行拆分,失去子正则表白的组合,更加灵便。
  • 一个简略的例子:座机号码的区号 - 电话号的组合,匹配之后,想拆分出区号与电话号,能够应用 split,substring 等简单的办法,然而比拟麻烦,并且没有复用性,应用分组能够不便的进行拆分并失去其匹配的值
  • 要想高效应用分组子表达式须要用到 <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>回溯援用</span>
回溯援用
  • 回溯援用是在分组的根底之上应用的,指的是模式的后边的局部援用前边局部的曾经匹配了的子表达式,应用回溯表达式有以下两点益处

    • 能够写出更加精简高效的正则

      • 在正则表达式中间接应用回溯的语法是:

        • 回溯援用的语法像 \1,\2,…., 其中\1 示意援用的第一个子表达式,\2示意援用的第二个子表达式,以此类推。而 \0 则示意整个表达式
        • 案例:匹配字符串中的两个间断的雷同的单词 Hello what what is the first thing, and I am am scq000.\b(\w+)\s\1
    • 能够应用正则抽取分组信息

      • <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>Pattern 类配合 Matchr 类</span>

        String regex20 = "([0-9]{3,4})-([1-9]{7,8})";
        Pattern pattern = Pattern.compile(regex20);
        Matcher matcher = pattern.matcher("0312-2686815");
        
        // 留神只有通过 matches 判断后的 matcher 能力进行分组提取,否则会报错 No Match Fund
        if (matcher.matches()) {
          // 留神分组从 1 开始,序号为 0 的分组是字符串整体
          // 区号
          System.out.println(matcher.group(1));
          // 电话号
          System.out.println(matcher.group(2));
          // 匹配的整体
          System.out.println(matcher.group(0));
        } else {System.out.println("不匹配");
        }
        
        
        // 去掉区号
        System.out.println("0312-2686815".replaceAll(regex20, "$2"));
        • "str.matches"办法外部应用的也是 Pattern 与 Matchr,每一次调用办法都创立一个新的 Patterm 对象和一个新的 Matcher 对象,举荐间接定义一个 Pattern 来复用,以晋升性能
        • <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>应用回溯进行分组提取时,应用的特殊字符为 $1 而不是 \1,同样留神$0 代表整体,$1才是第一个分组,以此类推</span>
    • 如果要回绝子正则表达式被援用,则在子正则的前边加上?:

      String regex20 = "(?:[0-9]{3,4})-([1-9]{7,8})";
      // $0 依然是示意整体,$1 由第二个子表达式补位,此时再援用 $2 会报错 No Group 2
      System.out.println("0312-2686815".replaceAll(regex20, "$2"));
    • <span style=’color:red;background: 背景色彩;font-size: 文字大小;’>由上边的非捕捉正则 ?: 引出前向查找和后向查找(也能够称作零宽度断言)—- 相对来说说比拟难以了解</span>

      • <span style=’color:blue;background: 背景色彩;font-size: 文字大小;’>应用断言的说法更容易了解,因为其作用就在于对子表达式附加断言,从而为正则匹配增加筛选条件,所谓前后就是表征这个断言限度条件是作用在子表达式前还是后(对于后发的写法的记忆伎俩:从后指向前的箭头),所谓正负表征的就是逻辑上的是与否(正负在写法上的差异就是 = 与!的差异)</span>
      • 须要留神的是断言表达式自身不作为匹配的内容,只是作为断言的辅助阐明
      • 正后行断言 (?=regex)

        • "(T|t)he(?=\sfat)" => The fat cat sat on the mat. 匹配第一个 The
        • 除断言之外的表达式能够匹配两个 the,退出断言后只匹配第一个 The,因为其后边是 fat
      • 负后行断言 (?!regex)

        • "(T|t)he(?!\sfat)" => The fat cat sat on the mat. 匹配第二个 the
        • 筛选出不满足断言的
      • 正后发断言 (?<=regex)

        • "(?<=(T|t)he\s)(fat|mat)" => The fat cat sat on the mat. 匹配 fat 和 mat
        • 断言条件的地位在子正则之前
      • 负后发断言 (?<!regex)

        • "(?<!(T|t)he\s)(cat)" => The cat sat on cat. 匹配第二个 cat

逻辑组合

  • 在正则中,多个规定写在一起时,默认是与关系
  • |或关系
  • [^] 枚举或指定范畴的匹配的取反
  • ! 负先发断言,负后发断言

贪心匹配与惰性匹配

  • 默认是贪心匹配,贪心匹配会在从左到右的匹配中匹配尽可能多的字符 "/(.*at)/" => The fat cat sat on the mat. 整个字符串全副匹配
  • 贪心匹配更改为惰性匹配应用 ? 即可:将 ? 加在反复匹配的修饰符(* + ?等)后边即可
  • 案例

    • "/(.*?at)/" => The fat cat sat on the mat. at前边是任意数量的字符,惰性匹配就在这个任意数量的修饰符后加上 ? 标识尽可能少匹配字符 因而只匹配The fat
    • 判断字符串数字开端的 0 的个数

      • 123000 -> "(\\d+)(0*)" -> "123000" "" 至多一个数字?我全都要
      • 123000 -> "(\\d+?)(0*)" -> "123" "000" 至多一个数字?那就给你 1 个吧!然而思考到后边的只想要 0,那就把 0 前边的都给你
      • 0000 -> "(\\d+?)(0*)" -> "0" "000" 至多一个数字,那就给你 1 个,其余的后边的正好都要!哈哈
      • 9999 -> "(\\d??)(9*)" -> """9999" 可有可无,正好后边都想要呢,那你就没了~

参考

  • 正则表达式不要背
  • regex 在线解析网站
  • learn regex
  • Java 正则表达式匹配多行
  • Java 正则表达式
退出移动版