关于正则表达式:手把手教你写正则表达式

1.什么是正则表达式

正则表达式是一种被用于从文本中检索合乎某些特定模式的文本。

正则表达式是从左到右来匹配一个字符串的。英文Regular Expression，咱们通常应用它的缩写 "regex" 或者 "regexp"。正则表达式能够被用来替换字符串中的文本、验证表单、基于模式匹配从一个字符串中提取字符串等等。

2.为什么要学习正则表达式

正则表达式在咱们开发过程中很罕用，然而很多人并不会写正则表达式，每到要用正则表达式的时候怎么办呢？万能解决办法百度。真是一个好方法。万一百度没有本人想要的答案怎么办呢？那只能本人边学边写。这篇文章将能够帮忙你边学边写正则表达式----文尾附罕用正则表达式。

3.元字符

元字符是正则表达式的根本组成元素。元字符在这里跟它通常表白的意思不一样，而是以某种非凡的含意去解释。有些元字符写在方括号内的时候有非凡含意。元字符如下:

元字符	形容
.	匹配除换行符以外的任意字符
[]	字符类，匹配方括号中蕴含的任意字符。
[^]	否定字符类。匹配方括号中不蕴含的任意字符。
*	匹配后面的子表达式零次或屡次
+	匹配后面子表达式一次或屡次
?	匹配后面的子表达式零次或一次。
{n,m}	花括号，匹配后面字符至多n次，然而不超过m次
(x,y,z)	依照确切的程序匹配字符xyz
\		分支构造，匹配分支构造其中一个字符
\	本义符，它能够还原元字符原来的含意，容许你匹配保留字符 `[ ] ( ) { } . * + ? ^ $ \
^	匹配行的开始
$	匹配行的完结

3.0.举例和测试方法

例如正则表达式[H|g]ello能够匹配字符串Hello或hello。那么咱们写完正则表达式后该怎么测试呢？

咱们能够应用在线的正则表达式测试平台进行测试；例如菜鸟在线测试

咱们也能够应用对应的编程语言进行测试。

JavaScript

// 须要匹配的字符var str = 'Hello'// replace 里参数是正则表达式var s = str.replace('[H|h]ello');console.log(s)

Java

 public static void main(String[] args) {        // 要验证的字符串        String str = "hello";        // 验证规定        String regEx = "[H|h]ello";        // 编译正则表达式        Pattern pattern = Pattern.compile(regEx);        // 疏忽大小写的写法        // Pattern pat = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);        Matcher matcher = pattern.matcher(str);        // 字符串是否与正则表达式相匹配        boolean rs = matcher.matches();        System.out.println(rs);    }

Golang

package mainimport (    "fmt"    "regexp")func main() {    str := "hello"    matched, _ := regexp.MatchString("[H|h]ello", str)    fmt.Println(matched)}

Python

import repattern = re.compile(u'[H|h]ello')str = u'hello'print(pattern.search(str))

1.英文句号

英文句号.是元字符的最简略的例子。元字符 . 能够匹配任意单个字符。它不会匹配换行符和新行的字符。

例如正则表达式

.ar

它能够匹配par、6ar、zar等。

3.2.字符集

字符集也称为字符类。方括号被用于匹配字符集。应用字符集内的连字符来指定字符范畴。方括号内的字符范畴的程序并不重要。例如正则表达式

[tTs]he

能够匹配字符the、The、she。

留神：方括号里的.示意它的字面意思。也就是说[.]ar只能匹配.ar字符，不能匹配par、6ar、zar等字符。

3.3.否定字符集

一般来说插入字符 ^ 示意一个字符串的开始，然而当它在方括号内呈现时，它会勾销字符集。例如正则表达式

[^tTs]he

示意只有不是以t、T、s结尾的以he结尾的字符都能被它匹配。

3.4.反复

元字符 +，* 或 ? 能够用于指定子模式能够呈现多少次。这些元字符在不同状况下的作用不同。

星号

符号 * 示意匹配上一个匹配规定的零次或屡次。如果呈现在字符集或者字符类之后，它示意整个字符集的反复。

例如正则表达式

[a-z]*

它能够匹配一行中任意数量的小写字母。

*也能够和.一起应用，例如.*，用来匹配任意字符串。

加号

符号 + 匹配上一个字符的一次或屡次。例如正则表达式

a+t

能够匹配aat、aaat..等字符。

问号

元字符 ? 用来示意前一个字符是可选的。该符号匹配前一个字符的零次或一次。例如正则表达式

[Tts]?he

能够匹配字符he、the、The、she。

3.5.花括号

在正则表达式中花括号用于指定字符或一组字符能够反复的次数。例如正则表达式

[0-9]{2,5}

示意数字0~9能够至多反复2次最多反复5次。

也能够写为

[0,9]{2,}

示意数字0~9至多反复2次

或者

[0.9]{5}

示意0~9最多反复5次

3.6.分支构造

元字符|用来定义分支构造，分支构造就像多个表达式之间的条件（switch）。例如正则表达式

[Tts]he

通过测试之后你可能认为分支构造跟字符集没有区别，但事实不是这样的。字符汇合分支构造最大的区别是字符集只在字符级别上起作用，但分支构造在表达式级别任然有作用。例如正则表达式

[Tts]he|car

它能够匹配The、the、she或者car这两类。

3.7.转移特殊字符

正则表达式中应用反斜杠 \ 来本义下一个字符。这将容许你应用保留字符来作为匹配字符 { } [ ] / \ + * . $ ^ | ?。在特殊字符后面加 \，就能够应用它来做匹配字符。例如正则表达式

(c|m)at\.

能够匹配mat.、cat.

3.8.定位符

在正则表达式中，为了查看匹配符号是起始符号或结尾符号，能够应用定位符^查看字符是否是起始字符，应用$查看匹配字符是否是字符最初一个字符。

起始定位符

插入符号 ^ 符号用于查看匹配字符是否是输出字符串的第一个字符。例如正则表达式

^[Tt]he

它能够匹配所有以the或The开始的所有字符。

结尾定位符

美元符号$能够查看一组字符是否以某个子字符结尾。例如正则表达式

end$

它能够匹配所有以end结尾的字符。

4.简写字符集

正则表达式为罕用的字符集和罕用的正则表达式提供了简写。简写字符集如下:

简写	形容
.	匹配出换行符以外的任意字符
\w	匹配所有字母和数字的字符：[a-zA-Z0-9_]
\W	匹配非字母和数字的字符: `[^\w]`
\d	匹配数字: `[0-9]`
\D	匹配非数字: `[^\d]`
\s	匹配空格符: `[\t\n\f\r\p{Z}]`
\S	匹配非空格符: `[^\s]`

5.标记

标记也称为修饰符，因为它会批改正则表达式的输入。这些标记能够以任意程序或组合应用，并且是正则表达式的一部分。

标记	形容
i	不辨别大小写: 将匹配设置为不辨别大小写。
g	全局搜寻: 搜寻字符串中的所有匹配。
m	多行匹配: 会匹配输出字符串每一行。

标记在正则表达式中的用法如下

正则表达式/标记符

留神：在线测试标识符在选项中，本人抉择而不必写进去。

对字符不辨别大小写且全局搜寻

\w\gi

对字符全局搜寻多行匹配

\w\gm

6.断言

断言即满足某个条件，断言有些中央又叫零宽断言，它用于（不）匹配某些字符后面或者前面的字符。断言有以下几种：

符号	形容
(?=exp)	正向后行断言：正则用于匹配?=后面的内容满足?=前面是exp
(?<=exp)	正向后行断言：正则用于匹配exp前面满足某个条件的内容
(?!exp)	负向正行断言：正则用于匹配exp前面不满足某个条件的内容
(?<!exp)	负向后行断言：正则用于匹配exp前面不满足某个条件的内容

正向后行断言

正向后行断言用于找到某个内容后用正则去匹配它后面的内容。例如正则表达式

(H|h)(?=ello)

它用于找到ello后，如果后面是h或者H，则返回H或h。

正向后行断言

后向后行断言用于找到某个内容后用正则去匹配它前面的内容。例如正则表达式

(?<=[h|H])ello

它用于找到H或者h后，去匹配前面内容是不是ello,如果是返回ello

负向后行断言

(H|h)(?!ello)

找到H或h后前面不是ello,返回H或h

负向后行断言

(?<!(H|h))ello

找到ello后，如果后面不是H或h，返回ello

7.罕用正则表达式

7.1.邮箱

pikachues-001@gmail.com 只容许英文字母、数字、下划线、英文句号、以及中划线组成

^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$

7.2.手机号

13012345678 手机号

    ^1(3|4|5|6|7|8|9)\d{9}$

7.3.域名

https://google.com/

^((http:\/\/)|(https:\/\/))?([a-zA-Z0-9]([a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}(\/)

7.4.ip

127.0.0.1

((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))

7.5.帐号校验

pikachues_001 字母结尾，容许5-16字节，容许字母数字下划线

^[a-zA-Z][a-zA-Z0-9_]{4,15}$

7.6.字符校验

汉字

^[\u4e00-\u9fa5]{0,}$

英文和数字

由数字和26个英文字母组成的字符串

^[A-Za-z0-9]+$

由26个英文字母组成的字符串

^[A-Za-z]+$

由26个大写英文字母组成的字符串

^[A-Z]+$

由26个小写英文字母组成的字符串

^[a-z]+$

长度为3-20的所有字符

^.{3,20}$

中文、英文、数字包含下划线

^[\u4E00-\u9FA5A-Za-z0-9_]+$

中文、英文、数字但不包含下划线等符号

^[\u4E00-\u9FA5A-Za-z0-9]+$

7.7.数字校验

整数

^-?[1-9]\d*$

正整数

^[1-9]\d*$

负整数

^-[1-9]\d*$

非负整数

^[1-9]\d*|0$

非正整数

^-[1-9]\d*|0$

浮点数

^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

正浮点数

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$

负浮点数

^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$

非负浮点数

^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

非正浮点数

^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

8.更多扩大

扩大书籍