从文本中提取数据须要用到正则表达式,以前看过一点,但随着不必很快又遗记了。这次又看了一下,记录一下要点:
总体能够分为几类,代表字符的、示意反复的、示意分界的、示意分组的
代表字符:
.能够代表出换行之外的任意一个字符,留神是一个字符
[]中括号内字符能够任意匹配其中一个字符,比方[0-9]示意匹配任意一个数字
代表字符的省略用法:
\d等价于[0-9],其大写示意相同:\D示意非数字,等价于1
\s匹配任意空字符,等价于[ \t\n\r\f]
还有一些写法,可参考:https://www.runoob.com/python...

代表反复:
*示意反复0-n个其后面的表达式内容
+示意反复1-n个其后面的表达式内容
?示意反复0-1个其后面的表达式内容
{n}示意反复n个其后面的表达式内容,还有{n,}、{n,m}

代表分界
^示意开始
$示意完结

代表分组
(re)括号代表分组,并记住re代表的匹配内容。如果有多个分组,返回时会把内容放在嵌套的元组中返回。

断言示意
零宽度断言如下:

?= 正后行断言-存在
?! 负后行断言-排除
?<= 正后发断言-存在
?<! 负后发断言-排除

图片参考https://blog.csdn.net/fd2025/...

另外有一个在线的正则表达式测试工具,在剖析文本法则时,能够借助应用,网址是:菜鸟工具https://c.runoob.com/front-en...
这篇文章讲的比拟具体,能够参考:https://blog.csdn.net/fd2025/...


  1. 0-9 ↩