共计 634 个字符,预计需要花费 2 分钟才能阅读完成。
从文本中提取数据须要用到正则表达式,以前看过一点,但随着不必很快又遗记了。这次又看了一下,记录一下要点:
总体能够分为几类,代表字符的、示意反复的、示意分界的、示意分组的
代表字符:
. 能够代表出换行之外的任意一个字符,留神是 一个字符 !
[] 中括号内字符能够任意匹配其中一个字符,比方 [0-9] 示意匹配任意一个数字
代表字符的省略用法:
\d 等价于 [0-9],其大写示意相同:\D 示意非数字,等价于1
\s 匹配任意空字符,等价于[\t\n\r\f]
还有一些写法,可参考:https://www.runoob.com/python…
代表反复:
* 示意反复 0 - n 个其后面的表达式内容
+ 示意反复 1 - n 个其后面的表达式内容
? 示意反复 0 - 1 个其后面的表达式内容
{n} 示意反复 n 个其后面的表达式内容, 还有{n,}、{n,m}
代表分界
^ 示意开始
$ 示意完结
代表分组
(re) 括号代表分组,并记住 re 代表的匹配内容。如果有多个分组,返回时会把内容放在嵌套的元组中返回。
断言示意
零宽度断言如下:
?= 正后行断言 - 存在
?! 负后行断言 - 排除
?<= 正后发断言 - 存在
?<! 负后发断言 - 排除
图片参考 https://blog.csdn.net/fd2025/…
另外有一个在线的正则表达式测试工具,在剖析文本法则时,能够借助应用,网址是:菜鸟工具 https://c.runoob.com/front-en…
这篇文章讲的比拟具体,能够参考:https://blog.csdn.net/fd2025/…
- 0-9 ↩
正文完