解读C中的正则表达式

jiezi

5 年前

本文摘自 LTP.NET 知识库。

regexp 规则类包含在 System.Text.RegularExpressions.dll 文件中，在对应用软件进行编译时你必须引用这个文件：

System.Text.RegularExpressions.dll

名字空间简介

在名字空间中仅仅包含着 6 个类和一个定义，它们是：

Capture: 包含一次匹配的结果；

CaptureCollection: Capture 的序列；

Group: 一次组记录的结果，由 Capture 继承而来；

Match: 一次表达式的匹配结果，由 Group 继承而来；

MatchCollection: Match 的一个序列；

MatchEvaluator: 执行替换操作时使用的代理；

Regex: 编译后的表达式的实例。

Regex 类中还包含一些静态的方法

Escape: 对字符串中的 regex 中的转义符进行转义；

IsMatch: 如果表达式在字符串中匹配，该方法返回一个布尔值；

Match: 返回 Match 的实例；

Matches: 返回一系列的 Match 的方法；

Replace: 用替换字符串替换匹配的表达式；

Split: 返回一系列由表达式决定的字符串；

Unescape: 不对字符串中的转义字符转义。

简单匹配

先从使用 Regex、Match 类的简单表达式开始学习。

Match m = Regex.Match(“abracadabra”, “(a|b|r)+”);
例：

if (m.Success)…
如果想使用匹配的字符串，可以把它转换成一个字符串：

Console.WriteLine(“Match=”+m.ToString());
输出: Match=abra。

这就是匹配的字符串。

字符串的替换

简单字符串的替换非常直观。

例如下面的语句：

string s = Regex.Replace(“abracadabra”, “abra”, “zzzz”);
它返回字符串 zzzzcadzzzz，所有匹配的字符串都被替换成了 zzzzz。

现在我们来看一个比较复杂的字符串替换的例子：

string s = Regex.Replace(” abra “, @”^s(.?)s*$”, “$1”);
这个语句返回字符串 abra，其前导和后缀的空格都去掉了。

上面的模式对于删除任意字符串中的前导和后续空格都非常有用。

在 C# 中，我们还经常使用字母字符串，在一个字母字符串中，编译程序不把字符“”作为转义字符处理。在使用字符“”指定转义字符时，@”…” 是非常有用的。

另外值得一提的是 $1 在字符串替换方面的使用，它表明替换字符串只能包含被替换的字符串。

匹配引擎的细节

接下来通过一个组结构来理解一个稍微复杂的例子：

string text = “abracadabra1abracadabra2abracadabra3”;
string pat = @”
(# 第一个组的开始
abra # 匹配字符串 abra
(# 第二个组的开始
cad # 匹配字符串 cad
)? # 第二个组结束（可选）
) # 第一个组结束
+ # 匹配一次或多次
”;

// 利用 x 修饰符忽略注释
Regex r = new Regex(pat, “x”);

// 获得组号码的清单
int[] gnums = r.GetGroupNumbers();

// 首次匹配
Match m = r.Match(text);

while (m.Success)
{
// 从组 1 开始
for (int i = 1; i < gnums.Length; i++)

{

Group g = m.Group(gnums[i]);

// 获得这次匹配的组
Console.WriteLine(“Group”+gnums[i]+”=[“+g.ToString()+”]”);

// 计算这个组的起始位置和长度
CaptureCollection cc = g.Captures;

for (int j = 0; j < cc.Count; j++)

{

Capture c = cc[j];

Console.WriteLine(” Capture” + j + “=[“+c.ToString()

+ “] Index=” + c.Index + ” Length=” + c.Length);

}
}
// 下一个匹配
m = m.NextMatch();
}
这个例子的输出如下所示：

Group1=[abra]

Capture0=[abracad] Index=0 Length=7

Capture1=[abra] Index=7 Length=4

Group2=[cad]

Capture0=[cad] Index=4 Length=3

Group1=[abra]

Capture0=[abracad] Index=12 Length=7

Capture1=[abra] Index=19 Length=4

Group2=[cad]

Capture0=[cad] Index=16 Length=3

Group1=[abra]

Capture0=[abracad] Index=24 Length=7

Capture1=[abra] Index=31 Length=4

Group2=[cad]

Capture0=[cad] Index=28 Length=3
我们首先从考查字符串 pat 开始，pat 中包含有表达式。

第一个 capture 是从第一个圆括号开始的，然后表达式将匹配到一个 abra。

第二个 capture 组从第二个圆括号开始，但第一个 capture 组还没有结束，这意味着第一个组匹配的结果是 abracad，而第二个组的匹配结果仅仅是 cad。

因此如果通过使用？符号而使 cad 成为一项可选的匹配，匹配的结果就可能是 abra 或 abracad。

然后，第一个组就会结束，通过指定 + 符号要求表达式进行多次匹配。

现在我们来看看匹配过程中发生的情况。

首先，通过调用 Regex 的 constructor 方法建立表达式的一个实例，并在其中指定各种选项。

在这个例子中，由于在表达式中有注释，因此选用了 x 选项，另外还使用了一些空格。

打开 x 选项，表达式将会忽略注释和其中没有转义的空格。

然后，取得表达式中定义的组的编号的清单。

你当然可以显性地使用这些编号，在这里使用的是编程的方法。

如果使用了命名的组，作为一种建立快速索引的途径这种方法也十分有效。

接下来是完成第一次匹配。

通过一个循环测试当前的匹配是否成功，接下来是从 group 1 开始重复对组清单执行这一操作。

在这个例子中没有使用 group 0 的原因是 group 0 是一个完全匹配的字符串，如果要通过收集全部匹配的字符串作为一个单一的字符串，就会用到 group 0 了。

我们跟踪每个 group 中的 CaptureCollection。

通常情况下每次匹配、每个 group 中只能有一个 capture，但本例中的 Group1 则有两个 capture：Capture0 和 Capture1。

如果你仅需要 Group1 的 ToString，就会只得到 abra，当然它也会与 abracad 匹配。

组中 ToString 的值就是其 CaptureCollection 中最后一个 Capture 的值，这正是我们所需要的。

如果你希望整个过程在匹配 abra 后结束，就应该从表达式中删除 + 符号，让 regex 引擎知道我们只需要对表达式进行匹配。

基于过程和基于表达式方法的比较

一般情况下，使用正则表达式的用户可以分为以下二大类：

第一类用户尽量不使用正则表达式，而是使用过程来执行一些需要重复的操作；

第二类用户则充分利用正则表达式处理引擎的功能和威力，而尽可能少地使用过程。

对于我们大多数用户而言，最好的方案莫过于二者兼而用之了。

希望这篇文章能够说明.NET 语言中 regexp 类的作用以及它在性能和复杂性之间的优、劣点。

基于过程的模式

我们在编程中经常需要用到的一个功能是对字符串中的一部分进行匹配或其他一些对字符串处理，下面是一个对字符串中的单词进行匹配的例子：

string text = “the quick red fox jumped over the lazy brown dog.”;
System.Console.WriteLine(“text=[” + text + “]”);
string result = “”;
string pattern = @”w+|W+”;
foreach (Match m in Regex.Matches(text, pattern))
{

// 取得匹配的字符串
string x = m.ToString();

// 如果第一个字符是小写
if (char.IsLower(x[0]))

// 变成大写
x = char.ToUpper(x[0]) + x.Substring(1, x.Length-1);

// 收集所有的字符
result += x;
}

System.Console.WriteLine(“result=[” + result + “]”);
正象上面的例子所示，我们使用了 C# 语言中的 foreach 语句处理每个匹配的字符，并完成相应的处理，在这个例子中，新创建了一个 result 字符串。

这个例子的输出所下所示：

text=[the quick red fox jumped over the lazy brown dog.]
result=[The Quick Red Fox Jumped Over The Lazy Brown Dog.]
基于表达式的模式

完成上例中的功能的另一条途径是通过一个 MatchEvaluator，新的代码如下所示：

static string CapText(Match m)

{

// 取得匹配的字符串

string x = m.ToString();

// 如果第一个字符是小写

if (char.IsLower(x[0]))

// 转换为大写

return char.ToUpper(x[0]) + x.Substring(1, x.Length-1);

return x;

}

static void Main()

{

string text = “the quick red fox jumped over the

lazy brown dog.”;

System.Console.WriteLine(“text=[” + text + “]”);

string pattern = @”w+”;

string result = Regex.Replace(text, pattern,

new MatchEvaluator(Test.CapText));

System.Console.WriteLine(“result=[” + result + “]”);

}
同时需要注意的是，由于仅仅需要对单词进行修改而无需对非单词进行修改，这个模式显得非常简单。

本文来自木庄网络博客 > 解读 C# 中的正则表达式