我的问题相当简单,即使它的目的相当复杂。我将使用一个简单的例子:
AzzAyyAxxxxByyBzzB
所以通常我想要得到之间的一切A
and B
。然而,由于第一个之间的一些内容A
和最后一个B
(一对)包含额外的AB
对我需要推迟比赛的结束。 (不确定最后一部分是否有意义)。
所以我正在寻找一些正则表达式,它可以让我得到以下输出:
Match 1
Group 1: AzzAyyAxxxxByyBzzB
Group 2: zzAyyAxxxxByyBzz
然后我再匹配一下得到:
Match 2
Group 1: AyyAxxxxByyB
Group 2: yyAxxxxByy
然后最后再次得到:
Match 3
Group 1: AxxxxB
Group 2: xxxx
显然如果我尝试(A(.*?)B)
就整个输入而言,我得到:
Match x
Group 1: AzzAyyAxxxxB
Group 2: zzAyyAxxxx
这不是我要找的:)
我希望这是有道理的。我知道如果这不能在正则表达式中完成,但我想在我放弃它并尝试其他方法之前我会问你们中的一些正则表达式向导。谢谢!
附加信息:
我正在从事的项目是用Java 编写的。
另一个问题是我正在解析一个可能包含以下内容的文档:
AzzAyyAxxxxByyBzzB
Here is some unrelated stuff
AzzAyyAxxxxByyBzzB
AzzzBxxArrrBAssssB
还有顶部AB
成对需要与底部分开AB
pairs
您通过使用使您的正则表达式明确不贪婪?
。只需将其省略,正则表达式将在匹配之前消耗尽可能多的内容B
:
(A(.*)B)
然而,一般来说,嵌套结构超出了正则表达式的范围。在这样的情况下:
AxxxByyyAzzzB
您现在还可以从第一个开始匹配A
到最后B
。如果这在您的场景中是可能的,您最好自己逐个字符地遍历字符串并计数A
s and B
找出哪些属于一起。
EDIT:
现在您已经更新了问题并且我们在评论中解决了这一问题,您do存在多个连续对的问题。在这种情况下,使用不支持递归的正则表达式引擎无法完成此操作。
但是,您可以切换到从内到外的匹配。
A([^AB]*)B
这只会得到最里面的对,因为不可能有A
nor a B
分隔符之间。如果找到,您可以删除该对并继续下一场比赛。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)