以下代码可在 Java 8 和 9 中编译,但行为不同。
class Simple {
static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";
public static void main(String args[]){
String[] chunks = sample.split("\\R\\R");
for (String chunk: chunks) {
System.out.println("Chunk : "+chunk);
}
}
}
当我使用 Java 8 运行它时,它返回:
Chunk :
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme
但是当我使用 Java 9 运行它时,输出有所不同:
Chunk :
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme
Why?
The Java 文档 https://docs.oracle.com/javase/9/docs/api/java/util/regex/Pattern.html不符合 Unicode 标准。 Javadoc 错误地说明了什么\R
应该匹配。上面写着:
\R
任何 Unicode 换行序列,相当于\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]
Java 文档有很多问题。在其关于 R1.6 换行符的部分,关于正则表达式的 Unicode 技术标准 #18 http://unicode.org/reports/tr18/#Line_Boundaries明确指出:
强烈建议使用正则表达式元字符,例如“\R”,用于匹配上面列出的所有行结束字符和序列(例如,#1 中)。这将对应于与以下表达式等效的内容。由于需要避免备份,该表达式稍微复杂一些。
(?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]
换句话说,它只能匹配两个代码点 CR+LF(回车 + 换行)序列or else该集合中的单个代码点,前提是它是not只是一个回车符,然后是一个换行符。那是因为它是不允许备份。 CRLF 必须是原子的\R
才能正常运作。
因此Java 9不再符合R1.6强烈推荐的内容。此外,它现在正在做一些在 Java 8 中不应该做、也没有做的事情。
看来我又该给谢尔曼(读:沉雪明)喊一声了。我之前曾与他一起处理过这些正式一致性的具体问题。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)