我正在解析一些讨厌的文件 - 你知道,在一个文件中混合逗号、空格和制表符分隔符单线,然后通过文本编辑器运行它,该编辑器会在第 65 列用 CRLF 换行。啊。
作为我在 Cocoa 中解析此内容的努力的一部分,我使用 Apple 的whitespaceAndNewlineCharacterSet
。但是什么,exactly是在那个集合中吗?文档显示“Unicode General Category Z*、U000A ~ U000D 和 U0085”。我找到了最后三个(85 很有趣,但是 ~ 是什么意思,什么是一般类别 Z*?
有 Unicode 专家吗?
~ 的意思是“通过”;因此,U000A、B、C 和 D。
短语“General Category Z*”是“General Category 属性是以 Z 开头的三个类别之一的任何字符”的简写。因此,有各种形式的空间(0020、00A0、1680、2000 到 200A、202F、205F、3000),加上行分隔符 (2028) 和段落分隔符 (2029)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)