Python 正则表达式 \w 与组合变音符号不匹配？

2023-11-23

我有一个带有组合变音符号的 UTF8 字符串。我想将它与\w正则表达式序列。它匹配带有重音符号的字符，但如果存在带有组合变音符号的拉丁字符则不匹配。

>>> re.match("a\w\w\wz", u"aoooz", re.UNICODE)
<_sre.SRE_Match object at 0xb7788f38>
>>> print u"ao\u00F3oz"
aoóoz
>>> re.match("a\w\w\wz", u"ao\u00F3oz", re.UNICODE)
<_sre.SRE_Match object at 0xb7788f38>
>>> re.match("a\w\w\wz", u"aoo\u0301oz", re.UNICODE)
>>> print u"aoo\u0301oz"
aóooz

（看起来 SO markdown 处理器在上面的组合变音符号时遇到了问题，但最后一行有一个 ́ ）

无论如何，有没有可以将变音符号与组合相匹配\w？我不想规范化文本，因为该文本来自文件名，而且我还不想进行整个“文件名 unicode 规范化”。这是Python 2.5。

我刚刚注意到一个新的“regex“ pypi 上的包。（如果我理解正确的话，这是一个新包的测试版本，有一天将取代 stdlibre包裹）。

它似乎（除其他外）关于 unicode 有更多的可能性。例如，它支持\X，用于匹配单个字素（无论是否使用组合）。它还支持 unicode 属性、块和脚本的匹配，因此您可以使用\p{M}指组合标记。这\X前面提到的相当于\P{M}\p{M}*（不是组合标记的字符，后跟零个或多个组合标记）。

请注意，这使得\X或多或少相当于unicode.，不属于\w，所以在你的情况下，\w\p{M}*就是你所需要的。

它（目前）是一个非 stdlib 包，我不知道它准备得如何（并且它不是二进制发行版），但您可能想尝试一下，因为它似乎是您问题的最简单/最“正确”的答案。（否则，我认为您需要明确使用字符范围，如我对上一个答案的评论中所述）。

也可以看看这一页有关 unicode 正则表达式的信息，可能还包含一些对您有用的信息（并且可以作为 regex 包中实现的某些内容的文档）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 正则表达式 \w 与组合变音符号不匹配？的相关文章

导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
使用 sed 删除大括号对之间的所有内容

我有一个看起来像这样的字符串 B F blue master F red f k b f k b K black B F green 我想删除匹配的子字符串它可能包含也可能不包含相同顺序的其他子字符串我应该得到 master 作为最终输
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

如何让猫开始新的一行

我有四个文件 one file txt abc def 两个文件 txt ghi jkl 三文件 txt mno pqr 四 WORD txt xyz xyz 我想连接所有以 file txt 结尾的文件即除 four WORD txt
BreezeJS 的 1.4.1isolateES5Props 在 IE 8 中导致堆栈空间错误

使用 BreezeJS 1 4 1 我们发现添加到 Isolate ES5 Properties 中的一些新代码导致 IE 8 出现以下错误获取元数据时出错微风微风元数据的元数据导入失败无法处理返回的元数据对象不支持属性或方法
C#泛型中的继承问题

我有两个接口 public interface A void aMethod public interface B A void bMethod 后来我基本上使用这样的字典 Dictionary
使用自动生成的 Classendpoint 插入方法插入实体时抛出 NullpointerException

我对使用自动生成的端点类感到困惑我想使用生成的端点将新对象插入数据存储区但是抛出异常 fooEndpoint insertFoo foo throws null pointer exception 我的实体类与此源中给定的示例类似 h
C# 中的 PKCS5Padding

我需要使用 DESede pkcs5 填充来加密字符串但是 C 仅提供 PKCS7 填充那么我怎样才能实现这一目标呢我对此事没有权威但快速谷歌发现了这一点 http social msdn microsoft com Forums
初始化和销毁Python多处理工作者

我有一个模型我从 Python 中调用了很多次该模型的启动和关闭时间较长但处理输入数据的时间很短可以在启动关闭之间多次完成多处理 Pool 似乎是完成此任务的好方法但我无法正确销毁 Model 类下面给出了程序代码的简化结构
为我的应用程序的文档类型注册图标

我正在尝试为我的应用程序的文档类型注册一个图标看完之后声明新的统一类型标识符并看着 Developer Examples Sketch我在我的作品中想出了这样的东西Info plist
为什么要检查这个！= null？

有时我喜欢花一些时间查看 NET 代码只是为了了解幕后是如何实现的我在查看时偶然发现了这颗宝石String Equals通过反射器的方法 C ReliabilityContract Consistency WillNotCorrupt
如何在 PostgreSQL 中按类别选择具有最大日期组的 id？

例如我想按类别选择最大日期组的 id 结果是 7 2 6 id category date 1 a 2013 01 01 2 b 2013 01 03 3 c 2013 01 02 4 a 2013 01 02 5 b 2013 01 0
PyGTK：如何使图像自动缩放以适合其父窗口小部件？

我有一个 PyGTK 应用程序需要加载未知大小的图像但是我遇到的问题是如果图像非常大或非常小窗口布局会变得扭曲并且难以使用我需要某种方法使图像自动缩放以适合其父窗口小部件不幸的是经过一些研究后似乎没有内置或其他代码可以满足我的
获取当前光标位置

我想获取窗口当前的鼠标位置并将其分配给2个变量x and y 相对于窗口的坐标而不是相对于整个屏幕的坐标我正在使用 Win32 和 C 还有一个简单的额外问题您将如何隐藏取消隐藏光标您可以通过调用获取光标位置GetCursorP
iOS 截取多个屏幕截图

我有一个NSURL包含一个视频我想每秒录制该视频的一帧十次我有可以捕获播放器图像的代码但我无法将其设置为每秒捕获 10 帧我正在尝试类似的操作但它返回视频的相同初始帧正确的次数这是我所拥有的 AVAsset asset AVA
在redshift中使用sql函数generate_series()

我想在redshift中使用生成系列功能但没有成功 redshift 文档说不支持下面的代码确实有效 select from generate series 1 10 1 outputs 1 2 3 10 我想对日期做同样的事情我尝试
如何在Google Map sdk iOS中绘制从一个地方到另一个地方的路径？

我需要在谷歌地图中找到从一个地方到另一个地方的路径如何使用 google 地图 sdk iOS 绘制方向图任何人都可以给出源代码然后解释如何实现这一目标 Below i attached image also i need to ac
scala 中的泛型不变协变逆变

这可能是一个非常愚蠢的问题但即使在挠了很长时间之后我也无法理解其中的区别我正在浏览 scala 泛型页面 https docs scala lang org tour generic classes html 这里据说注意泛型类型的
如何使用类型特征进行条件编译？

我正在尝试编写类似的代码here但使用 C 11 功能不使用 Boost 工作自这个例子我试图定义一个response trait 以及基于特征结果的条件编译我怎样才能做到这一点 include
从 XML 文档中获取指定的 Node 值

我在浏览 XML 文档使用 C 并获取所有必要的值时遇到问题我成功地遍历了 XML 文档中所有指定的 XmlNodeList 成功获取了其中的所有 XmlNode 值但我必须获取此 XmlNodeList 之外的一些值例如
Webpack 和 angularJs

我正在尝试使用 angularjs 和 webpack 运行简单的应用程序这是我的代码索引 html Full Name firstName lastName app js var app angular module myApp
如何在 OAML 中读取位图？

我想使用 OCAML 读取位图文件从文件系统并将像素颜色存储在具有位图维度的数组中每个像素将占用数组中的一个单元格我找到了这个功能Graphics dump image 图像 gt 颜色数组数组但它不从文件中读取影像影像应该
Python 正则表达式 \w 与组合变音符号不匹配？

我有一个带有组合变音符号的 UTF8 字符串我想将它与 w正则表达式序列它匹配带有重音符号的字符但如果存在带有组合变音符号的拉丁字符则不匹配 gt gt gt re match a w w wz u aoooz re UNICODE

Python 正则表达式 \w 与组合变音符号不匹配？

Python 正则表达式 \w 与组合变音符号不匹配？ 的相关文章

随机推荐

热门标签

Python 正则表达式 \w 与组合变音符号不匹配？的相关文章