Python中的正则表达式：仅当不在列表中时将单词与数字分开

2024-02-14

我有一个包含一些我需要保留的替代品的列表。例如，替换列表：['1st', '2nd', '10th', '100th', '1st nation', 'xlr8', '5pin', 'h20'].

一般来说，包含字母数字字符的字符串需要按如下方式拆分数字和字母：

text = re.sub(r'(?<=\d)(?=[^\d\s])|(?<=[^\d\s])(?=\d)', ' ', text, 0, re.IGNORECASE)

前面的正则表达式模式通过在以下内容之间添加空格成功地将所有数字与字符分开：

Original       Regex
ABC10 DEF  --> ABC 10 DEF
ABC DEF10  --> ABC DEF 10
ABC 10DEF  --> ABC 10 DEF
10ABC DEF  --> 10 ABC DEF

然而，有一些字母数字单词是替换列表的一部分，无法分开。例如，以下字符串包含1ST作为替换列表的一部分不应分隔，并且应省略它们而不是添加空格：

Original            Regex                Expected
1ST DEF 100CD  -->  1 ST DEF 100 CD  --> 1ST DEF 100 CD
ABC 1ST 100CD  -->  ABC 1 ST 100 CD  --> ABC 1ST 100 CD
100TH DEF 100CD ->  100 TH DEF 100 CD -> 100TH DEF 100 CD
10TH DEF 100CD  ->  10 TH DEF 100 CD  -> 10TH DEF 100 CD

为了获得上面示例中的预期列，我尝试使用IF THEN ELSE正则表达式中的方法，但我在 Python 语法中遇到错误：

(?(?=condition)(then1|then2|then3)|(else1|else2|else3))

根据语法，我应该有如下内容：

?(?!1ST)((?<=\d)(?=[^\d\s])|(?<=[^\d\s])(?=\d)))

where (?!...)将包括匹配正则表达式模式时要避免的可能替换，在本例中为单词1ST 10TH 100TH.

如何避免字符串中匹配的单词替换？

您可以使用 lambda 函数来检查匹配的字符串是否在排除列表中：

import re

subs = ['1st','2nd','1st nation','xlr8','5pin','h20']
text = """
ABC10 DEF
1ST DEF 100CD
ABC 1ST 100CD
AN XLR8 45X
NO H20 DEF
A4B PLUS
"""

def add_spaces(m):
    if m.group().lower() in subs:
        return m.group()
    res = m.group(1)
    if len(res):
        res += ' '
    res += m.group(2)
    if len(m.group(3)):
        res += ' '
    res += m.group(3)
    return res

text = re.sub(r'\b([^\d\s]*)(\d+)([^\d\s]*)\b', lambda m: add_spaces(m), text)
print(text)

Output:

ABC 10 DEF
1ST DEF 100 CD
ABC 1ST 100 CD
AN XLR8 45 X
NO H20 DEF
A 4 B PLUS

您可以将 lambda 函数简化为

def add_spaces(m):
    if m.group().lower() in subs:
        return m.group()
    return m.group(1) + ' ' + m.group(2) + ' ' + m.group(3)

但这可能会导致输出字符串中出现额外的空格。然后可以将其删除

text = re.sub(r' +', ' ', text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

regexlookarounds

Python中的正则表达式：仅当不在列表中时将单词与数字分开的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
检查条件并通过 Zend 中的 Regex 识别 url 中的模式

我正在实现 Zend Regex 路由并且必须对 url 执行多次检查例如如果这是我的网址 http localhost application public index php module controller action 这是
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
shell中如何分割字符串

我有一个变量作为 string ABC400p2q4 我怎样才能分开ABC400 and p2q4 我需要将它分成两个变量结果我得到 echo var1 ABC400 echo var2 p2q4 可以用任何字母字符代替 ABC 可以用任
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

Angular 5 中 value 和 ngValue 的区别

今天我意识到 Angular 5 中的反应式表单出现了意外的对我来说行为服务器从应用程序接收到一个值为 null 的字符串而不是我想要的 null 值我做了以下测试 https stackblitz com edit angul
如何减少 androidx.compose.material3.OutlinedTextField 的高度

我在降低高度时遇到困难OutlinedTextField在撰写中我正在尝试在里面做一个搜索栏TopAppBar就像许多谷歌应用程序 Gmail Play Store 中所做的那样我无法在材料3中实现这一点我尝试复制OutlinedTe
Chrome扩展从内容脚本到后台html的sendMessage错误

我刚刚将我的 chrome 扩展更新为 json 版本 2 并尝试让我的扩展再次工作问题是 sendRequest 一路上被贬值了所以我复制代码https developer chrome com extensions messagin
确定 C 可执行文件名称

当我们编译 C 程序时输出存储在 a out 中我们如何将编译后的输出重定向到另一个文件大多数 C 编译器为此提供了一个选项例如 o选项gcc和其他一些 gcc o gentext gentext c cc o mainprog L
如何获取neo4j路径中的最后一个节点？

在这个密码查询中将返回与 STATUS on 属性有关系的节点之间的最长路径但我还想获取路径的最后一个节点 query START n node MATCH p n rels INCLUDE gt m WHERE ALL rel IN
具有负权重的 Dijkstra 算法

我们可以使用具有负权重的 Dijkstra 算法吗 STOP 在你认为哈哈你可以在两点之间无休止地跳跃并获得一条无限便宜的路径之前我更倾向于考虑单向路径其应用是具有点的山区地形显然从高到低并不需要能量事实上它会产生能量因
Facebook 身份验证对话框：开发人员关于使用“显示”类型“弹出窗口”的警告

从今天开始我们在身份验证对话框中收到开发人员警告其中包含以下消息您在大型浏览器窗口或选项卡中使用弹出窗口显示类型为了获得更好的用户体验请使用我们的 JavaScript SDK 显示此对话框而不指定显式显示类型 SDK 将为
Windows 上的 Data.ByteString.Lazy.Char8 换行符转换——文档是否具有误导性？

我对字节串库中的 Data ByteString Lazy Char8 库有疑问具体来说我的问题涉及 readFile 函数其记录如下将整个文件延迟读取到 ByteString 中在 Windows 上使用文本模式来解释换行符
从动态元素获取动态Id

我有带有动态 ID 的 div 元素 div div div div div div div div div div div div 所有元素id parent 除外可由用户从输入字段进行编辑因此 parent 的最后一个子级可能具有用
C. Break、Switch、If 中的愚蠢错误。 1990 年电话网络崩溃 [已关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我犹豫着要不要问这个问题因为这看起
sed 创建重复行而不是替换现有行

我有一个包含以下内容的文件 foo txt some text 0 我使用以下 sed 命令将 0 替换为 1 search text some text sed s search text 0 search text 1 i foo tx
从我的网络服务缓存图像 url 的最佳方法？

我已经实现了一个 ARC 格式的应用程序但我想在库的缓存文件夹中缓存一些图像网址任何想法提前致谢我希望它能帮助你我用SDWeb图像 https github com rs SDWebImage与我的所有项目 using 添加您的视
如何在 Selenium 中更改 Google Chrome 用户代理？

我正在尝试找出一种方法每当我在这个特定的脚本中通过 Selenium Python 打开 Chrome 时 Chrome 页面就会自动打开并选择另一个用户代理在本例中为 Microsoft Edge Mobile 但我将从桌面访问它因
YouTube API v3 上传速度

我一直在使用 YouTube API v3 进行一些测试使用以下命令上传 Apache 服务器在 Virtuozzo 上运行 CENTOS 6 7 x86 64 的 VPS 2GB RAM 和大量 CPU 上现有的视频文件提供断点续传脚
离线语音识别时出现错误 ERROR_RECOGNIZER_BUSY

我对谷歌离线语音识别进行了研究但它在 google Nexus 5 操作系统 4 4 中工作正常但如果我在三星 Galaxy s5 操作系统 5 0 中实现相同的版本它无法识别并且显示此错误 8 ERROR RECOGNIZER BU
需要配置哪些信息才能连接对方的Kafka

我在网上看到了keystore和truststore证书有人说两者之一有人说他们两者都需要在我的业务中我需要支持 SSL 和 PLAIN 模式区分使用哪种模式的基础是传入 JSON 中的 security protocol 字段是
如何将 int 转换为货币？

我正在使用Delphi 2009 我问了我的问题但我得到的答案已经过时了因为它无法识别Delphi2009中的StrtoFloat 我问如何将整数例如 1900000 转换为 1 900 000 您还可以使用格式命令由于格式需要实数
我的应用程序如何修改商店的模板文件

安装应用程序时我需要将液体标记注入商店的主题模板我知道有 ScriptTags 但它们加载脚本我知道脚本可以更改页面的 DOM 但我需要将我的液体安装到产品详细信息页面是否可以我会将您的 Liquid 添加为新的片段资产然后可
合并两个 EF 查询，无法将 System.Data.Entity.Infrastruct.DbQuery 类型的对象强制转换为 System.Collections.Generic.IEnumerable

我有两个实体框架查询每个查询返回两列并且我想出于绑定原因连接或连接两个查询的结果我已经尝试过Concat方法但它抛出无法转换类型的对象 System Data Entity Infrastructure DbQuery 1 VB
Python中的正则表达式：仅当不在列表中时将单词与数字分开

我有一个包含一些我需要保留的替代品的列表例如替换列表 1st 2nd 10th 100th 1st nation xlr8 5pin h20 一般来说包含字母数字字符的字符串需要按如下方式拆分数字和字母 text re sub r l

Python中的正则表达式：仅当不在列表中时将单词与数字分开

Python中的正则表达式：仅当不在列表中时将单词与数字分开 的相关文章

随机推荐

热门标签

Python中的正则表达式：仅当不在列表中时将单词与数字分开的相关文章