从字符串列表中找到与给定字符串匹配的最佳子集

2024-03-02

我有一根绳子

s = "mouse"

和一个字符串列表

sub_strings = ["m", "o", "se", "e"]

我需要找出与 s 匹配的列表的 sub_strings 的最佳和最短匹配子集是什么。做这个的最好方式是什么？理想的结果是 ["m", "o", "se"] 因为它们一起拼写为 mose

您可以使用正则表达式：

import re

def matches(s, sub_strings):
    sub_strings = sorted(sub_strings, key=len, reverse=True)
    pattern = '|'.join(re.escape(substr) for substr in sub_strings)
    return re.findall(pattern, s)

这至少是短而快的，但不一定能找到最好的匹配集；太贪心了。例如，

matches("bears", ["bea", "be", "ars"])

returns ["bea"]，什么时候应该返回["be", "ars"].

代码解释：

第一行按长度对子字符串进行排序，以便最长的字符串出现在列表的开头。这可以确保正则表达式更喜欢较长的匹配而不是较短的匹配。
第二行创建一个由所有子字符串组成的正则表达式模式，由|符号，意思是“或”。
第三行只使用re.findall函数查找给定字符串中模式的所有匹配项s.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

Algorithm

matching

fuzzysearch

从字符串列表中找到与给定字符串匹配的最佳子集的相关文章

如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
如何将 std::string& 转换为 C# 引用字符串

我正在尝试将 C 函数转换为std string参考C 我的 API 如下所示 void GetStringDemo std string str 理想情况下我希望在 C 中看到类似的东西 void GetStringDemoWrap r
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
如何计算特定字符在字符串中出现的次数

我正在尝试创建一个函数来查看数组中的任何字符是否在字符串中如果是有多少个我尝试计算每一种模式但是太多了我尝试使用 Python 中的 in 运算符的替代方案但效果不佳 function calc fit element var
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
如何计算 3D Morton 数（交织 3 个整数的位）

我正在寻找一种快速计算 3D Morton 数的方法这个网站 http www graphics stanford edu seander bithacks html InterleaveBMN有一个基于幻数的技巧来处理 2D Morto
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

删除中不存在的地方

我遇到的一个简单问题我从以下 SQL 中收到语法错误 DELETE FROM Blog Category c WHERE NOT EXISTS SELECT FROM Blog Posts p WHERE p postCategory b
C 中数组的递归和[重复]

这个问题在这里已经有答案了你好我正在学习 C 中的递归我试图找到元素的总和这是我的主要 int main int arr 1 2 3 4 5 int sum sum arr sum arr 4 printf nsum is d su
有和/或没有类型的 AWS DynamoDB 数据？

我正在使用aws sdk让 NodeJS 与 DynamoDB 表进行交互这是我第一次了解 DynamoDB 当使用像这样的调用时getItem or updateItem 数据结构包括类型如下所示 a S My string 有没有什
iPhone 应用程序提交到 App Store 所需的图形的完整列表

你好精彩的stackoverflowers 我希望这个问题在本网站的范围内我正准备向 AppStore 提交我的第一个 iPhone 应用程序我想确保我拥有所需的所有图形我还想确保我有 iPad 所需的图形和成为特色如果我幸运的话
如何在 Pandas DataFrame 的几列中进行 one-hot 编码，以便稍后与 Scikit-Learn 一起使用

假设我有以下数据 import pandas as pd data Reference 1 2 3 4 5 Brand Volkswagen Volvo Volvo Audi Volkswagen Town Berlin Berlin St
验证 apk 是否为付费副本（避免应用程序盗版）

我对 Android Play 商店完全陌生我正在开发一个即将完成并准备发布的应用程序但我注意到您可以将 apk 文件购买后复制到另一个位置例如 SD 卡并将其安装在另一台设备上这是我想避免的事情我的问题是 Google P
R：根据其他列填充和/或复制行

我的问题是基于此question https stackoverflow com questions 35614425 r code programming filling missing column values down first
R 加载错误 - libproj.so.13：无法打开共享对象文件：没有这样的文件或目录

我正在尝试安装 CRANs 群体遗传学包希尔夫统计 https cran r project org web packages hierfstat hierfstat pdf 但是 libproj so 13 打印出以下错误 gt inst
垂直拉伸列表项目

我正在构建一个phonegap应用程序我有以下内容 ul li One li li Two li li Three li li Three br a Half li ul 我怎样才能使 li 元素垂直拉伸并填充页面的整个高度因为这需要是
如何在企业架构师的下拉列表中添加多个标记值？

我正在使用企业架构师我希望在下拉列表中显示多个值作为标记值我只能为标记值赋予一个值但我不知道如何为一系列选择执行此操作我在 sparx 系统的用户指南中找不到帮助也许我没有找到它有什么帮助吗谢谢创建下拉标记值列表企业架构师
Xamarin.iOS 在应用程序未关闭时处理推送通知

如果应用程序在后台使用该方法我设法处理推送通知didReceiveRemoteNotification 如果应用程序位于前台且未关闭是否有办法处理推送通知谢谢你实施了吗用户通知 https developer apple com d
iTunesConnect 要求我提交“年终自我资格报告”

当我尝试提交我的应用程序进行测试时出现了此问题如果您使用 ATS 或调用 HTTPS 请注意您需要提交年终自我分类报告给美国政府答案是肯定的我确实会调用 https 来与我的 API 对话我具体应该怎么做才能满足这个要求呢什
在 Django 中运行 Discord 机器人

我想要一个访问 Django 数据库的不和谐机器人一个明显的解决方案是有两个单独的脚本我想知道是否有办法使不和谐机器人作为应用程序或其他东西成为 Django 的一部分您可以在单独的线程中运行不和谐机器人并且还可以相互设置属性同样
如何将已修补的 GNU readline 库正确链接到所有现有程序？

我最初的问题是我想要一种方法来区分在 vi 模式下使用 bash 时是处于 vi 命令模式还是 vi 插入模式据我了解从 GNU readline 7 0 开始有一种方法可以在命令提示符中设置指示器然而我想要的是改变光标的形状
有没有办法阻止 SqlPackage.exe 在部署脚本中设置默认文件组？

我们正在使用 Sql Server 数据库项目通过 SqlPackage exe 从 DacPac 创建部署脚本我们在不同的环境中设置了不同的 SQL Server 文件组部署时我们排除文件组因为我们希望在默认文件组中创建对象在数
使用 Numba 处理 pandas DataFrame 时间序列的有效方法

我有一个包含 1 500 000 行的 DataFrame 这是我从 QuantQuote com 购买的一分钟级别的股市数据开盘价最高价最低价收盘价交易量我正在尝试对股票市场交易策略进行一些自制的回测直接使用 python
Json和Xml序列化，哪个性能更好？

我必须在文件中存储一些配置信息在 C 代码中配置数据按类表示在文件中我将以 json 或 xml 格式保存此类那么序列化json和xml哪个性能最好呢好吧我没有猜测而是有了答案这是测试程序 class Program st
适合初学者的 SAML 简单示例

我是 SAML v2 0 技术的初学者我获得了理论知识但我在 Google 上没有找到任何示例任何人都可以为我提供简单的 SAML for v2 0 的分步示例到目前为止我已经完成了理论部分即它支持单点登录 and我也了解服务提供
如何让 Wicket 7 与 Java 8 中的 java.time 配合使用？

我有很多 bean 并且都使用 LocalDate 和 LocalDateTime Wicket 中的 DateTextField 和所有其他小部件如 DatePicker 仅适用于 java util Date 有什么办法可以injec
从字符串列表中找到与给定字符串匹配的最佳子集

我有一根绳子 s mouse 和一个字符串列表 sub strings m o se e 我需要找出与 s 匹配的列表的 sub strings 的最佳和最短匹配子集是什么做这个的最好方式是什么理想的结果是 m o se 因为它们一起拼

从字符串列表中找到与给定字符串匹配的最佳子集

从字符串列表中找到与给定字符串匹配的最佳子集 的相关文章

随机推荐

热门标签

从字符串列表中找到与给定字符串匹配的最佳子集的相关文章