用于开始和/或包含搜索的最快字符串集合结构/算法是什么

2024-05-18

我有以下情况：我有一个大的字符串集合（比如说 250.000+），平均长度可能是 30。我要做的就是在这些搜索中进行许多搜索..大多数搜索都是 StartsWith 和 Contains 类型的。

该集合在运行时是静态的。这意味着选择的集合的初始读取和填充仅完成一次..因此构建数据结构的性能绝对不重要。内存也不是问题：这也意味着我不介意在需要时拥有两个具有相同数据的集合（例如一个用于startswith，另一个用于contains）。唯一重要的是搜索的性能，它应该返回与搜索条件匹配的所有元素。

首先，我遇到了 Trie 或 Radix-tree ..但也许还有更好的选择？

对于 contains .. 我还没有什么好主意（除了在列表上运行 linq 查询之外，对于这么多数据量来说，这不会很快）。

预先感谢大家！

更新：我忘记了一个重要的部分：使用 Contains 我的意思是集合中没有完全匹配的内容..但我想找到集合中包含给定搜索字符串的所有字符串

建设一个后缀树 http://en.wikipedia.org/wiki/Suffix_tree将允许您并行地对所有字符串进行子字符串搜索O(1)。我的迂腐情不自禁地注意到，这确实是O(n + m) where n是与您的子字符串匹配的字符串数量，m是正在查询的子字符串的大小。

那么你问的后缀树是什么？在其最基本的实现中，它是一个具有更奇特的插入方法的特里树：除了添加字符串之外，它还将该字符串的每个可能的后缀添加到特里树中。在这个数据结构上，子字符串搜索变成了所有可能的后缀的前缀搜索。由于您还想进行前缀搜索，因此您需要在每个插入的字符串和查询子字符串前面添加一个特殊字符。特殊字符将允许您区分后缀和完整字符串。

虽然后缀树的这种实现非常简单，但效率也非常低（O(n^2)空间和构建时间）。幸运的是，还有其他更有效的实现可以大大减少空间和时间限制。其中之一，Ukkonen 算法，在中得到了很好的解释这个答案 https://stackoverflow.com/questions/9452701/ukkonens-suffix-tree-algorithm-in-plain-english/9513423#9513423并将空间限制为O(n)。您可能还想了解一下后缀数组 http://en.wikipedia.org/wiki/Suffix_array这是后缀树的等效但更有效的表示。

虽然我知道还有更多后缀树的实现（其中之一可能会满足您的用例），但我只是不了解它们。我建议您在决定实施之前对该主题进行一些研究。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于开始和/或包含搜索的最快字符串集合结构/算法是什么的相关文章

按成员序列化

我已经实现了template
用于检查类是否具有运算符/成员的 C++ 类型特征[重复]

这个问题在这里已经有答案了可能的重复是否可以编写一个 C 模板来检查函数是否存在 https stackoverflow com questions 257288 is it possible to write a c template
为什么当实例化新的游戏对象时，它没有向它们添加标签？ [复制]

这个问题在这里已经有答案了 using System Collections using System Collections Generic using UnityEngine public class Test MonoBehaviou
类模板参数推导 - clang 和 gcc 不同

下面的代码使用 gcc 编译但不使用 clang 编译 https godbolt org z ttqGuL template
HTTPWebResponse 响应字符串被截断

应用程序正在与 REST 服务通信 Fiddler 显示作为 Apps 响应传入的完整良好 XML 响应该应用程序位于法属波利尼西亚在新西兰也有一个相同的副本因此主要嫌疑人似乎在编码但我们已经检查过但空手而归查看流读取器的输出字
堆栈溢出：堆栈空间中重复的临时分配？

struct MemBlock char mem 1024 MemBlock operator const MemBlock b const return MemBlock global void foo int step 0 if ste
Javascript split 不是一个函数

嘿朋友们我正在使用 javascript sdk 通过 jQuery facebook 多朋友选择器在用户朋友墙上发布信息但是我收到此错误friendId split 不是函数这是我的代码 function recommendToFr
C#中如何移动PictureBox？

我已经使用此代码来移动图片框pictureBox MouseMove event pictureBox Location new System Drawing Point e Location 但是当我尝试执行时图片框闪烁并且无法识别确切
创建链表而不将节点声明为指针

我已经在谷歌和一些教科书上搜索了很长一段时间我似乎无法理解为什么在构建链表时节点需要是指针例如如果我有一个节点定义为 typedef struct Node int value struct Node next Node 为什么为了
如何在 C 中调用采用匿名结构的函数？

如何在 C 中调用采用匿名结构的函数比如这个函数 void func struct int x p printf i n p x 当提供原型的函数声明在范围内时调用该函数的参数必须具有与原型中声明的类型兼容的类型其中兼容具有标准定
使用 x509 证书签署 json 文档或字符串

如何使用 x509 证书签署 json 文档或字符串 public static void fund string filePath C Users VIKAS Desktop Data xml Read the file XmlDocum
Windows 窗体：如果文本太长，请添加新行到标签

我正在使用 C 有时从网络服务返回的文本我在标签中显示太长并且会在表单边缘被截断如果标签不适合表单是否有一种简单的方法可以在标签中添加换行符 Thanks 如果您将标签设置为autosize 它会随着您输入的任何文本自动增长为
WPF/C# 将自定义对象列表数据绑定到列表框？

我在将自定义对象列表的数据绑定到ListBox in WPF 这是自定义对象 public class FileItem public string Name get set public string Path get set 这是列表
如何在Xamarin中删除ViewTreeObserver？

假设我需要获取并设置视图的高度在 Android 中众所周知只有在绘制视图之后才能获取视图高度如果您使用 Java 有很多答案最著名的方法之一如下取自这个答案 https stackoverflow com a 24035591
C# 成员变量继承

我对 C 有点陌生但我在编程方面有相当广泛的背景我想做的事情为游戏定义不同的 MapTiles 我已经像这样定义了 MapTile 基类 public class MapTile public Texture2D texture pu
混合 ExecutionContext.SuppressFlow 和任务时 AsyncLocal.Value 出现意外值

在应用程序中由于 AsyncLocal 的错误意外值我遇到了奇怪的行为尽管我抑制了执行上下文的流程但 AsyncLocal Value 属性有时不会在新生成的任务的执行范围内重置下面我创建了一个最小的可重现示例来演示该问题 pr
测试用例执行完成后，无论是否通过，如何将测试用例结果保存在变量中？

我正在使用 NUNIT 在 Visual Studio 中使用 Selenium WebDriver 测试用例的代码是我想在执行测试用例后立即在变量中记录测试用例通过或失败的情况我怎样才能实现这一点 NUnit 假设您使用 NUnit
如何将服务器服务连接到 Dynamics Online

我正在修改内部管理应用程序以连接到我们的在线托管 Dynamics 2016 实例根据一些在线教程我一直在使用OrganizationServiceProxy out of Microsoft Xrm Sdk Client来自 SDK
C++ 中类级 new 删除运算符的线程安全

我在我的一门课程中重新实现了新删除运算符现在我正在使我的代码成为多线程并想了解这些运算符是否也需要线程安全我在某处读到 Visual Studio 中默认的 new delete 运算符是线程安全的但这对于我的类的自定义 new
如何防止用户控件表单在 C# 中处理键盘输入（箭头键）

我的用户控件包含其他可以选择的控件我想实现使用箭头键导航子控件的方法问题是家长控制拦截箭头键并使用它来滚动其视图什么是我想避免的事情我想自己解决控制内容的导航问题我如何控制由箭头键引起的标准行为提前致谢 MTH 这通常是通过重写

随机推荐

Grails transactionManager 运行时出现异常

当编译一个grails v2 3 3项目运行项目时出现以下错误Netbeans 7 4 Loading Grails 2 3 3 Configuring classpath Configuring classpath Environment
R 将多个值与向量进行比较并返回向量[重复]

这个问题在这里已经有答案了我有一个向量 A 对于 A 的每个元素我想检查它是否等于第二个向量 Targets 中的任何元素我想要一个逻辑值向量其长度为 A 作为返回也提到了同样的问题here http r 789695 n4 na
更改 Firefox 插件安装图标

我正在开发一个 Firefox 插件使用附加 SDK https addons mozilla org en US developers docs sdk 1 0 dev guide welcome html 我更改了 package j
bigquery DataFlow 错误：在 EU 中读写时无法在不同位置读写

我有一个简单的 Google DataFlow 任务它从 BigQuery 表中读取数据并写入另一个表如下所示 p beam io Read beam io BigQuerySource query select dia import
dplyr 返回每个组的全局平均值，而不是每个组的平均值

有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
检查外部 JS 库是否已加载[重复]

这个问题在这里已经有答案了我当前的设置是用户单击链接来动态加载内容其中还包括加载脚本我希望能够测试是否加载了外部脚本特别是 Google Maps JS API 如果没有加载则继续执行此操作这是我的代码 if href cont
您在 Java 项目中使用什么策略进行包命名？为什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我不久前就想过这个问题最近当我的商店正在开发第一个真正的 Java Web 应用程序时这个问题又重新出现了作为介绍我看到两个主要的包命名
减少从 MongoDB 加载大熊猫数据帧所使用的内存

我有一个大型数据集包含 4000 万条记录总大小约为 21 0G 存储在 MongoDB 中我花了几个小时将其加载到 pandas 数据框中但总内存大小增加到约 28 7G 加载之前约为 600Mb cursor mongocoll
范围为“provided”的工件的 Maven 依赖关系树行为

我偶然发现同一项目在两台电脑上的不同行为在两台机器上我运行命令mvn dependency tree X但收到不同的结果在我收到的第一台机器上 Apache Maven 3 2 2 45f7c06d68e745d05611f7fd14e
选择多列按一列分组按计数排序

我在Oracle中有以下数据集 c1 c2 c3 1A2 cat black 1G2 dog red B11 frog green 1G2 girl red 试图得到以下结果基本上我首先尝试获取具有重复 c1 的行 c1 c2 c3 1G
Angular - 如何解析 event.path 内的对象

现在这是一个很难解释的复杂问题我会尽力解释我有一个弹出窗口我想从中唯一地标识单击事件是来自弹出窗口内部还是外部我的第一个方法我用一个包住了整个弹出框div与id 说独特因此我将单击事件与主机侦听器绑定我将为其获取事件对象
如何在 ADB 连接期间禁用电池充电？

问题描述每次我在电脑和手机之间连接 USB 线时电池都会自动充电我想使用 ADB 协议但我不想在 ADB 连接期间为电池充电是否可以关闭此充电功能当然我该怎么做呢环境 Android 操作系统 4 及更高版本的手机我只需要
如何像函数一样使用 google.script.run

在 Google Apps 脚本中我有以下脚本 function doGet return HtmlService createHtmlOutputFromFile mypage function writeSomething retur
ng-submit 不允许自定义绑定提交事件

我有一个指令我想用它在提交表单时广播事件我正在做的项目有很多表单因此无法在ng submit调用的函数中广播事件指示 directive form function return restrict E link function s
SFINAE 中使用的别名模板导致硬错误

我想使用启用程序别名模板enable if 在一个类模板中定义在另一个类模板中定义它看起来像这样 template lt gt using enabler typename std enable if lt gt type 这对于 S
如果没有定义命名空间，类将拥有什么命名空间

在 C 中如果我创建一个没有命名空间的类那么在尝试实例化该类时将使用哪个命名空间例如假设 main 是 namespace NamespaceTests class Program static void Main string a
删除圆形图像周围的边框

我有一个圆形图像 png 文件中间是透明的我需要将图像内的背景设置为纯色为此我将背景设为纯色然后将border radius 50 但这会产生一条丑陋的小白线有没有办法摆脱这个问题或者我必须在图像编辑器中手动为图像着色 div
检测 AVAudioPlayer 中的播放结束

我有几个短的 mp3 声音我将它们存储在数组中并希望连续播放它们有什么方法可以检测 AVAudioPlayer 何时停止播放以便我可以调用完成处理程序并播放下一个声音我知道有一个委托但我正在使用 Playground 和 SKS
如何将行变成列？

我有一个数据库其中存储分组到项目中的关键字以及与每个关键字相关的数据然后我显示每个项目的数据网格每个关键字一行和几列全部从同一个表数据中检索我有 4 个表关键字项目 group keywords 和数据 keywords
用于开始和/或包含搜索的最快字符串集合结构/算法是什么

我有以下情况我有一个大的字符串集合比如说 250 000 平均长度可能是 30 我要做的就是在这些搜索中进行许多搜索大多数搜索都是 StartsWith 和 Contains 类型的该集合在运行时是静态的这意味着选择的集合的初始读

用于开始和/或包含搜索的最快字符串集合结构/算法是什么

用于开始和/或包含搜索的最快字符串集合结构/算法是什么 的相关文章

随机推荐

热门标签

用于开始和/或包含搜索的最快字符串集合结构/算法是什么的相关文章