为子字符串搜索建立索引?

2023-11-27

我想在数十亿个字符串中进行常规子字符串搜索。这个要求与一般的全文搜索有点不同,因为我希望查询“ubst”也可以点击“substr”。

Lucene 或 Sphinx 能够做到这一点吗?如果没有,您认为最好的方法是什么?


这种情况下的最佳索引结构是后缀树Lucene 没有实现这种类型的索引,因此它的子字符串搜索速度很慢。但是 lucene 有前缀树索引,这意味着如果您通过前缀搜索术语,您可以进行快速搜索。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为子字符串搜索建立索引? 的相关文章

  • 在实体框架编码迁移中创建全文索引

    太长了 如何使用 Entity Framework 5 编码迁移添加全文索引 我在使用实体框架迁移向数据库添加全文索引时遇到问题 它需要从一开始就存在 因此我尝试修改自动生成的 InitialCreate 迁移来添加它 由于没有办法通过 D
  • 列出 SQL Server 2005 中哪些列具有全文索引

    如何列出数据库中具有全文索引的所有表 列 select distinct object name fic object id table name name column name from sys fulltext index colum
  • 为子字符串搜索建立索引?

    我想在数十亿个字符串中进行常规子字符串搜索 这个要求与一般的全文搜索有点不同 因为我希望查询 ubst 也可以点击 substr Lucene 或 Sphinx 能够做到这一点吗 如果没有 您认为最好的方法是什么 这种情况下的最佳索引结构是
  • 搜索电子邮件地址时 MySQL MATCH AGAINST

    我正在编写新闻通讯脚本 我需要在地址中实现搜索 我使用 FULLTEXT 对表建立了索引 但是当我执行以下查询时 SELECT FROM addresses WHERE MATCH email AGAINST email protected
  • Neo4j 自动索引、旧索引和标签模式:相对于节点全文搜索的差异

    这个问题的部分答案neo4j 旧版索引和自动索引与新标签基础架构索引 and 传统索引自动索引方法与新索引方法之间的区别 我还不能对它们发表评论并在这里写一个新线程 在我的数据库中 我有一个遗留索引 主题 和标签 主题 我知道 A 模式 M
  • MySQL 全文搜索是如何工作的?

    我非常清楚如何使用 MySQL 实现全文搜索 我知道如何添加索引 进行查询并对结果进行排序 但我一直在尝试获取一些有关其工作原理的更深入的信息 以便了解幕后发生的事情 MySQL 如何确定结果相关性 分数到底意味着什么 可以达到从 0 1
  • 如何定义全文索引重建是否完成?

    需要重建mssql全文索引 问题是 我需要确切地知道工作何时完成 因此 只需调用 ALTER FULLTEXT CATALOG fooCatalog REBUILD WITH ACCENT SENSITIVITY OFF 不起作用或者我做的
  • 我应该如何在 App Engine 上进行全文搜索?

    我应该如何做才能在 App Engine 上进行快速全文搜索 同时尽可能少地进行工作 以及尽可能少的 Java 我正在使用 Python 我在最近的一个项目中使用了 Whoosh 和 appengine 它似乎工作得很好 看一下https
  • MyISAM 上的全文索引,单列索引与多列索引

    我有一个非常大的表 4M 行 磁盘空间超过 40Gb 14Gb 数据和 28Gb 索引 我需要对组合和分离的多个字段进行全文搜索 这意味着我需要能够对单列和多列一起进行全文搜索 如下所示 用于组合搜索 SELECT column a col
  • 如何为 B2B Web 应用程序设置 Lucene/Solr?

    Given 每个客户 商业客户 1 个数据库 5000 名客户 客户端拥有 2 到 2000 个用户 平均约为 100 个用户 客户端 每个数据库有 10 万到 1000 万条记录 用户需要经常搜索这些记录 这是导航数据的最佳方式 可能相关
  • 使用 2 个字符单词的 MySql 全文搜索

    我已经设置了ft min word len 1和跑步show variables like ft 也显示同样的情况 还已经通过删除并重新创建全文索引来更新它们 但当我跑步时SELECT OriginalProductName FROM pr
  • PostgreSQL 全文搜索:为什么搜索这么慢?

    我有一个小型 PostgreSQL 数据库 3 000 行 我正在尝试在其中一个文本字段 正文 上设置全文搜索 问题是任何查询都非常慢 35 秒以上 我想问题来自于数据库选择顺序扫描模式的事实 这是我的查询 SELECT ts rank c
  • 首先代码自定义SQL迁移超时异常

    我正在尝试通过执行自定义 Sql 使用实体框架迁移创建全文索引 我的迁移类如下所示 public partial class DocumentContentFullTextIndex DbMigration public override
  • 在视图上创建全文索引时出现问题

    我有一个这样创建的视图 CREATE VIEW dbo vwData WITH SCHEMABINDING AS SELECT DataField1 DataField2 DataField3 FROM dbo tblData 当我尝试在其
  • 在 MySQL 和 CodeIgniter 中使用 Match 和 Against

    我正在尝试在我的 codeIgniter 项目中实现搜索功能 我有一个名为 Product search 的表 使用以下命令在其中设置全文索引 ALTER TABLE product search ADD FULLTEXT prod tit
  • 如何在 SOLR 中索引 .html 文件

    我想要索引的文件存储在服务器上 我不需要抓取 路径 到 文件 示例 HTML 文件是
  • 列出Innodb全文索引的单词

    在 Mysql Innodb 中 我创建了一个全文索引 是否有一个查询可以用来检索全文索引中包含的所有单词的列表 我的想法是使用一个文本字段来保存标签列表的 json 转储 我可以使用全文查询来检索与标签匹配的行 它有效 剩下的问题是检索索
  • MongoDB - 使用全文搜索搜索单词和短语时的逻辑 OR

    我之前问过一个相关问题 根据发帖者的建议 创建了这个新问题作为后续问题 MongoDB 全文搜索 匹配单词和精确短语 https stackoverflow com questions 28368883 mongodb full text
  • 告诉我 SQL Server 全文搜索器疯了,不是我疯了

    我有一些客户具有用户正在搜索的特定地址 123 通用方式 数据库中有 5 行匹配 ResidentialAddress1 123 GENERIC WAY 123 GENERIC WAY 123 GENERIC WAY 123 GENERIC
  • mysql - 有什么方法可以帮助使用另一个索引进行全文搜索?

    假设我有一个 文章 表 其中包含以下列 article text fulltext indexed author id indexed 现在我想搜索特定作者撰写的文章中出现的术语 所以像这样 select from articles whe

随机推荐

  • 在Java中生成所有排列[重复]

    这个问题在这里已经有答案了 可能的重复 生成给定字符串的所有排列 我在 Java 中有一个任意长度的数组 我想生成它们的所有可能的排列 对于固定长度执行此操作的简单方法是一系列嵌套的 for 循环 但由于数组的长度未知 因此这里不提供这种选
  • 数组/集合和 for Each 循环中的用户定义类型

    VBA 在弹出窗口中显示 不允许我迭代具有用户定义类型的数组 我写了一些代码 想知道如何解决这个问题 这是一个小例子 重点关注我想要做的事情 Option Explicit Type Info source As String destin
  • Magento - OnePage Checkout - 根据运输方式隐藏付款方式

    我已经问过这个问题Magento 堆栈交换没有任何成功 因此我现在在这里问 我正在使用 Magento Community Edition 1 9 0 1 并已正确创建和注册我的模块 但我似乎无法检测到运输方式 基本上 我想隐藏货到付款 i
  • 如何正确过滤数据表(datatable.select)

    Dim dt As New DataTable Dim da As New SqlDataAdapter s c c Open If Not IsNothing da Then da Fill dt dt Select GroupingID
  • Pandas 将多个数据帧与时间戳索引对齐

    这一直是我过去几天生活中的祸根 我有许多 Pandas Dataframes 其中包含频率不规则的时间序列数据 我尝试将它们对齐到一个数据框中 下面是一些代码 具有代表性的数据帧 df1 df2 and df3 我实际上有 n 5 并且希望
  • 数据路径“”不应具有附加属性(dryRun)

    我在 MAC 中安装了最新的 Angular 6 0 4 当我在终端中输入时 ng new happiness display Schematic input does not validate against the Schema dry
  • 如何使用 IntelliJ 从 Selenium/TestNG java 文件创建可执行 jar 文件?

    我已经在谷歌上搜索了好几天 试图找出如何做到这一点 如果有人之前这样做过 我将非常感谢您的帮助 我在 IntelliJ 中创建了一个自动化测试项目 可以自动执行用户与 Web 应用程序的交互 我想将该自动化测试 使用 Selenium 和
  • Apache Toree 和 Spark Scala 无法在 Jupyter 中运行

    我在 Jupyter 上运行 Scala Spark 时遇到问题 以下是我在 jupyter 中加载 Apache Toree Scala 笔记本时出现的错误消息 root ubuntu 2gb sgp1 01 jupyter notebo
  • 整理 Git 混乱

    我刚刚继承了一个使用 Git 维护的项目 代码一度被部署到 3 个独立的系统上 每个系统都维护自己的去中心化 Git 存储库 3个系统中的每一个都在3个不同的方向上扩展了原始的基础系统 这 3 个系统均未相互同步 一些更改发生在主分支上 其
  • 文本到音素转换器

    我正在寻找一种将文本转换为音素的工具 例如文本到语音软件 我可以编写一个程序 但它不会没有错误并且需要很多时间 所以我的问题是 有没有一个简单的工具可以转换例如 你好 到 HH AH0 L OW1 也许有一些命令行工具 以便我可以捕获标准输
  • 亚马逊商城 API [已关闭]

    Closed 这个问题需要多问focused 目前不接受答案 我期望亚马逊市场网络服务像任何其他网络服务一样简单 但事实并非如此 似乎有一些关于市场产品提要的信息 任何人都可以帮助我如何开始上传新产品 一步一步 因为我是新手 以及更新数量或
  • 使用elasticsearch-dsl的delete方法时版本冲突

    因此 我们在 Django 项目中使用elasticsearch 并且使用elasticsearch dsl python 库 我们在生产中遇到以下错误 ConflictError 409 took 7 timed out false to
  • ASP.Net MVC 中的自我 AJAX 更新部分视图/控制器和复制 div

    我对 MVC 的部分看法如下 div div 在该 div 内有一个表单 它使用 AJAX 调用控制器并返回相同的部分视图 问题是调用视图的结果替换了 div 的内容 而不是整个 div 我最终得到 div div div div 根据我一
  • 真(非伪)随机数生成器。外面有什么? [关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 我正在寻找能够生成真实随机数的经济实惠的解决方案 我已经发现LavaRnd 这是一个密码学上合理的随机数生成器 有人有这个领域的经验和 或了解其他解决方案吗 PS 恕我直言 这个问题
  • API 获取和浏览器崩溃后 Swagger UI 冻结

    我有一个 ASP NET WebAPI 项目 我试图用 Swagger UI 替换旧的 XmlDocumentationProvider 页面 我正在使用webAPI 5 3 1 的 swashbuckle swagger努吉特包 我能够导
  • 如何创建非持久性 EJB 3.1 计时器?

    使用 NetBeans 7 1 GlassFish 3 1 我创建了一个新的 TimerSessionBean Stateless public class NewTimerSessionBean implements NewTimerSe
  • 如何计算孩子的数量?

    我有一个清单 ul li li li li li li ul 我需要 jQuery 来计算列表中的项目数 您可以使用 length 像这样 var count ul li length length告诉选择器找到了多少个匹配项 因此这会计算
  • 更新 mongodb 中的嵌套数组

    我在 mongodb 中有一个文档 其中包含需要更新的 2 级深度嵌套对象数组 如下所示 id 1 items id 2 blocks id 3 txt hello 如果只有一层深数组 我可以使用位置运算符来更新其中的对象 但对于第二层 我
  • Google App Engine 标准环境还是灵活环境?

    我陷入了选择 Google App Engine Standard 和 Google App Engine Standard 之间的抉择 适合现实世界生产的灵活环境 我肯定想使用Java 需要使用Firebase 最新版本 进行身份验证和推
  • 为子字符串搜索建立索引?

    我想在数十亿个字符串中进行常规子字符串搜索 这个要求与一般的全文搜索有点不同 因为我希望查询 ubst 也可以点击 substr Lucene 或 Sphinx 能够做到这一点吗 如果没有 您认为最好的方法是什么 这种情况下的最佳索引结构是