一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？

2024-02-22

假设我正在设计一个工具，可以将代码片段保存在 PostgreSQL/MySQL 数据库或文件系统中。我想搜索这些片段。使用像Sphinx这样的搜索引擎似乎不太实用，因为我们在搜索代码时需要代码的精确文本匹配。

grep and ack并且一直工作得很好，但是将内容存储在数据库中可以使大量内容在某些方面更易于管理。我想知道跑步的相对表现如何grep在目录树上递归与在具有文本 blob 的同等数量的记录上运行 SQL LIKE 或 MySQL REGEXP 函数之类的查询相比。

如果您有 100 万个文件需要 grep 遍历，您将（据我所知）使用正则表达式遍历每个文件。

出于所有意图和目的，如果您使用 LIKE 运算符或正则表达式对表行进行批量查询，您最终将会对表行执行相同的操作。

然而，我自己使用 grep 的经验是，我很少查找不包含至少一个完整单词的内容，因此您可以利用数据库来减少您正在搜索的集合。

MySQL 具有本机全文搜索功能，但我建议不要使用，因为这意味着您没有使用 InnoDB。

您可以在此处阅读 Postgres 的相关内容：

http://www.postgresql.org/docs/current/static/textsearch.html http://www.postgresql.org/docs/current/static/textsearch.html

在 tsvector 列上创建索引后，您可以分两步执行“grep”，第一步立即查找可能模糊地符合条件的行，然后根据您的真实条件进行另一步：

select * from docs where tsvcol @@ :tsquery and (regexp at will);

这将比 grep 的任何操作都要快得多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？的相关文章

从 PostgreSQL 中同一列中以其他值开头的列中检索所有值的有效方法

为了简单起见假设您有一个包含如下数字的表 number 123 1234 12345 123456 111 1111 2 700 检索最短数字的有效方法是什么称它们为roots或其他和所有值derived来自他们例如 root de
PostgreSQL 中的 Long 数据类型相当于什么？

我想知道相当于什么LongPostgreSQL 中的数据类型根据the docs http www postgresql org docs 7 4 interactive datatype html DATATYPE INT看起来像big
不带 GROUP BY 的聚合查询

这个查询似乎在我的旧机器上完美运行但是在我的 MySQL 5 7 14 和 PHP 5 6 25 的新机器上它会抛出错误致命错误未捕获异常 PDOException 并带有消息 SQLSTATE 42000 语法错误或访问冲突 1
PHP PDO 使用 bindParam 第一个参数（不带冒号）[重复]

这个问题在这里已经有答案了请检查这个 user id int GET user id sql DELETE FROM users WHERE user id user id query db gt prepare sql query gt
为什么 PostgreSQL 不能做这个简单的 FULL JOIN 呢？

这是包含 2 个表的最小设置a and b每行 3 行 CREATE TABLE a id SERIAL PRIMARY KEY value TEXT CREATE INDEX ON a value CREATE TABLE b id SE
Postgresql 一张表的多个计数

我想从表中的两列中获得这些列中值的统一计数例如两列是表报告 type place one home two school three work four cafe five friends six mall one work one
什么时候应该使用 C++ 而不是 SQL？

我是一名 C 程序员偶尔使用 MySQL 来处理数据库但我的 SQL 知识相当有限但我肯定愿意改变这一点目前我正在尝试仅使用 SQL 查询对数据库中的数据进行分析但我准备放弃了转而将数据导入到C 中用C 代码进行分析我和同
Mac OSX Lion Postgres 不接受 /tmp/.s.PGSQL.5432 上的连接

我在 Homebrew 安装 Postgres 时遇到常见的 Mac OSX 错误 No such file or directory Is the server running locally and accepting connecti
如何在 MySQL 中测试 Select for Update

我正在表演SELECT FOR UPDATE或 InnoDB 表的行级锁定我的目的是只有一个请求可以读取同一行因此如果两个用户同时请求相同的数据其中只有一个人获取数据即第一个触发查询的人但是我如何测试锁定是否已放置因为我正在通
Bash：单行命令以与 grep 命令相反的状态退出？

如何减少以下 bash 脚本 grep P STATUS Perfect recess txt exit 1 exit 0 看起来我应该能够用一个命令来完成它但我这里总共有 3 个命令我的程序应该阅读课间休息 txt 如果它包含 ST
PostgreSQL-过滤日期范围

我是一名 SQL 开发人员大部分时间都花在 MSSQL 上我正在寻找一种更好的方法来过滤 PostgreSQL 数据库中的无时区时间戳字段我在用着 Where DateField gt 2010 01 01 and DateFie
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
PHP MySql 百分比

我的问题是关于百分比我不是专家所以我会尽力以更好的方式进行解释我的 mysql 服务器中有一个表假设有 700 条记录如下所示 Name country language Birth Lucy UK EN 1980 Mari Ca
如何使用 django ORM 在外键字段上连接两个表？

假设我有以下模型 class Position models Model name models CharField class PositionStats models Model position models ForeignKey P
如何检测Mysql/innodb中的死锁？

我知道在 Innodb 中使用事务时不可避免地会发生死锁并且如果应用程序代码正确处理死锁它们是无害的正如手册所说只需再试一次所以我想知道如何检测死锁死锁是否会发出一些特殊的 mysql 错误号如果重要的话我正在使用 PHP
MySQL 追加字符串

How can I append a string to the end of an existing table value Let s say I have the table below And let s say that Mari
随机组合 MySQL 数据库中的两个单词

我有一个包含名词和形容词的数据库例如 id type word 1 noun apple 2 noun ball 3 adj clammy 4 noun keyboard 5 adj bloody ect 我想创建一个查询它将抓取 10
转义 to_tsquery 中的特殊字符

如何转义传递给的字符串中的特殊字符to tsquery 例如这种查询 select to tsquery AT T 生产 NOTICE text search query contains only stop words or doesn
使用加权行概率从 PostgreSQL 表中选择随机行

输入示例 SELECT FROM test id percent 1 50 2 35 3 15 3 rows 你会如何编写这样的查询平均 50 的时间我可以获得 id 1 的行 35 的时间 id 2 的行 15 的时间 id 3 的行
如何将 PostgreSql 与 EntityFramework 6.0.2 集成？ [复制]

这个问题在这里已经有答案了我收到以下错误实体框架提供程序类型的实例成员 Npgsql NpgsqlServices Npgsql 版本 2 0 14 2 文化中性 PublicKeyToken 5d8b90d52f46fda7 没

随机推荐

使用日期时如何在 Altair 中获得选择间隔的初始值？

我试图在 Altair 图中为选择间隔设置初始值但我一直无法弄清楚这是一个代码片段 df pd DataFrame date 0 2005 03 01 1 2005 04 01 2 2005 05 02 values 0 89 2506
将测试客户端数据转换为 JSON

我正在构建一个应用程序我想做一些测试我需要将测试客户端的响应数据转换为 JSON The app tasks id 1 title u Buy groceries description u Milk Cheese Pizza Frui
我们使用 BouncyCastle API 为客户端加密文件。当他尝试解密时，他收到了来自 PGP 的“仅供您查看”的消息。为什么？

我们使用 Bouncy Castle C API 进行 PGP 加密我绝不是 PGP 加密和各种可用选项方面的专家加密似乎运行良好但是当客户端尝试解密时他说 PGP 不会输出到文件而只会输出到屏幕因为它被标记为仅供您查看这
有关“gladLoadGL”的问题。我收到一条错误消息，指出它不需要 1 个参数

我正在尝试做一些 openGL 教程 https www glfw org docs latest quick guide html quick example https www glfw org docs latest quick gu
在android中引用javax.script.ScriptEngine或评估javascript表达式

开发android应用程序时是否可以引用javax script ScriptEngine库如果没有的话是否有可能在android中评估javascript表达式对于 javax script ScriptEngine javax s
Boost 解析日期/时间字符串并生成 .NET 兼容的 Ticks 值

我想使用 C Boost 来解析时间字符串例如1980 12 06 21 12 04 232并获得一个ticks对应于刻度计数的值用于初始化 NETSystem DateTime 我该怎么做 Update I do需要使用C 我不能为此
如何从维基百科 API 获取表中的数据？

我正在尝试从中获取所有内容维基百科 Unusual articles https en wikipedia org wiki Wikipedia Unusual articles我可以通过调用此端点来获取表内容列表 https en wik
如何限制文本宽度

我想限制文本块的宽度这样它看起来就像在每行的 ned 处都有 br 像这样的事情 Texttttttttttttttttttttt tttttttttttttttttttttttt tttttttttttttttttttttttt 由此
UICollectionView 的 iOS 字母滚动

我有一个集合视图显示人物及其姓名的多个图像并且我已经实现了搜索和排序功能但是问题是我也想要按字母顺序排列但是集合视图没有像这样的委托方法UITableView has NSArray sectionIndexTitlesForTa
C++ 编程帮助

您创建一个程序显示用户输入的两个数字之间含的偶数之和例如 2 和 7 12 之和 2 4 6 这就是我到目前为止所拥有的但如果你能让我朝着正确的方向前进那就会有帮助了 Advanced30 cpp displays the su
如何以编程方式从父进程获取子进程的堆栈跟踪？

假设我在程序中派生了一个子进程在某个时候我暂停子进程kill child SIGSTOP 并想要检查堆栈的内容有没有办法以编程方式从父进程获取子进程的堆栈跟踪我知道ptrace是跟踪子进程并检查其内存寄存器的标准方法我也知道ba
使用 C/C++ 创建多线程应用程序的最简单方法是什么？

使用 C C 创建多线程应用程序的最简单方法是什么不幸的是没有简单的方法有几个选项 Linux 上的 pthread Windows 上的 win32 api 线程或 boost thread 库
如何在运行时查找已加载的 d3.js 扩展及其版本？

按照 JavaScript 库的惯例全局根对象由d3 js https d3js org 有一个自我识别属性该属性返回并因此在控制台中调用时输出所用库的版本在这种情况下它是 d3 version Now 从 4 0 版本开始 d
Keras 中的 Seq2Seq 双向编码器解码器

我正在尝试使用 Keras 实现 seq2seq 编码器解码器并在编码器上使用双向 lstm 如下所示 from keras layers import LSTM Bidirectional Input Concatenate from
如何使用 html、svg 创建可点击的三角形网格？

我已经创建了一个三角形网格如下所示 svg margin left 0px margin right 60px padding 0 div div div div
Cocoapods 和 XCode5 集成错误

在新的 XCode5 中构建我的项目时我收到以下警告 Pods App 作为 libPods App a 的隐式依赖项被拒绝因为其架构 i386 不包含所有必需的架构 x86 64 要解决此问题请选择Pods项目在左侧菜单中然后在t
Firebase 通知在 iOS 11 中不起作用

我正在开发一个使用 Firebase 推送通知的应用程序它运行良好直到我在 iOS 11 中尝试使用带有 iOS 11 的 iPhone 时通知不会到达这是我的代码 void application UIApplication a
从 Eclipse 项目创建多个 JAR

我已经开始开发一个项目目前该项目从 Eclipse 项目生成一个整体 JAR 文件基本上有一个 Ant 脚本它会在 Eclipse Java Builder 运行时运行并获取 Eclipse Java Builder 的输出 cl
Spring 的 @DependsOn 不适用于应用程序事件？

我有一个发送应用程序事件的类接收者不能错过这个事件因此发送者依赖于接收者 Service DependsOn receiver class Sender PostConstruct public void init applicatio
一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？

假设我正在设计一个工具可以将代码片段保存在 PostgreSQL MySQL 数据库或文件系统中我想搜索这些片段使用像Sphinx这样的搜索引擎似乎不太实用因为我们在搜索代码时需要代码的精确文本匹配 grep and ack并且一直

一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？

一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？ 的相关文章

随机推荐

热门标签

一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？的相关文章