Postgres Select ILIKE %text% 在大字符串行上运行缓慢

2024-01-12

我有一个只有 7 列的表，其中一列存储每一行的长文本数据。该文本列数据的平均字符长度约为 1500 个字符。该表有 500.000 行。

当我使用选择查询而不使用该文本列时，没有问题，查询按预期需要 10 秒。

但是如果我将这个长文本列添加到我的查询中，例如Select * from table_1完成此查询并使用 dataadapter 填充数据表需要 3 或 4 分钟。

为什么我需要查找所有长文本列记录？因为我需要对其使用文本过滤器，例如：

SELECT * 
FROM table_1 
WHERE longtextcolumn ILIKE ANY (ARRAY['%texttosearch1%', '%texttosearch2%'])

我应该做什么来加快这一进程？表分区可以解决这个速度问题吗？或者我应该寻找索引？

阅读完这篇文章中的所有答案后，我开始了解索引，尤其是 Postgres 上的 gin 索引。今天我克服了我的问题。在使用 gin 索引方法之前，我的查询需要 8 分钟才能完成。现在相同的查询需要 50 毫秒。这是一个巨大的性能差异，我想解释我一步一步为社区所做的事情。

EXAMPLE

假设我们有一个名为 table_1 的表，并且该表有一个名为 long_text 的列。 long_text 列存储长文本数据，例如长度为 1500 个字符的字符串。这个 table_1 有 800.000 行。

STEP 1

Postgres 有一个名为 ts_vector 的数据类型。此 ts_vector 数据类型采用长文本并计算其中的单个不同单词（基于语言）并为其中的单词建立索引。因此，我们需要在 table_1 上创建一个 ts_vector 列，并转换 long_text 列并从中填充 ts_vector 数据。这将是这样的：

ALTER table table_1 
ADD COLUMN long_text_tsv TS_VECTOR;

STEP 2

从我们的长文本列填充 tsvector 数据：

UPDATE table_1 t1
SET long_text_tsv = to_tsvector('english', t1.long_text)
FROM table_1 t2;

STEP 3

为新填充的 long_text_tsv 列创建 gin 索引

CREATE INDEX tsv_index
ON table_1
USING gin(long_text_tsv);

之后，您就可以使用新创建和索引的 tsv 数据来过滤长文本数据

STEP 4

使用 tsvector 数据，您的搜索查询应如下所示：

SELECT long_text FROM table_1
WHERE long_text_tsv @@ to_tsquery('john<->lennon&music');

ts_vector 数据应按 ts_query 数据类型搜索。在上面的查询中，表示后面跟着，& 表示“AND”运算符。

通过我解释的这种方法，我的搜索查询速度比旧方法快了 100 倍。

我不确定我是否以正确的方式完成了这一切，但我认为我做得很好，因为现在我的程序中一切看起来都很好。如果该答案有问题，请警告我。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Postgres Select ILIKE %text% 在大字符串行上运行缓慢的相关文章

如何将可视选择的文本通过管道传输到 UNIX 命令并将输出附加到 Vim 中的当前缓冲区

使用 Vim 我尝试将在可视模式下选择的文本通过管道传输到 UNIX 命令并将输出附加到当前文件的末尾例如假设我们有一个 SQL 命令例如 SELECT FROM mytable 我想做如下的事情
Google Cloud SQL - Postgresql 存储不断增长

我最近开始修补 Google Cloud SQL PostgreSQL 我创建了一个空数据库在 4 5 天的时间里其存储使用量已增长到超过 20GB 它一直在上升但数据库中没有数据它甚至没有被使用有谁知道会发生什么以及如何阻止它
Mysql 检索所有有限制的行

我想检索特定用户的所有行限制为 0 x 所以我只是想问是否有任何方法可以检索 mysql 中的所有行而不调用返回 x 的 count id 的方法而不重载现有函数该函数在查询中根本没有限制与我们的 string Relace 功能
将 UUID 存储为 base64 字符串

我一直在尝试使用 UUID 作为数据库键我希望占用尽可能少的字节数同时仍然保持 UUID 表示形式的可读性我认为我已经使用 base64 将其减少到 22 个字节并删除了一些尾随的这些对于我的目的来说似乎没有必要存储这种方法有
SQL 删除表并重新创建并保留数据

在我们最初的设计中我们搞砸了表中的外键约束现在表已充满数据我们无法在不删除表中所有记录的情况下更改它我能想到的唯一解决方案是创建一个备份表并将所有记录放在那里然后删除所有记录更改表并开始将它们添加回来还有其他更好的想法吗
插入触发器最终在分区表中插入重复行

我有一个分区表我认为适当的INSERT触发器和一些限制不知何故 INSERT语句为每个语句插入 2 行INSERT 一个用于父分区一个用于相应的分区设置简要如下 CREATE TABLE foo id SERIAL NOT NUL
列中差异的数量

我想检索一列每行中有多少个字母的差异例如如果您有一个值 test 而另一行有一个值 testing 则 test 和 testing 之间的差异为 4 个字母该列的数据值为 4 I have reflected about it an
Laravel leftJoin 仅右表的最后一条记录

我是 Laravel 的新手我有两张桌子 1 产品 2 价格 products id product int p key name varchar prices id price int p key id product int
MySQL 查询到 CSV [重复]

这个问题在这里已经有答案了有没有一种简单的方法来运行MySQL查询来自linux命令行并以csv格式输出结果这就是我现在正在做的事情 mysql u uid ppwd D dbname lt lt EOQ sed e s g tee l
MyBatis：在一个查询中通过注释收集

我有一个 xml 映射器一个选择映射器和一个结果映射器它工作没有问题但我想使用注释我的映射器
月份增量查询

我想通过添加 1 个月来更新数据库中的月份但我不知道如何在以下存储过程查询中添加月份我不擅长 sql 请检查它 ALTER PROCEDURE dbo ChangePassword password varchar 20 epasswo
为什么我可以像调用实例方法一样调用类方法？

我正在查看这个例子 class SQLObject def self columns return columns if columns columns DBConnection execute2 lt lt SQL first SELEC
比较两个 postgres 转储文件

如何比较 postgres 转储文件我有两个转储文件 dump1 和 dump2 我想比较这两个转储文件任何帮助将不胜感激谢谢如果使用 Windows 则可以使用 Beyond Compare 如果使用 linux fedora 则
Google BQ：运行参数化查询，其中参数变量是 BQ 表目标

我正在尝试从 Linux 命令行为 BQ 表目标运行 SQL 此 SQL 脚本将用于多个日期客户端和 BQ 表目标因此这需要在我的 BQ API 命令行调用中使用参数标志 parameter 现在我已经点击此链接来了解参数化查询 h
在 postgres 查询中使用列表

我有一个动态列表 list a b c d 所以长度可能会改变我想在查询中比较这些列表值 select from student where name in all the list values 我想将列表值传递到此查询中我怎样才能做
Postgres 中的输出 Inserted.id 等效项

我是 PostgreSQL 新手正在尝试将 mssql 脚本转换为 Postgres 对于合并语句我们可以使用冲突更新插入或不执行任何操作但我使用下面的语句不确定这是否是正确的方法 MSSQL代码 Declare tab2 New
SQL 国家字符 (NCHAR) 数据类型的真正用途是什么？

也CHAR CHARACTER and VARCHAR CHARACTER VARYING SQL 提供了NCHAR NATIONAL CHARACTER and NVARCHAR NATIONAL CHARACTER VARYING 类型
无法连接到数据库 - Postgres Job Scheduling 发布（基于 Windows 的计算机）

我在互联网上搜索这个问题但找不到正确的答案这link https stackoverflow com questions 35410829 postgresql9 4 scheduling agent pgagent couldnt g
索引数量越少意味着插入、更新和删除速度更快？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
即使删除了某些行，使用种子值进行随机排序也会再次返回相同的集合吗？

我正在编写一个分页 API 通过设置随机种子值来给出随机结果除非用户想要洗牌结果否则结果将是相同的但如果用户想要洗牌我将重新创建种子值以便它将返回一组不同的记录我的问题是如果我从数据库中删除一条记录即使种子相同由于元素长度

随机推荐

如何同时执行多个Guzzle请求？

我可以使用 Guzzle 执行单个请求并且到目前为止我对 Guzzle 的性能非常满意但是我在 Guzzle API 中读到了有关 MultiCurl 和批处理的内容有人可以向我解释如何同时发出多个请求吗如果可能的话异步我不知道
基于类属性实现接口，无需反射

这一页 http www postsharp net aspects code introductionPostSharp 网站上有以下预告片您将遇到的常见情况之一是需要在大量类上实现特定接口这可能是INotifyPropertyCha
如何从正则表达式组中排除字符？

我想从字符串 python 中删除除连字符之外的所有非字母数字字符如何更改此正则表达式以匹配除连字符之外的任何非字母数字字符 re compile W Thanks 您可以只使用否定字符类来代替 re compile r a zA Z0
为什么维度顺序会随着布尔索引而改变？

当我们有M形状的 a b c 和一个索引数组v我们用它来索引最后一个数组为什么M i v 结果是一个形状数组 d b with d中真实值的数量v 如下图所示 In 409 M zeros 100 20 40 In 410 val one
C# 中的 Rijndael 密钥大小

我目前正在用 C 开发一个小工具可以让我快速加密我的文件所以我用了这个脚本 http www codeproject com Articles 26085 File Encryption and Decryption in C这看起来对
Doctrine 中的分离实体错误

我正在将一组实体发布到控制器我想删除所有这些实体但是下面的代码会抛出一个A detached entity was found during removed MyProject Bundle MyBundle Entity MyEnt
Gitlab+Jenkins 通过 webhook 显示此错误，我该如何解决此问题？

Hook 执行成功但返回 HTTP 403 h2 HTTP ERROR 403 No valid crumb was included in the request h2 table tr th URI th td job pipeline
创建继承自 IBlahblah 的所有类的集合

使用反射我猜是否可以创建一个方法该方法将返回从名为 IBlahblah 的接口继承的所有对象的集合 public interface IBlahblah 假设您有一个程序集或程序集列表要查看您可以获得以下集合types它实现了一
package.json 中本地主机的代理

我在地址中创建graphql服务器http localhost 4000 graphql我有服务器http localhost 3000 在 package json 输入中 proxy http localhost 4000 但我在这张图
C99 错误中函数“AudioServicesPlaySystemSoundWithVibration”的隐式声明无效

所以我主要用 swift 编写但似乎调用这个 AudioServicesPlaySystemSoundWithVibration 的唯一方法是在 Objective c 中一开始我编写的代码确实有效我不确定发生了什么变化但它给了
更改 Git 远程 URL 会更新提取，但不会更新推送

我正在尝试更改 Git 中原始分支的远程 URL 我只想更改 SSH 端口首先列出我的远程起源给了我这个 git remote v origin email protected cdn cgi l email protection pa
如何一次折叠所有 XAML 代码部分？

经过短暂的接触后我找到了答案CTRL M CTRL L这样做但这仅适用于特定块而不适用于所有代码部分例如Ctrl m O在代码后面 Use CTRL M CTRL A 请参阅此处查看完整列表 http visualstudiosho
Material UI useMediaQuery hooks 渲染两次到 React Component，你有什么解决方案吗？

我在项目中使用MUI 需要检查当前断点来为移动设备渲染div 但每次都是第一次渲染isMobile and 是桌面价值回报false但它在第二次渲染后设置了正确的值它从 UI 方面工作得很好但如果可能的话我想避免第一次不必要的渲染 c
将列中的类别扩展到 pandas 中的列名称

我正在尝试扩展不确定这个词是否正确一些绝对的使用 pandas 将数据放入列中假设我有以下数据框 df pandas DataFrame name john john louis louis day a b a b oranges
有没有列出所有移动设备和规格的信息数据库？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何开源项目或网站提供所有移动设备和规格的列表也许这已经很旧了但可能会对某人有所帮助我正在
如何使用 HTTP 重定向传递信息（在 Django 中）

我有一个接受表单提交并更新模型的视图更新模型后我想重定向到另一个页面并且我希望此页面上出现诸如 Field X successfully Updated 之类的消息如何将此消息传递到其他页面 HttpResponseRedire
Node-sass 和 gulp-sass 的优缺点

我想知道 node sass 和 gulp sass 之间有什么区别每个版本的优点和缺点是什么我在 www npmjs com 上看到 node sass 在下载方面有两倍以上的优势这会让事情变得更好吗编译速度有区别吗他们之间的区
如何使 AddressSanitizer 在出现错误（和其他问题）后不会停止

我运行的是 OS X 10 8 5 我已经通过 homebrew 安装了 llvm 3 4 clang version 3 4 tags RELEASE 34 final 并且我正在使用 fsanitize address 进行构建我可以
选择随机函数

我有一个函数列表 function randomiseiconscycle1 iconTwoContainer img iconFiveContainer img iconSevenContainer img fadeIn 300 setT
Postgres Select ILIKE %text% 在大字符串行上运行缓慢

我有一个只有 7 列的表其中一列存储每一行的长文本数据该文本列数据的平均字符长度约为 1500 个字符该表有 500 000 行当我使用选择查询而不使用该文本列时没有问题查询按预期需要 10 秒但是如果我将这个长文本列添加到

Postgres Select ILIKE %text% 在大字符串行上运行缓慢

Postgres Select ILIKE %text% 在大字符串行上运行缓慢 的相关文章

随机推荐

热门标签

Postgres Select ILIKE %text% 在大字符串行上运行缓慢的相关文章