Postgresql计数+排序性能

2024-03-21

我使用 postgresql 和 psycopg2 构建了一个小型库存系统。一切都很好，除了当我想创建内容的聚合摘要/报告时，由于 count() 和排序，我的性能非常糟糕。

数据库架构如下：


CREATE TABLE hosts
(
        id SERIAL PRIMARY KEY,
        name VARCHAR(255)
);
CREATE TABLE items
(
        id SERIAL PRIMARY KEY,
        description TEXT
);
CREATE TABLE host_item
(
        id SERIAL PRIMARY KEY,
        host INTEGER REFERENCES hosts(id) ON DELETE CASCADE ON UPDATE CASCADE,
        item INTEGER REFERENCES items(id) ON DELETE CASCADE ON UPDATE CASCADE
);

还有一些其他字段，但这些字段不相关。

我想提取 2 个不同的报告： - 所有主机的列表以及每个主机的项目数，从最高的顺序排列到最低计数 - 所有项目的列表，其中包含每个主机的数量，从最高到最低计数排序

我为此目的使用了 2 个查询：

具有主机数量的项目：


SELECT i.id, i.description, COUNT(hi.id) AS count
FROM items AS i
LEFT JOIN host_item AS hi
ON (i.id=hi.item)
GROUP BY i.id
ORDER BY count DESC
LIMIT 10;

主机的项目数：


SELECT h.id, h.name, COUNT(hi.id) AS count
FROM hosts AS h
LEFT JOIN host_item AS hi
ON (h.id=hi.host)
GROUP BY h.id
ORDER BY count DESC
LIMIT 10;

问题是：查询在返回任何数据之前运行 5-6 秒。由于这是一个基于 Web 的应用程序，6 秒是不可接受的。该数据库充满了大约 50k 主机、1000 个项目和 400 000 个主机/项目关系，并且当（或者如果）使用应用程序时，数据库可能会显着增加。

经过尝试，我发现通过删除“ORDER BY count DESC”部分，两个查询都会立即执行，没有任何延迟（完成查询的时间不到 20 毫秒）。

有什么方法可以优化这些查询，以便我可以毫不延迟地对结果进行排序？我尝试了不同的索引，但由于计算了计数，因此可以使用索引。我读过 postgresql 中的 count() 很慢，但它的排序给我带来了问题......

我当前的解决方法是将上面的查询作为每小时作业运行，将结果放入一个新表中，并在计数列上有一个索引以便快速查找。

我使用 Postgresql 9.2。

更新：按顺序查询计划:)

EXPLAIN ANALYZE
SELECT h.id, h.name, COUNT(hi.id) AS count
FROM hosts AS h
LEFT JOIN host_item AS hi
ON (h.id=hi.host)
GROUP BY h.id
ORDER BY count DESC
LIMIT 10;


 Limit  (cost=699028.97..699028.99 rows=10 width=21) (actual time=5427.422..5427.424 rows=10 loops=1)
   ->  Sort  (cost=699028.97..699166.44 rows=54990 width=21) (actual time=5427.415..5427.416 rows=10 loops=1)
         Sort Key: (count(hi.id))
         Sort Method: top-N heapsort  Memory: 25kB
         ->  GroupAggregate  (cost=613177.95..697840.66 rows=54990 width=21) (actual time=3317.320..5416.440 rows=54990 loops=1)
               ->  Merge Left Join  (cost=613177.95..679024.94 rows=3653163 width=21) (actual time=3317.267..5025.999 rows=3653163 loops=1)
                     Merge Cond: (h.id = hi.host)
                     ->  Index Scan using hosts_pkey on hosts h  (cost=0.00..1779.16 rows=54990 width=17) (actual time=0.012..15.693 rows=54990 loops=1)
                     ->  Materialize  (cost=613177.95..631443.77 rows=3653163 width=8) (actual time=3317.245..4370.865 rows=3653163 loops=1)
                           ->  Sort  (cost=613177.95..622310.86 rows=3653163 width=8) (actual time=3317.199..3975.417 rows=3653163 loops=1)
                                 Sort Key: hi.host
                                 Sort Method: external merge  Disk: 64288kB
                                 ->  Seq Scan on host_item hi  (cost=0.00..65124.63 rows=3653163 width=8) (actual time=0.006..643.257 rows=3653163 loops=1)
 Total runtime: 5438.248 ms





EXPLAIN ANALYZE
SELECT h.id, h.name, COUNT(hi.id) AS count
FROM hosts AS h
LEFT JOIN host_item AS hi
ON (h.id=hi.host)
GROUP BY h.id
LIMIT 10;


 Limit  (cost=0.00..417.03 rows=10 width=21) (actual time=0.136..0.849 rows=10 loops=1)
   ->  GroupAggregate  (cost=0.00..2293261.13 rows=54990 width=21) (actual time=0.134..0.845 rows=10 loops=1)
         ->  Merge Left Join  (cost=0.00..2274445.41 rows=3653163 width=21) (actual time=0.040..0.704 rows=581 loops=1)
               Merge Cond: (h.id = hi.host)
               ->  Index Scan using hosts_pkey on hosts h  (cost=0.00..1779.16 rows=54990 width=17) (actual time=0.015..0.021 rows=11 loops=1)
               ->  Index Scan Backward using idx_host_item_host on host_item hi  (cost=0.00..2226864.24 rows=3653163 width=8) (actual time=0.005..0.438 rows=581 loops=1)
 Total runtime: 1.143 ms

更新：这个问题的所有答案对于学习和理解 Postgres 的工作原理非常有帮助。这个问题似乎没有任何明确的解决方案，但我真的很感谢您提供的所有优秀答案，我将在以后的 Postgresql 工作中使用这些答案。非常感谢大家！

@Gordon 和 @willglynn 提供了很多有用的背景知识来解释为什么你的查询很慢。

解决方法是在表中添加一个计数器items and hosts以及使它们保持最新状态的触发器 - 写入操作的成本不菲。
或者像您一样使用物化视图。我可能会选择那样。

为此，您仍然需要定期执行这些查询，并且它们can得到改善。将您的第一个重写为：

SELECT id, i.description, hi.ct
FROM   items i
JOIN  (
    SELECT item AS id, count(*) AS ct
    FROM   host_item
    GROUP  BY item
    ORDER  BY ct DESC
    LIMIT  10
    ) hi USING (id);

如果表中有一行items对于表中的大多数行host_item，先聚合再聚合速度更快JOIN。与 @willglynn 推测的相反，Postgres 9.1 中不会自动优化这一点。
count(*)比count(col)原则上 - 以及等效的同时col不能为 NULL。（ALEFT JOIN可能会引入 NULL 值。）
简化版LEFT JOIN to JOIN。可以安全地假设总是至少有十个不同的主机。对于您的原始查询来说并不重要，但这是此查询的一项要求。
表上的索引host_item没有帮助，而且PKitems覆盖其余部分。

对于您的情况可能仍然不够好，但在我对 Postgres 9.1 的测试中，这种形式是快两倍以上。应该转换为 9.2，但测试时使用EXPLAIN ANALYZE为了确定。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Postgresql计数+排序性能的相关文章

将两行中相似的列数据合并到一行中

我的查询结果具有以下特征 LIDCode Total Domain Region VSE Version AB02 15 GLOBAL CANLA 0 6943 AB02 5925 CENTRE STREET SW 31 GLOBAL CA
如何授予所有表的 REFERENCES 权限

我必须授予REFERENCES登录权限说sql login 我可以给予资助REFERENCES对单个表的权限例如 GRANT REFERENCES ON Mytable TO sql login 有什么办法可以授予REFERENCES允许
模式更新后 jOOQ 生成的类的运行时验证？

我用org jooq util DefaultGenerator在构建过程中生成 jOOQ 类来表示我的数据库模式当应用程序运行时架构预计会在应用程序不知情的情况下发生更改此类更改可能与已生成的代码兼容也可能不兼容如何在运行时检测
postgres 有 CLOSEST 运算符吗？

我正在寻找这样的东西给定一个表格 id number 1 7 2 1 25 3 1 01 4 3 0 查询SELECT FROM my table WHEREnumberCLOSEST 1 将返回第 3 行我只关心数字现在我有一个程序
sql查询将两列与一列连接起来

我在 MS Access 2010 中有 2 个表如下所示 USERS u id u name LOAN l id l from ref users u id l to ref users u id l amount Users u id
对于数据库来说，选择正确的数据类型会影响性能吗？

如果是这样为什么我的意思是 tinyint 的搜索速度比 int 快吗如果是这样性能上的实际差异是什么是的根据数据类型它确实有所不同 int vs tinyint不会在速度上产生明显的差异但会在数据大小上产生差异假设tin
Postgres jsonb数组：查询非空交集

假设我有一个名为的 JSONB 列value在表中t 这些 JSON 的内部是tags字段是字符串列表我想对这些标记的 JSON blob 进行查询 foo or bar 所以假设表数据如下所示 value tags other tags
如何在SSRS中的表上创建热图？

如何在 SSRS 中创建这样的内容颜色将根据行中的值承销商从红色变为绿色所有这些都在一个组中您可以通过右键单击各个单元格并根据表达式设置填充颜色来完成此操作 In the Image below I ve mistakingly
没有运算符与给定名称和参数类型匹配。您可能需要添加显式类型转换。 -- Netbeans、Postgresql 8.4 和 Glassfish

我正在尝试使用 EclipseLink 在 Glassfish 中使用 JPA 编辑 Postgresql 中的表当我插入一个实体时它运行良好但是当我尝试编辑或删除同一实体时它失败并出现以下错误任何想法 Caused by Ex
SQLite HAVING 比较错误

我有一个测试 SQLite 表用于存储带有值的报告数据 CREATE TABLE IF NOT EXISTS test fact daily revenue date TEXT revenue NUMERIC product TEXT I
复选框上的数据绑定

我目前正在将数据从 SQL 数据库之一提取到我的应用程序中我可以让它适用于我的文本框和其他项目但是我似乎无法让它适用于复选框这是我正在使用的代码 DataTable dt new DataTable dt using SqlConn
更改迁移中的自动增量值（PostgreSQL 和 SQLite3）

我有一个托管在 Heroku 上的项目想要更改表的自动增量起始值我在本地使用 SQLite3 Heroku 使用 PostgreSQL 这是我在迁移中所拥有的 class CreateMytable lt ActiveRecord Mi
Mysql 检索所有有限制的行

我想检索特定用户的所有行限制为 0 x 所以我只是想问是否有任何方法可以检索 mysql 中的所有行而不调用返回 x 的 count id 的方法而不重载现有函数该函数在查询中根本没有限制与我们的 string Relace 功能
将 UUID 存储为 base64 字符串

我一直在尝试使用 UUID 作为数据库键我希望占用尽可能少的字节数同时仍然保持 UUID 表示形式的可读性我认为我已经使用 base64 将其减少到 22 个字节并删除了一些尾随的这些对于我的目的来说似乎没有必要存储这种方法有
使用 JSON 参数的 Postgres 批量 INSERT 函数

这是一个plpgsqlpostgres 的函数9 6 它试图INSERT一行如果插入没有失败由于违反键约束那么它会运行更多命令 CREATE FUNCTION foo int text text RETURNS void AS BEG
在sqlite SQL语句中与order by子句结合使用limit

下面的两条 SQL 语句总是会产生相同的结果集吗 1 SELECT FROM MyTable where Status 0 order by StartTime asc limit 10 2 SELECT FROM SELECT FROM
如何在 PostgreSQL 中使用具有多个值的 SQL LIKE 条件？

有没有更短的方法来查找多个匹配项 SELECT from table WHERE column LIKE AAA OR column LIKE BBB OR column LIKE CCC 这个问题适用于 PostgreSQL 9 1 但如
了解 SSMS 2008 中关系的更新和删除规则

当我们定义外键约束时我对 SQL Server 2008 Management Studio 中的更新和删除规则的含义感到困惑我也没有找到相关的帮助文档例如F1帮助这是屏幕快照如果有人能描述它们的含义并推荐一些相关文档来阅读我将
使用 where 进行 select 语句时，HSQLDB 用户缺乏权限或未找到对象错误

我的数据库使用 SQuirrel SQL 客户端版本 3 5 3 和 HSQLDB 我已经能够为其指定相应的驱动程序内存中并创建一个别名我创建了一个表 CREATE TABLE ENTRY NAME VARCHAR 100 NOT N
如何从 PostgreSQL 中的时间戳列值提取一天中的时间（或小时）？

我正在尝试从 PostgreSQL 中的时间戳列中提取一天中的时间这是我的做法但是太糟糕了知道如何做得更好吗 SELECT date part hour date demande text hours date part min

随机推荐

Pandoc 和 html5 导出 pdf 的利润丰厚

所以我第一次尝试Pandoc 一切看起来都很棒但是当通过 html5 wkhtmltopdf 导出时我的 pdf 输出保存时各面都有巨大的边距 pandoc t html5 s example md o output pdf 输出 pd
快速运行总和

我想要一个函数runningSum在数字数组 a 或任何可添加事物的有序集合上返回相同长度的数组其中每个元素i是 A 中所有元素的总和最多包括i 例子 runningSum 1 1 1 1 1 1 gt 1 2 3 4 5 6 run
Linq to Sql 任意关键字搜索查询

我的应用程序中有一个案例用户可以搜索术语列表搜索需要按以下顺序进行三遍与他们输入的内容完全匹配的一个完成简单所有单词单独匹配的一种完成了也很简单一处any单词匹配如何本质上我如何在 Linq to Sql 中告诉
如何传递 Rscript -e 多行字符串？

有没有办法提供代码Rscript e多行这在 vanilla R 中是可能的 R vanilla lt code a lt 3 3 quote gt cat a n quote gt ARGUMENT cat a ignored ARGU
Oracle Form 中的旧值和新值

我正在使用 Oracle Forms 我有一个名为SOLD TO CUST PARTY NAME 如果我检测到字段值发生变化我必须执行一个过程我尝试使用when validate 但即使您只需单击该字段并移动到另一个字段它也会执行无
Entity Framework 4.1 - Code First：多对多关系

我想建立这样的关系一个区域位于 x 个其他区域的附近 public class Zone public string Id get set public string Name get set public virtual ICollec
在 Java 中使用 ENUMS 验证值组合的最佳方法是什么？

我通过如下定义 ENUM 来验证从数据库检索的记录的状态 public enum RecordStatusEnum CREATED CREATED INSERTED INSERTED FAILED FAILED private String
在Linux中使用自定义规则在多个端口上运行的SSH服务[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在努力设置一台在多个端口上运行 SSH 服务的服务器例如端口 22 和 5522 这些端口应该具有一组不同的规则即我们为端口 2
在 C# 中如何将字符串转换为 ascii 二进制？

不久前高中一年级我请一位非常优秀的大三 C 程序员制作一个简单的应用程序将字符串转换为二进制他给了我以下代码示例 void ToBinary char str char tempstr int k 0 tempstr new cha
列表未添加 C# 中的所有值

我尝试了下面的代码来创建 json 代码代码工作正常我从数据库加载值但只有最后一个值我得到了输出剩余值未添加 DataTable dt new DataTable var objectToSerialize new RootObje
解除PDF密码保护，知道密码[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一堆 pdf 文件我想从中删除密码请注意我知道密码因此无需暴力破解我正在 Mac 上工作所以我想制作一个应用程序来删除这些
Git合并分支到master

我有一个主分支和一个工作分支branch 1 我想动一下branch 1正是如此master 所以我想要这样的东西 git checkout master git merge branch 1 I don t know what is
symfony2 - twig - 如何从树枝模板内部渲染树枝模板

我有一个 xxx html twig 文件它显示一个页面但是当我想用不同的数据刷新页面并用新数据更新它时我有一个选择和一个提交按钮问题是我不知道如何在控制器中调用一个动作我从我的树枝传递参数并调用新数据然后我用新参数再次渲染相同
Python：单击按钮[重复]

这个问题在这里已经有答案了我在单击此按钮时遇到问题该按钮的 HTML 代码如下所示
Eventbug 的实际工作原理

Eventbug http getfirebug com wiki index php Firebug Extensions Eventbug是 Firebug 的一个附加组件是的附加组件的附加组件其目的是跟踪分配给 DOM 元素的所
ld：架构armv7的871个重复符号，clang：错误：链接器命令失败，退出代码1（使用-v查看调用）

我在 iPhone 应用程序中使用 FastPDFKit 来显示 PDF 当我在模拟器上运行该项目时它工作正常但是当我在 iPhone 上运行该项目时出现以下错误 duplicate symbol value map in User
如何多次查询并最后关闭连接？

我想打开与 mysql 数据库的连接并使用不同的查询检索数据我是否需要在每次获取数据时关闭连接或者是否有更好的方法可以多次查询并仅在最后关闭连接目前我这样做 db dbConnect MySQL user root password
我们可以导出 Kibana 中的所有搜索结果数据吗？

我正在尝试导出 Kibana 5 中的所有搜索结果数据但它仅导出结果的计数有没有办法将所有数据导出为 CSV 格式在基巴纳到目前为止尝试过单击搜索结果底部的符号可视化尝试使用原始和格式化选项数据以 CSV 格式导出
symfony：如何设置不同环境的配置参数文件？

如何为每个环境设置不同的配置参数文件目前参数在parameters yml两者都使用dev and prod环境但我需要不同的参数才能在产品中部署我的应用程序您可以将所有使用的参数放入dev环境在一个app config parame
Postgresql计数+排序性能

我使用 postgresql 和 psycopg2 构建了一个小型库存系统一切都很好除了当我想创建内容的聚合摘要报告时由于 count 和排序我的性能非常糟糕数据库架构如下 CREATE TABLE hosts id SERIA

Postgresql计数+排序性能

Postgresql计数+排序性能 的相关文章

随机推荐

热门标签

Postgresql计数+排序性能的相关文章