Django 中大表的内存效率（恒定）和速度优化迭代

2023-12-31

我有一张非常大的桌子。它当前位于 MySQL 数据库中。我用的是Django。

我需要迭代each表的元素来预先计算一些特定的数据（也许如果我更好的话我可以这样做，但这不是重点）。

我希望在不断使用内存的情况下尽可能快地保持迭代。

因为它已经明确地在限制*大型* Django 查询集中的内存使用 https://stackoverflow.com/questions/4856882/limiting-memory-use-in-a-large-django-queryset and 为什么迭代大型 Django QuerySet 会消耗大量内存？ https://stackoverflow.com/questions/4222176/why-is-iterating-through-a-large-django-queryset-consuming-massive-amounts-of-me，对 django 中所有对象的简单迭代将杀死机器，因为它将从数据库中检索所有对象。

寻求解决方案

首先，为了减少内存消耗，您应该确保 DEBUG 为 False （或猴子修补光标：关闭 SQL 日志记录，同时保留设置。DEBUG？ https://stackoverflow.com/questions/7768027/turn-off-sql-logging-while-keeping-settings-debug）以确保 django 不会将内容存储在connections用于调试。

但即便如此，

for model in Model.objects.all()

是不行的。

即使形式略有改进也不行：

for model in Model.objects.all().iterator()

Using iterator() https://docs.djangoproject.com/en/dev/ref/models/querysets/#django.db.models.query.QuerySet.iterator不会在内部存储缓存的结果，从而节省一些内存（尽管不一定在 PostgreSQL 上！）；但显然仍会从数据库中检索整个对象。

一个幼稚的解决方案

The 第一个问题的解决方案 https://stackoverflow.com/a/5188179/422670是根据计数器对结果进行切片chunk_size。有多种写法，但基本上都归结为一个OFFSET + LIMITSQL 中的查询。

就像是：

qs = Model.objects.all()
counter = 0
count = qs.count()
while counter < count:     
    for model in qs[counter:counter+chunk_size].iterator()
        yield model
    counter += chunk_size

虽然这是内存高效的（恒定的内存使用量与chunk_size），就速度而言确实很差：随着 OFFSET 的增长，MySQL 和 PostgreSQL（可能还有大多数数据库）都会开始阻塞并变慢。

更好的解决方案

更好的解决方案可以在这个帖子 http://www.mellowmorning.com/2010/03/03/django-query-set-iterator-for-really-large-querysets/作者：蒂埃里·谢伦巴赫。它对 PK 进行过滤，这比抵消要快得多（多快可能取决于数据库）

pk = 0
last_pk = qs.order_by('-pk')[0].pk
queryset = qs.order_by('pk')
while pk < last_pk:
    for row in qs.filter(pk__gt=pk)[:chunksize]:
        pk = row.pk
        yield row
    gc.collect()

这开始变得令人满意。现在内存 = O(C)，速度 ~= O(N)

“更好”解决方案的问题

仅当 PK 在 QuerySet 中可用时，更好的解决方案才有效。不幸的是，情况并非总是如此，特别是当 QuerySet 包含不同的 (group_by) 和/或值 (ValueQuerySet) 的组合时。

对于这种情况，不能使用“更好的解决方案”。

我们可以做得更好吗？

现在我想知道我们是否可以走得更快并避免有关没有 PK 的 QuerySet 的问题。也许使用我在其他答案中找到的东西，但仅限于纯 SQL：使用cursors.

由于我对原始 SQL 很不熟悉，尤其是在 Django 中，所以真正的问题来了：

我们如何为大型表构建更好的 Django QuerySet Iterator

我从读到的内容中得出的结论是，我们应该使用服务器端游标（显然（参见参考资料）使用标准 Django 游标不会达到相同的结果，因为默认情况下 python-MySQL 和 psycopg 连接器都会缓存结果）。

这真的是一个更快（和/或更有效）的解决方案吗？

这可以在 django 中使用原始 SQL 来完成吗？或者我们应该根据数据库连接器编写特定的Python代码？

服务器端游标位于PostgreSQL http://initd.org/psycopg/docs/usage.html#server-side-cursors and in MySQL http://mysql-python.sourceforge.net/MySQLdb.html#using-and-extending

这就是我目前所能得到的......

一个姜戈`chunked_iterator()`

现在，当然最好让这个方法发挥作用queryset.iterator()，而不是iterate(queryset)，并成为 django 核心的一部分或至少是一个可插入应用程序。

Update感谢评论中的“T”找到了Django 门票 https://code.djangoproject.com/ticket/16614携带一些附加信息。连接器行为的差异使得最好的解决方案可能是创建一个特定的chunked方法而不是透明扩展iterator（对我来说听起来是个好方法）。实现存根exists https://github.com/akaariai/django-old/commit/8990e20df50ce110fe6ddbbdfed7a98987bb5835，但是已经一年没有任何作品了，而且看起来作者还没有准备好继续做下去。

附加参考资料：

为什么 MYSQL 较高的 LIMIT 偏移量会减慢查询速度？ https://stackoverflow.com/questions/4481388/why-does-mysql-higher-limit-offset-slow-the-query-down
如何加快 LIMIT 子句中具有较大偏移量的 MySQL 查询速度？ https://stackoverflow.com/questions/1243952/how-can-i-speed-up-a-mysql-query-with-a-large-offset-in-the-limit-clause
http://explainextend.com/2009/10/23/mysql-order-by-limit-performance-late-row-lookups/ http://explainextended.com/2009/10/23/mysql-order-by-limit-performance-late-row-lookups/
postgresql：偏移+限制变得非常慢 https://stackoverflow.com/questions/7974155/postgresql-offset-limit-gets-to-be-very-slow
提高 PostgreSQL 中的 OFFSET 性能 https://stackoverflow.com/questions/6618366/improving-offset-performance-in-postgresql
http://www.depesz.com/2011/05/20/pagination-with-fixed-order/ http://www.depesz.com/2011/05/20/pagination-with-fixed-order/
如何在Python中获取逐行MySQL结果集 https://stackoverflow.com/questions/337479/how-to-get-a-row-by-row-mysql-resultset-in-pythonMySQL 中的服务器端游标

Edits:

Django 1.6 正在添加持久数据库连接

Django 数据库持久连接 https://docs.djangoproject.com/en/dev/ref/databases/#persistent-connections

在某些情况下，这应该有助于使用游标。但这仍然超出了我目前的技能（以及学习时间）如何实施这样的解决方案。

此外，“更好的解决方案”肯定不适用于所有情况，不能用作通用方法，只能根据情况进行调整的存根......

简答

如果您使用 PostgreSQL 或 Oracle，则可以使用 Django 的内置迭代器 https://docs.djangoproject.com/en/dev/ref/models/querysets/#iterator:

queryset.iterator(chunk_size=1000)

这导致 Django 使用服务器端游标 https://docs.djangoproject.com/en/4.1/ref/models/querysets/#with-server-side-cursors并且在迭代查询集时不缓存模型。从 Django 4.1 开始，这甚至可以与prefetch_related.

对于其他数据库，您可以使用以下内容：

def queryset_iterator(queryset, page_size=1000):
    page = queryset.order_by("pk")[:page_size]
    while page:
        for obj in page:
            yield obj
            pk = obj.pk
        page = queryset.filter(pk__gt=pk).order_by("pk")[:page_size]

如果您想要返回页面而不是单个对象以与其他优化相结合，例如bulk_update，用这个：

def queryset_to_pages(queryset, page_size=1000):
    page = queryset.order_by("pk")[:page_size]
    while page:
        yield page
        pk = max(obj.pk for obj in page)
        page = queryset.filter(pk__gt=pk).order_by("pk")[:page_size]

PostgreSQL 性能分析

我在 Django 3.2 和 Postgres 13 上对大约 200,000 行的 PostgreSQL 表分析了多种不同的方法。对于每个查询，我将 ids 的总和相加，既确保 Django 实际检索对象，也使我能够验证查询之间迭代的正确性。所有计时都是在对相关表进行多次迭代后进行的，以最大限度地减少后续测试的缓存优势。

基本迭代

基本方法只是迭代表。这种方法的主要问题是所使用的内存量不是恒定的；它随着表的大小而增长，并且我已经看到在较大的表上内存不足。

x = sum(i.id for i in MyModel.objects.all())

挂壁时间：3.53 秒，22MB 内存（BAD）

Django迭代器

Django 迭代器（至少从 Django 3.2 开始）修复了内存问题，并带来了较小的性能提升。据推测，这是因为 Django 管理缓存的时间减少了。

assert sum(i.id for i in MyModel.objects.all().iterator(chunk_size=1000)) == x

挂载时间：3.11 秒，

自定义迭代器

自然的比较点是尝试通过逐渐增加对主键的查询来自己进行分页。虽然这是对简单迭代的改进，因为它具有恒定的内存，但它实际上在速度上输给了 Django 的内置迭代器，因为它进行了更多的数据库查询。

def queryset_iterator(queryset, page_size=1000):
    page = queryset.order_by("pk")[:page_size]
    while page:
        for obj in page:
            yield obj
            pk = obj.pk
        page = queryset.filter(pk__gt=pk).order_by("pk")[:page_size]

assert sum(i.id for i in queryset_iterator(MyModel.objects.all())) == x

挂载时间：3.65 秒，

自定义分页功能

使用自定义迭代的主要原因是您可以在页面中获取结果。此函数对于在仅使用常量内存时插入批量更新非常有用。在我的测试中，它比 queryset_iterator 慢一点，并且我没有一个连贯的理论来解释为什么，但速度减慢并不严重。

def queryset_to_pages(queryset, page_size=1000):
    page = queryset.order_by("pk")[:page_size]
    while page:
        yield page
        pk = max(obj.pk for obj in page)
        page = queryset.filter(pk__gt=pk).order_by("pk")[:page_size]

assert sum(i.id for page in queryset_to_pages(MyModel.objects.all()) for i in page) == x

挂载时间：4.49 秒，

替代自定义分页功能

鉴于 Django 的查询集迭代器比我们自己进行分页更快，因此可以交替实现查询集分页器来使用它。它比我们自己进行分页要快一点，但实现起来比较混乱。可读性很重要，这就是为什么我个人更喜欢前一个分页功能，但如果您的查询集在结果中没有主键（无论出于何种原因），这个功能可能会更好。

def queryset_to_pages2(queryset, page_size=1000):
    page = []
    page_count = 0
    for obj in queryset.iterator():
        page.append(obj)
        page_count += 1
        if page_count == page_size:
            yield page
            page = []
            page_count = 0
    yield page

assert sum(i.id for page in queryset_to_pages2(MyModel.objects.all()) for i in page) == x

挂载时间：4.33 秒，

不良方法

以下是您永远不应该使用的方法（问题中建议了其中许多方法）以及原因。

不要对无序查询集使用切片

无论你做什么，都不要对无序查询集进行切片。这不能正确地迭代表。这样做的原因是切片操作根据您的查询集执行 SQL limit + offset 查询，并且 django 查询集没有顺序保证，除非您使用order_by。此外，PostgreSQL 没有默认的 order by，并且Postgres 文档特别警告不要使用 limit + offset 而不使用 order by https://www.postgresql.org/docs/current/queries-limit.html。因此，每次获取切片时，您都会获得表的不确定性切片，这意味着你的切片可能不重叠 https://dba.stackexchange.com/a/138210并且不会覆盖它们之间表格的所有行。根据我的经验，只有当您在进行迭代时有其他东西正在修改表中的数据时，才会发生这种情况，这只会让这个问题更加严重，因为这意味着如果您单独测试代码，则该错误可能不会出现。

def very_bad_iterator(queryset, page_size=1000):
    counter = 0
    count = queryset.count()
    while counter < count:     
        for model in queryset[counter:counter+page_size].iterator():
            yield model
        counter += page_size

assert sum(i.id for i in very_bad_iterator(MyModel.objects.all())) == x

断言错误；即计算的结果不正确！

一般情况下不要使用切片进行全表迭代

即使我们对查询集进行排序，从性能角度来看，列表切片也是很糟糕的。这是因为 SQL offset 是线性时间操作，这意味着表的 limit + offset 分页迭代将是二次时间，这是您绝对不希望的。

def bad_iterator(queryset, page_size=1000):
    counter = 0
    count = queryset.count()
    while counter < count:     
        for model in queryset.order_by("id")[counter:counter+page_size].iterator():
            yield model
        counter += page_size

assert sum(i.id for i in bad_iterator(MyModel.objects.all())) == x

挂载时间：15 秒（BAD），

不要使用 Django 的分页器进行全表迭代

Django 带有一个内置的分页器 https://docs.djangoproject.com/en/dev/topics/pagination/。人们可能会认为这适合对数据库进行分页迭代，但事实并非如此。 Paginator 的目的是将单页结果返回到 UI 或 API 端点。它比任何迭代表的好方法都要慢得多。

from django.core.paginator import Paginator

def bad_paged_iterator(queryset, page_size=1000):
    p = Paginator(queryset.order_by("pk"), page_size)
    for i in p.page_range:
        yield p.get_page(i)
        
assert sum(i.id for page in bad_paged_iterator(MyModel.objects.all()) for i in page) == x

挂载时间：13.1 秒（BAD），

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)