Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色

2024-03-13

我正在使用熊猫和xlsxwriter在 AWS lambda 中创建 Excel 报告。我遇到了一个问题：创建 60MB 区域内相当大的 Excel 文件时，磁盘空间已满，但还有 512MB 的可用磁盘空间。

我一直在试图弄清楚发生这种情况的原因和原因，并且我发现了一个看起来很有前途的房产，我可以通过，constant_memory，所以我使用以下代码尝试了这一点：

with pd.ExcelWriter(output, options={"constant_memory": True}) as writer:

看来这实际上确保了我的 lambda 始终如一地运行完成，如果我删除它，它就不再完成，但问题是我收到以下警告：

FutureWarning: Use of **kwargs is deprecated, use engine_kwargs instead.
    with pd.ExcelWriter(output, options={"constant_memory": True}) as writer:

然后我读了一篇关于SO的文章，我认为这是作者的xlsxwriter表明此属性在使用 pandas 时实际上不起作用。这一点很明显，因为我只得到了 Excel 报告中的第一列和 360000 行的最后一行。我很困惑如何通过这个来确保我的 lambda 完成0？为什么如果我不通过它，那么我的 lambda 就会耗尽磁盘空间？

第二个奇怪的事情是 pandas 的文档没有提到任何名为options无论如何，如果我尝试通过constant_memory using engine_kwargs:

with pd.ExcelWriter(output, engine_kwargs={'constant_memory': True}) as writer:

我收到以下错误：

TypeError: __init__() got an unexpected keyword argument 'constant_memory'

我希望更熟悉 xlsxwriter 的人可以帮助我理解这几点。

的文档xlsxwriter还提到了一个属性in_memory，这似乎可以解决我的问题，但我无法将其传递给pd.ExcelWriter:

TypeError: __init__() got an unexpected keyword argument 'in_memory'

**编辑：通过in_memory实际上确实解决了我遇到的问题，但我收到一条弃用警告，使用 kwargs 传递它options.

with pd.ExcelWriter(output, options={"in_memory": True}) as writer:

FutureWarning: Use of **kwargs is deprecated, use engine_kwargs instead.
    with pd.ExcelWriter(output, options={"in_memory": True}) as writer:

我怎样才能将该财产传递给xlsxwriter使用 pandas 时没有收到弃用警告，因为它似乎解决了我的问题？

当您收到弃用通知时，将 xlsxwriter 选项传递给 Pandas 的正确语法是：

writer = pd.ExcelWriter('pandas_example.xlsx',
                        engine='xlsxwriter',
                        engine_kwargs={'options': {'strings_to_numbers': True}})

看到这个XlsxWriter 文档的部分 https://xlsxwriter.readthedocs.io/working_with_pandas.html#passing-xlsxwriter-constructor-options-to-pandas.

However，正如您在问题中指出的那样，根据您的观察，constant_memory该选项不适用于 Pandas，因为它要求数据按行顺序写入，但 Pandas 使用逐列顺序。

但同时，需要明确的是，constant_memory选项只会减少应用程序使用的“内存”。它不会使文件的大小变小（事实上，如果文件包含大量字符串数据，它通常会使文件变大）。它可能只能“解决”您的问题，因为它只将一列数据写入文件，因此文件比预期小得多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

xlsxwriter

Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色的相关文章

Python 2.7 - statsmodels - 格式化和编写摘要输出

我正在使用逻辑回归pandas 0 11 0 数据处理和statsmodels 0 4 3在 Mac OSX Lion 上进行实际回归我将运行约 2 900 个不同的逻辑回归模型并需要将结果输出到 csv 文件并以特定方式格式化目前
在 pandas 线图中绘制多列[重复]

这个问题在这里已经有答案了我试图在折线图中绘制多个列其中月份作为 X 轴每个计数作为新线我希望它有 5 行 Count 18 Count 14 我尝试绘制 1 条线作为测试但是当我运行以下代码时我得到以下输出但没有图形
有效地从 2 个数据帧中查找日期时间范围的重叠

关于查找日期或时间范围的重叠存在一些问题例如 https stackoverflow com questions 9044084 efficient date range overlap calculation in python 我用这
pandas 数据框列表的列表列表

我有一个列表的列表最外层列表的长度为 20 单独的类别中间列表的长度可变时间戳列表内部列表的长度为 5 分割每个时间戳例如 sTimestamps 0 5 Tue Feb 7 10 06 30 2017 Tue Feb 7 10
Pandas 用单位插值数据

大家好几年来我一直在寻找 Stackoverflow 它对我帮助很大以至于我以前不需要注册但今天我遇到了一个使用 Python 与 Pandas 和 Quantities 也可能是 unum 或 pint 的问题我尽力发表清晰的帖子
如何使用groupby将多个函数应用于Pandas中的多个列？

我有一个正常的df A pd DataFrame 1 5 2 2 4 4 3 3 1 4 2 2 5 1 4 columns A B C index 1 2 3 4 5 下列的这个食谱 https stackoverflow com que
将 pandas DataFrame 中的数字转换为特定字符串格式

我需要运行一个可以通过循环完成的任务但我想有一种更有效更漂亮的方法来做到这一点我有一个DataFrame它有一个整数列我想将其转换为 4 位字符串表示形式也就是说 3 应转换为 0003 234 应转换为 0234 我正在寻找一种
使用自定义颜色渐变填充两条线之间的区域

我正在做一项几乎已经完成的作业但我想对其添加一些小改动尝试使用基于温度的颜色图而不是简单的颜色来填充两条线之间的区域绘制线条的方式本质上使它们成为独立的实体所以我知道我可能需要两个彼此相遇或重叠的颜色图来完成此任务但我不太确定如何
如何向 pandas 数据框中的新列添加值？

我想在 Pandas 数据框中创建一个新的命名列将第一个值插入其中然后将另一个值添加到同一列就像是 import pandas df pandas DataFrame df New column append a df New col
pandas python 根据一个或多个其他列的子集更新 A 列的子集

Edit我修改了下面的部分描述以澄清功能和组的含义修复拼写错误并包含我尝试过的其他代码我的熊猫df有 450 万行和 23 列下表显示了几行df2这是从生成的df 它显示了两组 eeskin and hduquant 和三
Python 如何使用 ExcelWriter 写入现有工作表

我正在尝试使用 ExcelWriter 将一些信息写入添加到包含多个工作表的工作簿中当我第一次使用该功能时我正在使用一些数据创建工作簿在第二次通话中我想将一些信息添加到工作簿中不同位置的所有工作表中 def Out Excel f
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
在 Pandas 中将行拆分为多列

所以我有这个数据框 df pd DataFrame Function 1 internal prop 1 external prop 1 Function 2 internal prop 2 external prop 2 Function
跨行对 Pandas 数据框进行分组 - 2.0

进一步这个问题跨行对 Pandas 数据框进行分组 https stackoverflow com questions 46995997 grouping pandas dataframe across rows 操作是 amount cl
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7

随机推荐

method="post" enctype="text/plain" 不兼容？

当我使用
使用yarn berry时将.yarn目录提交到git

在纱线浆果的下一个版本中manual https yarnpkg com getting started install指出应该只提交创建的名为 yarn 但是如果您对yarn使用多版本设置则该目录包含该文件releases yarn
根据ace编辑器实例中字符的长度设置宽度

我正在开发一个使用 contenteditable 属性创建自定义富文本编辑器的项目在这个富文本编辑器中我想插入单行 ace 编辑器实例其宽度将根据其中的字符数设置为了将 ace 编辑器实例限制为单行我处理了 Enter 键事件
如何使用通配符投影别名？

一旦我做了一个join A by id B by id 我得到一个带有字段的别名A f B f 有没有办法只将其投影到A fields C join A by id B by id D filter C by B n lt 1000 E f
在大型文本文件中搜索字符串 - 分析 python 中的各种方法

这个问题已经被问过很多次了花了一些时间阅读答案后我做了一些快速分析来尝试前面提到的各种方法我有一个600 MB文件与600万字符串行 DMOZ 项目的类别路径每行的条目都是唯一的我想要load文件once 不停寻找用于数据中的匹配
如何撤消 SQL Server UPDATE 查询？

在 SQL Server Management Studio 中我执行了以下查询不幸的是我忘记取消注释WHERE clause 更新了 1647 行而不是 4 行如何撤消最后一条语句 Unfortunately I ve only
完成活动后如何取下键盘？

我有一个用户在其中输入的活动然后单击确定按钮完成后活动关闭并返回到旧活动但软键盘仍然在屏幕上我试过了android windowSoftInputMode stateHidden and getWindow setSoftIn
阻止直接 URL 访问返回部分视图的控制器？

如果有一个名为 UsersController 的控制器其操作如下 public ActionResult ActiveUsers IQueryable
如何获取数组值作为curl php请求的返回值？

由于我是 PHP 新手所以我很难使用 PHP 问题是我没有从curl 请求中获得任何返回值我正在访问一个远程文件其中包含以下代码测试 php test gt getCall public function getCall var a
为什么 easy_install 适用于某些 Windows 二进制文件？

背景 Windows 默认情况下不包含编译器安装编译器或许还需要配置 Python 来使用它是一项足够复杂的任务许多开发人员都避免这样做为此许多具有二进制依赖项的包可以作为包含二进制文件的预编译 Windows 可执行文件提供
如果未找到元素，C# 中的 XmlSerializer 反序列化是否会失败？

我正在使用 XmlSerializer 在 C 中将对象写入和读取到 xml 我目前使用的属性XmlElement and XmlIgnore操纵对象的序列化如果我的 xml 文件缺少我需要的 xml 元素我的对象仍然可以很好地反序列化
Python 中的方法参数[重复]

这个问题在这里已经有答案了假设我有这样的代码 class Num def init self num self n num def getn self return self n def getone return 1 myObj Num
将特定线程绑定到特定处理器核心

我在大学里谈过一些关于并行处理的内容现在我正在努力提高它我可以编写可以并行运行的代码然后启动线程但之后我就失去了对线程执行操作的控制我想知道如何控制线程例如将特定线程绑定到特定处理器核心我对 C 最感兴趣但我已经用 Java
BigQuery 重复数据删除和分区表

我想在 BigQuery 中创建一个允许执行以下操作的视图重复记录删除将 PARTITIONTIME 公开为用于过滤的列以允许分区修剪我知道执行重复数据删除的建议查询是 SELECT EXCEPT row number FROM S
创建指向向量中元素的指针>

如果我想要一个指向 int 向量向量中的元素的指针我会写 vector
org.apache.hadoop.mapred.FileAlreadyExistsException

我试图在 Hadoop 中运行示例程序here http hadoop apache org common docs r0 20 2 mapred tutorial html Example 3A WordCount v1 0 当我尝试运行
深度复制嵌套可迭代（或改进的 itertools.tee 用于可迭代的可迭代）

Preface 我有一个测试我正在使用嵌套迭代通过嵌套迭代我的意思是仅可迭代作为元素作为测试级联考虑 from itertools import tee from typing import Any Iterable def foo
如何实现Android Open Accessory模式即服务？

我一直在研究 Android 开放配件开发套件依照指示Google 提供的 DemoKit 示例 http developer android com guide topics usb accessory html 我在使解决方案适应我的
ASP.net MVC DropDownList 预选项目被忽略

我面临着问题中概述的类似问题 ASP NET MVC RC 刷新中的 Html DropDownList 未预选择项目 https stackoverflow com questions 589935 html dropdownlist
Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色

我正在使用熊猫和xlsxwriter在 AWS lambda 中创建 Excel 报告我遇到了一个问题创建 60MB 区域内相当大的 Excel 文件时磁盘空间已满但还有 512MB 的可用磁盘空间我一直在试图弄清楚发生这种情况的

Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色

Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色 的相关文章

随机推荐

热门标签

Pandas 使用 XLSX Writer - 恒定内存/内存中表现出色的相关文章