Pandas 合并错误：MemoryError

2024-02-05

Problem:

我正在尝试将两个相对较小的数据集放在一起，但合并会引发MemoryError。我有两个国家贸易数据汇总数据集，我试图将其合并到关键年份和国家/地区，因此需要对数据进行特殊设置。不幸的是，这使得使用concat正如这个问题的答案所示，它的性能优势是不可能的：Python 中与 pandas 进行大型合并时出现 MemoryError https://stackoverflow.com/questions/17199200/memoryerror-on-large-merges-with-pandas-in-python.

这是设置：

尝试合并：

df = merge(df, i, left_on=['year', 'ComTrade_CC'], right_on=["Year","Partner Code"])

基本数据结构：

    Year    Reporter_Code   Trade_Flow_Code Partner_Code    Classification  Commodity Code  Quantity Unit Code  Supplementary Quantity  Netweight (kg)  Value   Estimation Code
0    2003    381     2   36  H2  070951  8   1274    1274    13810   0
1    2003    381     2   36  H2  070930  8   17150   17150   30626   0
2    2003    381     2   36  H2  0709    8   20493   20493   635840  0
3    2003    381     1   36  H2  0507    8   5200    5200    27619   0
4    2003    381     1   36  H2  050400  8   56439   56439   683104  0

df:

    mporter  cod     CC ComTrade_CC Distance_miles
0    110     215     215     757     428.989
1    110     215     215     757     428.989
2    110     215     215     757     428.989
3    110     215     215     757     428.989
4    110     215     215     757     428.989

错误回溯：

 MemoryError                      Traceback (most recent call last)
<ipython-input-10-8d6e9fb45de6> in <module>()
      1 for i in c_list:
----> 2     df = merge(df, i, left_on=['year', 'ComTrade_CC'], right_on=["Year","Partner Code"])

/usr/local/lib/python2.7/dist-packages/pandas-0.12.0rc1_309_g9fc8636-py2.7-linux-x86_64.egg/pandas/tools/merge.pyc in merge(left, right, how, on, left_on, right_on, left_index, right_index, sort, suffixes, copy)
     36                          right_index=right_index, sort=sort, suffixes=suffixes,
     37                          copy=copy)
---> 38     return op.get_result()
     39 if __debug__:
     40     merge.__doc__ = _merge_doc % '\nleft : DataFrame'

/usr/local/lib/python2.7/dist-packages/pandas-0.12.0rc1_309_g9fc8636-py2.7-linux-x86_64.egg/pandas/tools/merge.pyc in get_result(self)
    193                                       copy=self.copy)
    194 
--> 195         result_data = join_op.get_result()
    196         result = DataFrame(result_data)
    197 

/usr/local/lib/python2.7/dist-packages/pandas-0.12.0rc1_309_g9fc8636-py2.7-linux-x86_64.egg/pandas/tools/merge.pyc in get_result(self)
    693                 if klass in mapping:
    694                     klass_blocks.extend((unit, b) for b in mapping[klass])
--> 695             res_blk = self._get_merged_block(klass_blocks)
    696 
    697             # if we have a unique result index, need to clear the _ref_locs

/usr/local/lib/python2.7/dist-packages/pandas-0.12.0rc1_309_g9fc8636-py2.7-linux-x86_64.egg/pandas/tools/merge.pyc in _get_merged_block(self, to_merge)
    706     def _get_merged_block(self, to_merge):
    707         if len(to_merge) > 1:
--> 708             return self._merge_blocks(to_merge)
    709         else:
    710             unit, block = to_merge[0]

/usr/local/lib/python2.7/dist-packages/pandas-0.12.0rc1_309_g9fc8636-py2.7-linux-x86_64.egg/pandas/tools/merge.pyc in _merge_blocks(self, merge_chunks)
    728         # Should use Fortran order??
    729         block_dtype = _get_block_dtype([x[1] for x in merge_chunks])
--> 730         out = np.empty(out_shape, dtype=block_dtype)
    731 
    732         sofar = 0

MemoryError:

感谢您的想法！

如果遇到这个问题的人仍然遇到类似的问题merge，你可能会得到concat通过将两个数据框中的相关列重命名为相同的名称来工作，将它们设置为MultiIndex (i.e. df = dv.set_index(['A','B'])），然后使用concat加入他们。

UPDATE

Example:

df1 = pd.DataFrame({'A':[1, 2], 'B':[2, 3], 'C':[3, 4]})
df2 = pd.DataFrame({'A':[1, 2], 'B':[2, 3], 'D':[7, 8]})
both = pd.concat([df1.set_index(['A','B']), df2.set_index(['A','B'])], axis=1).reset_index()

df1

    A   B   C
0   1   2   3
1   2   3   4

df2

    A   B   D
0   1   2   7
1   2   3   8

both

    A   B   C   D
0   1   2   3   7
1   2   3   4   8

我还没有对这种方法的性能进行基准测试，但它没有出现内存错误并且适用于我的应用程序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas 合并错误：MemoryError 的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

有没有办法在langchain中加载通过VectorstoreIndexCreator创建的索引？它是如何工作的？

我正在尝试 langchains 及其应用程序但作为一个新手我无法理解嵌入和索引如何在这里真正协同工作我知道这两个是什么但我无法找到使用我创建和保存的索引的方法persist directory 我使用以下代码成功保存了 Vecto
通过快速返回键关闭键盘

我是一名使用 Swift 的初学者程序员我一直在开发一个待办事项列表应用程序我试图通过返回键关闭键盘我尝试过 self view endEditing true 和 resignFirstResponder 方法但它们都不起作用这
在 PHP 中：如何使用 include() 函数哪个参数是可变的？

我需要将 include 函数与变量一起使用但是当我尝试这样做时我遇到了一些错误 Code year POST year month POST month day POST day include Event php year yea
SignalR 因超过 2 个连接而失败

我在 SignalR 中编写了一个相当简单的聊天应用程序似乎如果我连接超过 2 个选项卡浏览器设备第三个将挂起并且永远不会连接并最终导致问题为什么我只能与 2 个用户连接当我断开另外两个请求之一时第三个请求就会通过无论我使用
如何使用QVector at或operator[]来获取指向元素的指针

我很想得到一个指向QVector元素这样我就可以在其他地方使用该对象但是at 方法给了我一个const T 值和operator 给我一个T value 我对如何使用它们来获取指针感到困惑以便我将使用相同的对象而不是使用复制构造函数
如何在 Linux 中列出文件的前 10 行或后 10 行而不解压文件 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我有一个 bz2文件我想列出前 10 行或后 10 行而不解压缩它因为它太大了我尝试过head 10 or tail 10但我看到的是胡言乱语
git rebase时进入vim时如何开始打字？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案使用 Powershell 5 时当我键入git rebase i
在android中集成javascript[重复]

这个问题在这里已经有答案了可能的重复 JavaScript 警报在 Android WebView 中不起作用 https stackoverflow com questions 5271898 javascript alert not
HeartBleed python 测试脚本

我碰到这个Python脚本 https gist github com takeshixx 10107280测试服务器是否存在 HeartBleed 漏洞有人能够解释你好的内容正在发送的内容以及该内容是如何构造的吗我并不是想恶意使
无法写入请求：找不到适合请求类型和内容类型的 HttpMessageConverter [application/x-java-serialized-object]

我正在尝试向第三方服务器发送 xml 请求并期待返回 xml 响应我在这里附上用于配置 Cnfiguration 网关和通道自定义 Rest 模板类和要执行的测试客户端的源代码我们有各种用于 XML Posting 的消息转换器但尽
如何在 iOS 上获取 Cognito 用户池“sub”属性

我正在使用 Cognito 用户池授权者无 AWS IAM 选项无自定义编码授权者通过 API 网关调用 Lambda 方法并识别登录 iOS 客户端的用户在 Lambda 上我使用从 Cognito 用户池授权者处获得的用户 I
如何在 PL/pgSQL IF 语句中运行 SELECT 查询

我正在尝试使用以下代码在 PL pgSQL IF 语句中运行 SELECT 查询 DO do DECLARE query type real arr real array 1 BEGIN IF query type 1 THEN RETUR
Javascript匿名函数不更新全局变量

我在一些代码中进行了 getJSON 调用该调用似乎没有更新全局变量但我不明白为什么 JSON 数据加载正常但由于某种原因全局 EventOptions 数组未在 for 循环中更新大写的注释指的是变量有任何想法吗谢谢 fun
无法在外键上创建表（错误号：150）

我看到很多同样的问题但我无法解决我的问题如果我运行这段代码
如何设置 thymeleaf th:来自其他变量的字段值

我有一个简单的文本输入字段我必须在其中设置一个对象的默认值并将其最终值保存在其他对象中以下代码不起作用 div div
简单的分布式 Erlang

我有一个简单的模块 module dist compile add 3 add From X Y gt From X Y 我正在启动两个节点一与 erl sname foo 另一个与 erl sname bar 在我正在做的酒吧节点上 g
速度较慢的 numpy.argmax/argmin 的更快替代方案

我正在使用很多argmin and argmax在Python中不幸的是该功能非常慢我已经做了一些搜索我能找到的最好的就在这里 http lemire me blog archives 2008 12 17 fast argmax
Firefox 4中的Greasemonkey脚本，想更改网页上的一行代码

好吧我会尽量让这件事变得尽可能简单但不会太含糊我想更改网页上的一行代码以防止出现预览窗格原始代码行 div class previewpane 我想将上面的行替换为 div class previewpane previewpan
文件加密与内容加密不同吗

加密文件和加密文件内容之间有什么区别吗如果是这样两者该如何做文件加密是从外部加密整个文件例如通过在 Windows XP 资源管理器中右键单击内容加密通常被用作文件加密的同义词但两者是不同的内容加密是指对文件的内容进行加密或
Pandas 合并错误：MemoryError

Problem 我正在尝试将两个相对较小的数据集放在一起但合并会引发MemoryError 我有两个国家贸易数据汇总数据集我试图将其合并到关键年份和国家地区因此需要对数据进行特殊设置不幸的是这使得使用concat正如这个问题的答

Pandas 合并错误：MemoryError

Problem:

Pandas 合并错误：MemoryError 的相关文章

随机推荐

热门标签