在大型分箱数据集上使用“ggplot”时出现内存泄漏

2024-01-11

我正在制作各种ggplot在非常大的数据集上（比示例大得多）。我在 x 轴和 y 轴上创建了一个分箱函数，以便能够绘制如此大的数据集。

在下面的示例中，memory.size()是在开始时记录的。然后将大数据集模拟为dt. dt's x2是针对x1与分箱。使用不同的子集重复绘图dt。绘制对象的大小通过以下方式检查object.size()并存储。创建绘图对象后，rm(dt)被执行，然后是一个 doublegc()。在此刻，memory.size()再次被记录。最后，memory.size()最后的内容与开头的内容进行比较并打印。

鉴于绘制对象的尺寸较小，预计memory.size()最后的内容应该与开头的内容类似。But no. memory.size() 在我重新启动新的 R 会话之前不会再下降.

可重复的例子

library(data.table)
library(ggplot2)
library(magrittr)

# The binning function
# x = column name for x-axis (character)
# y = column name for y-axis (character)
# xNItv = Number of bin for x-axis
# yNItv = Number of bin for y-axis
# Value: A binned data.table
tab_by_bin_idxy <- function(dt, x, y, xNItv, yNItv) {
  #Binning
  xBreaks = dt[, seq(min(get(x), na.rm = T), max(get(x), na.rm = T), length.out = xNItv + 1)]
  yBreaks = dt[, seq(min(get(y), na.rm = T), max(get(y), na.rm = T), length.out = yNItv + 1)]
  xbinCode = dt[, .bincode(get(x), breaks = xBreaks, include.lowest = T)]
  xbinMid = sapply(seq(xNItv), function(i) {return(mean(xBreaks[c(i, i+1)]))})[xbinCode]
  ybinCode = dt[, .bincode(get(y), breaks = yBreaks, include.lowest = T)]
  ybinMid = sapply(seq(yNItv), function(i) {return(mean(yBreaks[c(i, i+1)]))})[ybinCode]
  #Creating table
  tab_match = CJ(xbinCode = seq(xNItv), ybinCode = seq(yNItv))
  tab_plot = data.table(xbinCode, xbinMid, ybinCode, ybinMid)[
    tab_match, .(xbinMid = xbinMid[1], ybinMid = ybinMid[1], N = .N), keyby = .EACHI, on = c("xbinCode", "ybinCode")
    ]
  #Returning table
  return(tab_plot)
}

before.mem.size <- memory.size()

# Simulation of dataset
nrow <- 6e5
ncol <- 60
dt <- do.call(data.table, lapply(seq(ncol), function(i) {return(runif(nrow))}) %>% set_names(paste0("x", seq(ncol))))

# Graph plotting
dummyEnv <- new.env()
with(dummyEnv, {
  fcn <- function(tab) {
    binned.dt <- tab_by_bin_idxy(dt = tab, x = "x1", y = "x2", xNItv = 50, yNItv = 50)
    plot <- ggplot(binned.dt, aes(x = xbinMid, y = ybinMid)) + geom_point(aes(size = N))
    return(plot)
  }
  lst_plots <- list(
    plot1 = fcn(dt),
    plot2 = fcn(dt[x1 <= 0.7]),
    plot3 = fcn(dt[x5 <= 0.3])
  )
  assign("size.of.plots", object.size(lst_plots), envir = .GlobalEnv)
})
rm(dummyEnv)

# After use, remove and clean up of dataset
rm(dt)
gc();gc()
after.mem.size <- memory.size()

# Memory reports
print(paste0("before.mem.size = ", before.mem.size))
print(paste0("after.mem.size = ", after.mem.size))
print(paste0("plot.objs.size = ", size.of.plots / 1000000))

我尝试对代码进行以下修改：

Inside fcn，去除ggplot并返回一个NULL而不是绘图对象：内存泄漏完全消失了。但这不是解决方案。我需要剧情。
请求的绘图越少/传递的列越少/行越少fcn，内存泄漏越少。
如果我不创建任何子集并仅创建一个绘图对象（在示例中，我绘制了 3 个），那么内存泄漏也会存在。
流程结束后，甚至在我打电话之后rm(list = ls())，记忆仍然不可恢复。

我想知道为什么会发生这种情况以及如何在不影响我进行分箱图和子集的需要的情况下摆脱它dt制作不同的情节。

感谢您的关注！

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

memory

ggplot2

memoryleaks

dataTable

在大型分箱数据集上使用“ggplot”时出现内存泄漏的相关文章

将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
使用 MAX_ORDER / 包含 mmzone.h

根据https www kernel org doc Documentation networking packet mmap txt https www kernel org doc Documentation networking pa
如何让R使用所有处理器？

我有一台运行 Windows XP 的四核笔记本电脑但查看任务管理器 R 似乎一次只使用一个处理器如何让 R 使用全部四个处理器并加速我的 R 程序我有一个基本系统我使用它在 for 循环上并行化我的程序一旦您了解需要做什么此方
如何在不循环的情况下添加组ID？

我有数据框例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列称为 groupid 它将产品按顺序分组在一起一旦 sum ordernum 达到 30 分配一个
如何使用 R 中带引号的字符值内的序列读取 CSV？

这是一个包含两个字符列的 CSV 文件 key value a 所有字符值都用双引号引起来并且有一个顺序在值之一内转义引号加分隔符我无法通过 read csv readr 中的 read csv 或 data table 中的 fr
将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
当每个记录都是一个段落并且某些记录有 4 个字段而其他记录有 6 个字段时，如何将文本文件读入 R

如何读取文本文件其中每条记录都是一个段落每个换行符表示单独的字段复杂的是有些记录有 4 行有些记录有 6 行当字段数量的差异为 1 时 DWin 解决了我的问题但当字段数量差异为 2 时一切都崩溃了你可以有一个在这里看看他
PhantomJS 网页内存消耗？

是否有一种编程方式因为我想在运行时自动执行方式来查看网页在通过 PhantomJs 运行时使用了多少内存我也在使用 casperjs 如果这有帮助的话我已经搜索了很多但没有找到任何方法 PhantomJs 使用 QtWebKit 因
C# 问题：加载 .MDB 文件、对其进行更改并将更改保存回原始文件的最简单方法是什么？

我正在进行的项目即将完成我正在加载一个 MDB 文件在 DataGrid 上显示内容并尝试在 DataGrid 上获取这些更改并将它们保存回 MDB 文件中我还将创建一个函数允许我从一个 MDB 文件中获取表并将其保存到另一个 M
glmnet 未从 cv.glmnet 收敛 lambda.min

我跑了20倍cv glmnet套索模型以获得 lambda 的最佳值但是当我尝试重现结果时glmnet 我收到一个错误内容如下 Warning messages 1 from glmnet Fortran code error c
R 中的字符串作为函数参数

数据框chocolates列出了糖果的类型以及每种糖果的一组评级 ID sweetness filling crash snickers 0 67 0 55 0 40 milky way 0 81 0 53 0 56 我正在编写一个函数它
使用outer代替expand.grid

我正在寻找尽可能快的速度并留在基地做该做的事expand grid做我用过outer为过去类似的目的创建一个向量像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
R - 通过覆盖和递归合并列表

假设我有两个带有名字的列表 a list a 1 b 2 c list d 1 e 2 d list a 1 b 2 b list a 2 c list e 1 f 2 d 3 e 2 我想递归地合并这些列表如果第二个参数包含冲突的值则
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
使用 dplyr::filter 的整洁方式是什么？

使用下面的函数调用foo c b 输出以内联方式显示正确的写作方式是什么df gt filter x gt x 我已经包含了一个使用的示例mutate以整洁的风格与之对比filter foo lt function variables x
具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

全部我想使用以下方法从相关矩阵中获取 p 值dplyr 和或扫帚包并同时测试多个变量我知道其他方法但 dplyr 对我来说似乎更简单更直观此外 dplyr 需要关联每个变量以获得特定的 p 值这使得该过程更容易更快我检查
使用自定义堆的类似 malloc 的函数

如果我希望使用自定义预分配堆构造类似 malloc 的功能那么 C 中最好的方法是什么我的具体问题是我有一个可映射类似内存的设备已将其放入我的地址空间中但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace

随机推荐

docker run 的命令行参数

我正在尝试慢慢构建一个 docker 镜像来满足我们的需求我想做的是运行具有单声道的基本映像然后让单声道在后台运行可执行文件从普通的命令行如果不尝试在容器中运行它它看起来像 usr local bin mono home crys
在 codeigniter 中删除后从文件夹中删除图像

我不仅想删除数据库中的图像还想删除文件夹中的图像这是我的模型 public function delete id if this gt db gt delete np gallery id id return true 这是我的控制器
在特定时间在 qglwidget 上绘制一个矩形

我在 ubuntu 16 04 上使用 Qt 5 7 和 c 我正在尝试实现一个继承 qglwidget 的类它以给定的速率 3 10 Hz 将图像渲染到屏幕上除此之外我想在屏幕上的某处绘制一个小矩形将其颜色从黑色更改为白色反之亦
拆分 html 代码标签和内容

有没有比我对正则表达式了解更多的人知道如何拆分 html 代码以便将所有标签和所有单词分开即 p Some content a href www test com A link a p 是这样分开的 array 0 gt p 1 gt
Notepad++ Regex + python脚本（替换中添加）

我也遇到了这个人同样的问题 Notepad 正则表达式将数字相加 https stackoverflow com questions 20506990 notepad regular expression add up numbers 35
获取不带“px;”的样式值的数字后缀

我正在尝试对 HTML 元素的位置进行一些比较逻辑我有一个我认为应该可以工作的系统但是有一个问题在我的代码中我使用不等式语句将一个绝对定位元素的当前左侧值和顶部值与另一个可能正在移动的元素进行比较 gt and lt 问题是我得
如果我为实体分配一个 ID，那么如何让 NHibernate 保存它，否则生成一个 ID？

根据 REST 哲学 PUTrequest 应该更新 URL 上的资源如果存在如果不存在则创建它换句话说如果我使用以下 URL PUT http server item 5 If an ItemID 为 5 的存在它将被更新如果
如何在background.js 和popup.js 之间进行通信？

我有一个带有后台脚本的扩展 background scripts scripts background js 和内容脚本 content scripts matches js scripts content script js 弹出窗口 p
存储谷歌翻译结果

我的客户正在使用 Google Translate API 将文本从英语翻译成多种语言如果客户以 Excel 表格的形式向我提供原始文本和翻译文本我是否可以将翻译文本存储在我的数据库中我尝试用谷歌搜索这个发现一个页面说这是不允许的
如何将表格放在div中

我有一个div包含一个table有两行如果单词之间有空格一切都很好但是如果我放了一个很长的单词比如400 个字符在里面 td 表将退出div 我怎样才能打破这个词并将其限制在 div Here https jsfiddle net
App Store 提交后出现无效的二进制错误

I m constantly getting the following Error 将我的应用程序提交到 App Store 后我已经尝试了 Apple 邮件中推荐的所有内容以及我在 Stackoverflow 上找到的帖子的答案尽管
ISO 8601 定义感恩节的重复间隔？

我试图定义一个每年重复的时间间隔从 11 月的第四个星期四的 13 30z 开始到同一天的 15 00z 结束这可以使用 ISO 8601 来完成吗这种重复无法用当前的 ISO 8601 来表达 ISO 8601 的下一版本很可能包
在 jQuery click() 期间处理程序是否总是同步调用？

通过一些简短的测试看来click 将触发任何适用的处理程序同步地也就是说处理程序都在之前调用click 返回这对于我正在开发的东西来说是理想的然而 jQuery 文档似乎并没有保证没有提到一种或另一种方式处理程序是同步调用的同
让文本输入框透明？应该很简单吧？

我试图使我的表单输入透明并将其覆盖在我的 div 之上基本上我希望文本字段对其后面的任何内容都是透明的有什么建议么
哪里可以下载 eclipse 4.4 的 google 插件？

谷歌的一些服务在这里被屏蔽我无法从更新站点安装谷歌的插件那么在哪里下载eclipse 4 4的插件存档目前谷歌的官方网站只提供4 3的存档干得好 http dl google com eclipse plugin core 4 4
iOS 如何处理 URL 方案重复？

如果另外 2 个应用程序注册相同的 url 方案 iOS 如何处理这个问题 The iOS 文档 http developer apple com library ios documentation iPhone Conceptual iP
调试测试时使用 DatabaseManager 连接到内存 Hsql（高超音速）数据库

我想在 IDE Intellij IDEA 11 1 2 中调试测试时使用 hsql DatabaseManager 或 swing 版本这并不重要连接到内存中的 HSQL 数据库实例我已经按照建议尝试过这个答案 https stac
在 C# 中显示带有 alpha 通道的 PNG

有没有办法在 C 应用程序中正确显示带有 alpha 通道的图像比如说 PNG 感谢您的任何建议 UPDATE 好吧我的问题有点不准确我想获得 Alpha 通道的真正透明度不填充父级的背景颜色在下图中我们可以看到支持透明度但按钮
Objective C 类别的实例变量

我遇到的情况是我似乎需要将实例变量添加到类别中但我从 Apple 的文档中知道我不能这样做所以我想知道最好的替代方案或解决方法是什么我想要做的是添加一个类别为 UIViewControllers 添加功能我会发现它在我所有不同的
在大型分箱数据集上使用“ggplot”时出现内存泄漏

我正在制作各种ggplot在非常大的数据集上比示例大得多我在 x 轴和 y 轴上创建了一个分箱函数以便能够绘制如此大的数据集在下面的示例中 memory size 是在开始时记录的然后将大数据集模拟为dt dt s x2是针对x1

在大型分箱数据集上使用“ggplot”时出现内存泄漏

在大型分箱数据集上使用“ggplot”时出现内存泄漏 的相关文章

随机推荐

热门标签

在大型分箱数据集上使用“ggplot”时出现内存泄漏的相关文章