Julia 中的内存分配

2024-03-24

将程序从 Python 翻译成 Julia 后，我非常不满意：

对于小/非常小的输入，Python 更快
对于中等输入，Julia 更快（但没那么快）
对于大输入，Python 更快

我认为原因是我不明白内存分配是如何工作的（这里自学者，没有CS背景）。我会在这里发布我的代码，但它太长且太具体，除了我之外，它对任何人都没有好处。因此我做了一些实验，现在我有一些问题。

考虑这个简单的script.jl:

function main()
    @time begin
        a = [1,2,3]
    end
end
main()

当我运行它时，我得到：

$ julia script.jl
  0.000004 seconds (1 allocation: 96 bytes)

1.为什么是 96 字节？当我设置a = []我得到 64 个字节（为什么空数组的重量如此之大？）。 96 字节 - 64 字节 = 32 字节。但a is an Array{Int64,1}。 3 * 64 位 = 3 * 8 字节 = 24 字节！= 32 字节。

2.为什么我设置了还是得到96字节a = [1,2,3,4]?

3.为什么我运行此命令时会得到 937.500 KB：

function main()
    @time begin
        for _ in 1:10000
            a = [1,2,3]
        end
    end
end
main()

而不是 960.000 KB？

4.为什么，例如，filter()这么低效？看看这个：

check(n::Int64) = n % 2 == 0

function main()
    @time begin
        for _ in 1:1000
            a = [1,2,3]
            b = []
            for x in a
                check(x) && push!(b,x)
            end
            a = b
        end
    end
end
main()
$ julia script.jl
  0.000177 seconds (3.00 k allocations: 203.125 KB)

instead:

check(n::Int64) = n % 2 == 0

function main()
    @time begin
        for _ in 1:1000
            a = [1,2,3]
            a = filter(check,a)
        end
    end
end
main()

$ julia script.jl
  0.002029 seconds (3.43 k allocations: 225.339 KB)

如果我使用匿名函数（x -> x % 2 == 0）我得到的不是检查内部过滤器，而是：

$ julia script.jl
  0.004057 seconds (3.05 k allocations: 206.555 KB)

如果内置函数速度较慢并且需要更多内存，为什么我应该使用它？

快速解答：

1. Array除其他外，我们还可以在标题中跟踪它们的维度和大小。

2. Julia 确保其数组是16 字节对齐 https://en.wikipedia.org/wiki/Data_structure_alignment。如果您查看更多示例的分配情况，该模式就会变得显而易见：

julia> [@allocated(Array{Int64}(i)) for i=0:8]'
1x9 Array{Any,2}:
 64  80  80  96  96  112  112  128  128

3. 以千字节为单位进行报告。 1 KB 有 1024 个字节：

julia> 937.500 * 1024
960000.0

4. 匿名函数和将函数传递给高阶函数，例如filter是 0.4 中已知的性能问题，并已在最新的开发版本中修复。

一般来说，获得比预期更多的分配通常是类型不稳定的标志。我强烈建议阅读手册性能提示页面 http://docs.julialang.org/en/release-0.4/manual/performance-tips/有关此的更多信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Julia 中的内存分配的相关文章

Windows 上 PE 文件 (exe) 的最小文件大小是多少？以及最小内存分配？ [复制]

这个问题在这里已经有答案了 Windows 上 PE 文件 exe 的最小文件大小是多少以及最小内存分配我使用 VS 10 附带的 MASM ml exe 和 link exe 组装了以下代码我不能忽略 kernel32 lib 和
Java堆和栈内存分配

class Person private String name public Person public Person String name this name name public static void main String a
将数组复制到动态分配的内存

我的代码可以正常工作但我觉得好像有一种更快的方法可以做到这一点特别是在我的函数副本中这是我的代码这能再快一点吗顺便说一句这是 C 语言另外当我从函数返回 cpy 时它是否会删除动态内存因为它超出了范围我不想发生内存泄漏
Java中如何高效存储小字节数组？

By small字节数组我指的是长度从 10 到 30 的字节数组 By store我的意思是存储它们在内存中不序列化并持久化到文件系统系统 macOS 10 12 6 Oracle jdk1 8 0 141 64 位 JVM 参数
如何在内存中存储分子？

我想将分子存储在内存中这些可以是简单的分子 Methane CH4 C H bond length 108 7 pm H H angle 109 degrees But also more complex molecules like p
将全局标题添加到 Plots.jl 子图

我想使用 Plots jl 向一组子图添加全局标题理想情况下我会做类似的事情 using Plots pyplot plot rand 10 2 plot title Main title title A B layout 2 但是根
为什么 UIWebView 吃这么多内存？

我正在使用 UIWebView 为我的 iPad 应用程序加载纯文本 HTML 页面 HTTP页面的大小只有40KB 但是当我使用仪器监控加载 UIWebView 的内存使用情况时我发现它消耗了大约 20MB 内存如果我滚动 Web 视
清除通过在 IPython 中绘图分配的内存

我正在 IPython QtConsole 和 Notebook 中绘制一些大图这些占用了大量的内存但是一旦它们被绘制出来我就不再需要它们了它们就可以走了我怎样才能释放内存 None以下作品 close clf cla reset
如何解决内存分段并强制FastMM释放内存给OS？

注意 32 位应用程序不计划迁移到 64 位我正在使用一个非常消耗内存的应用程序并且几乎优化了与内存分配取消分配相关的所有相关路径应用程序本身没有内存泄漏没有句柄泄漏没有任何其他类型的泄漏据我所知并经过测试我无法触及的第 3
抛出错误的分配

我在尝试使用升压托管共享内存时收到 bad alloc 我从他们的快速指南中复制了升压示例以供不耐烦的人使用并结合了我自己的更改我的代码如下我注释掉了示例内容并在下面编写了自己的代码我还进行了一些调试和测试有人有什么想法吗任何
到底什么是“位填充”或“填充位”？

我只是在互联网上找不到任何关于位填充真正含义的详细解释并且在 Stack Overflow 上也没有找到与位填充相关的线程的任何答案我还搜索了 ISO 9899 1990 其中提到了位填充但没有根据我的需要进行解释我在网上找到
容器上的“container_memory_working_set_bytes”指标和 OOM-killer 之间有什么关系？

我试图找出并理解 OOM killer 如何在容器上工作为了弄清楚这一点我读了很多文章发现 OOM killer 会根据oom score And oom score是由oom score adj以及该进程的内存使用情况有两个指标c
WPF 每次打开和关闭窗口时都会增加内存

我已经做了非常简单的测试只是为了了解 wpf 如何与内存一起工作我用一个窗口创建一个项目其中有一个Button 第二个窗口完全是空的当我按下Button单击打开第二个窗口窗口 1 后面的代码
C# 中的字符串常量内存池

大家都知道 Net框架中String对象是直接存储在堆内存中的我只是想了解 Net 框架中是否为字符串保留了内存在java中有一个为字符串保留的内存称为SCMP 字符串常量内存池字符串在其中像堆内存中的其他对象一样被初始化和垃圾收
如何查找页面上R图形的字节大小？

我想监控 R 在各个页面上生成的图形的基本质量例如每个页面的字节大小我现在只能对平均页面进行质量保证请参阅下面的章节我认为这项任务必须有一些比一般措施更内置的东西生成 4 页的代码Rplots pdf我想知道此处输出中每个页面的字
小/大 numpy 数组的释放处理方式是否不同？

我正在尝试调试我的大型 Python 应用程序的内存问题大部分记忆都在numpy由Python类管理的数组所以Heapy http guppy pe sourceforge net 等等都是无用的因为它们不占内存numpy数组因此
JVM 最大堆大小可以是动态的吗？

JVM Xmx 参数允许将 JVM 的最大堆大小设置为某个值但是有没有办法让这个价值动态化呢换句话说我想告诉 JVM 看如果你需要它就继续从系统中获取 RAM 直到系统退出提问原因分为两部分首先所讨论的应用程序可以根据用户
如何在 Julia 中将列数据类型从浮点更改为字符串？

我正在尝试将数据框中的一列从浮点数转换为字符串我努力了 df readtable data csv coltypes String String String String String Float64 Float64 String 但我
Python列表内存存储[重复]

这个问题在这里已经有答案了据我了解 Python 列表本质上是 C 数组它们分配特定的顺序内存块但是这些内存块实际上存储列表中的数据还是它们只是指向内存中存储实际数据的另一个位置它可能取决于列表中存储的对象的大小吗因为您可以轻松
如何在 C++ 中急于提交分配的内存？

总体情况带宽 CPU 使用率和 GPU 使用率都极其密集的应用程序需要每秒从一个 GPU 向另一个 GPU 传输约 10 15GB 的数据它使用 DX11 API 来访问 GPU 因此上传到 GPU 只能在每次上传都需要映射的缓冲区中进

随机推荐

Scala：将数组放入集合或映射中的轻量级方法

Since 不适用于数组我无法有效地创建一组数组或带有数组键的映射我宁愿不承受将数组转换为向量或列表或其他东西的性能损失是否有一种轻量级的方法来定义数组上的自然比较和哈希码以便我可以将它们放在集合中 Use WrappedArra
异步 CMIS 客户端：与 OpenCMIS 并行下载或上传多个文件

The OpenCMIS 0 14 的变更日志 https www mail archive com announce apache org msg03240 html says 客户端添加了对异步操作的支持图书馆作为 CMIS 客户端
L2 逐出时从 L1 缓存逐出缓存

我有一个关于内存系统遵循的策略的基本问题考虑具有私有 L1 和 L2 缓存的核心在二级缓存之后我们有一个总线一致性流量在该总线上运行现在如果地址 X 的缓存线从二级缓存中逐出是否有必要从一级缓存中逐出该地址驱逐的原因可能是它
从 Node.JS 调用 Haskell

我想从 Node js 对 Haskell 代码进行 RPC 调用 Node 和 Haskell 都有哪些库我只能找到 XML RPC 和 Zeromq 但它们似乎不稳定对于 Haskell 端的 xml rpc haxr 库已经存在很
MySQL/Python -- 提交的更改未出现在循环中

使用 MySQL Connector Python 我有一个循环每 2 秒检查一次值是否发生变化没有所有的内容这是循环打印是为了测试目的 try while True request database get row table s
将文件从请求移动或复制到多个位置

我正在使用 Laravel 并接受输入和文件上传此页面接受用户想要对订单进行的更改最终目标是获取此输入并将其应用于多个订单我可以重复使用每个订单的输入但是对于我来说将该请求中的文件复制到多个目录的好方法是什么例如如文档中所示
SQL Server 中的条件条件

我有一个包含 3 个值的组合框 All Failed Completed ALL 加载所有行无条件 Failed and Completed 在状态列上加载条件 ALL SELECT FROM tbl Location 失败和完成 S
如何在不使用 conda 的情况下从源代码安装 Bob

Bob https www idiap ch software bob 推荐其用户install https www idiap ch software bob install它的包使用conda 但我不想用conda 我如何从源代码安装它
如何使用基于单选按钮输入的jquery跳过隐藏输入字段的验证（删除必需属性）

使用 bootstrap 有一个简单的形式为了进行验证我使用了必需的引导程序效果很好但在我的表单中我根据单选按钮隐藏带有查询的输入字段我的问题是提交表单需要隐藏的输入字段我怎样才能跳过这个我不想验证隐藏的输入 Error
GCC 编译器选项 -wno-four-char-constants 和 -wno-multichar

找不到任何有关的文档 Wno four char constants 但是我怀疑它类似于 Wno multichar 我对么它们是相关的但不是同一件事编译与 Wall pedantic标志分配 int i abc 产生警告多字符
socket.io，“访问控制允许来源”错误

我已经设置了一个带有套接字 io 转动的节点服务器并尝试通过另一台服务器连接到它然而不同计算机上的某些浏览器给我这个错误并使其始终重新连接 XMLHttpRequest 无法加载当请求的凭据模式为 include 时响应中 Ac
jQuery .data() 与 HTML5 data-XXX 性能对比

我发现了这个测试http jsbin com ekofa 2 http jsbin com ekofa 2这表明 HTML5 data XXX 比 jQuery 更快 data 我正在启动一个项目需要将大量小数据片段放置在 HTML 元素
geom_abline 似乎不尊重facet_grid [ggplot2]中的组

只是想了解 geom abline 如何与 ggplot 中的构面一起使用我有一个学生考试成绩的数据集这些位于具有 4 列的数据表 dt 中 student unique student ID cohort grouping facto
当没有其他窗口打开时，System.Windows.Window.ShowDialog() 出现意外行为。知道为什么吗？

当我的 WPF MVVM 应用程序尝试在主窗口启动之前显示两个连续的错误对话框窗口时我发现了这一点经过一些努力确定第一个窗口后应用程序进入循环第二个错误对话框从未出现我解决了这个问题但我希望有人能启发我为什么会发生这种情况看
在 Helm Charts 中添加 Nginx-Ingress/Certmanager 作为依赖项

我有一个带有 nginx ingress certmanager 和一个应用程序的 Kubernetes 集群 Azure 我想知道是否有一种方法可以将整个系统作为一个包这样如果集群出现任何问题它会更容易旋转再上一个我的主要想法是自动
如何在 Heroku 上使用 postgres 扩展？以及如何处理他们的迁移？

我有一个包含 pg search 和queue classic gems 的Rails 应用程序这两个都使用 PostgreSQL 扩展例如 unaccent pg trgm 和 ps something something 抱歉不是
如何创建 n 个非零随机小数的 L 个列表，其中每个列表的总和为 1.0？

寻找一种快速方法来创建 L 数量的 n 个小数列表其总和为 1 每个数字应该 gt 0 01 期望的输出其中 L 200 n 6 0 20 0 22 0 10 0 06 0 04 0 38 0 32 0 23 0 18 0 07 0 0
使用十六进制更改 Excel 单元格的背景色会导致 Excel 在电子表格中显示完全不同的颜色

因此我将 Excel 单元格的内部颜色设置为某个值如下所示 worksheet Cells 1 1 Interior Color 0xF1DCDB 然而当我在 Excel 中打开电子表格时我发现显示的颜色完全不同在上述情况下生成
MEF 依赖关系和版本控制

我有一个使用 MEF 加载零件的系统这些部分中的每一个都依赖于一个核心库当我构建项目时我将版本号添加到 dll 文件中如下所示第1部分 1 0 0 0 dll 第2部分 1 0 0 0 dll 此外还有一个执行 MEF 合成的应
Julia 中的内存分配

将程序从 Python 翻译成 Julia 后我非常不满意对于小非常小的输入 Python 更快对于中等输入 Julia 更快但没那么快对于大输入 Python 更快我认为原因是我不明白内存分配是如何工作的这里自学者没有C

Julia 中的内存分配

Julia 中的内存分配 的相关文章

随机推荐

热门标签

Julia 中的内存分配的相关文章