numba - guvectorize 只比 jit 快一点

2024-01-06

我试图并行化在许多独立数据集上运行的蒙特卡罗模拟。我发现 numba 的并行 guvectorize 实现仅比 numba jit 实现快 30-40%。

我找到了这些（1 https://stackoverflow.com/questions/31101699/numba-guvectorize-is-very-slow-compared-to-jit, 2 https://stackoverflow.com/questions/35350689/numba-guvectorize-target-parallel-slower-than-target-cpu）Stackoverflow 上的类似主题，但它们并没有真正回答我的问题。在第一种情况下，由于回退到对象模式，实现速度变慢，而在第二种情况下，原始发布者没有正确使用 guvectorize - 这些问题都不适用于我的代码。

为了确保我的代码没有问题，我创建了这段非常简单的代码来比较 jit 和 guvectorize：

import timeit
import numpy as np
from numba import jit, guvectorize

#both functions take an (m x n) array as input, compute the row sum, and return the row sums in a (m x 1) array

@guvectorize(["void(float64[:], float64[:])"], "(n) -> ()", target="parallel", nopython=True)
def row_sum_gu(input, output) :
    output[0] = np.sum(input)

@jit(nopython=True)
def row_sum_jit(input_array, output_array) :
    m, n = input_array.shape
    for i in range(m) :
        output_array[i] = np.sum(input_array[i,:])

rows = int(64) #broadcasting (= supposed parallellization) dimension for guvectorize
columns = int(1e6)
input_array = np.ones((rows, columns))
output_array = np.zeros((rows))
output_array2 = np.zeros((rows))

#the first run includes the compile time
row_sum_jit(input_array, output_array)
row_sum_gu(input_array, output_array2)

#run each function 100 times and record the time
print("jit time:", timeit.timeit("row_sum_jit(input_array, output_array)", "from __main__ import row_sum_jit, input_array, output_array", number=100))
print("guvectorize time:", timeit.timeit("row_sum_gu(input_array, output_array2)", "from __main__ import row_sum_gu, input_array, output_array2", number=100))

这给了我以下输出（时间确实有所不同）：

jit time: 12.04114792868495
guvectorize time: 5.415564753115177

因此，并行代码也仅仅快两倍（仅当行数是 CPU 核心数的整数倍时，否则性能优势就会减弱），即使它利用了所有 cpu 核心，而 jit 代码仅使用一个（使用 htop 进行验证）。

我在一台配备 4 个 AMD Opteron 6380 CPU（总共 64 个内核）、256 GB RAM 和 Red Hat 4.4.7-1 操作系统的机器上运行该程序。我将 Anaconda 4.2.0 与 Python 3.5.2 和 Numba 0.26.0 结合使用。

我怎样才能进一步提高并行性能或者我做错了什么？

谢谢您的回答。

那是因为np.sum太简单了。使用 sum 处理数组不仅受到 CPU 的限制，还受到“内存访问”时间。所以投入更多的核心并不能解决问题much的差异（当然这取决于与 CPU 相关的内存访问速度）。

仅用于可视化np.sum是这样的（忽略除data):

def sum(data):
    sum_ = 0.
    data = data.ravel()
    for i in data.size:
        item = data[i]   # memory access (I/O bound)
        sum_ += item     # addition      (CPU bound)
    return sum

因此，如果大部分时间都花在访问内存上，那么如果将其并行化，您将不会看到任何真正的加速。但是，如果 CPU 密集型任务是瓶颈，那么使用更多内核将显着加快代码速度。

例如，如果您包含一些比加法慢的操作，您将看到更大的改进：

from math import sqrt
from numba import njit, jit, guvectorize
import timeit
import numpy as np

@njit
def square_sum(arr):
    a = 0.
    for i in range(arr.size):
        a = sqrt(a**2 + arr[i]**2)  # sqrt and square are cpu-intensive!
    return a

@guvectorize(["void(float64[:], float64[:])"], "(n) -> ()", target="parallel", nopython=True)
def row_sum_gu(input, output) :
    output[0] = square_sum(input)

@jit(nopython=True)
def row_sum_jit(input_array, output_array) :
    m, n = input_array.shape
    for i in range(m) :
        output_array[i] = square_sum(input_array[i,:])
    return output_array

I used IPythontimeit https://ipython.org/ipython-doc/3/interactive/magics.html#magic-timeit在这里，但它应该是等效的：

rows = int(64)
columns = int(1e6)

input_array = np.random.random((rows, columns))
output_array = np.zeros((rows))

# Warmup an check that they are equal 
np.testing.assert_equal(row_sum_jit(input_array, output_array), row_sum_gu(input_array, output_array2))
%timeit row_sum_jit(input_array, output_array.copy())  # 10 loops, best of 3: 130 ms per loop
%timeit row_sum_gu(input_array, output_array.copy())   # 10 loops, best of 3: 35.7 ms per loop

我只使用 4 个核心，因此这非常接近可能的加速极限！

请记住，并行计算只能显着加快计算速度如果作业受 CPU 限制.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

numba - guvectorize 只比 jit 快一点的相关文章

VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
如何知道Matlab中系统命令执行过程中经过的时间？

我有一个运行系统脚本的 Matlab 代码该脚本可能会因命令运行而停止我想知道是否有一种方法可以让程序知道它是否花费了很长时间并执行其他操作这是代码 tic status cmdout system iperfcmd The prog
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
计算 Richtextbox 中所有单词的最有效方法是什么？

我正在编写一个文本编辑器需要提供实时字数统计现在我正在使用这个扩展方法 public static int WordCount this string s s s TrimEnd if String IsNullOrEmpty s re
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
SignalR 似乎正在减慢我的 MVC/Azure 应用程序的启动速度

我有一个 MVC 应用程序在 Windows Azure 上的 WebRole 上的 NET 4 5 下运行使用 SignalR 1 0 alpha2 并使用 ServiceBus 底板在我的 App Start 文件夹中我有 Reg
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

Fortify 源分析器和 Apache Lenya

我正在尝试将 Fortify 源代码分析器用于我学校的一个研究项目以测试开源 Java Web 应用程序的安全性我目前正在研究 Apache Lenya 我正在使用最新的稳定版本 Lenya v2 0 2 根目录下有一个文件名为buil
使用 querySelectorAll 时，Typescript 对象可能为“null”.ts(2531)

class Test state elements container null constructor container HTMLElement null options permet de prendre les options du
在 C# 中将文本添加到文件的开头和结尾

我有一个进程可以获取一系列 xml 文件我将 xml 放在引号中的原因是文件中的文本没有根元素这会导致 xml 无效在我的处理中我想纠正这个问题并打开每个文件在每个文件的开头和结尾添加一个根节点然后将其关闭这是我的想法但这涉
使用私钥通过 VSCode 连接到主机

我想连接到远程服务器我知道用户名和主机名而且我也有private key pem文件如何使用 VSCode 连接到该虚拟机我在互联网上的解决方案中遇到了这个错误这是合理的因为我还没有导入这个private key pem文件在任
对于没有字段的构造函数，reallyUnsafePtrEquality#

据我了解没有字段的类型的构造函数是静态分配的并且 GHC在所有用途之间共享这些 https stackoverflow com a 3256825 176841 并且GC不会移动这些 https ghc haskell org tr
MD5 是否仍然足以唯一标识文件？

考虑到 MD5 算法的破坏和安全问题等 MD5 散列文件是否仍然被认为是唯一识别该文件的足够好的方法安全性不是我在这里最关心的问题但唯一地标识每个文件才是有什么想法吗是的 MD5从安全角度来说已经被彻底攻破但意外碰撞的概率仍然微乎
对嵌套列表进行排序：从排序中排除第一项[重复]

这个问题在这里已经有答案了 SET 我有一个csv file其中包括我的茶点的当前余额它是逗号分隔的但在本例中逗号为了提高可读性而删除 NAME AMOUNT PRICE Coca Cola 8 1 25 Fanta 6 1 29 D
嵌套集模型，对类别中的项目进行计数

我有一个适用于我的网站的嵌套集模型其中包含子类别等中的项目除了一个我无法解决的问题之外它运行得很好 item id item name 1 Laptop 2 iPod Classic 80GB 3 iPod Classic 160GB
Safari 不尊重 `transform-origin` SVG 属性

我正在尝试使用构建 SVGtransform属性但是虽然我的 SVG 在 Chrome 和 Firefox 中看起来符合预期但在 Safari 中看起来却损坏了看来 Safari 不尊重transform origin属性并始终应用
Oracle ODP.Net 和连接池

我想这确实是两个问题合二为一我们开发了一个访问 Oracle 数据库的 Net 应用程序并注意到在更改用户的 Oracle 密码后该应用程序会在连接字符串中使用旧密码继续运行一小段时间据推测这与现有连接的池化方式有关当第一次调查
jQuery：在子元素之前附加子元素

我有这样的 HTML 代码 div div class foobar div div 我想在里面附加子元素div content之前div foobar元素怎样才能做到这一点呢在回答你的问题之前让我先让你更清楚更容易地了解一些事情
检测列中导致 SQL 错误的单元格

假设我们正在尝试更改 SQL 表中列的类型例如varchar to float 使用 ALTER TABLE
我的搜索没有在谷歌地图中显示其标记有什么问题？

我创建了一个地方搜索谷歌地图喜欢搜索学校类型等地方我为私立和公立学校做了标记搜索框有效但是当我单击输入时它不显示公立私立学校是这是因为我的代码在图标上或标记唯一的问题是当我单击输入时它不显示其标记
将连续日期分组在一起

我在 Excel csv 中有一个请病假的许多员工列表按以下格式列出每个病假实例都有自己的线路我想添加另一列结果它记录病期的长度例如 Mon Tues Wed 表示这三个条目中的每一个都标有 3 我是Python新手我想知
将大型减速机拆分为较小的减速机

我有一个称为动物的特征减速器切片减速器我想将这些减速器分成哺乳动物鸟类鱼类等这部分很简单因为我可以简单地使用ActionReducerMap 现在假设哺乳动物的减速器状态很大我想将其分成几个较小的减速器即猫的家族狗的家族等
之间有区别吗？和 * 在 cron 表达式中？奇怪的例子

我的系统中有以下 cron 表达式 0 0 0 1 1 1 你知道吗我不知道这意味着什么写这篇文章的人在接下来的两周里正在度假所以我必须亲自去了解一下文档可以找到here https docs oracle com cd E1205
递归函数中的全局变量如何保持为零？

因此如果我有一个带有全局变量 var 的递归函数 int var void foo if var 3 return else var foo 然后我有一个调用 foo 的函数如下所示 void bar foo return 每次 foo
在模拟器上运行 iOS 应用程序，无需构建应用程序

我想知道是否可以在模拟器上运行 Xcode 项目而无需先构建源代码当我单击 Xcode 4 0 2 中的运行按钮时它首先构建然后运行它是否可以在不构建的情况下运行如果可能的话你会怎么做 Edit 这听起来可能是一个奇怪
AngularJS 1.2 - ngAnimate 不工作

我刚开始在 AngularJS 1 2 中使用 ng animate 我不确定为什么我的 ng animate 不能使用某个类名但可以使用我在示例中看到的简单淡入淡出的默认值在此示例中我尝试将 ng animate 类设置为动画 h
numba - guvectorize 只比 jit 快一点

我试图并行化在许多独立数据集上运行的蒙特卡罗模拟我发现 numba 的并行 guvectorize 实现仅比 numba jit 实现快 30 40 我找到了这些 1 https stackoverflow com questions 3

numba - guvectorize 只比 jit 快一点

numba - guvectorize 只比 jit 快一点 的相关文章

随机推荐

热门标签

numba - guvectorize 只比 jit 快一点的相关文章