快速对数计算

2024-01-10

所有代码都在同一台 Linux 机器上运行。

在Python中：

import numpy as np
drr = abs(np.random.randn(100000,50))
%timeit np.log2(drr)

10 个循环，3 个循环中最好的：每个循环 77.9 毫秒

在 C++ 中（使用 g++ -o log ./log.cpp -std=c++11 -O3 编译）：

#include <iostream>
#include <iomanip>
#include <string>
#include <map>
#include <random>
#include <ctime>
int main()
{
std::mt19937 e2(0);
std::normal_distribution<> dist(0, 1);
const int n_seq = 100000;
const int l_seq = 50;
static double x[n_seq][l_seq];
for (int n = 0;n < n_seq; ++n) {
  for (int k = 0; k < l_seq; ++k) {
    x[n][k] = abs(dist(e2));
    if(x[n][k] <= 0)
      x[n][k] = 0.1;
    }
  }
 clock_t begin = clock();

 for (int n = 0; n < n_seq; ++n) {
   for (int k = 0; k < l_seq; ++k) {
     x[n][k] = std::log2(x[n][k]);
       }
  }
  clock_t end = clock();

60 毫秒内运行

在 MATLAB 中：

abr = abs(randn(100000,50));
tic;abr=log2(abr);toc

经过的时间为 7.8 毫秒。

我可以理解 C++ 和 numpy 之间的速度差异，但 MATLAB 胜过一切。我遇到过http://fastapprox.googlecode.com/svn/trunk/fastapprox/src/fastonebigheader.h http://fastapprox.googlecode.com/svn/trunk/fastapprox/src/fastonebigheader.h但这只是浮点数，而不是双精度数，而且我不知道如何将其转换为双精度数。

我也尝试过这个：http://hackage.haskell.org/package/approximate-0.2.2.1/src/cbits/fast.c http://hackage.haskell.org/package/approximate-0.2.2.1/src/cbits/fast.c它具有快速的日志函数，并且当编译为 numpy ufunc 时，运行时间为 20 毫秒，这很好，但准确性的损失很大。

关于如何实现 MATLAB 神奇的 log2 速度有什么想法吗？

UPDATE

谢谢大家的评论，速度非常快，非常有帮助！事实上，答案是并行化，即将负载分散到多个线程上。根据@morningsun的建议，

%timeit numexpr.evaluate('log(drr)')

给出 5.6 ms，与 MATLAB 相当，谢谢！ numexpr 启用了 MKL

请注意，下面的所有数据都是 float32，而不是双精度。

UPDATE：我完全放弃了 gcc，转而使用 Intel 的 icc。当性能至关重要并且您没有时间微调“编译器提示”以强制执行 gcc 向量化时（请参阅例如here http://locklessinc.com/articles/vectorize/)

log_omp.c,

GCC：gcc -o log_omp.so -fopenmp log_omp.c -lm -O3 -fPIC -shared -std=c99

ICC：icc -o log_omp.so -openmp loge_omp.c -lm -O3 -fPIC -shared -std=c99 -vec-report1 -xAVX -I/opt/intel/composer/mkl/include

#include <math.h>
#include "omp.h"
#include "mkl_vml.h"

#define restrict __restrict

inline void log_omp(int m, float * restrict a, float * restrict c);

void log_omp(int m, float * restrict a, float * restrict c)
{
   int i;
#pragma omp parallel for default(none) shared(m,a,c) private(i)
   for (i=0; i<m; i++) {
      a[i] = log(c[i]);
   }
}

// VML / icc only:
void log_VML(int m, float * restrict a, float * restrict c)
{
   int i;
   int split_to = 14;
   int iter = m / split_to;
   int additional = m % split_to;

//   vsLn(m, c, a);
#pragma omp parallel for default(none) shared(m,a,c, additional, iter) private(i) num_threads(split_to)
   for (i=0;i < (m-additional); i+=iter)
     vsLog10(iter,c+i,a+i);
     //vmsLn(iter,c+i,a+i, VML_HA);

   if (additional > 0)
     vsLog10(additional, c+m-additional, a+m-additional);
     //vmsLn(additional, c+m-additional, a+m-additional, VML_HA);
}

在Python中：

from ctypes import CDLL, c_int, c_void_p
def log_omp(xs, out):
    lib = CDLL('./log_omp.so')
    lib.log_omp.argtypes = [c_int, np.ctypeslib.ndpointer(dtype=np.float32), np.ctypeslib.ndpointer(dtype=np.float32)]
    lib.log_omp.restype  = c_void_p
    n = xs.shape[0]
    out = np.empty(n, np.float32)
    lib.log_omp(n, out, xs)
    return out

Cython 代码（在 ipython 笔记本中，因此有 %% 魔法）：

%%cython --compile-args=-fopenmp --link-args=-fopenmp
import  numpy as np
cimport numpy as np
from libc.math cimport log

from cython.parallel cimport prange
import cython

@cython.boundscheck(False)
def cylog(np.ndarray[np.float32_t, ndim=1] a not None,
        np.ndarray[np.float32_t, ndim=1] out=None):
    if out is None:
        out = np.empty((a.shape[0]), dtype=a.dtype)
    cdef Py_ssize_t i
    with nogil:
        for i in prange(a.shape[0]):
            out[i] = log(a[i])
    return out

Timings:

numexpr.detect_number_of_cores() // 2
28

%env OMP_NUM_THREADS=28
x = np.abs(np.random.randn(50000000).astype('float32'))
y = x.copy()

# GCC
%timeit log_omp(x, y)
10 loops, best of 3: 21.6 ms per loop
# ICC
%timeit log_omp(x, y)
100 loops, best of 3: 9.6 ms per loop
%timeit log_VML(x, y)
100 loops, best of 3: 10 ms per loop

%timeit cylog(x, out=y)
10 loops, best of 3: 21.7 ms per loop

numexpr.set_num_threads(28)
%timeit out = numexpr.evaluate('log(x)')
100 loops, best of 3: 13 ms per loop

所以 numexpr 似乎比（糟糕的）编译的 gcc 代码做得更好，但 icc 获胜。

我发现一些有用且可耻地使用代码的资源：

http://people.duke.edu/~ccc14/sta-663/Optimization_Bakeoff.html http://people.duke.edu/~ccc14/sta-663/Optimization_Bakeoff.html

https://gist.github.com/zed/2051661 https://gist.github.com/zed/2051661

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

快速对数计算的相关文章

参数验证，Python 中的最佳实践[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案让我们举一个 API 的例子 def get abs directory self path if os path isdir path ret
如何查看每秒更新的图表中的最后 10 个数据点？

我有这个代码 private void timer Tick object sender EventArgs e timer Stop for int i 0 i lt TOTAL SENSORS i DateTime d DateTime
如何为二进制格式化程序创建 SerializationBinder，以处理类型从一个程序集和命名空间到另一个程序集和命名空间的移动

上下文如下我想通过将代码移动到不同的项目来重构代码其中一些代码包含可序列化的 DTO 用于跨多个端点发送和接收数据如果我移动代码序列化就会中断因此它不是向后兼容我的应用程序的旧版本这个问题的一个解决方案是 Serializa
将两个垂直滚动条相互绑定

我在控件中有两个 TextBox 并且它们都有两个 VerticalScrollBar 我想在它们之间绑定 VerticalScrollBars 如果一个向上第二个也会向上等等如果可以的话我该怎么做 Thanks 不是真正的绑定但它有
我应该如何在软件中实现通用 FMA/FMAF 指令？

FMA是一个融合乘加指令这fmaf float x float y float z 函数于glibc称为vfmadd213ss操作说明我想知道这个指令是如何执行的据我的理解添加的指数x and y 尾数相乘x and y 将结果归一
绑定集合的子集

我有一个ObservableCollection
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
大小为 k 的非连续子序列的最大值的最小值

在开始之前我希望这个问题不是重复的我发现了几个类似的问题但它们似乎都没有描述完全相同的问题但如果它是重复的我会很高兴看到一个解决方案即使它与我的算法不同我一直在尝试回答这个问题 https stackoverflow com
对象变空似乎是 Hangfire 中的反序列化问题

Hangfire 似乎无法反序列化我的原始版本Scheduler对象及其所有状态我正在调用其 Execute 方法BackgroundJob Enqueue 如下所示 Scheduler new FileInFileOut FileIn
向客户端发送状态码 500 时页面未呈现

我有一个页面通用处理程序我想在该页面上向客户端返回状态代码 500 以指示出现问题我这样做 Response StatusCode 500 Response StatusDescription Internal Server Erro
使用Beam IO ReadFromPubSub模块时，可以在Python中提取带有属性的消息吗？尚不清楚是否支持

尝试将具有存储在 PubSub 中的属性的消息拉取到 Beam 管道中我想知道是否添加了对 Python 的支持这就是我无法阅读它们的原因我看到它存在于Java中 pipeline options PipelineOptions pi
如何通过分解 y 轴来减小 mschart 的高度

如何降低 mschart 的高度如下所示编辑就我而言我不想查看中断图表 this chart1 ChartAreas 0 AxisY ScaleBreakStyle Enabled false 您似乎正在寻找AxisY ScaleB
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
用 std::generate_n 填充 std::map

我想填写一个std map using std generate n但无法让它发挥作用我尝试过的是这样的事情 unsigned number of pairs 5 std map
如何检查日期时间是否发生在今天？

有没有比下面的代码更好的 net 方法来检查今天是否发生了 DateTime if newsStory WhenAdded Day DateTime Now Day newsStory WhenAdded Month DateTime
将“C# 友好类型”名称转换为实际类型：“int” => typeof(int)

我想得到一个System Type给定一个string指定原始类型C 友好名称基本上与 C 编译器读取 C 源代码时的方式相同我觉得描述我所追求的最好方式是单元测试的形式我希望存在一种通用技术可以使以下所有断言通过而不是尝试对
在for循环中声明和初始化变量

可以简单写一下吗 for int i 0 代替 int i for i 0 在 C 或 C 中并且会变量i只能在循环内部访问它在 C 中有效它在 C 的原始版本中是不合法的但在 C99 中被采用为 C 的一部分当时一些 C 功能被
将二进制长字符串转换为十六进制 C#

我正在寻找一种将长二进制字符串转换为十六进制字符串的方法二进制字符串看起来像这样 0110011010010111001001110101011100110100001101101000011001010110001101101011 我
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v
获取线段上最接近另一个点的点[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我想找到线段AB上最接近另一个点P的点我的想法是 Get a1 and b1由直线公式y1 a1x b1 使用 A 点

随机推荐

使用 FlyingSaucer 将包含阿拉伯字符的 HTML 页面转换为 PDF

我想使用 FlyingSaucer 将包含阿拉伯字符的 HTML 页面转换为 PDF 文件但生成的 PDF 不包含组合字符并向后打印输出 HTML
Rails：为什么“格式”（正则表达式）验证失败？

我对产品价格进行了以下验证 class Product lt ActiveRecord Base PRICE REGEX 1 9 d 0 5 0 d 1 2 validates price presence gt true format g
CannotAcquireLockException（Spring、Hibernate、MySQL）

我们的应用程序使用 Spring Hibernate 和 MySQL 但有时查询会生成无法获取锁定异常代码如下 public Ledger storeOrUpdateLedgers Ledger ledgers int iClinicId
使用“date”命令获取上个月、当前月份和下个月

我使用下面的方法来获取上个月当前月份和下个月的信息Ubuntu 11 04 LAST MONTH date m d last month NEXT MONTH date m d next month THIS MONTH date m d
如何制作一个带有 UITextView 的 UITableViewCell，在 UITextView 的基础上动态调整其高度？

我想要一个 tablew 视图其行为类似于 Apple 的 iPhone 联系人应用程序一个 uitableviewcell 里面有一个 uitextview 这样当我在 uitextview 中写入时 uitextview 会增加其高
CSS3 中为什么有供应商前缀？ [复制]

这个问题在这里已经有答案了我可以理解将它们用于非官方的实验性事物即不在 CSS3 规范中以防止名称冲突但为什么需要阴影等前缀每个供应商不应该按照 CSS3 规范实现相同的效果吗编辑 CSS3 最终确定后前缀会消失吗我只是好奇
如何修改后台 Cloud Function 的 Google Cloud Pub/Sub 订阅确认截止时间

通过以下方式为 Cloud Pub Sub 部署后台 Cloud Function 时 gcloud functions deploy function name runtime python37 trigger topic some to
SFML RenderWindow 需要很长时间才能打开窗口

我知道这本质上是重复的但是this https stackoverflow com questions 50988505 sfml renderwindow taking inconsistent time to display从未得到答
修改Google Sheet纸张尺寸

这是我第一次在谷歌表中使用脚本我在网上看到了一些代码我只是想知道如何修改下面代码的纸张尺寸我们国家的法定尺寸是 8 5 x 13 var exportUrl url replace edit export exportFormat p
鼠标悬停时的 Flash 事件

有没有办法找出将鼠标移到 Flash 项目中的对象上时调用哪些方法如果您尝试以下操作您将能够跟踪对象上的每个侦听器它将调用所有不带任何参数的侦听器这将引发错误如果你发现错误你可以解析error getStackTrace查看听众
如何发送带有添加空格的 urllib2 请求

我正在尝试发送一个请求来打开使用空格的网页网址以便我可以从该页面下载文件在普通浏览器即 Chrome 中当您在地址栏中输入 url 时文件会自动生成并要求您下载我不再需要每次需要一组日志时都加载 Web 浏览器而是尝试创建一个
为什么弹性项目不会缩小到超过内容大小？

我有 4 个 Flexbox 列一切正常但是当我向列中添加一些文本并将其设置为大字体大小时由于 Flex 属性它使列比应有的宽度更宽我尝试使用word break break word它很有帮助但是当我将列的大小调整到非常小的宽
如何检索 slurm 脚本的内容？

我几天前提交了一份工作现在仍在运行但我忘记了内容script sh那天还有script sh已被删除您知道如何恢复该脚本的内容吗在最新版本中您可以使用以下命令检索您自己作业的作业脚本 scontrol write batch s
常见问题解答的语义 HTML 标记 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
具有不同原型的函数指针向量，我可以构建一个吗？

我正在为一个名为 virtual machine 的类做一个解析器我正在尝试为其构建一个函数向量但是 vm 上的一些函数需要参数不同数量类型的参数我仍然可以将它们放入我的向量中吗功能因为它们只有 void f 这是代码 clas
是否可以保存 Java Class 文件？

我环顾四周但似乎没有什么能完全涵盖我想做的事情是否可以保存一个Class
Django 管理中的 MultiValueDictKeyError

UPDATE model class PicturesManager models Manager def create pictures self flat img pictures self create car car image i
Butterknife 无法在我的适配器类中绑定

我有一个适配器可以为我的导航抽屉绘制布局我的导航抽屉包含两个内部 xml 文件一个是Header另一个是Row 我将它们绘制在一个适配器中但是当我尝试时setText 在我的标题上我无法绑定这是我的适配器类 public clas
Objective C 中 AudioToolbox 的引用错误

我在一个简单的 Roulett 应用程序中尝试播放一些 wav 文件时遇到以下错误我不确定该错误意味着什么因为代码中没有出现警告标志并且我已导入这是错误未定义的符号 AudioServicesCreateSystemSoundID
快速对数计算

所有代码都在同一台 Linux 机器上运行在Python中 import numpy as np drr abs np random randn 100000 50 timeit np log2 drr 10 个循环 3 个循环中最好的

快速对数计算

快速对数计算 的相关文章

随机推荐

热门标签

快速对数计算的相关文章