在两个 ASM GCC 内联块之间传播进位位

2023-12-26

亲爱的汇编/C++ 开发人员,

问题是:即使它有效,在两个 ASM 块之间传播进位(或任何标志)是现实的还是完全疯狂的?

几年前,我开发了一个用于低于 512 位(在编译时)的大型算术的整数库。我当时没有使用 GMP,因为对于这种规模,由于内存分配和二进制表示的模型选择,GMP 变得更慢bench http://comp-phys.org/vli/bench.html.

我必须承认我使用以下命令创建了 ASM(字符串块)BOOST_PP,它不是很光荣(好奇的看看它vli https://github.com/timocafe/vli)。图书馆运转良好。

然而我注意到此时不可能在两个 ASM 内联块之间传播状态寄存器的进位标志。这是合乎逻辑的,因为对于编译器在两个块之间生成的任何助记符,寄存器都会被重置(除了mov说明(来自我的汇编知识))。

昨天,我想到了在两个 ASM 块之间传播进位的想法,这有点棘手(使用递归算法)。它正在发挥作用,但我认为我很幸运。

#include <iostream>
#include <array>
#include <cassert>
#include <algorithm>

//forward declaration
template<std::size_t NumBits>
struct integer;


//helper using object function, partial specialization  is forbiden on functions
template <std::size_t NumBits, std::size_t W, bool K = W == integer<NumBits>::numwords>
struct helper {
    static inline void add(integer<NumBits> &a, const integer<NumBits> &b){
        helper<NumBits, integer<NumBits>::numwords>::add(a,b);
    }
};

// first addition (call first)
template<std::size_t NumBits, std::size_t W>
struct helper<NumBits, W, 1> {
    static inline void add(integer<NumBits> &a, const integer<NumBits> &b){
        __asm__ (
                              "movq %1, %%rax \n"
                              "addq %%rax, %0 \n"
                              : "+m"(a[0]) // output
                              : "m" (b[0]) // input only
                              : "rax", "cc", "memory");
        helper<NumBits,W-1>::add(a,b);
    }
};

//second and more propagate the carry (call next)
template<std::size_t NumBits, std::size_t W>
struct helper<NumBits, W, 0> {
    static inline void add(integer<NumBits> &a, const integer<NumBits> &b){
        __asm__ (
                              "movq %1, %%rax \n"
                              "adcq %%rax, %0 \n"
                              : "+m"(a[integer<NumBits>::numwords-W])
                              : "m" (b[integer<NumBits>::numwords-W])
                              : "rax", "cc", "memory");
        helper<NumBits,W-1>::add(a,b);
    }
};

//nothing end reccursive process (call last)
template<std::size_t NumBits>
struct helper<NumBits, 0, 0> {
    static inline void add(integer<NumBits> &a, const integer<NumBits> &b){};
};

// tiny integer class
template<std::size_t NumBits>
struct integer{
    typedef uint64_t      value_type;
    static const std::size_t numbits = NumBits;
    static const std::size_t numwords = (NumBits+std::numeric_limits<value_type>::digits-1)/std::numeric_limits<value_type>::digits;
    using container = std::array<uint64_t, numwords>;

    typedef typename container::iterator             iterator;

    iterator begin() { return data_.begin();}
    iterator end() { return data_.end();}

    explicit integer(value_type num = value_type()){
        assert( -1l >> 1 == -1l );
        std::fill(begin(),end(),value_type());
        data_[0] = num;
    }

    inline value_type& operator[](std::size_t n){ return data_[n];}
    inline const value_type& operator[](std::size_t n) const { return data_[n];}

    integer& operator+=(const integer& a){
        helper<numbits,numwords>::add(*this,a);
        return *this;
    }

    integer& operator~(){
        std::transform(begin(),end(),begin(),std::bit_not<value_type>());
        return *this;
    }

    void print_raw(std::ostream& os) const{
        os << "(" ;
        for(std::size_t i = numwords-1; i > 0; --i)
            os << data_[i]<<" ";
        os << data_[0];
        os << ")";
    }

    void print(std::ostream& os) const{
        assert(false && " TO DO ! \n");
    }

private:
    container data_;
};

template <std::size_t NumBits>
std::ostream& operator<< (std::ostream& os, integer<NumBits> const& i){
    if(os.flags() & std::ios_base::hex)
        i.print_raw(os);
    else
        i.print(os);
    return os;
}

int main(int argc, const char * argv[]) {
    integer<256> a; // 0
    integer<256> b(1);

    ~a; //all the 0 become 1

    std::cout << " a: " << std::hex << a << std::endl;
    std::cout << " ref: (ffffffffffffffff ffffffffffffffff ffffffffffffffff ffffffffffffffff) " <<  std::endl;

    a += b; // should propagate the carry

    std::cout << " a+=b: " << a << std::endl;
    std::cout << " ref: (0 0 0 0) " <<  std::endl; // it works but ...

    return 0;
}

我得到了正确的结果(它必须在版本 -O2 或 -O3 中编译!)并且 ASM 是正确的(在我的 Mac 上使用 clang++:Apple LLVM 版本 9.0.0 (clang-900.0.39.2))

    movq    -96(%rbp), %rax
    addq    %rax, -64(%rbp)

    ## InlineAsm End
    ## InlineAsm Start
    movq    -88(%rbp), %rax
    adcq    %rax, -56(%rbp)

    ## InlineAsm End
    ## InlineAsm Start
    movq    -80(%rbp), %rax
    adcq    %rax, -48(%rbp)

    ## InlineAsm End
    ## InlineAsm Start
    movq    -72(%rbp), %rax
    adcq    %rax, -40(%rbp)

我确信它正在工作,因为在优化过程中,编译器删除了 ASM 块之间的所有无用指令(在调试模式下它失败了)。

你怎么认为 ?绝对不安全?编译器人员知道它的稳定性吗?

总而言之:我这样做只是为了好玩:) 是的,GMP 是大型算术的解决方案!


指某东西的用途__volatile__是一种虐待。

的目的__volatile__是强制编译器在写入的位置发出汇编代码,而不是依靠数据流分析来解决这个问题。如果您在用户空间中对数据进行普通操作,通常不应该使用__volatile__,如果你需要__volatile__要让您的代码正常工作,几乎总是意味着您的操作数指定不正确。

是的,操作数指定不正确。让我们看看第一个块。

__asm__ __volatile__ (
                      "movq %1, %%rax \n"
                      "addq %%rax, %0 \n"
                      : "=m"(a[0]) // output
                      : "m" (b[0]) // input only
                      : "rax", "memory");

这里有两个错误。

  • 对输出的约束"=m"(a[0])是不正确的。请记住,目的地为addq既是输入又是输出,所以正确的约束是+,所以使用"+m"(a[0])。如果你告诉编译器a[0]仅输出,编译器可能会安排a[0]包含垃圾值(通过死存储消除),这不是您想要的。

  • 装配规范中缺少这些标志。在不告诉编译器标志已修改的情况下,编译器可能会假设标志在整个汇编块中保留,这将导致编译器在其他地方生成不正确的代码。

不幸的是,这些标志只能用作汇编块的输出或破坏操作数,而不能用作输入。因此,在正确指定操作数之后,您就不会使用__volatile__...事实证明,无论如何都没有一个好的方法来指定你的操作数!

所以这里的建议是你应该at least修复您可以修复的操作数,并指定"cc"作为一个破坏者。但有一些更好的解决方案不需要__volatile__根本...

解决方案#1:使用 GMP。

The mpn_加法函数不分配内存。这mpz_函数是围绕mpn_具有一些额外逻辑和内存分配的函数。

解决方案#2:将所有内容写入一个汇编块中。

如果将整个循环写入一个汇编块中,则不必担心在块之间保留标志。您可以使用汇编宏来执行此操作。请原谅混乱,我不是一个汇编程序员:

template <int N>
void add(unsigned long long *dest, unsigned long long *src) {
  __asm__(
      "movq (%1), %%rax"
      "\n\taddq %%rax, (%0)"
      "\n.local add_offset"
      "\n.set add_offset,0"
      "\n.rept %P2" // %P0 means %0 but without the $ in front
      "\n.set add_offset,add_offset+8"
      "\n\tmovq add_offset(%1), %%rax"
      "\n\tadcq %%rax, add_offset(%0)"
      "\n.endr"
      :
      : "r"(dest), "r"(src), "n"(N-1)
      : "cc", "memory", "rax");
}   

它的作用是使用以下方法评估循环.rept装配指令。您最终将获得 1 份addq和 N-1 个副本adcq,尽管如果你用以下命令查看 GCC 的汇编输出-S您只会看到其中之一。汇编器本身将创建副本,展开循环。

参见要点:https://gist.github.com/depp/966fc1f4d535e31d9725cc71d97daf91 https://gist.github.com/depp/966fc1f4d535e31d9725cc71d97daf91

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在两个 ASM GCC 内联块之间传播进位位 的相关文章

随机推荐

  • 如何让 wpf 工具包数据网格在绑定到数据集时显示新行

    有没有办法获取wpf工具包DataGrid当绑定到 a 时显示新行DataSet 换句话说 我有一个DataGrid 我已经设置了它的ItemsSource to a DataTable 一切似乎都工作正常 除了我无法让网格显示我添加到的行
  • 使用 asynctask 加载图像时 Android 列表视图中的奇怪行为

    我希望任何人都可以帮助我解决我遇到的 ListView 问题 昨天我一直在用头撞铁墙 因为我不知道问题出在哪里 这本来不是我的项目 这使得它变得更加困难 我有一个列表视图 我想在其中加载联系人行 在每行的左侧 我想 下载 异步加载图像 为此
  • 在 OpenCV 3.0 中计算密集 SIFT 特征

    从 3 0 版本开始 DenseFeatureDetector 不再可用 有人可以告诉我如何在 OpenCV 3 0 中计算 Dense SIFT 特征吗 我在文档中找不到它 预先非常感谢您 您可以传递一个列表cv2 KeyPoints t
  • 为什么服务器端Javascript没有被广泛使用? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 拦截并过滤HTTP请求

    我想拦截 嗅探传入的 HTTP 请求并过滤 修改它们的内容 在它们到达应用程序之前 Fiddler 似乎有这个功能 但为了集成和可移植性 我宁愿有一些 Java C 库来做到这一点 例如 JPCAP 它拦截 IP 数据包 但是 如上所述 我
  • 如何在条件展开转场中传递数据?

    我尝试建立一个RSS阅读器 在 添加提要 页面上 如果我点击 添加 按钮 我希望检查提要是否已成功添加 如果添加了 则触发unwind segue 并返回主页 如果没有添加 则停留在当前页面 我知道我可以在 添加 按钮上构建 IBActio
  • 如何禁用 Tmux 中的键绑定

    使用 Tmux 和 Vim 有时很痛苦 对我来说 冲突之一是Control S 我在 Vim 中使用它来分割打开缓冲区 但是当使用 Tmux 时 嗯 Tmux 用它做了一些愚蠢的事情 我不明白其目的是什么 但基本上 当C s在 Tmux 中
  • PHP文件下载问题

    我目前在用户下载存储在我的服务器上的文件时遇到一些问题 我设置了代码 以便在用户点击下载按钮后自动下载文件 它适用于所有文件 但当大小超过 30 MB 时 就会出现问题 用户下载有限制吗 另外 我已经提供了示例代码 并且想知道是否有比使用
  • Python 3.4 中“强制转换”为 int

    我正在用 Python 3 4 编写一些简单的游戏 我对 Python 完全陌生 代码如下 def shapeAt self x y return self board y Board BoardWidth x 抛出错误 TypeError
  • 离子段仅在点击内容输入后改变

    我正在使用 ionicv2 和 Adob e Creative SDK 构建照片编辑应用程序 我已经成功实现了创意SDK C SDK 成功返回编辑文件的 url 后 我会推送包含段的页面以及文件 URL 问题出在第二页上 当我单击该段时 它
  • 使用 PHP-EWS 访问另一个邮箱日历事件

    在 PHP EWS 库中 https github com jamesiarmes php ews https github com jamesiarmes php ews 我可以使用以下代码访问特定用户的日历事件 https github
  • 将编程语言嵌入到程序中[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 是否可以让滚动边距顶部在 Safari 中工作?

    我在锚点上使用滚动边距顶部来为我的粘性标题添加空间 但 Safari 不支持它 这些文档在这里 https developer mozilla org en US docs Web CSS scroll margin https devel
  • Kotlin 文档中未解决的@sample

    例如 当我检查 Kotlin 文档时Collections map Intellij Idea 无法解析文档中提到的参考 我应该向我的项目添加什么才能使其正常工作 这是一个错误 https youtrack jetbrains com is
  • 了解 Java 序列化

    我正在尝试比较标准的 Java 反序列化 并询问这是否是正确的方法 我写了以下课程 first 1234 1234 21341234 234123412341234124L fifth public class ArrayInputStre
  • 在Python中将图像文件转换为浮点数组

    如何将图像转换为浮点数数组 img cv2 imread img png 现在将 img 转换为 float 所以我得到 print img 0 0 类似于 4 0 2 0 0 0 而不是 4 2 0 你有好主意吗 非常感谢 您可以将整数列
  • Eclipse RCP - 优秀的 Eclipse Forms 教程/资源

    我正在寻找资源来学习如何在 Eclipse RCP 应用程序中有效使用 Eclipse 表单 我试图在 Indigo 上使用最新的 SWT Window Builder 插件 但这种方式构建表单对我来说并不适用 例如 不能将任何内容放入可扩
  • SSL 错误:无效或自签名证书 - Magento 产品中的图像上传

    I get SSL Error Invalid or self signed certificate将图像上传到产品时出错 我能够轻松将图像上传到类别 但我无法将图片上传到产品 是的 请不要标记为重复 我已经检查过了Magento 上传图像
  • 如何在 Windows 上使用 clang 和 mingw-w64 标头

    我有 clang 3 9http llvm org releases 3 9 0 LLVM 3 9 0 win32 exe http llvm org releases 3 9 0 LLVM 3 9 0 win32 exe clang ve
  • 在两个 ASM GCC 内联块之间传播进位位

    亲爱的汇编 C 开发人员 问题是 即使它有效 在两个 ASM 块之间传播进位 或任何标志 是现实的还是完全疯狂的 几年前 我开发了一个用于低于 512 位 在编译时 的大型算术的整数库 我当时没有使用 GMP 因为对于这种规模 由于内存分配