为什么某些 float < integer 比较比其他比较慢四倍？

2024-05-27

将浮点数与整数进行比较时，某些值对的计算时间比类似大小的其他值要长得多。

例如：

>>> import timeit
>>> timeit.timeit("562949953420000.7 < 562949953421000") # run 1 million times
0.5387085462592742

但是，如果浮点型或整数按一定量变小或变大，则比较运行得更快：

>>> timeit.timeit("562949953420000.7 < 562949953422000") # integer increased by 1000
0.1481498428446173
>>> timeit.timeit("562949953423001.8 < 562949953421000") # float increased by 3001.1
0.1459577925548956

更改比较运算符（例如使用== or >相反）不会以任何明显的方式影响时间。

这不是solely与幅度相关，因为选择更大或更小的值可以导致更快的比较，所以我怀疑这归因于一些不幸的位排列方式。

显然，对于大多数用例来说，比较这些值的速度已经足够快了。我只是好奇为什么 Python 似乎在处理某些值对时比处理其他值时更困难。

Python 源代码中关于 float 对象的注释承认：

比较几乎是一场噩梦 https://hg.python.org/cpython/file/ea33b61cac74/Objects/floatobject.c#l285

在将浮点数与整数进行比较时尤其如此，因为与浮点数不同，Python 中的整数可以任意大并且始终是精确的。尝试将整数转换为浮点数可能会丢失精度并使比较不准确。尝试将浮点数转换为整数也不起作用，因为任何小数部分都会丢失。

为了解决这个问题，Python 执行一系列检查，如果其中一个检查成功则返回结果。它比较两个值的符号，然后比较整数是否“太大”而不能成为浮点数，然后比较浮点数的指数与整数的长度。如果所有这些检查都失败，则需要构造两个新的Python对象进行比较才能获得结果。

比较浮点数时v为整数/长整型w，最坏的情况是：

v and w具有相同的符号（均为正或均为负），
整数w有足够少的位可以保存在size_t https://stackoverflow.com/a/2550799/3923281类型（通常为 32 或 64 位），
整数w至少有 49 位，
浮点数的指数v与中的位数相同w.

这正是我们对问题中的值的理解：

>>> import math
>>> math.frexp(562949953420000.7) # gives the float's (significand, exponent) pair
(0.9999999999976706, 49)
>>> (562949953421000).bit_length()
49

我们看到 49 既是浮点数的指数，也是整数的位数。两个数字都是正数，因此满足上述四个标准。

选择较大（或较小）的值之一可以更改整数的位数或指数的值，因此 Python 能够确定比较的结果，而无需执行昂贵的最终检查。

这是特定于该语言的 CPython 实现的。

更详细的比较

The float_richcompare https://hg.python.org/cpython/file/ea33b61cac74/Objects/floatobject.c#l301函数处理两个值之间的比较v and w.

以下是该函数执行的检查的分步说明。当尝试理解函数的作用时，Python 源代码中的注释实际上非常有帮助，因此我将它们保留在相关的位置。我还在答案底部的列表中总结了这些检查。

主要思想是映射Python对象v and w到两个适当的 C 双打，i and j，然后可以轻松比较以给出正确的结果。 Python 2 和 Python 3 都使用相同的想法来做到这一点（前者只处理int and long分别类型）。

首先要做的是检查v绝对是一个 Python float 并将其映射到一个 C doublei。接下来该函数查看是否w也是一个 float 并将其映射到 C doublej。这是该函数的最佳情况，因为可以跳过所有其他检查。该函数还检查是否v is inf or nan:

static PyObject*
float_richcompare(PyObject *v, PyObject *w, int op)
{
    double i, j;
    int r = 0;
    assert(PyFloat_Check(v));       
    i = PyFloat_AS_DOUBLE(v);       

    if (PyFloat_Check(w))           
        j = PyFloat_AS_DOUBLE(w);   

    else if (!Py_IS_FINITE(i)) {
        if (PyLong_Check(w))
            j = 0.0;
        else
            goto Unimplemented;
    }

现在我们知道如果w未通过这些检查，它不是 Python 浮点数。现在该函数检查它是否是一个 Python 整数。如果是这种情况，最简单的测试是提取v和标志w（返回0如果为零，-1如果为负，1如果是积极的）。如果符号不同，则返回比较结果所需的全部信息如下：

    else if (PyLong_Check(w)) {
        int vsign = i == 0.0 ? 0 : i < 0.0 ? -1 : 1;
        int wsign = _PyLong_Sign(w);
        size_t nbits;
        int exponent;

        if (vsign != wsign) {
            /* Magnitudes are irrelevant -- the signs alone
             * determine the outcome.
             */
            i = (double)vsign;
            j = (double)wsign;
            goto Compare;
        }
    }

如果此检查失败，则v and w有相同的标志。

下一个检查计算整数中的位数w。如果它有太多位，那么它不可能作为浮点数保存，因此其大小必须大于浮点数v:

    nbits = _PyLong_NumBits(w);
    if (nbits == (size_t)-1 && PyErr_Occurred()) {
        /* This long is so large that size_t isn't big enough
         * to hold the # of bits.  Replace with little doubles
         * that give the same outcome -- w is so large that
         * its magnitude must exceed the magnitude of any
         * finite float.
         */
        PyErr_Clear();
        i = (double)vsign;
        assert(wsign != 0);
        j = wsign * 2.0;
        goto Compare;
    }

另一方面，如果整数w有 48 位或更少，它可以安全地转入 C doublej并比较：

    if (nbits <= 48) {
        j = PyLong_AsDouble(w);
        /* It's impossible that <= 48 bits overflowed. */
        assert(j != -1.0 || ! PyErr_Occurred());
        goto Compare;
    }

从此时开始，我们知道w有 49 位或更多位。治疗起来会很方便w作为正整数，因此根据需要更改符号和比较运算符：

    if (nbits <= 48) {
        /* "Multiply both sides" by -1; this also swaps the
         * comparator.
         */
        i = -i;
        op = _Py_SwappedOp[op];
    }

Now the function looks at the exponent of the float. Recall that a float can be written (ignoring sign) as significand * 2^exponent and that the significand represents a number between 0.5 and 1:

    (void) frexp(i, &exponent);
    if (exponent < 0 || (size_t)exponent < nbits) {
        i = 1.0;
        j = 2.0;
        goto Compare;
    }

This checks two things. If the exponent is less than 0 then the float is smaller than 1 (and so smaller in magnitude than any integer). Or, if the exponent is less than the number of bits in w then we have that v < |w| since significand * 2^exponent is less than 2^nbits.

Failing these two checks, the function looks to see whether the exponent is greater than the number of bit in w. This shows that significand * 2^exponent is greater than 2^nbits and so v > |w|:

    if ((size_t)exponent > nbits) {
        i = 2.0;
        j = 1.0;
        goto Compare;
    }

如果此检查没有成功，我们知道浮点数的指数v与整数的位数相同w.

现在比较这两个值的唯一方法是构造两个新的 Python 整数v and w。这个想法是丢弃小数部分v，将整数部分加倍，然后加一。w也加倍，可以比较这两个新的 Python 对象以给出正确的返回值。使用较小值的示例，4.65 < 4将通过比较来确定(2*4)+1 == 9 < 8 == (2*4)（返回错误）。

    {
        double fracpart;
        double intpart;
        PyObject *result = NULL;
        PyObject *one = NULL;
        PyObject *vv = NULL;
        PyObject *ww = w;

        // snip

        fracpart = modf(i, &intpart); // split i (the double that v mapped to)
        vv = PyLong_FromDouble(intpart);

        // snip

        if (fracpart != 0.0) {
            /* Shift left, and or a 1 bit into vv
             * to represent the lost fraction.
             */
            PyObject *temp;

            one = PyLong_FromLong(1);

            temp = PyNumber_Lshift(ww, one); // left-shift doubles an integer
            ww = temp;

            temp = PyNumber_Lshift(vv, one);
            vv = temp;

            temp = PyNumber_Or(vv, one); // a doubled integer is even, so this adds 1
            vv = temp;
        }
        // snip
    }
}

为了简洁起见，我省略了 Python 在创建这些新对象时必须执行的额外错误检查和垃圾跟踪。不用说，这会增加额外的开销，并解释了为什么问题中突出显示的值的比较速度明显慢于其他值。

以下是比较函数执行的检查的摘要。

Let v是一个 float 并将其转换为 C double。现在，如果w也是一个浮点数：

检查是否w is nan or inf。如果是的话，根据类型分别处理这种特殊情况w.
如果没有，比较一下v and w直接通过它们的表示作为 C 加倍。

If w是一个整数：

提取符号v and w。如果它们不同那么我们就知道v and w不同，哪个价值更大。
(迹象是一样的。) 检查是否w有太多位无法成为浮点数（超过size_t）。如果是这样，w幅度大于v.
检查是否w具有 48 位或更少。如果是这样，它可以安全地转换为 C double，而不会损失其精度，并与v.
(w超过 48 位。我们现在将治疗w作为一个正整数，适当地改变了比较操作。)
考虑浮点数的指数v。如果指数为负数，则v小于1因此小于任何正整数。否则，如果指数小于中的位数w那么它一定小于w.
如果指数为v大于位数w then v大于w.
(指数与位数相同w.)
最后检查。分裂v分为整数部分和小数部分。将整数部分加倍并加 1 以补偿小数部分。现在将整数加倍w。比较这两个新整数即可得到结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么某些 float < integer 比较比其他比较慢四倍？的相关文章

Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
Google App Engine 如何预编译 Java？

App Engine 对应用程序的 Java 字节码使用预编译过程以增强应用程序在 Java 运行时环境中的性能预编译代码的功能与原始字节码相同有没有详细的信息这是做什么的我在一个中找到了这个谷歌群组消息 http groups
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

Glide：记录每个请求

考虑下面的代码 Glide with
Gluon 移动 iOS 音频播放器

由于 JavaFx Media 尚未移植到移动平台任何人都可以帮助我使用本机 iOS APi 来播放声音 mp3 文件该文件将存储在我的 gluon 项目的 main resources 文件夹中在 Android 上我们可以轻松地
java中线程之间的通信：如果另一个线程完成则停止一个线程

仅当另一个线程也在运行时如何才能使一个线程运行这意味着如果我从一个线程中的运行返回那么我希望另一个线程也停止运行我的代码看起来像这样 ClientMessageHandler clientMessagehandler new Cl
使用 Python Paramiko 进行端口转发和开放 SFTP

我已经使用 ssh 在服务器上执行命令现在我必须对不同的 IP 执行另一个 ssh 同时保持旧的 ssh 处于活动状态这个新 IP 是端口转发然后将用于执行 SFTP 我面临的问题是两个 ssh 连接都在同一端口上因此无法进行第二次
如何获取subprocess.run启动的进程的pid并杀死它

我使用的是 Windows 10 和 Python 3 7 我运行了以下命令 import subprocess exeFilePath C Users test test exe subprocess run exeFilePath 使用
计算 TCP 重传次数

我想知道在LINUX中是否有一种方法可以计算一个流中发生的TCP重传的次数无论是在客户端还是服务器端好像netstat s解决了我的目的
源生成器：有关引用项目的信息？

我开始使用 C 源生成器我想要的是开始一个git describe tags long处理并填充静态GitVersion具有当前标签和哈希码作为属性的类问题是我没有关于引用项目的目录的信息所以我不知道在哪里运行 git 进程我在其
连接查询或子查询

开发人员何时使用联接而不是子查询是否有经验规则或者它们是否相同第一个原则是准确地陈述查询第二个原则是简单明了地陈述查询这是你通常做出选择的地方第三个是陈述查询以便它能够有效地处理如果它是一个具有良好查询处理器的数据库管理
Base 64 编码的有效字符范围

我对以下内容感兴趣是否有一个字符列表never作为 Base 64 编码字符串的一部分出现例如我不确定这种情况是否会发生如果原始输入实际上有作为它的一部分编码会有所不同吗这是我可以发现的 RFC 4648 http www r
从函数参数构建模板？

template
通过 VPN 容器路由 Docker 容器流量

我在我的上安装了几个容器洛克Pro64 运行 openmediavault 的 ARMv8 处理器 rev 2 v8 版本 4 1 27 1 Arrakis 一切都运转良好我使用的容器包括 Transmission Jellyfin Ra
IntelliSense：对象具有与成员函数不兼容的类型限定符

我有一个名为 Person 的类 class Person string name long score public Person string name long score 0 void setName string name voi
ECS 上蓝/绿部署所需的 Cloudformation 脚本

我正在尝试编写一个云形成模板具有蓝绿部署支持的 AWS ECS 这项蓝绿功能最近由 AWS 在 ECS 中添加但在云形成模板中找不到任何更新它的参考他们提供了有关如何通过 UI 而不是通过云形成来完成此操作的文档我猜想 AWS 可能不
集到子集点云匹配

我有两个 3d 坐标的点云一个是另一个的子集包含更少的点它们的规模相同我需要做的是找到两者之间的平移和旋转我看过点云库迭代最近点 https en wikipedia org wiki Iterative closest poi
如何防止 Firefox 缓存

我尝试了很多可能的解决方案但无法解决问题这些不起作用有人可以帮忙吗我正在使用jsp servlet application 是websphere Portal 6 1 的一个portlet 切勿
在跨平台的 npm 脚本中使用环境变量

我正在构建一个 package json 并使用 npm run 来运行一些脚本确切地说 https docs npmjs com misc scripts https docs npmjs com misc scripts 我的脚本需要
Kotlin 无法编译库

There s this http github com theapache64 BugMailer我创建的库是为了通过电子邮件报告异常情况它适用于 Android Java 项目但不适用于 Android Kotlin 当我添加库的编
如何对URL进行分类？ URL 的特点是什么？如何从 URL 中选择和提取特征

我刚刚开始研究分类问题这是一个两类问题我的训练模型机器学习必须决定预测是允许 URL 还是阻止它我的问题非常具体如何对 URL 进行分类我应该使用普通的文本分析方法吗 URL 的特点是什么如何从URL中选择和提取特征我假
使用事件实现观察者模式

我正在开发一个 Silverlight 应用程序其中过度使用了观察者模式在我的实现中我创建了两个接口IObservable
为什么某些 float < integer 比较比其他比较慢四倍？

将浮点数与整数进行比较时某些值对的计算时间比类似大小的其他值要长得多例如 gt gt gt import timeit gt gt gt timeit timeit 562949953420000 7 lt 56294995342100

为什么某些 float < integer 比较比其他比较慢四倍？

更详细的比较

为什么某些 float < integer 比较比其他比较慢四倍？ 的相关文章

随机推荐

热门标签

为什么某些 float < integer 比较比其他比较慢四倍？的相关文章