为什么 Python 集合交集比 Rust HashSet 交集更快？

2024-04-05

这是我的Python代码：

len_sums = 0
for i in xrange(100000):
    set_1 = set(xrange(1000))
    set_2 = set(xrange(500, 1500))
    intersection_len = len(set_1.intersection(set_2))
    len_sums += intersection_len
print len_sums

这是我的 Rust 代码：

use std::collections::HashSet;

fn main() {
    let mut len_sums = 0;
    for _ in 0..100000 {
        let set_1: HashSet<i32> = (0..1000).collect();
        let set_2: HashSet<i32> = (500..1500).collect();
        let intersection_len = set_1.intersection(&set_2).count();
        len_sums += intersection_len;
    }
    println!("{}", len_sums);
}

我相信这些大致相当。我得到以下性能结果：

time python set_performance.py
50000000

real    0m11.757s
user    0m11.736s
sys 0m0.012s

and

rustc set_performance.rs -O       
time ./set_performance 50000000

real    0m17.580s
user    0m17.533s
sys 0m0.032s

建筑与cargo and --release给出相同的结果。

我意识到Python的set是用C实现的，所以预计会很快，但没想到比Rust还快。难道它不需要进行 Rust 不需要的额外类型检查吗？

也许我在编译 Rust 程序的方式中遗漏了一些东西，是否还有我应该使用的其他优化标志？

另一种可能性是代码并不真正等效，Rust 正在做不必要的额外工作，我是否遗漏了什么？

Python版本：

In [3]: import sys

In [4]: sys.version
Out[4]: '2.7.6 (default, Jun 22 2015, 17:58:13) \n[GCC 4.8.2]'

锈版

$ rustc --version
rustc 1.5.0 (3d7cd77e4 2015-12-04)

我使用的是 Ubuntu 14.04，我的系统架构是 x86_64。

当我将集合构建移出循环并仅重复交集时，对于这两种情况，Rust 当然都比 Python 2.7 更快。

我只读过Python 3（设置对象.c） https://github.com/python/cpython/blob/master/Objects/setobject.c#L1274，但是 Python 的实现有一些优点。

它利用了两个 Python set 对象使用相同哈希函数的事实，因此它不会重新计算哈希。锈HashSet它们的散列函数具有实例唯一的键，因此在交集期间，它们必须将一组中的键与另一组的散列函数重新进行散列。

另一方面，Python 必须调用动态键比较函数，例如PyObject_RichCompareBool对于每个匹配的哈希，而 Rust 代码使用泛型并将专门化哈希函数和比较代码i32。哈希的代码i32Rust 看起来相对便宜，并且删除了大部分哈希算法（处理超过 4 字节的输入）。

看来是布景的构造setsPython 和 Rust 不同。事实上，不仅仅是构建，还有一些重要的代码正在运行来破坏 RustHashSet也是如此。（这可以改进，在这里提交错误：#31711 https://github.com/rust-lang/rust/issues/31711)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Python 集合交集比 Rust HashSet 交集更快？的相关文章

将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
使用 if 表达式时，“不匹配的类型：预期的 `()`” 是什么意思？

我尝试在 Rust 中实现 fizzbuzz 但因一些神秘错误而失败 fn main let mut i 1 while i lt 100 println if i 3 0 Fizz if i 5 0 Buzz if i 3 0 i 5 0
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar

随机推荐

如何使用SessionState获取剩余会话超时时间？

是否可以使用 ASP net 中的 sessionState 获取剩余会话超时这是我的 webconfig 文件中的 sessionState 代码
如何输出未包含在分组依据中的属性及其计数

我在这里想要实现的是我希望从该 LINQ 查询返回具有两个属性的列表 billNo 和同一 fromDate 上导入代码出现的次数因此这里我们的 billNo 1 和 2 都具有相同的导入代码该导入代码在同一日期 01 01 202
如何在 macOS 上将 libxml2 与 python 一起使用？

我在 OSX Lion 上安装了 libxml2 默认情况下并且安装了 python 默认情况下但它们不互相通信在 Lion 上实现此功能的最简单方法是什么 python c import libxml2 Traceback mos
在Ubuntu 18.04、Python 3.6.7 64位、Mono 5.16上安装pythonnet失败

我想在 Ubuntu 上安装 pythonnet 但失败了这就是我到目前为止所尝试的 usr bin python3 m pip install U pythonnet user Error Collection pythonnet Us
DOM 中两个元素之间的距离（以 px 为单位）

如何获取 DOM 中两个元素之间的距离我正在考虑使用获取边界客户端矩形 https developer mozilla org en US docs Web API Element getBoundingClientRect 但我不知道如
C# POCO 的 DbGeography 替代方案

我正在编写一个应用程序我需要查询某个位置半径内的记录我一开始在 PCO 上只使用了一对经纬度属性但意识到 SQL 中的空间搜索是针对地理列类型完成的该地理列类型可转换为 POCO 中的 DbGeography 在另一篇 SO 帖子中
SharePoint 中的跨方法处置模式

我编写了一个类可以对 SharePoint 网站的内容进行各种修改在该类中我实现了一个惰性解析属性 private SPWeb rootSite get if site null SPSite site new SPSite url
订阅 RSS 源

我正在编写一个非常简单的 RSS 阅读器它所需要做的就是获取 xml 文档并将每个项目的标题和发布日期打印到控制台我开始使用这两个问题如何开始制作 C RSS 阅读器 https stackoverflow com question
Hbase连接zookeeper错误

环境 Ubuntu 14 04 hadoop 2 2 0 hbase 0 98 7 当我启动hadoop和hbase 单节点模式时都成功我还检查了hadoop的网站8088 hbase的网站60010 jps 4507 Seconda
如果别名会降低运行时性能，为什么编译器要执行别名？

我出于纯粹的兴趣而学习 C 和计算机科学主题这让我对编译器产生了兴趣我读过的所有内容都告诉我别名会导致程序集输出速度变慢需要在每次迭代时重新加载值我已经能够使用 Intel C C 编译器使用该标志在一些基准测试中获得轻微的提高
Javascript/jQuery执行顺序问题

我正在使用 jQuery 尝试从 JSON 对象构建 Web 应用程序的表使用 asyncgetJson调用并且我很难了解执行顺序的底部我的JS是 create table header peopleDirectory append
使用 node-fetch 时无法调用类型缺少调用签名的表达式

我想得到node fetch在我的打字稿项目中工作 import as fetch from node fetch import as assert from assert export class DatabaseConfigurator
CoreAnimation，在 iOS 5 Xcode 4 中使用动画阴影移动 UIImageView

我正在尝试为图像添加类似假 3d 的效果 UIImageView 从 A 点移动到 B 点在此移动过程中我希望在 C A B 2 点处使其具有最大的阴影尺寸或较大的阴影偏移所以看起来又在上下移动当我尝试改变阴影大小时它没有动画
在 Visual Studio 2015 中强制执行 ANSI C 标准

我试图让 Visual Studio 在编译项目时强制执行 ANSI C 标准但我无法让它工作有小费吗我已阅读所有教程启用了 Za 选项并将文件命名为 c 而不是 cpp 但是以下程序仍然可以成功构建 include
检测python中markdown文件中的所有链接并将其替换为字符串函数的输出

我有一个 python 函数f foo string gt string 我不写该函数的详细信息因为它可能会发生变化我需要得到all来自 Markdown 文件的链接并将其替换为该函数的结果示例此链接 This is a text
提交中包含 gitignore 设置

我正在尝试在 git 中提交正确的文件但在正确配置 gitignore 时遇到问题我按照说明进行操作here http www gyford com phil writing 2010 09 29 django environment
从本地文件夹读取文本文件

我想从本地目录读取一个文本文件我将该文本文件添加到我的 c 解决方案中因此它会在部署时被复制但是我如何打开它我一直在搜索但所有示例都假设我有一个 C textfile txt 我尝试只读取文件 if File Exists tes
如何在 Linux 中让键盘上的箭头键和 Enter 键表现得像 Windows 7

我正在开发一个程序来控制仅连接键盘的机器我在用Python 2 7 and Tkinter 8 5 我在用OptionMenu允许用户在机器上进行设置当我在 Windows 下运行时我可以使用键盘上的箭头键遍历下拉列表然后使用键盘
如何从 Apache POI 知道文件是 .docx 还是 .doc 格式

我知道我们可以通过扩展名或 mime 类型来完成它我们是否有其他方法可以了解文件类型无论是 docx 还是 doc 如果只是决定已知的文件集合是否是一个问题 doc or docx但没有相应地标记扩展名您可以使用以下事实 docx文件
为什么 Python 集合交集比 Rust HashSet 交集更快？

这是我的Python代码 len sums 0 for i in xrange 100000 set 1 set xrange 1000 set 2 set xrange 500 1500 intersection len len set

为什么 Python 集合交集比 Rust HashSet 交集更快？

为什么 Python 集合交集比 Rust HashSet 交集更快？ 的相关文章

随机推荐

热门标签

为什么 Python 集合交集比 Rust HashSet 交集更快？的相关文章