Python 中的快速字符串到整数转换

2023-12-21

实际上，这是一个简单的问题：您有 10 亿 (1e+9) 个无符号 32 位整数作为十进制 ASCII 字符串存储在 TSV（制表符分隔值）文件中。转换使用int()与处理相同数据集的其他工具相比，速度非常慢。为什么？更重要的是：如何让它更快？

因此问题是：在Python中将字符串转换为整数的最快方法是什么？

我真正想到的是一些半隐藏的 Python 功能，可以（滥用）用于此目的，与 Guido 的使用不同array.array in his 《优化轶事》 http://www.python.org/doc/essays/list2str/.

样本数据（制表符扩展为空格）

38262904        "pfv"              2002-11-15T00:37:20+00:00
12311231        "tnealzref"        2008-01-21T20:46:51+00:00
26783384        "hayb"             2004-02-14T20:43:45+00:00
812874          "qevzasdfvnp"      2005-01-11T00:29:46+00:00
22312733        "bdumtddyasb"      2009-01-17T20:41:04+00:00

读取数据所花费的时间在这里无关紧要，处理数据才是瓶颈。

微基准测试

以下所有语言都是解释性语言。主机运行 64 位 Linux。

Python 2.6.2 和 IPython 0.9.1，每秒约 214k 次转换 (100%)：

In [1]: strings = map(str, range(int(1e7)))

In [2]: %timeit map(int, strings);
10 loops, best of 3: 4.68 s per loop

REBOL 3.0 版本 2.100.76.4.2，~231kcps (108%)：

>> strings: array n: to-integer 1e7 repeat i n [poke strings i mold (i - 1)]
== "9999999"

>> delta-time [map str strings [to integer! str]]
== 0:00:04.328675

REBOL 2.7.6.4.2（2008 年 3 月 15 日），~523kcps (261%)：

正如约翰在评论中指出的那样，这个版本确实not构建一个转换后的整数列表，因此给出的速度比是相对于 Python 的 4.99s 运行时间for str in strings: int(str).

>> delta-time: func [c /local t] [t: now/time/precise do c now/time/precise - t]

>> strings: array n: to-integer 1e7 repeat i n [poke strings i mold (i - 1)]
== "9999999"

>> delta-time [foreach str strings [to integer! str]]
== 0:00:01.913193

KDB+ 2.6t 2009.04.15, ~2016kcps (944%):

q)strings:string til "i"$1e7

q)\t "I"$strings
496

以下最简单的 C 扩展已经在内置方面有了很大的改进，每秒转换的字符串数量是原来的三倍以上（650kcps 与 214kcps）：

static PyObject *fastint_int(PyObject *self, PyObject *args) {
    char *s; unsigned r = 0;
    if (!PyArg_ParseTuple(args, "s", &s)) return NULL;
    for (r = 0; *s; r = r * 10 + *s++ - '0');
    return Py_BuildValue("i", r);
}

这显然不能满足任意长度的整数和各种其他特殊情况，但这在我们的场景中没有问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 中的快速字符串到整数转换的相关文章

当参数为 0 与任何其他整数时，如何为返回不同类型的函数创建重载注释？

是否可以为当参数为时返回不同类型的函数创建重载注释0与任何其他整数 def foo val int gt MyObjectA MyObjectB if val 0 return MyObjectA return MyObjectB 有没有办
如何使用 Python 和 Selenium WebDriver 获取 localStorage

相当于什么 driver get cookies 获取 LocalStorage 而不是 ookies python API没有提供直接读写本地存储的方法但可以通过execute script class LocalStorage de
如何选择单选按钮？

我在用mechanize我正在尝试从单选按钮列表中选择一个按钮该列表有 5 项如何选择第一项文档没有帮助我 gt gt gt br form
Matplotlib imshow：如何在矩阵上应用蒙版

我正在尝试以图形方式分析二维数据 matplotlib imshow在这方面非常有用但我觉得如果我可以从矩阵中排除一些单元格超出感兴趣范围的值我可以更多地利用它我的问题是这些值使我感兴趣的范围内的色彩图变平排除这些值后我可以获
在 HSV 颜色空间内定义组织学图像掩模的颜色范围（Python、OpenCV、图像分析）：

为了根据颜色将组织学切片分成多个层我修改了 OpenCV 社区提供的一些广泛分布的代码 1 我们的染色程序用不同的颜色标记组织横截面的不同细胞类型 B 细胞为红色巨噬细胞为棕色背景细胞核为蓝色 I m interested in se
pandas 系列值之间的过滤

If s is a pandas Series http pandas pydata org pandas docs stable dsintro html series 我知道我可以这样做 b s lt 4 or b s gt 0 但我做
代码运行时出现内存问题（Python、Networkx）

我编写了一个代码来生成具有 379613734 条边的图但由于内存问题代码无法完成当经过 6200 万行时大约会占用服务器内存的 97 所以我杀了它您有解决这个问题的想法吗我的代码是这样的 import os sys impor
使用字符串迭代 url - python

我现在完全被我的代码困住了首先我尝试从 volkskrant 的存档页面检索所有网址这是我被打击的第一步某一特定日期的 url 如下所示 http www volkskrant nl archief detail 01012016
如何在 Python 中从 C++/C# 紧密实现 ?: ？

在 C 中我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
如何在 django-rest-framework 查询集响应中添加注释数据？

我正在为查询集中的每个项目生成聚合 def get queryset self from django db models import Count queryset Book objects annotate Count authors
python 3 configparser.read() 在给定不存在的文件时不会引发异常

当我尝试使用 configparser read 读取不存在的文件时我认为它应该引发异常事实并非如此它返回一个空列表显然我可以测试空列表并引发异常在我看来如果 configparser read 引发 FileNotFound
try-catch 块是否会降低性能[重复]

这个问题在这里已经有答案了 This link http www cplusplus com doc tutorial exceptions states 为了捕获异常我们必须将一部分代码放在异常下检查这是通过将这部分代码包含在 tr
如何导入 boto3 ssm ParameterNotFound 异常？

我想import the exception当一个boto3 ssm找不到参数get parameter 我正在尝试添加一些额外的内容ssm的功能moto图书馆但我现在很困惑 gt gt gt import boto3 gt gt gt
JSON.stringify 对于大型对象来说非常慢

我在 javascript 中有一个非常大的对象大约 10MB 当我对其进行字符串化时需要很长时间因此我将其发送到后端并将其解析为一个对象实际上是带有数组的嵌套对象这也需要很长时间但这不是我们在这个问题中的问题问题我怎样才能
通过 Selenium 和 python 切换到 iframe

我如何在硒中切换到这个 iframe 只知道您可以使用 XPath 来定位 iframe driver find element by xpath iframe name Dialogue Window Then switch to th
优化我的表现

我正在开发一个使用 Zend Framework 1 11 Doctrine 2 一些 Symfony 2 组件以及其他工具和库的项目我正在尝试使用 Xdebug 和 Webgrind 优化性能我已经发现了一些瓶颈例如解析 Ini 配
当没有 main 函数时，为什么 sys.settrace 不触发？

import sys def printer frame event arg print frame event arg return printer sys settrace printer x 1 sys settrace None 上
如何解决“布局有超过 80 个视图，对性能不利”？

我正在做一个有点复杂的布局只是我无法修复 LINT 指示的错误黑莓浏览次数超过 80 对性能不利这是布局
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran
如何将 pygame Surface 转换为 PIL 图像？

我正在使用 PIL 来透视地变换屏幕的一部分原始图像数据是一个 pygame Surface 需要转换为 PIL 图像因此我发现了 pygame 的 tostring 函数就是为了这个目的而存在的然而结果看起来很奇怪见附图这段代码

随机推荐

org.hibernate.InstantiationException：实体没有默认构造函数：：principal.Cliente

我遇到这个错误 Exception in thread main org hibernate InstantiationException No default constructor for entity principal Client
Docker Compose + Postgres：公开端口

我目前正在尝试将 Docker 用于我的新 Django Postgres 项目我在 Mac 上工作通常使用 Postico 快速连接到我的数据库我曾经这样连接我使用官方 Docker 文档来设置 docker compose 我现
调用 setValue 时，Extjs ComboBox 未选择正确的值

我有以下代码 Part of a larger form xtype combo id enroller valueNotFoundText not found triggerAction all mode local fieldLabel
为什么虚拟继承即使不涉及虚函数也需要一个vtable？

我读过这个问题 C 虚拟类继承对象大小问题 https stackoverflow com questions 57481249 c virtual class inheritance object size issue 并且想知道为什么虚
如何在Vue中重置CSS动画

我有一个这样的列表 var v new Vue el app data list 1 2 3 4 5 6 7 8 9 10 methods activateClass event event target classList remove
Android 应用程序操作不适用于语音命令

我正在尝试在我的 Android 应用程序中实现应用程序操作和切片用于实现我正在使用应用程序操作测试工具测试该功能当我在工具中点击运行时切片会立即加载但切片无法与语音命令一起使用是否可以使用语音命令启动切片我已经在 P
使用属性名称动态访问 Objective-C 属性

我知道对象属性的字符串名称我将如何使用字符串获取和设置该属性虽然 weichsel 是正确的但还有更好的方法 Use anObject valueForKey propertyName and anObject setValue va
webrtc-conferencing-1v3-connectionFactory.dispose()-崩溃

我正在尝试创建一个 1v3 或 4v4 会议无论你怎么称呼它 Android 应用程序我已经使用 webrtc 和 socket io 成功将 4 个人连接在一起但是当我断开其中一个用户的连接时我遇到了 webrtc 本机崩溃 Fa
如何优化 mach_msg_trap

我知道这个问题以前曾被问过但没有人就如何解决它给出任何有用的答案我有一个使用 box2d 物理引擎的 cocos2d ios 应用程序我对其进行了性能测试 CPU 将 5 6 的时间花在 mach msg trap 上从我从其他问题
在 SQL 中将行转换为列

Table A ID COLA A value1 B value1 C value1 表B ID DETAIL ID COL X COL Y A 0 foo foo A 1 bar bar B 0 foo foo 我的预期结果是这样的 ID
如何在充气布局内充气具有相同 id 的布局的多个实例

我有一个带有许多嵌套 LinearLayout 和 TextViews 的 LinearLayout 我的主要活动是主 LinearLayout 的膨胀然后我从服务器加载数据并根据收到的数据在占位符中添加多个布局 LinearLay
提交后如何保留表单中的字段值？

提交表单后字段值似乎被设置回空我正在做一些表单验证如果表单无效我将让它显示错误列表中的错误消息但我希望保留字段值有没有办法做到这一点这是我验证表单的观点 app route booking methods GET POST d
通过提供 sys 路径来使用包

我发现了这个链接 Python 在本地使用库而不是安装它 https stackoverflow com questions 9059699 python use a library locally instead of installin
const_cast VS 可变？有什么区别吗？

据我了解 mutable取消constness一个变量的 Class A void foo const m a 5 mutable int m a 但是也const cast void print char str cout lt lt s
.Net Framework 4.0 安装程序是否包含 .Net Framework 3.5？

针对 Net Framework 3 5 编译的 Net 组件是否可以在仅安装 Net Framework 4 0 的系统上运行或者换句话说 Net Framework 4 0 安装程序是否包含 Net Framework 3 5 NET
如何让游戏忽略Unity3D中UI按钮的点击？

我有一个用户界面Button using UnityEngine UI 然而点击Button似乎是点击浏览到场景中在我的例子中单击导航网格如何解决这个问题呢我一直在使用典型的 Unity3D 代码来让用户投入游戏例如 if Inp
将神经网络应用于可变长度语音片段的 MFCC

我目前正在尝试创建和训练一个神经网络以使用 MFCC 执行简单的语音分类目前我为每个样本使用 26 个系数总共 5 个不同的类别这些是具有不同音节数的五个不同单词虽然每个样本都有 2 秒长但我不确定如何处理用户可以非常慢或非常
Android 自定义 SQLite 构建 - 无法打开数据库

我的目标是构建一个自定义版本的 SQLite 特别是启用了 R Tree 以包含在我的 Android 项目中动机源于 Android SQLite R Tree 如何安装模块 https stackoverflow com questi
使用 uwp 应用程序打开任何类型的文件（无需文件关联）

我正在制作一个简单的 uwp 文本编辑器应用程序我希望应用程序打开任何类型的文件即使没有声明文件关联因为有许多文本文件在操作系统中没有已知的扩展名有什么方法可以修改注册表让我的应用程序在打开方式列表中可用例如记事本以便用户
Python 中的快速字符串到整数转换

实际上这是一个简单的问题您有 10 亿 1e 9 个无符号 32 位整数作为十进制 ASCII 字符串存储在 TSV 制表符分隔值文件中转换使用int 与处理相同数据集的其他工具相比速度非常慢为什么更重要的是如何让它更快因

Python 中的快速字符串到整数转换

Python 中的快速字符串到整数转换 的相关文章

随机推荐

热门标签

Python 中的快速字符串到整数转换的相关文章