将 numpy 代码点数组与字符串相互转换

2024-05-17

我有一个很长的 unicode 字符串：

alphabet = range(0x0FFF)
mystr = ''.join(chr(random.choice(alphabet)) for _ in range(100))
mystr = re.sub('\W', '', mystr)

我想将其视为一系列代码点，因此目前我正在执行以下操作：

arr = np.array(list(mystr), dtype='U1')

我希望能够将字符串作为数字进行操作，并最终得到一些不同的代码点。现在我想反转转换：

mystr = ''.join(arr.tolist())

这些转换相当快且可逆，但占用了不必要的空间list中介。

有没有办法将 unicode 字符的 numpy 数组与 Python 字符串相互转换，而无需先转换为列表？

事后的想法

我可以得到arr显示为单个字符串，例如

buf = arr.view(dtype='U' + str(arr.size))

这会产生一个包含整个原始数据的 1 元素数组。反过来也是可能的：

buf.view(dtype='U1')

唯一的问题是结果的类型是np.str_, not str.

fromiter可以工作，但速度非常慢，因为它通过迭代器协议。将数据编码为 UTF-32（按系统字节顺序）并使用要快得多numpy.frombuffer https://docs.scipy.org/doc/numpy/reference/generated/numpy.frombuffer.html:

In [56]: x = ''.join(chr(random.randrange(0x0fff)) for i in range(1000))

In [57]: codec = 'utf-32-le' if sys.byteorder == 'little' else 'utf-32-be'

In [58]: %timeit numpy.frombuffer(bytearray(x, codec), dtype='U1')
2.79 µs ± 47 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

In [59]: %timeit numpy.fromiter(x, dtype='U1', count=len(x))
122 µs ± 3.82 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

In [60]: numpy.array_equal(numpy.fromiter(x, dtype='U1', count=len(x)), numpy.fr
    ...: ombuffer(bytearray(x, codec), dtype='U1'))
Out[60]: True

我用过sys.byteorder判断是否编码utf-32-le or utf-32-be。另外，使用bytearray代替encode获取可变字节数组而不是不可变字节对象，因此生成的数组是可写的。

至于逆向转换，arr.view(dtype=f'U{arr.size}')[0]有效，但使用item() https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.item.html速度更快一些，并生成一个普通的字符串对象，避免了可能出现的奇怪的边缘情况numpy.str_不太像str:

In [72]: a = numpy.frombuffer(bytearray(x, codec), dtype='U1')

In [73]: type(a.view(dtype=f'U{a.size}')[0])
Out[73]: numpy.str_

In [74]: type(a.view(dtype=f'U{a.size}').item())
Out[74]: str

In [75]: %timeit a.view(dtype=f'U{a.size}')[0]
3.63 µs ± 34 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

In [76]: %timeit a.view(dtype=f'U{a.size}').item()
2.14 µs ± 23.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

最后，请注意，NumPy 不像普通 Python 字符串对象那样处理空值。 NumPy 无法区分'asdf\x00\x00\x00' and 'asdf'，因此如果您的数据可能包含空代码点，则使用 NumPy 数组进行字符串操作是不安全的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 numpy 代码点数组与字符串相互转换的相关文章

Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
JavaScript 中的埃拉托斯特尼筛法对大量数据无限运行

我一直在尝试写埃拉托斯特尼筛法 http en wikipedia org wiki Sieve of EratosthenesJavaScript 中的算法基本上我只是按照以下步骤操作创建从 2 到 n 1 的连续整数列表令第一个素
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
字符串数组文本格式化

我有这个字符串 String text Address 1 Street nr 45 Address 2 Street nr 67 Address 3 Street nr 56 n Phone number 000000000 稍后将被使用
如何从 appsettings.json 文件中的对象数组读取值

我的 appsettings json 文件 StudentBirthdays Anne 01 11 2000 Peter 29 07 2001 Jane 15 10 2001 John Not Mentioned 我有一个单独的配置类 p
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

如何从 AFNetworking 和 AFJSONRequestOperation 获取可变字典？

我将 JSONKit 与 AFNetworking 的 AFHTTPClient 带有 AFJSONRequestOperation 一起使用我似乎无法弄清楚如何触发使用 JSONKit 的 mutableObjectFrom 方法而不
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
什么时候可以在 Java 中使用 Thead.stop() ？

Thread stop 的 Java 文档听起来好像如果您调用 Thread stop 世界就会终结已弃用这种方法本质上是不安全的停止线程 Thread stop 导致它解锁所有已锁定的监视器作为未经检查的 ThreadDeath
如何在远程机器上执行vbs文件

如何在不使用 PsExec 的情况下执行位于同一域中的远程计算机上的 VBScript 我尝试了以下代码但没有运气 Sub RunCommand strComputer Command Set objWMIService GetObjec
使用 JUnit 时，有没有办法验证测试方法中是否调用了 try/catch 指令的 Catch 部分？

例如如果我想测试以下课程 public class SomeClass public void someMethod try Some code where comething could go wrong catch Exception
GCC C++ (ARM) 和指向结构体字段的 const 指针

假设有一个简单的测试代码 typedef struct int first int second int third type t define ADDRESS 0x12345678 define REGISTER type t ADDRE
Macports 安装 binutils

我正在尝试通过 macports 在 Lion 上安装 gnu ld 我已经从 macports 安装了 gcc 4 6 但是我需要创建 elf 二进制形式的二进制文件我作为单独的问题发布here https stackoverflow
如何以编程方式退出或关闭 Javascript UWP 应用程序？（Windows 10）

我制作了一个游戏它需要自己的退出按钮我无法使用CoreApplication Exit https msdn microsoft com en us library windows apps windows applicationmod
在 O(n) 时间内排序？

我被这个问题困扰了 2周知道如何处理它吗令 L 为 n 个不同整数的列表假设 L 的 x 的元素在 1 750 范围内设计线性排序算法对 L 的元素进行排序我已经尝试过插入排序但我不确定我的方法是否正确 Construct an
将文本大小调整为矩形在 Canvas HTML5 中调整大小

我是 Canvas 新手我正在创建一个网站以在调整矩形大小时增加文本我尝试了很多但没有任何效果实际上我希望如果我仅按其宽度调整矩形大小向左拉伸向右拉伸则仅应增加文本宽度而不是字体大小我已经完成了字体大小但发现增加孤立文
Spring Security SAML2 使用 G Suite 作为 Idp

我正在尝试使用 Spring Security 5 3 3 RELEASE 来处理 Spring Boot 应用程序中的 SAML2 身份验证 Spring Boot 应用程序将成为 SP G Suite 将成为 IDP 在我的 Maven
构建：找不到“节点”的类型定义文件

VS 2015 社区版在家 npm 3 10 Angular 2 我试图在 ASP Net MVC 5 应用程序中获取 Angular2 设置我开始使用的模板使用旧版本的 Angular 因此我更新了包引用当我构建时列表中的第一个错
Tensorflow 中的自定义资源

由于某些原因我需要为 Tensorflow 实现自定义资源我试图从查找表实现中获得灵感如果我理解得好的话我需要实现3个TF操作创建我的资源资源的初始化例如在查找表的情况下填充哈希表执行查找查找查询步骤为了促进实施我
C++ 中的软（不是：弱）引用 - 这可能吗？有实施吗？

在 C 中我正在使用boost shared ptr and boost weak ptr自动删除不再需要的对象我知道这些与引用计数一起工作在 Java 中内存由垃圾收集器管理它将内置对象引用视为strong WeakReferen
具有多个 ViewBuilder 的 SwiftUI 视图

我有一个视图表示单元格中的一行如下所示这很有效但三个水平元素图像标题副标题图像被硬编码为其各自的类型我想要一个通用的ThreeItemView这可能需要 3Views任何类型并如图所示排列它们这将允许我将相同的容器布局
将处理后的图形绘制到另一个图形中

我想将一个经过处理的图形绘制到另一个图形中 I have two graphics var gHead Graphics FromImage h var gBackground Graphics FromImage b Transform
Git - 创建拉取请求而不分叉

使用 git 已经有一段时间了关于 git pull request 有很多教程和解释其动机是什么等等我遇到两种情况 1 分叉 git 仓库我查看了一些公共 git 存储库并决定我想要做出贡献所以我通过以下方式创建重复的存储库F
在 AppAuth-Android 中注销

我有一个用JAVA开发的Android应用程序对于这个应用程序我使用的是身份服务器4 https github com IdentityServer IdentityServer4作为我的 STS 一切正常但我找不到任何注销的实现Ap
赋值运算符和复制构造函数有什么区别？

我不明白C 中赋值构造函数和复制构造函数之间的区别是这样的 class A public A cout lt lt A A lt lt endl The copy constructor A a b The assignment cons
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想

将 numpy 代码点数组与字符串相互转换

将 numpy 代码点数组与字符串相互转换 的相关文章

随机推荐

热门标签

将 numpy 代码点数组与字符串相互转换的相关文章