将 Redis Streams 输出转换为 Pandas Dataframe

2024-02-01

会是什么fastest方法来转换一个Redis流 https://redis.io/topics/streams-intro输出（aioredis 客户端/hiredis 解析器）到 Pandas Dataframe，其中 Redis 流 ID 的时间戳and序列号和值是正确类型转换的 Pandas 索引列吗？

Redis 输出示例：

[[b'1554900384437-0', [b'key', b'1']], 
[b'1554900414434-0', [b'key', b'1']]]

这里似乎有两个主要瓶颈：

Pandas DataFrames 以列主格式存储数据，这意味着每一列映射到一个 numpy 数组，而 Redis 流数据是逐行的。
Pandas MultiIndex 是为分类数据而设计的，将原始数组转换为所需的级别/代码结构似乎没有优化

由于第一点，循环所有 Redis 流条目是不可避免的。假设我们事先知道长度，我们可以预先分配我们填充的 numpy 数组，并通过一些技巧将这些数组重用为 DataFrame 列。如果 Python 中循环的开销仍然太大，那么用 Cython 重写应该很简单。

由于您没有指定数据类型，因此答案使用 numpy.object 数组将所有内容以字节为单位，因此如何适应自定义设置应该是相当明显的。将所有列放在同一个数组中的唯一原因是将列/字段上的内部循环从 Python 移动到 C。每种数据类型一个数组或每列一个数组。

from functools import partial, reduce
import numpy as np
import pandas as pd

data = [[b'1554900384437-0', [b'foo', b'1', b'bar', b'2', b'bla', b'abc']], 
[b'1554900414434-0', [b'foo', b'3', b'bar', b'4', b'bla', b'xyz']]]

colnames = data[0][1][0::2]
ncols = len(colnames)
nrows = len(data)
ts_seq = np.empty((2, nrows), dtype=np.int64)
cols = np.empty((ncols, nrows), dtype=np.object)

for i,(id,fields) in enumerate(data):
    ts, seq = id.split(b"-", 2)
    ts_seq[:, i] = (int(ts), int(seq))
    cols[:, i] = fields[1::2]

colframes = [pd.DataFrame(cols[i:i+1, :].T) for i in range(ncols)]
merge = partial(pd.merge, left_index=True, right_index=True, copy=False)
df = reduce(merge, colframes[1:], colframes[0])
df.columns = colnames

对于数字 2，我们可以使用numpy.unique创建 Pandas MultiIndex 所需的级别/代码结构。从文档看来numpy.unique还对数据进行排序。由于我们的数据可能已经排序，因此未来可能的优化将尝试跳过排序步骤。

ts = ts_seq[0, :]
seq = ts_seq[1, :]
maxseq = np.max(seq)
ts_levels, ts_codes = np.unique(ts, return_inverse=True)
seq_levels = np.arange(maxseq+1)
seq_codes = seq
df.index = pd.MultiIndex(levels=[ts_levels, seq_levels], codes=[ts_codes, seq_codes], names=["Timestamp", "Seq"])

最后，我们可以验证没有涉及复制

cols[0, 0] = b'79'

并检查中的条目df确实改变了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Redis Streams 输出转换为 Pandas Dataframe 的相关文章

Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
Python 内置对象的 __enter__() 和 __exit__() 在哪里定义？

我读到每次使用 with 时都会调用该对象的 enter 和 exit 方法我知道对于用户定义的对象您可以自己定义这些方法但我不明白这对于打开等内置对象函数甚至测试用例是如何工作的这段代码按预期工作我假设它使用 exit 关
使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
无法通过 Android 应用程序访问我的笔记本电脑的本地主机

因此我在发布此内容之前做了一项研究我发现的解决方案不起作用更准确地说连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用连接到10 0 2 2 加上端口不起作用我需要测试使用 Django Rest 框架构建的
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
Pandas 合并指标自定义值

在 pandas 合并期间将指示器更新为更友好的消息的最快方法是什么默认indicator True yields left only right only both 我想更新为Only present in last month s d
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
如何通过selenium中弹出的身份验证？

我正在尝试使用带有 Selenium 的 Python 脚本加载需要身份验证的网页 options webdriver ChromeOptions prefs download default directory r download de
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG
Tkinter 将鼠标点击绑定到框架

我一定错过了一些明显的东西我的 Tkinter 程序中有两个框架每个框架在网格布局中都有一堆标签我想将鼠标点击绑定到其中一个而不是另一个我目前使用 root bind

随机推荐

视频无法在 JWPlayer 中播放

我在 JWPlayer 中使用自己的皮肤并播放 YouTube 视频但视频没有显示我能够获取播放器上的皮肤这是代码 div Loading the player div
使用哪个：移动赋值运算符与复制赋值运算符

我似乎不明白你为什么要使用move assignment operator CLASSA operator CLASSA other move assignment operator 结束了 copy assignment operator
新项目未显示在 firebase CLI 上

我最近遇到了我的 firebase 帐户的问题当我运行时任何新项目都不会显示在 CLI 中firebase init 我删除了一个不需要的项目并立即更新非常感谢任何帮助有一个更简单的解决方案首先确定您的projectId从 F
如何在android中以编程方式删除联系人

我尝试使用以下代码来删除与指定号码的联系 private void removeContact Context context String phone context getContentResolver delete Contacts
R中上三角矩阵的外函数

我目前有这个代码 s1 seq 0 10 length out 3 s2 seq 0 10 length out 3 d outer s1 s2 I outer s1 s2 但是我只想要上三角形d我现在正在做 d d upper tri d
如何在一个 DateTimeFormatter Java 8 中处理所有区域偏移

我需要创建一个DateTimeFormatter以下有效日期 String date1 2017 06 20T17 25 28 String date2 2017 06 20T17 25 28 477777 String date3 201
例外：必须从 Java 代理启动才能使用 InstrumentationLoadTimeWeaver。请参阅 Spring 文档

我在尝试执行测试时遇到异常请帮忙先感谢您我在用着 Java 7 EclipseLink 2 5 0 SNAPSHOT Spring 3 2 4 测试配置文件
CAssetManager.basePath“/assets”无效。请确保该目录存在并且可由 Web 服务器进程写入。？

当我在服务器上运行 YII 项目时出现此错误 CException CAssetManager basePath var www html v2 assets is invalid Please make sure the directo
我需要 sbt 0.11.2 来构建 mongo auth 应用程序以进行 lift

由于某种原因在使用 mongodb record auth 项目时 sbt 放弃了 11 3 在我看来这是我可以从 git 站点下载的唯一版本惯用的方法是指定 sbt 版本build properties as sbt version
android xml布局，如何将内容填充到整个屏幕，保持页脚完整？

我的 XML 布局中有 3 个主要元素另请参见图片标题一个线性布局这里没有什么令人兴奋的内容是一个相对布局其中有一个图像我将其水平和垂直居中页脚线性布局我需要的内容如下页脚 3 需要与底部对齐这样就没有空白内容 2
Git 和 Intellij，如何仅提交已更改文件的部分内容

我似乎无法只提交文件中的一小部分更改它似乎是整个文件或什么都没有我将 Git 与 Intellij 一起使用这可能吗 Thanks 更新 2 2018 2018 1 的第一个 EAP 版本已经落地就在这里它被实现为每个块的复选框
ARC 内存泄漏

我在配置为使用 ARC 的项目中遇到了与 NSMutableArray 相关的内存泄漏我认为 ARC 应该为您处理这些事情以下代码触发 NSNumbers 泄漏 NSMutableArray myArray NSMutableArray
Jenkins Pipeline 条件阶段成功，但 Jenkins 显示构建失败

詹金斯版本 2 19 Jenkins 多分支管道插件版本 2 92 我有一个 Jenkinsfile 其中有一些基于分支的条件阶段为了简洁起见以下是我的 Jenkinsfile 的修改版本 node stage Checkout che
应用程序无法正确启动（0xc000007b）

我有一个客户端服务器应用程序我一直在一台 PC 上开发它现在需要两个串口所以我向朋友借了一台PC 当我构建应用程序并尝试运行或调试它无论是在 Delphi IDE 中还是从 Windows 文件管理器中时出现错误应用程序无法
如何更改鞋子应用程序的图标？

我想知道是否可以更改我的鞋子应用程序的图标我想象它以风格为导向但我还没有找到任何东西这可能吗你可以这样做绿鞋 http github com ashbb green shoes 但你必须深入了解一下这是我为 SciRuby 编写的
Python - 多个 %s 字符串

如何在 python 输出中使用多个 s TEXT Hi your first name is s Fname 这工作正常但是 TEXT Hi your first name is s and your last name is s Fn
从函数返回“本地”char* 与从函数返回“本地”int* 之间的区别[重复]

这个问题在这里已经有答案了可能的重复局部变量的内存可以在其作用域之外访问吗 https stackoverflow com questions 6441218 can a local variables memory be access
如何在 phpstorm 中禁用 SQL 代码的突出显示？

如何在 phpstorm 中禁用 SQL 代码的突出显示我曾经禁用过所有 sql 检查但是颜色和字体规则仍然过于严格我的 php 字符串颜色规则这是我想要实现的目标的示例 var php all text here is red S
视口单位 vw/vh/vmin/vmax 不支持缩放吗？

As per 如何正确使用 css values viewport relative lengths https stackoverflow com questions 30175730 how to properly use css va
将 Redis Streams 输出转换为 Pandas Dataframe

会是什么fastest方法来转换一个Redis流 https redis io topics streams intro输出 aioredis 客户端 hiredis 解析器到 Pandas Dataframe 其中 Redis 流 ID

将 Redis Streams 输出转换为 Pandas Dataframe

将 Redis Streams 输出转换为 Pandas Dataframe 的相关文章

随机推荐

热门标签