是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？

2024-03-25

我有一个很大的 PyArrow 表，其中有一列名为index我想用它来对表进行分区；每个单独的值index代表表中不同的数量。

是否有一种惯用的方法可以根据列的内容从 PyArrow 表中选择行？

这是一个示例表：

import pyarrow as pa
import pyarrow.parquet as pq
import pandas as pd
import numpy as np

# Example table for data schema
irow = np.arange(2**20)
dt = 17
df0 = pd.DataFrame({'timestamp': np.array((irow//2)*dt, dtype=np.int64),
                   'index':     np.array(irow%2, dtype=np.int16),
                   'value':     np.array(irow*0, dtype=np.int32)},
                   columns=['timestamp','index','value'])
ii = df0['index'] == 0
df0.loc[ii,'value'] = irow[ii]//2
ii = df0['index'] == 1
df0.loc[ii,'value'] = (np.sin(df0.loc[ii,'timestamp']*0.01)*10000).astype(np.int32)
table0 = pa.Table.from_pandas(df0)
print(df0)

# prints the following:
         timestamp  index   value
0                0      0       0
1                0      1       0
2               17      0       1
3               17      1    1691
4               34      0       2
...            ...    ...     ...
1048571    8912845      1    9945
1048572    8912862      0  524286
1048573    8912862      1    9978
1048574    8912879      0  524287
1048575    8912879      1    9723

[1048576 rows x 3 columns]

在 Pandas 中进行此选择非常容易：

print(df0[df0['index']==1])

# prints the following
         timestamp  index  value
1                0      1      0
3               17      1   1691
5               34      1   3334
7               51      1   4881
9               68      1   6287
...            ...    ...    ...
1048567    8912811      1   9028
1048569    8912828      1   9625
1048571    8912845      1   9945
1048573    8912862      1   9978
1048575    8912879      1   9723

[524288 rows x 3 columns]

但对于 PyArrow，我必须在 PyArrow 和 numpy 或 pandas 之间进行一些调整：

value_index = table0.column('index').to_numpy()
# get values of the index column, convert to numpy format
row_indices = np.nonzero(value_index==1)[0]
# find matches and get their indices
selected_table = table0.take(pa.array(row_indices))
# use take() with those indices
v = selected_table.column('value')
print(v.to_numpy())

# which prints
[   0 1691 3334 ... 9945 9978 9723]

有更直接的方法吗？

执行布尔过滤操作不需要转换为 numpy。您可以使用equal and filter函数从pyarrow.compute用于此的模块：

import pyarrow.compute as pc

value_index = table0.column('index')
row_mask = pc.equal(value_index, pa.scalar(1, value_index.type))
selected_table = table0.filter(row_mask)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pyarrow

是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

在 Ubuntu 上安装“devtools”包的退出状态为非零

我尝试在 R 版本 3 1 1 的 PowerPC 中安装 devtools 但最终失败因为curl 库 testing if installed package can be loaded Error in dyn load file
使用多个类的 JQuery 路径点

我在用着http imakewebthings com jquery waypoints http imakewebthings com jquery waypoints并且有 5 个班级工作人员目前当获得第一个班级时所有班级都会立
在 React 中使用 Lodash debounce 来防止用户在输入时请求数据

我不想只要用户正在打字就触发请求我的代码应该限制请求以便当用户快速键入时它将触发一个具有最新输入值的请求而不是许多请求现在当我输入 test 时它会触发 4 个不同的请求 t te tes test 所以我找到了 lodash
如何在 Swift 中将图像置于 UIButton 内居中而不在两个方向上拉伸？

我正在制作一个自定义键盘我需要将 Shift 图标的图像置于 Shift 按钮内的中心图像尺寸为 100 像素 x 100 像素然而纵向的按钮框架是36pt x 38pt 并且在风景中它是68pt x 32pt 我尝试使用按钮图像
如何在Android中创建半圆形图像视图

我想创建一个半圆圆形图像视图下面是我用来创建圆形图像视图的代码但我无法创建半圆形图像半圆 package com example dynamicviews import android annotation SuppressLint
AspNetCore 3 中出现意外的“设置 SizeLimit 时缓存条目必须指定 Size 值”消息

因此在今天更新到 AspNetCore 3 之前这一切都运行良好我正在使用带有依赖注入的内存缓存 IMemoryCache cache 我将它添加到我的中间件中services AddMemoryCache 并且不设置大小但我仍然收
排除 ObjectListing 结果中的前缀 S3 的 Java 客户端

我有一个具有以下层次结构的 S3 存储桶 bucketName folder1 file1 我想获取folder1 中的所有文件我尝试执行以下操作 ObjectListing ol s3Client listObjects bucketN
自定义模板中的 Django 500 消息

我有一个 500 html 模板每当我的应用程序爆炸时就会加载该模板但我想知道是否有任何方法可以在模板中输出异常消息所以如果我这样做 raise Exception You broke it 当 DEBUG 标志设置为 True 时
为什么使用单个“轮次”变量简化彼得森算法不能提供进程同步？

我正在阅读操作系统概念 http iips icci edu iq images exam Abraham Silberschatz Operating System Concepts 9th2012 12 pdf 并尝试理解 Peter
将 hdf5 转换为文件夹中组织的原始格式

我使用脚本使图像与图集匹配该脚本输入是 raw图像组织在文件夹中例如 imageFolder folder1 image1 raw image2 raw folder2 image1 raw image2 raw 我有一个图像hdf5我
Rhino 和并发访问 javax.script.ScriptEngine

我通过以下方式使用Rhino 1 6r2javax scriptAPI 我知道Rhino引擎声称是多线程 http docs oracle com javase 6 docs api javax script ScriptEngineFac
malloc 结构体指针数组与结构体数组

有什么区别 struct mystruct ptr struct test malloc n sizeof struct test and struct mystruct ptr struct test malloc n sizeof st
反应本机 firebase 检查用户是否已存在于实时数据库中

我需要检查用户名是否已存在于实时数据库中然后提示用户选择另一个用户名一直说没找到我认为这是因为我的数据是如何嵌套的注册 js const email username password this state await fireba
单元测试与 pytest

在单元测试中我可以setUp类中的变量然后该类的方法可以选择它想要使用的任何变量 class test class unittest TestCase def setUp self self varA 1 self varB 2 sel
SQLite 查询中的 CASE 语句

为什么这个查询不起作用我尝试替换嵌套 IF 语句 SET key IF key gt 11 key 5 IF lkey gt 5 lkey 2 lkey UPDATE pages SET lkey CASE lkey WHEN lkey
为什么类型“number”不能分配给类型“T”？

function say3
com.microsoft.sqlserver.jdbc.SQLServerDriver 的 ClassNotFoundException

这是一个已经出现的问题before https stackoverflow com questions 3974114 how can i fix this package does not exist error就这样我确信经验丰富的
错误 *问题仍然存在！*' aria-label='即使在 Macintosh 上安装 GhostScript，Python <没有这样的文件或目录：'gs'> 错误 *问题仍然存在！*'> 即使在 Macintosh 上安装 GhostScript，Python <没有这样的文件或目录：'gs'> 错误 *问题仍然存在！*

我在程序中实现了以下保存功能该功能允许用户将他她使用 Turtle 在 Tkinter 画布上绘制的任何内容保存为 JPEG 文件它的工作原理是首先捕获屏幕和 Tkinter 画布然后基于它创建一个 postscript 文件然后
为特定控制器操作选择自定义输出缓存提供程序

我正在尝试实现一个 MongoDB Memory 组合输出缓存提供程序以与 MVC4 一起使用这是我的初步实现 public class CustomOutputCacheProvider OutputCacheProvider publ
是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？

我有一个很大的 PyArrow 表其中有一列名为index我想用它来对表进行分区每个单独的值index代表表中不同的数量是否有一种惯用的方法可以根据列的内容从 PyArrow 表中选择行这是一个示例表 import pyarrow

是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？

是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？ 的相关文章

随机推荐

热门标签

是否有更惯用的方法来根据列的内容从 PyArrow 表中选择行？的相关文章