使用 AWS Glue 或 PySpark 过滤 DynamicFrame

2024-01-04

我的 AWS Glue 数据目录中有一个名为“mytable”的表。该表位于本地 Oracle 数据库连接“mydb”中。

我想将生成的 DynamicFrame 过滤为仅 X_DATETIME_INSERT 列（时间戳）大于特定时间（在本例中为“2018-05-07 04:00:00”）的行。之后，我尝试对行进行计数以确保计数较低（该表大约有 40,000 行，但只有几行应该满足过滤条件）。

这是我当前的代码：

import boto3
from datetime import datetime
import logging
import os
import pg8000
import pytz
import sys
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from base64 import b64decode
from pyspark.context import SparkContext
from pyspark.sql.functions import lit
## @params: [TempDir, JOB_NAME]
args = getResolvedOptions(sys.argv, ['TempDir','JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "mydb", table_name = "mytable", transformation_ctx = "datasource0")

# Try Glue native filtering    
filtered_df = Filter.apply(frame = datasource0, f = lambda x: x["X_DATETIME_INSERT"] > '2018-05-07 04:00:00')
filtered_df.count()

此代码运行 20 分钟并超时。我尝试过其他变体：

df = datasource0.toDF()
df.where(df.X_DATETIME_INSERT > '2018-05-07 04:00:00').collect()

And

df.filter(df["X_DATETIME_INSERT"].gt(lit("'2018-05-07 04:00:00'")))

哪些失败了。我究竟做错了什么？我在 Python 方面经验丰富，但对 Glue 和 PySpark 很陌生。

AWS Glue 将整个数据集从 JDBC 源加载到临时 s3 文件夹中，然后应用过滤。如果您的数据位于 s3 而不是 Oracle 中，并按某些键分区（即/年/月/日），那么您可以使用下推谓词特征 https://aws.amazon.com/blogs/big-data/work-with-partitioned-data-in-aws-glue/加载数据子集：

val partitionPredicate = s"to_date(concat(year, '-', month, '-', day)) BETWEEN '${fromDate}' AND '${toDate}'"

val df = glueContext.getCatalogSource(
   database = "githubarchive_month",
   tableName = "data",
   pushDownPredicate = partitionPredicate).getDynamicFrame()

不幸的是，这还不适用于 JDBC 数据源。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 AWS Glue 或 PySpark 过滤 DynamicFrame 的相关文章

将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
AWS 无法验证提供的访问凭证。 AuthFailed 仅在特定区域

我正在尝试通过 linux aws CLI 执行一些操作我的凭据文件 100 正确用户拥有 EC2FullAccess 和 Amdinistrative 最高级别权限我能够执行所有命令问题是以下区域产生 AuthFailed 错误
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
AWS 无法从 START_OBJECT 中反序列化 java.lang.String 实例

我创建了一个 Lambda 函数我想在 API 网关的帮助下通过 URL 访问它我已经把一切都设置好了我还创建了一个application jsonAPI Gateway 中的正文映射模板如下所示 input input params
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
使用随机目录结构重命名传入的 S3 文件

我有一个可以将文件发送到 s3 存储桶的应用程序不幸的是我无法更改它在 s3 中发送到的路径因此我必须找到一种方法来获取该文件 mys3bucket apps region 020 07 14T22 24 34Z details cs
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate

随机推荐

IntelliJ 和 JSP/JSTL 无法解析 tomcat7 中 JSTL 的 taglib [重复]

这个问题在这里已经有答案了首先我的 JSTl 代码可以在我的服务器上运行因为我在 tomcat7 的 Lib 文件夹中有正确的 Jar 文件这实际上只是一个 IDEA 问题我的问题归结为我将相同的 jar 文件放在 Intelli
隐藏盒子阴影的部分

免责声明我已经看到以下问题尽管它们的情况非常相似但它们的解决方案并不适用于我在除一侧以外的所有面上创建 CSS3 框阴影 https stackoverflow com questions 1429605 css3 box shad
如何通过 Terraform 将 Iceberg 表部署到 AWS

尝试确定将一些 Iceberg 表部署到我们的 AWS 环境中的最佳方法有人通过 Terraform 取得成功吗我有以下配置但当我查询我创建的表时 Athena 抱怨缺少元数据位置或者将永远旋转如果有更好的方法可以自动化部署请告
如何知道 uitableview 是否有选定的单元格

我正在开发一个应用程序有时我有几个 uitableview 我想知道委托方法之外的操作例如表视图是否有选定的单元格以及是哪个单元格我尝试使用 NSIndexPath indexPathForSelectedRow但它不起作用因为如果
通过选项选择更新 SVG

我正在尝试获取 SVG 中的文本元素以通过选项更改进行更新搜索后我已经能够到达在控制台中在页面初始加载期间以及选项更改时看到选项更改的位置但我未能成功更改数字任何帮助将不胜感激
VIM 中更好的自动完成功能

All 我使用 vim 已经有一段时间了并且喜欢它的一切我真正怀念 RubyMine 这样的 IDE 中只有一件事那就是高级自动完成功能作为参考这是我的标准 VIM 设置 https github com wrwright vim
如何在 spring mvc 中提供静态内容？

我在当前的项目中使用 spring mvc 框架 ROOT文件夹有很多包含html jsp css js等的web文件夹我的spring mvc配置如下
UIScrollView 如何更改框架而不更改边界？ UIScrollView 是如何工作的？

我理解框架和边界之间的区别我认为边界是视图的本地坐标系而框架是超级视图然而对于滚动视图我有点困惑当我在 UIScrollView 中有一个 UIImageView 并将其放大时似乎框架变大宽度和高度也会增加相应 UIIm
在 google 地图中查找给定点 5 公里半径范围内的位置

嘿我只是想收集谷歌地图数据库中给定点 5 公里半径以下的位置我会将它们存储在数据库中以供以后处理这可以完成吗谢谢如何获取所需圆内点的经度和纬度您可以使用地点搜索 http code google com intl fr apis
有没有办法通过作业名称获取 Quartz 中的作业密钥

现在我正在寻找在 Quartz 库中通过作业名称获取作业密钥的功能我看到Scheduler有方法通过组名称获取作业密钥GroupMatcher
Android 中是否有 API 支持以编程方式进行电话会议？

我想通过从我的应用程序中选择一些联系人来进行电话会议可以吗电话会议中的设备数量是否有限制有没有 Android SDK 支持任何版本都适合我吗请提供一些意见提前致谢您无法使用智能手机管理会议您需要一个可以为您完成此操作的中间
django 脆皮形式内联表单

我正在尝试采用脆形式和引导程序并尽可能多地使用它们的功能而不是一遍又一遍地发明一些东西有没有一种方法可以像 django admin 表单那样使用 Cripy forms bootstrap 来实现内联表单功能这是一个例子 clas
如何在 Perl 中连接两个散列而不使用循环？

如何在 Perl 中将哈希 a 附加到哈希 b 而不使用循环如果您的意思是合并他们的数据只需执行以下操作 c a b
如何在Python中用单反斜杠替换双反斜杠？ [复制]

这个问题在这里已经有答案了我有一根绳子该字符串中有双反斜杠我想用单反斜杠替换双反斜杠以便可以正确解析 unicode 字符代码 Pdb p fetched page p style text align center align c
在 Android Studio 中导入 Facebook 库：找不到属性“ANDROID_BUILD_SDK_VERSION”

我想将库项目导入到我的应用程序中但每当我尝试这样做时 Android Studio 都无法识别它它还在 build gradle 中给了我错误该库是 PagerSlidingTabStrip 以下是一些图片到目前为止我已经尝试了三天
.NET StringBuilder 在前面添加一行

我知道System Text StringBuilder在 NET中有一个AppendLine 方法但是我需要在 a 的开头预先附加一行StringBuilder 我知道你可以使用Insert 附加一个字符串但我似乎无法用一行来做到这
@Scheduled 方法内部的 Spring @Async 方法调用

我正在使用 Spring boot EnableScheduling and EnableAsync 我有一个注释为的方法 Scheduled 我还有几个方法注释为 Async 现在我称这些为 Async中的方法 Scheduled方法并
在Powershell中使用Import-CSV，忽略注释行

我认为我一定错过了一些明显的东西因为我正在尝试使用 Import CSV 导入已在文件顶部注释掉行始终以作为第一个字符开头的 CSV 文件因此文件看起来像这样 SpecialCSV Version 1 0 0 Table Head
R，dplyr：如果每组只有一个唯一的非 NA 元素，则按组折叠字符变量元素

假设我有以下 data framedf患者家乡和一项任意临床指标心率 id lt c rep 1 3 each 2 rep 4 3 pt hometown lt c Atlanta NA NA San Diego NA NA San Fr
使用 AWS Glue 或 PySpark 过滤 DynamicFrame

我的 AWS Glue 数据目录中有一个名为 mytable 的表该表位于本地 Oracle 数据库连接 mydb 中我想将生成的 DynamicFrame 过滤为仅 X DATETIME INSERT 列时间戳大于特定时间在本例

使用 AWS Glue 或 PySpark 过滤 DynamicFrame

使用 AWS Glue 或 PySpark 过滤 DynamicFrame 的相关文章

随机推荐

热门标签