使用 AWS Glue 时如何查找更新的行？

2024-01-25

我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL。

据我所知，Glue 书签仅使用指定的主键查找新行，而不跟踪更新的行。

然而，我正在处理的数据往往会频繁更新行，我正在寻找可能的解决方案。我对 pyspark 有点陌生，所以如果可以在 pyspark 中执行此操作，我将非常感谢一些指导或正确方向的观点。如果 Spark 之外有可能的解决方案，我也很想听听。

您可以使用查询通过过滤源 JDBC 数据库中的数据来查找更新的记录，如下例所示。我已将日期作为参数传递，以便在本例中每次运行时我只能从 mysql 数据库获取最新值。

query= "(select ab.id,ab.name,ab.date1,bb.tStartDate from test.test12 ab join test.test34 bb on ab.id=bb.id where ab.date1>'" + args['start_date'] + "') as testresult"

datasource0 = spark.read.format("jdbc").option("url", "jdbc:mysql://host.test.us-east-2.rds.amazonaws.com:3306/test").option("driver", "com.mysql.jdbc.Driver").option("dbtable", query).option("user", "test").option("password", "Password1234").load()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazonwebservices

PySpark

ETL

awsglue

使用 AWS Glue 时如何查找更新的行？的相关文章

pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
避免在 AWS Lambda 上使用 netcore2.0 和 Serilog 进行两次日志记录

将我的 netcore 项目升级到 2 0 后当我的应用程序在使用 Serilog 框架的 AWS Lambda 上运行时我会看到双日志请参阅下面我的设置 public void ConfigureServices IServiceC
在 S3 中迭代对象时出现“ConnectionPoolTimeoutException”

我已经使用 aws java API 一段时间了没有遇到太多问题目前我使用的是库 1 5 2 版本当我使用以下代码迭代文件夹内的对象时 AmazonS3 s3 new AmazonS3Client new PropertiesCred
AWS Fargate 任务错误 - ResourceInitializationError：无法下载环境文件：无法写入临时文件：AccessDenied

我正在尝试使用容器定义下的环境文件配置 S3 ARN 从 Fargate ECS 任务访问存储在 S3 存储桶中的 env 文件但 ECS 任务因停止原因而失败资源初始化错误无法下载 env 文件文件下载命令非空错误流无法下载文
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
AWS 无法从 START_OBJECT 中反序列化 java.lang.String 实例

我创建了一个 Lambda 函数我想在 API 网关的帮助下通过 URL 访问它我已经把一切都设置好了我还创建了一个application jsonAPI Gateway 中的正文映射模板如下所示 input input params
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
向多个 EC2 实例发送 AWS CloudWatch 警报

我想要应用 CloudWatch 警报来停止我们的预生产环境中未使用的实例我们经常会遇到实例被启动使用然后保持打开状态这确实开始花费我们相当多的钱 CloudWatch 警报有一个方便的功能我们可以根据一些指标停止这太棒了我想用
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
每次我执行 docker compose up 时，Docker 都会创建一个新卷

我有一个 docker compose 文件可以启动多个服务我刚刚收到一条错误消息指出我的磁盘空间不足因此我输入 docker system df 并看到我有 21 个卷如果我有 3 个 docker 容器每个容器都附加一个卷
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
如何将stepfunctionexecutionId解析为SageMaker批量转换作业名称？

我创建了一个步骤函数该状态机的定义如下 step function json 在 terraform 中使用使用本页中的语法 https docs aws amazon com sagemaker latest APIReference
如何将 NODE_EXTRA_CA_CERTS 的值传递给使用 Serverless 部署的 AWS Lambda？

我正在部署一个节点AWS Lambda https aws amazon com lambda with 无服务器 https github com serverless serverless 由于运行此代码的机构的内部要求我需要通过额外
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
如何在没有 SDK 的情况下在 Objective C 中为 S3 创建预签名 URL？

我正在构建一个 mac 应用程序not使用 AWS iOS 开发工具包我尝试构建的 GET 请求应遵循以下通用格式 Authorization AWS AWSAccessKeyId base64 hmac sha1 VERB n CONT
AWS - 有没有办法“挂钩”第一次创建联合身份的时间？

我有一个 Cognito 身份池用于对我的前端用户进行身份验证并在我的应用程序中授予他们某些权限但是我在授予这些用户访问 IoT 的权限时遇到了问题其中涉及调用 Lambda 调用iot addPrincipalPolicy 一旦
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何保留超过 5 天的查询日志？

在 Redshift 中有一个STL QUERY存储过去 5 天运行的查询的表我正在尝试找到一种方法来保存超过 5 天的记录以下是我考虑过的一些事情有红移设置吗看来不是我可以使用触发器吗 Redshift 中不提供触发器因此这
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
如何使用 AEM 解析 org.apache.http.ssl？

最终我尝试在 Java 代码中使用 AWS S3 库来通过 AEM 启用服务器端 S3 上传但在安装依赖项和或由 AEM 识别时遇到了问题每次我添加新的依赖项时都会弹出五个问题在我尝试构建的这个包中这是我看到的错误 The i

随机推荐

如何在流上重用过滤器和映射的应用程序？

我有一组从共享类型继承的域对象即GroupRecord extends Record RequestRecord extends Record 子类型具有特定的属性即GroupRecord getCumulativeTime Reque
如何在 Android 中的 Activity 上强制执行自定义权限？

我在android中创建了一个自定义权限
Python wand：具有透明度的合成图像

我正在尝试用 Wand 合成两个图像计划是将图像 B 放在 A 的右侧并使 B 的透明度为 60 使用 IM 可以这样完成 composite blend 60 geometry 1000 0 b jpg a jpg new jpg 但
json对象访问

我知道这很简单但我坚持不下去我有 json 变量数据如下 var jsonText user Gender M Minage 19 Maxage 30 MaritalStatusId 0 user maritialtype Does
Google 应用程序引擎网站的多个域 - 每个域的分析

好的基本上我正在为我工作的公司测试一种新的营销理念购买 10 个左右的域名其中包含与业务相关的关键搜索词例如 carservice com carmot com hondaservice com 并将它们全部链接到一个网站托管在
训练 tesseract 后，tessdata 文件夹中应包含哪些文件？

我使用 tesseract 作为我的 ANPR 应用程序的 OCR 引擎我已经用车牌字体训练了 tesseract 3 01v 但我需要知道 tessdata 文件夹中应包含哪些文件我应该使用安装 tesseract 3 01v 的同一
填充轮廓但保留包含的区域未填充

我有这个 python 代码据说可以填充图像的轮廓但其中包含的孔未填充这就是我要的但这就是我得到的我尝试指定轮廓层次结构来填充 cv2 但我无法得到我想要的结果这是我尝试过的 import numpy as np import
在不使用注册策略的情况下将用户添加到 Azure B2C

我正在尝试开发一个仅具有登录策略的应用程序据我所知为 B2C 创建新用户的受支持方法是使用用户页面上的新用户对话框以及图形 API 它是否正确有我缺少的方法吗哪种方法是首选方法当尝试在新用户对话框中创建用户时用户名格式错误例如
在 MySQL DB 中存储 Base64 编码值的最佳方法？

我有一个值想存储在我的数据库中排序规则对这样的字符串有什么影响吗 YToyOntzOjIwOiJUeXBlX29mX29yZ2FuaXNhdGlvbiI7czoyMDoiTWVtYmVyIG9mIFBhcmxpYW1lbnQiO3M6OD
以编程方式更改 UIButton 的标题颜色，其标题设置为 iOS 7 中的属性

我已经添加了一个UIButton in my UITableView以编程方式我的问题是我需要给Letter Spacing以及需要更改按钮标题颜色我已经给出了Letter Spacing在按钮标题文本中使用以下代码但标题文本颜色没有
将两张表连接成一张大表

我有两个具有相同列的表我需要将一个表的行复制到另一个表的行以创建一个包含两个表中所有值的大表现在我正在执行此查询以返回相同的内容 SELECT col1 col2 col3 from Table1 union SELECT col1
复杂的Silverlight TreeView，嵌套层次结构可能吗？

我有一个看起来像这样的数据库 Locations rootlevel Inspections level1 Areas level1 Inspections level2 因此每个位置可以有零个或多个检查和零个或多个区域并且区域可以有零
水平滚动条不适用于选择标签

我正在尝试在不起作用的选择标签上设置水平滚动条这是代码
Android + Google Fit 数据上传：错误 5002 - 数据类型的名称与包名称不匹配

在应用程序中我们将用户活动数据上传到 Google Fit 如下所示 Fitness getSessionsClient context GoogleSignIn getLastSignedInAccount context insert
Android Holo 在 CSS 中加载微调器

我需要知道如何在 CSS 中制作没有图像的 Android Holo 加载旋转器我尝试过但我不知道该怎么做这就是我需要的动画就像在 Android 中一样我怎样才能在没有图像的CSS中做到这一点没有图像我似乎也无法做到我成功
如何从python返回多个变量到bash

我有一个调用 python 脚本的 bash 脚本起初我只返回一个变量这很好但现在我被告知要返回两个变量我想知道是否有一种干净而简单的方法来返回多个变量 archiveID python glacier upload py arch
如何将键盘向上/向下事件从 NSTextField 转发到 NSTableView？

我试图模拟 Spotlight 在 Yosemite 中的工作方式其中 NSTextField 搜索字段在按下向上向下箭头键并上下移动表格视图选择时始终保持焦点我已经实现了以下代码 BOOL control NSControl co
将巨大的 Keras 模型加载到 Flask 应用程序中

我正在构建一个小型 Flask 应用程序它在幕后使用卷积神经网络对用户上传的图像进行预测如果我像这样加载它它就会起作用 app route uploader methods GET POST def get image if requ
如何使用 API 在 Monaco Editor 中格式化 JSON 代码？

我正在与摩纳哥编辑又名VS CodeWeb 项目中的引擎我使用它来允许用户编辑一些具有 JSON 架构集的 JSON 以帮助提供一些自动完成功能当他们保存更改并希望重新编辑他们的工作时我加载回编辑器的 JSON 会转换为字符串但这会
使用 AWS Glue 时如何查找更新的行？

我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行而不跟踪更新的行然而我正在处理的数据往往会频繁更新行我正在寻找可能的解决方案我对 pyspark

使用 AWS Glue 时如何查找更新的行？

使用 AWS Glue 时如何查找更新的行？ 的相关文章

随机推荐

热门标签

使用 AWS Glue 时如何查找更新的行？的相关文章