AWS Glue 爬网程序创建分区和文件表

2023-11-27

我有一个非常基本的 s3 设置，我想使用 Athena 对其进行查询。数据全部存储在一个存储桶中，并组织到年/月/日/小时文件夹中。

|--data
|   |--2018
|   |   |--01
|   |   |   |--01
|   |   |   |   |--01
|   |   |   |   |   |--file1.json
|   |   |   |   |   |--file2.json
|   |   |   |   |--02
|   |   |   |   |   |--file3.json
|   |   |   |   |   |--file4.json
...

然后，我设置一个 AWS Glue Crawler 来进行爬网s3://bucket/data。所有文件中的架构都是相同的。我希望得到一个数据库表，其中包含年、月、日等分区。

我得到的却是数万张桌子。每个文件都有一个表，每个父分区也有一个表。据我所知，为每个文件/文件夹创建了单独的表，没有一个可以在大日期范围内查询的总体表。

我按照指示操作https://docs.aws.amazon.com/glue/latest/dg/crawler-configuration.html尽我所能，但无法弄清楚如何构建我的分区/扫描，这样我就不会得到这个巨大的、几乎毫无价值的数据转储。

Glue Crawler 还有很多不足之处。它承诺解决很多情况，但实际支持的内容确实有限。如果您的数据存储在目录中并且不使用 Hive 式分区（例如year=2019/month=02/file.json）它常常会搞砸。当数据是由其他 AWS 产品生成时尤其令人沮丧，例如 Kinesis Firehose，看起来您的数据可能就是这样。

根据您拥有的数据量，我可能会首先创建一个指向结构根的未分区 Athena 表。只有当您的数据增长到超过数千兆字节或数千个文件时，分区才变得重要。

您可以采用的另一种策略是添加 Lambda 函数，只要有新对象进入您的存储桶，该函数就会由 S3 通知触发。该函数可以查看键并找出它属于哪个分区，然后使用 Glue API 将该分区添加到表中。添加已存在的分区将从 API 返回错误，但只要您的函数捕获它并忽略它就可以了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AWS Glue 爬网程序创建分区和文件表的相关文章

Amazon SageMaker 不支持的内容类型应用程序/x-image

我在 Sagemaker 中部署了基于 TensorFlow keras 的 CNN 模型现在为了调用推论我遵循了这个tutorial https aws amazon com blogs machine learning classi
Nginx 配置文件在 Elastic Beanstalk 部署期间被覆盖？

我需要将 p3p 标头添加到标准 Nodejs 和 Nginx Elastic Beanstalk 上的静态资源位置我创建了一个ebextension脚本如上所解释这个问题 https stackoverflow com question
AWS 无法从 START_OBJECT 中反序列化 java.lang.String 实例

我创建了一个 Lambda 函数我想在 API 网关的帮助下通过 URL 访问它我已经把一切都设置好了我还创建了一个application jsonAPI Gateway 中的正文映射模板如下所示 input input params
如何以 Rails 形式将图像从

正如标题中所述我正在尝试使用 Rails 的 Active Storage 从嵌套在 Rails 表单中的元素将图像上传到我的 S3 存储桶到目前为止我已经能够使用使用 Active Storage 上传图像这User class h
无法分配内存：fork：无法创建新进程？

我们的托管在aws 最近我们的博客从wordpress to aws 我们遇到服务器响应时间明显延迟的情况主要是在访问博客时以下是来自error log file Wed Feb 25 06 10 10 2015 error 12 C
AWS API Gateway - Lambda - 内部服务器错误

我正在通过 lambda 将图像上传到 s3 一切正常没有错误但 API Gateway 的响应是 500 内部服务器错误我按照本教程配置了 api gateway 对与 Amazon API Gateway 的 API 集成的二进制
将 Base64 图像数据上传到 Amazon S3

好吧在这个phonegap 应用程序中我从设备相机中的一个巨大图像文件开始然后我降低分辨率并允许用户使用 javascript canvas 和一些非常酷的代码称为 darkroomJS 来裁剪它最后 darkroomJS 使用
使用实例配置文件凭证的 AWS CLI

在我的 EC2 实例中使用 AWS CLI 时如何指定要使用实例配置文件凭证文档说 Instance profile credentials these credentials can be used on EC2 instances
未找到命令：Amazon Linux 2018.03 上的 systemctl

我正在关注此 Amazon AWS 安装 SSL 证书指南 https docs aws amazon com AWSEC2 latest UserGuide SSL on an instance html 我使用 Amazon Linux
PHP Amazon SDK，S3 存储桶访问被拒绝

我第一次尝试使用 PHP AWS SDK aws aws sdk php 3 19 来使用 S3 我创建了一个存储桶 myfirstbucket jeremyc 我制定了一项政策 Version 2012 10 17 Statement E
从 AWS CloudWatch 指标数学 SEARCH 函数获取单个时间序列

我正在尝试创建一个 CloudWatch 警报以判断组中的任何实例是否超过所用内存的 x 并构建了以下指标数学查询来执行此操作 SEARCH CWAgent InstanceId MetricName mem used percent M
AWS ELB 和 GoDaddy 域正在运行

我已在 goDaddy com 中注册了一个域并希望将流量发送到 AWS Route53 我创建了一个 ELB 我执行了以下步骤在 Route 53 中为我的 godaddy 域名创建一个托管区域这反过来又为我提供了一条包含 4 个
Amazon SNS 仪表板中创建平台应用程序的选项在哪里？

我在这个页面向 AWS 注册您的移动应用程序 https docs aws amazon com sns latest dg mobile push send register html第一个子主题的第 1 项标题为向 AWS 注册您的
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
如何通过版本控制获取 S3 存储桶中所有文件的大小？

我知道这个命令可以提供存储桶中所有文件的大小 aws s3 ls mybucket recursive summarize human readable 但这并没有说明版本控制 http docs aws amazon com Amazon
Amazon S3 403 AccessDenied 错误

当我从 S3 存储桶请求对象时我从亚马逊收到一些奇怪的 403 错误它似乎是间歇性的并且只会快速连续地发生如果我稍后尝试访问相同的对象通常可以毫无问题地检索它们我的直觉是这些错误的发生是由于某种速率限制约束但我在文档中找不到
为什么我的 CloudFormation 脚本无法下载文件？

我需要在 Windows 实例初始化期间下载文件为了测试这一点我使用以下脚本来下载 Google 徽标使用简化版本的Windows 角色和功能模板 https s3 amazonaws com cloudformation templ
在 VPC 内从 Lambda 访问 AWS S3

总的来说我对在 VPC 中使用 AWS Lambda 感到非常困惑问题是 Lambda 在尝试访问 S3 存储桶时超时解决方案似乎是 VPC 端点我已将 Lambda 函数添加到 VPC 以便它可以访问 RDS 托管数据库下面的
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand

随机推荐

使用 bootstrap 和 jquery 更改弹出窗口的标题

这是链接的 html 即 a href style font size 6 color 222 class popover test laquo a 是的我正在调用 popover 进行初始化并且弹出窗口工作得很好我可以毫无问题地更新
从文件中读取随机行的简单方法是什么？

在 shell 脚本中从文件中读取随机行的简单方法是什么您可以使用shuf shuf n 1 FILE 还有一个实用程序称为rl 在 Debian 中它位于randomize lines软件包完全可以满足您的需求但并非在所有发行版中都可
如何在 Eclipse 中将常量重构为枚举？

如何使用 Eclipse 将 Java 常量重构为枚举我发现eclipse中没有内置功能 http help eclipse org juno index jsp topic 2Forg eclipse jdt doc user 2Fre
使用 .NET 对象作为数据源时，为什么在 Crystal Reports 中出现“数据库登录失败”？

我正在使用项目中的 NET 对象作为数据源创建一个简单的报告使用SetDatasource 方法但是当我运行报告时出现数据库登录失败错误该报告根本没有连接到数据库我在这里错过了什么吗非常感谢 D 添加我想如果我包含控制器
带phonegap的AlarmManager

我正在使用 Phonegap 的 StatusBarNotification 插件 Android 来触发通知现在我想在特定时间执行此操作根据我所读的内容我必须使用 Android 的 AlarmManager 我尝试了一些方法但似
为什么 PHP PDO SQLite 总是创建一个新的空数据库文件？

我创建了与数据库的连接但我不知道为什么它总是创建一个新的空database sql 文件当我重命名数据库文件时他总是创建一个新文件而不是给我一个错误这是我的代码 db new PDO sqlite DIR database sql
以最快的方式处理大数据集的豪斯多夫距离

我的数据集中的行数超过 500000 我需要每个的豪斯多夫距离id自己与他人之间并对整个数据集重复此操作我有一个巨大的数据集这是小部分 df id easy ordinal latitude longitude epoch day o
如何确认异步 EF6 wait db.SaveChangesAsync() 是否按预期工作？

我的代码如下所示 public async Task
C 文件操作：检查打开的文件指针访问模式

一个简单的问题如何检查已打开的文件指针的访问模式假设一个函数传递了一个已经打开的 FILE 指针 Pseudo code bool PseudoFunction FILE Ptr if Insert check for read onl
asp.net 身份获取登录用户的所有角色

我创建了一个基于角色的菜单并遵循该菜单this教程在该页面的某些位置您会看到这行代码 String roles Roles GetRolesForUser 它返回当前登录用户的所有角色我想知道如何使用新的 ASP NET Identi
Swift 2 中的 HTTP POST 错误处理

我是新来的这是我的第一个问题我尝试在 Swift 2 中编写一个发出 HTTP POST 请求的应用程序但我不知道如何使用 Swift 2 的新错误处理任何人都可以告诉我如何实现尝试捕捉 Swift 2 对下面代码片段的错误处理
JavaScript 元素样式

我很好奇为什么是这个 div class overlay fdsfsd div overlay width 100px height 200px background color red alert document getElements
Objective-c 中是否有等效的 sqlite .dump ？

我正在尝试开发一个 iOS 应用程序该应用程序允许用户使用 GameKit 通过蓝牙同步他们的 sqlite 数据库有没有办法使用许多 sqlite Objective C 库中的任何一个在 sqlite shell 上执行相当于 du
RVO 应何时启动？

从下面的代码来看如果发生了RVO 我希望看到2个地址指向同一位置但事实并非如此我的编译器是MS VC9 0 include
blob 在 ios 上不接受 Uint8Array

我尝试创建一个 Blob 对象并将 Uint8Array 传递给它的构造函数它在 Windows 上的 chrome 和 firefox 上运行良好然而在 ios 上的 chrome 和 safari 中 Blod 不包含 Uint8
为什么Java默认只初始化类变量而不初始化局部变量？

我正在学习 Java 中的链表我有三个文件Main java List java and Node java 当我这样做时我遇到了一个问题为什么我应该初始化在方法中声明的局部变量而不是在类中声明的类变量 In the first p
Visual Lisp：如何调用外部 C++ DLL 中的函数

我有一个我编写的 C dll 本机的不是 net 并且我想使用 Visual Lisp 中的功能任何人都可以向我指出如何执行此操作的示例或者至少要阅读哪些文档我通过为我的 dll 编写一个 activex COM 包装器解决了这个问
处理 AWS PHP SDK 2 中的错误

如果我尝试从 S3 存储桶中获取不存在的对象 Amazon PHP SDK 2 会给我一个非常难看的错误对我来说很方便但对最终用户来说毫无意义 E g s3 aws gt get s3 result s3 gt getObject ar
JPA Glassfish 数据库更新问题

我在 Glassfish v3 0 1 上部署了一个应用程序它从数据库中的表中读取事件一旦准备好它会将它们标记为已处理当尝试调用执行更新的方法时我收到一个奇怪的错误我无法解释 Override TransactionAttrib
AWS Glue 爬网程序创建分区和文件表

我有一个非常基本的 s3 设置我想使用 Athena 对其进行查询数据全部存储在一个存储桶中并组织到年月日小时文件夹中 data 2018 01 01 01 file1 json file2 json 02 file3 json

AWS Glue 爬网程序创建分区和文件表

AWS Glue 爬网程序创建分区和文件表 的相关文章

随机推荐

热门标签

AWS Glue 爬网程序创建分区和文件表的相关文章