如何将 500GB SQL 表转换为 Apache Parquet？

2024-04-07

也许这是有详细记录的，但我很困惑如何做到这一点（有很多 Apache 工具）。

当我创建 SQL 表时，我使用以下命令创建表：

CREATE TABLE table_name(
   column1 datatype,
   column2 datatype,
   column3 datatype,
   .....
   columnN datatype,
   PRIMARY KEY( one or more columns )
);

如何将这个现有表转换为 Parquet？该文件是否写入磁盘？如果原始数据有几GB，要等多久？

我可以将原始数据格式化为 Parquet 格式吗？

Apache Spark 可用于执行此操作：

1.load your table from mysql via jdbc
2.save it as a parquet file

Example:

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.read.jdbc("YOUR_MYSQL_JDBC_CONN_STRING",  "YOUR_TABLE",properties={"user": "YOUR_USER", "password": "YOUR_PASSWORD"})
df.write.parquet("YOUR_HDFS_FILE")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

sqlserver

Hadoop

parquet

如何将 500GB SQL 表转换为 Apache Parquet？的相关文章

Visual Studio 2010 与 SQL Server 2012 商业智能的正确安装顺序

我有一个 Windows 7 64 位旗舰版虚拟机想要安装以下内容 Visual Studio 2010 Ultimate SQL Server 2012 Business Intelligence with SSIS and SSR
MySQL 存储过程将值分配给 select 语句中的多个变量

这是我的存储过程我在为声明的变量赋值时遇到问题当我执行它时插入和更新命令工作正常但声明变量的值保持为 0 但我在数据库中有一些价值我怎样才能正确地做到这一点 BEGIN DECLARE PaidFee INT DEFAULT 0
将大量实体插入 SQL Server 2012 [重复]

这个问题在这里已经有答案了我正在进行一个使用 Entity Framework 5 和 SQL Server 2012 的项目我们需要一次插入大量行 100k 个实体的顺序基本上我们有一个物理程序它输出大量二进制数据然后我们需要
限制 SQL Server 连接到特定 IP 地址

我想将 SQL Server 实例的连接限制为特定 IP 地址我想阻止来自除特定列表之外的任何 IP 地址的任何连接这是可以在 SQL Server 实例或数据库中配置的东西吗听起来像是你会使用Windows防火墙 http tech
MySql 最后插入 ID，连接器 .net

我正在使用 MySql Connector net 我需要获取最后一个查询生成的插入 id 现在我假设返回值是MySqlHelper ExecuteNonQuery应该是最后一个插入id 但它只返回1 我正在使用的代码是 int inse
没有函数映射到名称“coord:formatTime”

我正在尝试使用 oozie 中的以下内容获取当前时间戳
mysql-如何向列申请补助？

用户名撤销对数据库的选择 Person I set GRANT SELECT id ON database Person TO username localhost 不是工作 gt SELECT secret FROM Person Go
阻止注销页面后的后退按钮

我有 php 注销页面当用户单击注销链接时请参阅此页面并重定向到索引页面但是当单击后退按钮时我会看到带有用户数据的上一页当然当我刷新页面时我看不到以前的页面和数据我在单击注销并单击后退按钮后检查了其他代码 drupal 但我
MySQL Connector/C++ 库链接错误问题

PROBLEM 好吧我一直在尝试遵循 MySQL Forge Wiki 和其他一些网站上的示例代码这些网站提供了有关如何获得简单数据库连接的教程但由于某种原因我的项目总是因链接错误而失败我可以我自己不明白为什么或如何解决它我仍在
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
如何在Mysql中仅将不同的值从一个表复制到另一个表？

我有一个大约 2 5GB 的 MySql 数据库表 A 具有以下列 anoid query date item rank url 我刚刚创建了另一个仅包含列的表 b query and date 我想在查询列中插入所有不同的记录及其各自
MySQL 使用 ALTER IGNORE TABLE 出现重复错误

我的 MySQL 中有一个有重复项的表我尝试删除重复项并保留一项我没有主键我可以通过以下方式找到重复项 select user id server id count as NumDuplicates from user server
MYSQL 区分大小写的 utf8 搜索（使用 hibernate）

我的登录表具有 utf8 字符集和 utf8 排序规则当我想要检查用户名并检索该特定用户名的其他信息时 hql 查询会为我提供小写和大写相同的结果我应该如何处理适用于案例的 HQL 查询我使用 Mysql 5 和 java hiber
如何在Sequelize中设置查询超时？

我想看看如何在 Sequelize 中设置查询的超时时间我查看了 Sequelize 文档以获取一些信息但我找不到我要找的东西我发现的最接近的是 pools acquire 选项但我不想设置传入连接的超时而是设置正在进行的查询的超
Mysql 中 UNION 子句的替代方案

我有两张桌子表 a 表 b table a ID 1 2 3 4 5 7 table b ID 2 3 4 5 6 我必须得到这样的输出而无需UNION命令 ID 1 2 3 4 5 6 7 注意我有一个联合解决方案 select fr
存储过程和权限 - EXECUTE 就足够了吗？

我有一个 SQL Server 2008 数据库其中对基础表的所有访问都是通过存储过程完成的一些存储过程只是从表中选择记录而其他存储过程则进行 UPDATE INSERT 和 DELETE 如果存储过程更新表执行存储过程的用户是否也
有没有办法以编程方式轻松更改多个 SSIS 包上的服务器名称？

作为发布周期的一部分我们正在创建多个 SSIS 包来迁移大型数据库我们最终可能会得到大约 5 10 个 SSIS 包由于我们有 4 个环境开发 QA 登台生产等是否有一种有效的方法可以在每个 SSIS 包经历不同的服务器环境时更
在 SQL 数据库中存储“列表”的最正确方法是什么？

因此我读了很多关于如何将多个值存储到一个列中是一个坏主意并且违反了数据标准化的第一条规则令人惊讶的是这不是不要谈论数据标准化所以我需要一些帮助目前我正在为我工作的地方设计一个 ASP NET 网页我想根据此人所属的 Act
Laravel leftJoin 仅右表的最后一条记录

我是 Laravel 的新手我有两张桌子 1 产品 2 价格 products id product int p key name varchar prices id price int p key id product int
MySQL 按重复项从上到下排序

我有一个lammer问题因为我不是mysql专业人士我有类似的字段 id color 1 red 2 green 3 yellow 4 green 5 green 6 red 我想按重复项进行分组最常见的重复项先进行分组所以应该这样

随机推荐

Keras model.fit log 和 Sklearn.metrics.confusion_matrix 报告的验证准确性指标彼此不匹配

问题是报道的validation accuracy我从 Keras 获得的价值model fit历史显着高于validation accuracy我得到的指标sklearn metrics功能我得到的结果model fit总结如下 Las
Java gRPC 服务器用于长寿命流的有效实现

我想了解 gRPC 框架的一部分用于长期流的资源管理假设我们有无限的罕见每秒一次左右事件源我们希望通过 grpc 流的方式将其流式传输到客户端这些事件由服务器上的单个应用程序线程生成我看到两种可能的流事件实现在 rpc 调用
如何在具有复合 PK 的实体中使用“findBy”（Hibernate JPA）

我正在用 bootspring 学习 findByDate int date 以前一直工作直到我搬家int Date进入内部类现在我可以保存新条目但无法按日期检索它们我需要改变什么 Transactional public inter
在 package:html、dart:html、dart:io（类 HttpClient）和 package:http API 之间进行选择来获取 HTTP 资源

我意识到目前至少有三个官方 Dart 库允许我执行 HTTP 请求更重要的是其中三个库 dart io 类 HttpClient package http 和 dart html 各自具有不同的不兼容的 API 截至今天 packa
Phonegap - 检测仿真

Phonegap 应用程序如何确定它是在实际设备上运行还是在模拟设备上运行我需要一个同时适用于 Android 和 iOS 的解决方案你有没有看一下设备接口 http docs phonegap com en 3 3 0 cordova
如何编写 mql4 代码 (EA) 用矩形标记列出的蜡烛形态

我对写作很陌生mql4代码如果我能在出现以下烛台图案时获得一些绘制矩形的帮助我将不胜感激 FIG1 Run code snippet blockquote class imgur embed pub a href imgur com a
GPU编程简介[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案每个人的桌面上都有一台以显卡 GPU 形式存在的巨大的大规模并行超级计算机 GPU 社区的 hello world 相当于什么我该做什么去哪
CBC 模式下的 HMAC-SHA256 和 AES-256

我最近遇到以下代码示例 http code activestate com recipes 576980 authenticated encryption with pycrypto 用于使用 AES 256 CBC 和 SHA 256 H
使用 Spring JPA 和 Hibernate 访问 Session 以启用过滤器

在 Spring JPA Hibernate 环境中我需要启用 Hibernate 实体过滤器所以我应该有权访问 Hibernate Session 对象但我正在使用 EntityManagerFactory 和 Spring JPA
如何隐藏共享操作提供程序附近的共享操作（使用最多的）图标？

看图片如何隐藏 P 图标表示分享到 Pinterest 它们都在操作栏上我使用 ActionBarSherlock 如果您愿意保留所有分享历史数据模型但只是不想要额外的默认共享活动 icom 答案在使用 ShareActionPr
将 java.sql.Timestamp 转换为 Java 8 ZonedDateTime？

将 Joda 时间迁移到 Java 8 Joda UserObject user new UserObject user setCreatedAt new DateTime rs getTimestamp columnName 迁移到 Ja
如何确定 C++03 中的类型是否可取消引用？

In C 03 如何判断一个类型是否T是可解引用的吗我的意思是我如何静态地确定是否 t将是一个有效的表达式t类型的T 我的尝试 template
GitHub 与现有 GPG 密钥合并失败

我们有多个 github 存储库需要对拉取请求进行签名提交有时由于警告提交需要签名我们无法合并拉取请求即使提交已签名看起来创建拉取请求的人可以合并它 Sqash 和合并即使它只包含 1 次提交这发生在两个帐户都是拉取请求的
迭代器的性能优势？

使用迭代器可以提供哪些性能优势如果有这似乎是解决许多问题的正确方法但它是否会创建更快更内存敏感的代码我正在专门用 Python 思考但不要将答案限制于此实际上 Python 邮件列表上有一篇关于此的非常好的邮件迭代器与列表
Angular 2：从另一个组件调用现有组件

我正在使用路由功能使用 Angular 2 创建一个应用程序并且我有一个由较高路由之一呈现的弹出组件并且我想在由以下之一呈现的组件中的单击事件上打开它更深层次的路线例如假设我有一个基本路由器其模板包含弹出窗口 Component
使用 C++0x decltype 返回值时返回局部变量或临时变量的地址

Edit 这确实是编译器的一个bug 我开了一个defect https connect microsoft com VisualStudio feedback details 573330 bad code generated for f
PDO 和清理日期/删除 HTML

我让用户使用此代码更新他们的姓名 dbh connect q dbh gt prepare UPDATE Users SET username name WHERE User ID id LIMIT 1 q gt bindParam id
Angular：以可重用/干净的方法将 API 数据转换为新的数据类型

我正在尝试将 API 响应转换为完全不同的 ViewModel 用于多个组件 a 一种解决方案是直接在 API 代理中映射管道数据但是如果我只想要简单的原始 API 数据那么 API 代理的可重用性不是很好 b 此模型适配器模式可能不
.ctp 文件中使用的“o”和箭头符号之间的区别？

我对模型文件中使用的 o 和 gt 有点困惑例如 asset Field identified by assetId o String assetId o Customer owner gt Customer custId partici
如何将 500GB SQL 表转换为 Apache Parquet？

也许这是有详细记录的但我很困惑如何做到这一点有很多 Apache 工具当我创建 SQL 表时我使用以下命令创建表 CREATE TABLE table name column1 datatype column2 datatype c

如何将 500GB SQL 表转换为 Apache Parquet？

如何将 500GB SQL 表转换为 Apache Parquet？ 的相关文章

随机推荐

热门标签

如何将 500GB SQL 表转换为 Apache Parquet？的相关文章