如何使用 Spark 从 .sql 转储中提取包含数据的表？

2024-03-31

我有大约四个 *.sql 独立转储（每个大约 20GB），我需要将它们转换为 Apache Spark 中的数据集。

我尝试过使用 InnoDB 安装和制作本地数据库并导入转储，但这似乎太慢（花了大约 10 个小时）

我直接使用将文件读入spark

import org.apache.spark.sql.SparkSession

var sparkSession = SparkSession.builder().appName("sparkSession").getOrCreate()
var myQueryFile = sc.textFile("C:/Users/some_db.sql")

//Convert this to indexed dataframe so you can parse multiple line create / data statements. 
//This will also show you the structure of the sql dump for your usecase.

var myQueryFileDF = myQueryFile.toDF.withColumn("index",monotonically_increasing_id()).withColumnRenamed("value","text") 


// Identify all tables and data in the sql dump along with their indexes

var tableStructures = myQueryFileDF.filter(col("text").contains("CREATE TABLE"))
var tableStructureEnds = myQueryFileDF.filter(col("text").contains(") ENGINE"))

println(" If there is a count mismatch between these values choose different substring "+ tableStructures.count()+ " " + tableStructureEnds.count())

var tableData = myQueryFileDF.filter(col("text").contains("INSERT INTO "))

问题是转储包含多个表，并且每个表都需要成为一个数据集。为此，我需要了解我们是否可以为一张桌子做到这一点。是否有为 scala Spark 编写的 .sql 解析器？

有没有更快的方法来解决这个问题？我可以直接从 .sql 独立文件将其读入 hive 吗？

更新 1：我正在根据 Ajay 给出的输入为此编写解析器

更新 2：将所有内容更改为基于数据集的代码以按照建议使用 SQL 解析器

是否有为 scala Spark 编写的 .sql 解析器？

是的，有一个，而且您似乎已经在使用它了。这就是 Spark SQL 本身！惊讶吗？

SQL 解析器接口（ParserInterface）可以从 SQL 语句的文本表示创建关系实体。那是almost你的情况是吧？

请注意ParserInterface一次处理一个 SQL 语句，所以你必须somehow解析整个转储并找到表定义和行。

The ParserInterface可用为sqlParser of a SessionState.

scala> :type spark
org.apache.spark.sql.SparkSession

scala> :type spark.sessionState.sqlParser
org.apache.spark.sql.catalyst.parser.ParserInterface

Spark SQL 附带了多种提供接口入口点的方法，例如SparkSession.sql, Dataset.selectExpr或者简单地expr标准功能。您也可以直接使用 SQL 解析器。

无耻插头您可能想阅读有关ParserInterface — SQL 解析器合约 https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-ParserInterface.html在《掌握 Spark SQL》一书中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

scala

apachespark

如何使用 Spark 从 .sql 转储中提取包含数据的表？的相关文章

为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
如何在 Laravel 查询中使用多个 OR,AND 条件

我需要 Laravel 查询帮助我的自定义查询返回正确结果 Select FROM events WHERE status 0 AND type public or type private 如何写这个查询Laravel Event w
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Scala 和变量中的模式匹配

我是 Scala 新手有点想知道模式匹配是如何工作的想象一下我有以下内容 case class Cls i Int case b Cls i gt Ok case e Cls gt Ok case f Cls gt Ok case s
第三个下拉菜单不从数据库填充

我有以下 Index php
MYSQL 区分大小写的 utf8 搜索（使用 hibernate）

我的登录表具有 utf8 字符集和 utf8 排序规则当我想要检查用户名并检索该特定用户名的其他信息时 hql 查询会为我提供小写和大写相同的结果我应该如何处理适用于案例的 HQL 查询我使用 Mysql 5 和 java hiber
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
如何使用 vitess 仅对特定表进行分片

我创建了一个包含三个表的未分片键空间现在我想对前两个表的键空间进行分片但不想对第三个表进行分片如何才能做到这一点 Vitess 文档不包含任何与此相关的信息或示例请帮忙 Thanks vitess 中的垂直分片与水平分片类似您应该
MySQL连接字符集问题

我在 Mac 上使用带有 MySQL 的 velosurf 没有任何编码问题但是当我切换到 Linux 计算机时从 velosurf 获得的值未正确编码我发现这可能是默认连接字符集的问题在 Mac 上我得到 mysql gt sho
Mysql 将 int 转换为 MAC

我有一些数据可以转换其中有 2 列其中一列有 IP 它包含整数值我在 mysql 查询中使用了以下函数是否有一个函数可以用来转换我的 mac 列其中包含整数和数据类型是bigint to MAC地址 SELECT INET NTO
Scala 特性：val/def 和 require

下面的代码抛出IllegalArgumentException trait T val x Long require x gt 0 object T extends App val y new T val x 42L 而以下情况则不然 tr
MySQL 查询到 CSV [重复]

这个问题在这里已经有答案了有没有一种简单的方法来运行MySQL查询来自linux命令行并以csv格式输出结果这就是我现在正在做的事情 mysql u uid ppwd D dbname lt lt EOQ sed e s g tee l
如何在 Play java 中创建数据库线程池并使用该池进行数据库查询

我目前正在使用 play java 并使用默认线程池进行数据库查询但了解使用数据库线程池进行数据库查询可以使我的系统更加高效目前我的代码是 import play libs Akka import scala concurrent Ex
玩：将表单字段绑定到双精度型？

也许我只是忽略了一些明显的事情但我无法弄清楚如何将表单字段绑定到 Play 控制器中的双精度型例如假设这是我的模型 case class SavingsGoal timeframeInMonths Option Int amount
在 PHP 字符串中格式化 MySQL 代码

是否有任何程序 IDE 可以在 PHP 字符串中格式化 MySQL 代码例如我使用 PHPStorm IDE 但它无法做到这一点它对 PHP 和 MYSQL 执行此操作但不适用于 php 字符串内的 MYSQL 我已准备好使用新的
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
我可以使用 HSQLDB 进行 junit 测试克隆 mySQL 数据库吗

我正在开发一个 spring webflow 项目我想我可以使用 HSQLDB 而不是 mysql 进行 junit 测试吗如何将我的 mysql 数据库克隆到 HSQLDB 如果您使用 spring 3 1 或更高版本您可以使用 s
在 MySQL 中存储表情符号的编码问题：如何使用 Prisma ORM 在 NodeJS 中定义字符排序规则？

亲爱的 Nodejs 专家和数据库专家我们在 MySQL 数据库中存储表情符号和其他特殊字符时遇到问题我们使用 Prisma 得到一个错误这是我们使用的 ORM 参数无法从排序规则 utf8 general ci 转换为 utf8mb

随机推荐

使用 Python 和 Selenium 按文本单击按钮

是否可以单击具有相同文本的多个按钮Selenium http en wikipedia org wiki Selenium 28software 29 可以通过文字找到所有按钮然后执行click 方法中的每个按钮for loop 使用这个S
使用键和区域设置对列表列表进行排序（此处：德语元音变音）

我知道如何使用简单 key function 自定义排序但如果我需要一个更复杂的 key 函数该怎么做呢我在将其组合在一起时遇到问题这是片段在第一个示例中我使用 key locale strxfrm 这对于此目的来说已经足够了
按日期循环变量分组

我有一些体育比赛结果我想循环浏览这些结果并将其分组到表格中的日期下例如 Sat 20 Game 1 Results Game 2 Results Sun 21 Game 3 Results Sat 27 Game 4 Results 我
os.walk 排除 .svn 文件夹

我有一个脚本我想用它来更改整个项目文件夹结构中的重复字符串一旦更改我就可以将其签入 SVN 但是当我运行脚本时它会进入我希望它忽略的 svn 文件夹我怎样才能实现这个目标代码如下谢谢 import os import sys
在 VS2012 中切换“所有异常中断”的快速方法？

我经常发现它在调试时非常有用以打开公共语言运行时异常 ThrownVisual Studio 的调试 gt 异常屏幕中的选项我想要一种快速的方法来执行此操作因为我始终切换相同的复选框并且该屏幕加载速度非常慢在以前的版本中可以
HTML IFrame 不允许下载文件

我正在尝试下载一个根据收到的值自行构建的文件这是我的代码
在PL/SQL中，以一个表作为参数，过滤它并返回它

我正在为 PL SQL 函数而苦苦挣扎我正在尝试编写一个函数该函数将接受对象表根据某些条件我打算根据其他表测试值过滤该表并返回过滤表我的表类型定义如下 CREATE TYPE test obj AS OBJECT test id
以下显示表单的方法有什么区别？

下面两条语句有什么区别在内存管理方面 Dim frm as New MyForm frm Show VS MyForm Show 我原本是一名 C 开发人员那么第二个开发人员在 VB NET 中如何理解甚至编译呢 Show 不是共享静
Google 图表堆叠列的 JSON 格式

我有如下数据 store 1 Store 2 store id walk ins walk ins morning 20 25 noon 35 40 night 50 55 有 20 个商店可以用图表堆叠每行的值 Google Charts
Python 构造函数和 __init__

为什么构造函数确实被称为构造函数它们的目的是什么以及它们与类中的方法有何不同另外还可以多一个吗 init 在课堂上我尝试了以下操作有人可以解释一下结果吗 gt gt gt class test def init self pri
如何获取 Spark 中的默认属性值

我正在使用这个版本的 Spark spark 1 4 0 bin hadoop2 6 我想检查一些默认属性所以我在中发表了以下声明spark shell scala gt sqlContext getConf spark sql hive
硒网络驱动程序，Chrome。我在运行 Python 测试期间（在开始和结束时）收到未实现的错误

Errors 6944 3028 0128 220426 ERROR chrome views delegate cc 176 NOT IMPLEMENTED 6944 3028 0128 220426 ERROR desktop root
CocoaPods 用于“pod try”命令的启发式记录是否在任何地方都有记录？

在 CocoaPods v 0 29 中添加了 pod try 命令请参阅http blog cocoapods org CocoaPods 0 29 http blog cocoapods org CocoaPods 0 29 从文档
使用 C# 参数调用 PowerShell 脚本

我有一个存储在文件中的 PowerShell 脚本在 Windows PowerShell 中我执行脚本为 MergeDocuments ps1 1 docx 2 docx merge docx 我想从 C 调用脚本目前我正在使用 P
(Laravel) 从一个表中获取数据，该表的 ID 与与该表链接的另一个表相对应

我正在玩我的第一个 Laravel 项目上面的问题可能有点令人困惑但让我解释一下我有 3 张桌子实际上我还有更多但让我们忽略它我有standards stddetails sections如图所示所以外键对应如下 column
如何使用 Jest 和 Enzyme 测试 getDerivedStateFromProps

我有这个简单的代码它使用新的getDerivedStateFromProps生命周期 static getDerivedStateFromProps nextProps Props prevState State if nextProps
如何在 twig 中显示 Unix 时间戳的格式化日期？

我想通过对 Unix 时间戳应用过滤器来在 twig 中显示格式化日期 twig 有这样的功能吗有一个过滤器叫date http twig sensiolabs org doc filters date html 在下面的例子中mydat
通过 FileSystem 对象从文件系统读取

为了列出类路径上特定目录的文件内容我正在使用新的FileSystem and PathJava 7 的功能在一次部署中目录直接存储在文件系统上在另一个部署中它存储在 JAR 文件中我的方法适用于 JAR 文件我创建了一个Fil
Node.js 中的长循环：使用计时器产生结果？

我在用着Node js http nodejs org 循环通过最终会是什么一个漂亮大阵的帖子如果我正在做类似的事情客户端 JavaScript 我会使用计时器正如这里所解释的 http oreilly com server admini
如何使用 Spark 从 .sql 转储中提取包含数据的表？

我有大约四个 sql 独立转储每个大约 20GB 我需要将它们转换为 Apache Spark 中的数据集我尝试过使用 InnoDB 安装和制作本地数据库并导入转储但这似乎太慢花了大约 10 个小时我直接使用将文件读入spark

如何使用 Spark 从 .sql 转储中提取包含数据的表？

如何使用 Spark 从 .sql 转储中提取包含数据的表？ 的相关文章

随机推荐

热门标签

如何使用 Spark 从 .sql 转储中提取包含数据的表？的相关文章