Hive 上的 Spark SQL 查询执行

2023-12-01

我是 Spark SQL 新手，但了解 Hive 查询执行框架。我想了解spark如何执行sql查询（技术说明）？

如果我按照命令开火

val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
sqlContext.sql("select count(distinct(id)) from test.emp").collect

在 Hive 中它会被转换成 Map-Reduce 作业，但是它在 Spark 中如何执行呢？

Hive Metastore 将如何发挥作用？

提前致谢。

简单回答你的问题：不，HiveContext不会启动MR作业。您的 SQL 查询仍将使用 Spark 引擎

我将引用 Spark 文档：

除了基本 SQLContext 之外，您还可以创建 HiveContext，它提供基本 SQLContext 所提供功能的超集。其他功能包括使用更完整的 HiveQL 解析器编写查询的能力、访问 Hive UDF 以及从 Hive 表读取数据的能力。要使用 HiveContext，您不需要现有的 Hive 设置，并且 SQLContext 可用的所有数据源仍然可用。 HiveContext 仅单独打包，以避免在默认 Spark 构建中包含 Hive 的所有依赖项。如果这些依赖项对您的应用程序来说不是问题，那么建议在 Spark 1.3 版本中使用 HiveContext。未来的版本将重点关注使 SQLContext 达到与 HiveContext 相同的功能

因此，spark 使用 HiveContext 来增强查询解析和对现有 Hive 表的访问，甚至将结果持久化为 DataFrames/Tables。此外，实际上，Hive 可以使用 Spark 作为其执行引擎，而不是使用 MR 或 tez。

Hive 元存储是有关 Hive 表的元数据。当使用 HiveContext Spark 时可以使用此元存储服务。参考文档：http://spark.apache.org/docs/latest/sql-programming-guide.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

hive

apachesparksql

Hive 上的 Spark SQL 查询执行的相关文章

在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
使用 Spark SQL 从 ISO 8601 解析日期时间

想做this https stackoverflow com questions 9321809 format date in mysql select as iso 8601但反之亦然 My dates 采用这种格式YYYY MM DDT
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
使用 MySQL 作为元存储从 HIVE 查询元数据

我正在寻找一种使用 HiveQL 命令查询 HIVE 数据元数据的方法我配置了一个 MySQL 元存储但需要通过 HIVE 命令查询元数据因为然后我想通过 ODBC 连接到 HIVE 系统来访问数据要从 Hive 查看它们必须使用
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
hive 中的授予权限在 hdp2.2 上不起作用

我正在 CentOS 6 5 上使用 Ambari 设置来试验 HDP2 2 集群但在运行 Hive GRANT 查询时遇到问题例如一个查询 grant select on Tbl1 to user root 给了我一个看起来像这样的
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF

随机推荐

原则 2 限制与 DQL 的关联

Doctrine 2 1 中似乎存在一个疏忽即返回子集并不容易为协会收集 http www doctrine project org docs orm 2 1 en reference limitations and known iss
如何从超类创建子类的实例？

我正在创建一个类及其子类其中需要调用父类的静态方法以返回子实例 class Animal static findOne this has to return either an instance of Human or an instan
如何避免使用自动 Code First 迁移重新创建现有数据库

我正在使用 EF6 并且遇到数据库自动迁移问题数据库存在并且数据库中没有架构或数据更改但由于某种奇怪的原因应用程序似乎试图在机器重新启动时在数据库中重新创建现有表并因此导致错误我的问题是为什么在没有数据库架构更改的情况下会自动
单击剧作家中的浏览器权限弹出窗口，无需 grantPermission

我正在尝试和剧作家一起写测试我的应用程序使用摄像头和麦克风所以我允许他们使用context grantPermissions camera microphone 它适用于 Chrome 但不适用于 Firefox 和 Safari 尚
Android volley 处理重定向

我最近开始使用 Google 的 Volley lib 来处理我的网络请求我的一个请求收到重定向错误 301 所以我的问题是 volley 是否可以自动处理重定向或者我是否必须手动处理它parseNetworkError或使用某种Ret
将 gprof 与 pthread 结合使用

gprof 可以用来分析使用 pthread 的多线程程序吗也就是说它的输出是否包括所有线程所使用的时间是的借助所描述的解决方法是可能的here
如何将类转换为 Dictionary？

我可以将 Class 转换为 Dictionary 吗在字典中我希望我的类属性为keys以及特定财产的价值value 假设我的班级是 public class Location public string city get set pub
JavaScript 减少两个以上项目的抛出错误

我有这个数组 const arr someProp amount 10 someProp amount 12 然后减少 fn const sum arr reduce prev curr gt prev someProp 0 amount
使用 awk 最长的行

有人可以展示如何使用 awk 命令来识别文本文件中最长的行 Thanks 要打印最长的行 awk length gt m m length a 0 END print a input file 简单地通过行号来识别最长的行 awk leng
JQ：将键替换为另一个文件中的相应值

我正在尝试将原始 JSON 中的键值替换为另一个文档中具有相应键的对象的值这是我的两个文件文件一 KaM0otlgWxXniYiacFe LNxx1IiX6oYTxJ4IXx2 true KlJTvbfonIMI YfS5R LNxx1
替换 Excel 文件页眉和页脚上的文本

我想检查 Excel 工作表上的页眉和页脚并将给定字符串的所有出现位置替换为另一个字符串如何使用 vba 来完成此操作你需要使用才能使用Sheet PageSetup财产我假设您正在寻找中心页眉和页脚以下内容将为您工作 Sub L
使用 UIBezierPath 擦除线条图

使用 UIBezierPath 做了一个简单的线条绘制应用程序但现在需要一种方法来擦除用 UIBezierPath 绘制的线条有没有办法实现橡皮擦功能来删除线条画如果您使用图像作为背景那么您可以将相同的图像设置为画笔图案来绘制贝塞尔
SQL Presto：不支持相关子查询

考虑表x id val 1 100 3 300 和表y id 1 2 3 对于每一行y我想要val from x哪里的id从 y 等于或最接近之前id from x像那样 id val 1 100 2 100 3 300 我试图找到与相关子
R 中的自举相关

我正在尝试在 R 中进行引导相关性我有两个变量 Var1 和 Var2 我想获得 Pearson 相关性的自举 p value my variables look like this x y 1 6080522 1 707642 2 1
SQL Group By 和 Order By

我有一个标签表想从列表中获取计数最高的标签示例数据如下所示 id 1 tag night id 2 tag awesome id 3 tag night using SELECT COUNT Tag from images tags G
基于条件的最大值

我在 Excel 中有一个模拟数据集我想打印最近的日期但我希望它是最新的日期以便类型为引用 Type Date referral 1 6 2017 classroom 1 7 2017 referral 1 8 2017 class
Mac 上的 jshint 和 sublimelinter 设置配置

我正在尝试在我的 Mac 上配置 sublimelinter 特别是 jshint 在我的 Windows 版本的 SublimeText 上有以下部分SublimeLinter sublime settings jshint option
Terraform：通知 SNS 的 CloudWatch 事件

我正在学习 TF 并尝试应用一个基础设施来创建一个简单的 lambda 函数 SNS 话题获取 lambda 来订阅 SNS 主题以一定时间间隔向主题发布消息的 Cloud Watch Event Cloud Watch Log Gr
XDocument.Validate 始终成功

我有一个架构文件它没有定义任何目标命名空间即它的定义如下所示
Hive 上的 Spark SQL 查询执行

我是 Spark SQL 新手但了解 Hive 查询执行框架我想了解spark如何执行sql查询技术说明如果我按照命令开火 val sqlContext new org apache spark sql hive HiveConte

Hive 上的 Spark SQL 查询执行

Hive 上的 Spark SQL 查询执行 的相关文章

随机推荐

热门标签

Hive 上的 Spark SQL 查询执行的相关文章