如何使用 hive 上下文有效地查询 Spark 中的 hive 表？

2023-12-02

我有一个 1.6T Hive 表，其中包含时间序列数据。我在用Hive 1.2.1 and Spark 1.6.1 in scala.

以下是我的代码中的查询。但我总是得到Java out of memory error.

val sid_data_df = hiveContext.sql(s"SELECT time, total_field, sid, year, date FROM tablename WHERE sid = '$stationId' ORDER BY time LIMIT 4320000  ")

通过从配置单元表中迭代地一次选择几条记录，我试图对结果进行滑动窗口dataframe

我有一个由 4 个节点组成的集群，具有 122 GB 内存、44 个 vCore。我正在使用 488 GB 可用内存中的 425 GB。我使用以下参数进行火花提交

--num-executors 16 --driver-memory 4g --executor-memory 22G --executor-cores 10 \
--conf "spark.sql.shuffle.partitions=1800" \
--conf "spark.shuffle.memory.fraction=0.6" \
--conf "spark.storage.memoryFraction=0.4" \
--conf "spark.yarn.executor.memoryOverhead=2600" \
--conf "spark.yarn.nodemanager.resource.memory-mb=123880" \
--conf "spark.yarn.nodemanager.resource.cpu-vcores=43"

请给我关于如何优化它并成功从配置单元表中获取数据的建议。

Thanks

问题很可能出在这里：

LIMIT 4320000

你应该避免使用LIMIT对大量记录进行子集化。在火花中，LIMIT将所有行移动到单个分区，可能会导致严重的性能和稳定性问题。

参见示例如何优化下面的 Spark 代码（scala）？

我试图通过一次选择几条记录来迭代地在这个结果数据帧上创建一个滑动窗口。

这听起来不对。滑动窗口操作通常可以通过窗口函数和基于时间戳的某种组合来实现window buckets.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

Hadoop

apachespark

hive

HiveQL

如何使用 hive 上下文有效地查询 Spark 中的 hive 表？的相关文章

如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
Akka 2 中的调度程序有哪些差异和使用模式？

我很难理解它们的差异和推荐用法Akka 2 中的调度程序 http doc akka io docs akka current scala dispatchers html 我想我明白了平衡调度程序 http doc akka io api
向 Scala Swing Panel 添加标签时出现类型不匹配错误

我有这个课程扩展FlowPanel我正在尝试向其中添加标签 import java awt Label Color import scala swing import scala util Random class MyPanel exte
Akka Streams / HTTP：从响应中获取原始请求

我有一个 Akka Streams 源它会遍历流程并发布 HTTP 请求 source map toRequest via Http outgoingConnection host map toMessage 假设toRequest方法将
使用 Scala 进行网页抓取 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何访问 Scala XML 中的父元素

The scala xml包表示带有标记树节点的 XML 但是这棵树在 Scala 2 7 中是单向的吗因为似乎没有办法访问Elem给定的父级Elem 这似乎同样适用于父母Document 例如在 XOM 中你有getParent an
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
Spark 数据帧：根据另一列的值提取一列

我有一个包含带有连接价目表的交易的数据框 paid currency EUR USD GBP 49 5 EUR 99 79 69 客户已支付 49 5 欧元如货币列中所示我现在想将支付的价格与价目表中的价格进行比较因此我需要根据
是否有适用于 Haskell 或 Scala 等函数式语言的 LL 解析器生成器？

我注意到明显缺乏用函数式语言创建解析器的 LL 解析器我一直在寻找但没有成功的理想发现是为 ANTLR 风格的 LL 语法生成 Haskell 解析器语法的模小数重新格式化并且令我惊讶的是每个最后一个解析器生成器都具有函数我发现的语
到底什么是单例类型？

什么是单例类型有什么应用和影响我们非常欢迎示例更欢迎外行术语如果将类型视为一组值则值的单例类型x是仅包含该值的类型 x 用法示例模式匹配 case Foo type检查匹配的对象是否与Foo using eq where cas
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v
java.lang.OutOfMemoryError：Scala 上超出了 GC 开销限制

我是 Scala 开发人员我在Routes它包含的文件1008行如果我添加另一行则会抛出下面的错误 Uncaught error from thread sbt web scheduler 1 shutting down JVM sin

随机推荐

嵌套 INotifyPropertyChanged 类不起作用

得到了一些代码得到了意想不到的结果如果我用 Myclass 替换嵌套类那就没有问题了我想念什么我是否绑定文本到其他控件或绑定图像并不重要 xaml代码
Android：是否可以在屏幕上同时创建底部和顶部选项卡？

我想知道是否可以在顶部和底部设置不同的选项卡单击时会导致不同的活动谷歌搜索但没有找到任何相关内容 Thanks Android 的好处是几乎所有你想做的事情都可以实现如果我们要更改您的 XML 我们会将其更改为以下内容
用于淡入和淡出视图的 Angular 4 动画

我只是希望视图在路线更改时淡入和淡出我似乎已经正确设置了组件但我认为需要使动画语法正确这是我目前的动画尝试我将此动画导入到我的组件中 import trigger state animate style transition fro
使用 PHP API 进行 FB.login

我已经设置了一个 Canvas 页面单击表单提交按钮即可实现 FB login 在以下请求期间它尝试通过 facebook gt api me 来自 Github 的最新 API 版本访问用户数据它可以在 Firefox 和 Chr
检测序列参数的正确方法？

我想编写一个接受参数的函数该参数可以是序列或单个值 value的类型有str int等但是我don t希望将其限制为硬编码列表换句话说我想知道参数 X 是一个序列还是我必须转换为序列以避免以后出现特殊情况的东西我可以 type X
错误：格式“%s”需要“char *”类型的参数，但参数 2 的类型为“int”[-Wformat=]

我目前正在尝试做自己的 shell 它必须是多语言的所以我尝试实现一个读取 txt 文件中的行的函数 include
如何在反应材料表上添加精美的滚动条？

我在用着反应材料表并想要一个像样的滚动条而不是默认的分页我努力了反应自定义滚动但它没有按照我的意图工作我的应用程序的默认滚动条已激活还有一件事我怎样才能将这种类型的滚动应用到桌体上 import CustomScroll from
Fragment 和 Anko toast 的“接收器类型不匹配”

我正在尝试使用 Jetbrains 的 Anko 库在我的应用程序中轻松显示 Android toast 消息这是相关的代码片段 val message CharSequence Recycled holder taskEditText
从 IntentService 向 Activity 发送消息

我在同一个应用程序中有一个活动和一个intentService 该服务必须在活动结束后继续运行因此我不想绑定我已经在谷歌上搜索了几个小时但找不到一个关于如何做到这一点的好例子我可以启动该服务并向其传递额外内容但现在该服务必须使用
iPad 上的 iAd：横向 iAd 方向不正确

这仍然是一个相对较新的主题因此不确定有多少人必须在 iPad iOS4 2 1 上实现 iAd 但基本上我让 iAd 横幅以横向模式显示并且显示正确唯一的问题是当我单击测试广告时它会以纵向模式显示测试广告即设备仍处于横向
有没有办法使用 Video.js 从视频标签获取当前字幕的文本？

我想在播放视频期间获取当前字幕的文本并且实现自己的字幕块即隐藏原始字幕并以几种不同的方式使用该信息目前我使用videojs为我的球员有什么方法可以从中获取当前标题的字符串吗此代码获取当前提示并放入 span element fu
R curl::has_internet() FALSE 即使有互联网连接

使用 R 包 Eurostat 从 EuroSTAT 下载数据时出现了问题 Population data by NUTS3 pop data lt subset eurostat get eurostat demo r pjangrp3
为什么Android C2DM推送消息总是不到达？

我已经构建了一个功能正常的 C2DM 应用程序通常它运行得很好并且推送消息到达得很快然而我发现当我第一次启动应用程序或将其重新聚焦时消息经常不会到达它们肯定发送成功我收到 200 响应并且消息格式肯定是正确的稍后发送相同的
C 中的 size_t 是什么？

我很困惑size t在 C 中我知道它是由sizeof操作员但它到底是什么它是一种数据类型吗假设我有一个for loop for i 0 i lt some size i 我应该使用int i or size t i 来自维基百科
如何让自动对焦在第二个 AVCaptureSession 中工作而不重新创建会话？

当我创建第二个 AVCaptureSession 时自动对焦不适用于第一个 AVCaptureSession 要创建的第二个会话是自动对焦工作的会话而第一个创建的会话则不自动对焦我希望任一会话在另一个会话停止后启动时都能够自动对焦就
如何比较两个捕获的声音，看看哪一个声音更大？

给定从麦克风捕获的两个字节数组的数据我如何确定哪一个有更多的噪声尖峰我假设有一种算法可以应用于数据但我不知道从哪里开始说实话我需要能够确定婴儿何时哭泣以及房间内的环境噪音如果有帮助我正在使用 Microsoft Xna Fra
无法实例化子目录中定义的类

我的简化的项目布局如下 init py test py lib init py lib client py my test py简单来说就是 import lib client A client A Test and my lib cl
UIWindow 的根视图控制器在应用程序启动时不会旋转到横向

我正在开发一个基于 xib 的仅横向应用程序该应用程序可以在横向模式下正确启动然而我的主 ViewController 中的视图是纵向呈现的也就是说它旋转 90 度使图像看起来被裁剪并且不会占据整个屏幕如果我使用我的界面来呈现
grails 线程 -> hibernateException：没有 Hibernate 会话绑定到线程

我试图在服务中创建一些线程但我得到了 hibernateException no session 我已经在 stackoverflow 中看到过关于此问题的讨论其中包含抛出 RuntimeException 的解决方案就我而言是行不通
如何使用 hive 上下文有效地查询 Spark 中的 hive 表？

我有一个 1 6T Hive 表其中包含时间序列数据我在用Hive 1 2 1 and Spark 1 6 1 in scala 以下是我的代码中的查询但我总是得到Java out of memory error val sid da

如何使用 hive 上下文有效地查询 Spark 中的 hive 表？

如何使用 hive 上下文有效地查询 Spark 中的 hive 表？ 的相关文章

随机推荐

热门标签

如何使用 hive 上下文有效地查询 Spark 中的 hive 表？的相关文章