适用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 还是 HAWQ？

2024-01-24

我在 Greenplum DB 中有 TB 的结构化数据。我需要对我的数据运行本质上是 MapReduce 作业。

我发现自己至少重新实现了 MapReduce 的功能，以便这些数据适合内存（以流式传输方式）。

然后我决定到别处寻找更完整的解决方案。

我查看了 Pivotal HD + Spark，因为我使用的是 Scala，而且 Spark 基准测试令人惊叹。但我相信其背后的数据存储 HDFS 的效率将低于 Greenplum。（注意“我相信”。我很高兴知道我错了，但请提供一些证据。）

因此，为了与 Greenplum 存储层保持一致，我查看了 Pivotal 的 HAWQ，它基本上是 Greenplum 上的 Hadoop 和 SQL。

这种方法丢失了很多功能。主要是Spark的使用。

或者直接使用内置的 Greenplum 功能更好？

所以我现在正处于十字路口，不知道哪条路最好。我想要处理非常适合关系数据库模型的 TB 级数据，并且我想要 Spark 和 MapReduce 的优势。

我的要求是不是太多了？

在发布我的答案之前，我想根据我的理解重新表述问题（以确保我正确理解问题）如下：

你有 TB 级的数据，非常适合关系型 DB 模型，并且大多数时候你想使用 SQL 查询数据（我认为这就是你将其放入 Greenplum DB 的原因），但有时你想使用 Spark 和 MapReduce 来访问数据，因为它们的灵活性。

如果我的理解是正确的，我强烈建议您尝试一下HAWQ。 HAWQ的一些功能使其完美满足您的要求（Note:我可能有偏见，因为我是 HAWQ 的开发人员）。

首先，HAWQ 是一个 SQL on Hadoop 数据库，这意味着它使用 HDFS 作为数据存储。 HAWQ 与 Greenplum DB 存储层不一致。

其次，很难反驳“HDFS 的效率将低于 Greenplum”。但性能差异并不像您想象的那么显着。我们对HDFS数据的访问做了一些优化。举个例子，如果我们发现一个数据块存储在本地，我们会直接从磁盘读取它，而不是通过普通的 RPC 调用。

第三，HAWQ 有一个名为 HAWQ InputFormat for MapReduce 的功能（Greenplum DB 没有）。借助该功能，您可以编写 Spark 和 MapReduce 代码来轻松高效地访问 HAWQ 数据。与 Hadoop 提供的 DBInputFormat 不同（这会使 master 成为性能瓶颈，因为所有数据首先经过 master），HAWQ InputFormat for MapReduce 允许您的 Spark 和 MapReduce 代码直接访问存储在 HDFS 中的 HAWQ 数据。它是完全分布式的，因此非常高效。

最后，当然，您仍然可以使用 SQL 通过 HAWQ 查询数据，就像使用 Greenplum DB 一样。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

适用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 还是 HAWQ？的相关文章

Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
对于空列表，max() 应该返回什么？

Got java util NoSuchElementException head of empty list所以我试着检查一下但现在我明白了 info max of a few numbers FAILED info 0 did not
如何使用 apply/unapply 方法重现案例类行为？

我尝试用普通类和伴生对象替换案例类但突然出现类型错误编译良好的代码综合示例 trait Elem A B def C other Elem C A Elem C B other match case Chain head tail g
Scala 集合不一致

为什么 Scala Collections API 中的集合和列表之间缺乏一致性例如有不可变的 Set 但也有可变的 Set 如果我想使用后者我可以简单地这样做 val set Set A set new A 但是本身不存在可变列表
逆变方法参数类型

wiki 逆变方法参数类型 https en wikipedia org wiki Covariance and contravariance 28computer science 29 Contravariant method argum
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
Scala 相当于 Java 的 Number

我正在尝试为数值域类型构建类型层次结构例如AYear is an Int 这是一个Number a Percentage is a Double 这是一个Number等等我需要层次结构以便我可以调用toInt or toDouble关于
Scala Array.apply 有何魔力

来自 scala 2 10 4 的 array scala Array定义为 final class Array T length Int extends java io Serializable with java lang Clonea
使用 Akka 玩 2.5 - 找不到参数超时的隐式值：akka.util.Timeout

我正在尝试使用 Play 2 5 测试 Akka 但遇到了一个似乎无法解决的编译错误我正在关注 Play 文档中的此页面 https playframework com documentation 2 5 x ScalaAkka http
阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写

随机推荐

如何快速过滤字典并将结果输出到 CollectionViewController 中

我正在制作一个显示口袋妖怪及其类型的应用程序该应用程序的一部分也会显示出它们的弱点我有一个列出所有神奇宝贝的全局变量如下所示 var objects id 001 typeTwo Poison name Bulbasaur type
对 Maybe a 进行约束，其中 Eq a

我如何约束 Maybe a where Eq a 它必须是种类 gt 约束我尝试过的 class a Maybe b Eq b gt K a where instance a Maybe b Eq b gt K a where Error
Rust 单元测试后清理的好方法是什么？

由于测试函数会在失败时中止因此不能简单地在被测试函数结束时进行清理在其他语言的测试框架中通常有一种方法可以设置一个回调来处理每个测试函数末尾的清理工作由于测试函数会在失败时中止因此不能简单地在被测试函数结束时进行清理使用 RAI
如何使控件正确绘制/刷新

我有一个源自支票簿的控件我将其称为 SettingBooleanButton 但是当将任何窗口或对话框拖动到该控件上时该控件会保留拖动的迹象下图显示了将应用程序窗口拖动到控件上方的效果这是我的 OnPaint 代码块 Public
Famo.us IframeSurface

我尝试在表面内实现 iframe globals define define function require exports module use strict import dependencies var Engine require
.NET REGEX 匹配匹配空字符串

我有这个 pattern 0 9 0 9 Target X 113 3413475 Y 18 2054775 我想匹配数字它与测试软件中的查找相匹配例如http regexpal com http regexpal com 和正则表达式
PostgreSQL 查询约束中允许的值列表？

给定一个名为的 PostgreSQL 表requests有一列名为status和这样的约束 ALTER TABLE requests ADD CONSTRAINT allowed status types CHECK status IN p
最佳方法：访问控制允许来源多源域

这个问题之前已经在这里被问过并给出了一系列很好的答案主要是访问控制允许来源多源域 https stackoverflow com questions 1653308 access control allow origin multip
.htaccess 如果 url 不以扩展名结尾，则在末尾添加斜杠

我刚刚开始学习正则表达式但我无法弄清楚这一点如果 URL 不包含扩展名我需要在 URL 末尾强制添加斜杠更清楚地说 example com test stays the same example com test php stays
如何以及在哪里通过 macOS 基于 Python 的应用程序上的本机 GUI 最好地检索 sudo 密码 - （同时维护交互式输出流 (stdout)）

好的情况是这样的我正在使用 Python 和 wx wxphoenix 构建 macOS GUI 应用程序用户可以使用 GUI 例如 script1 启动文件删除过程包含在script2 为了顺利运行script2需要以 sudo
Ruby 字符串剥离定义的字符

在Python中我们可以使用 strip https docs python org library stdtypes html str strip字符串的方法用于删除所选字符的前导或尾随出现 gt gt gt print Remove
如何在 VS 项目中禁用 clang-cl 特定警告

我使用一个第三方项目它会产生大量警告我在 VS 项目属性中禁用了所有这些有时我会切换到LLVM clang cl用于检查 clang 警告的工具集第 3 方项目使用 clang cl 产生如此多的警告以至于 VS 的输出量令人窒
分析多进程 Python 脚本时出现神秘的 pickle 错误 [重复]

这个问题在这里已经有答案了我正在使用multiprocessing模块我正在使用UpdateMessage对象我自己的类通过发送multiprocessing Queue对象用于进程之间的通信这是课程 class UpdateM
JBoss Netty 与 JSON

我希望我的 Ajax 代码能够通过 Netty 连接服务器为此我需要在服务器端 Netty 处理程序中使用 JSON 解码器和编码器是否有任何开箱即用的实现或者我应该编写自己的实现 Thanks Gil 据我所知没有内置的 JSO
rspec 集成测试中的会话对象

我正在使用 rspec 和 capybara 进行集成测试他们是在请求规范中创建会话对象的一种方法吗我有一个视图页面在其中使用会话对象来检查其值以显示选择性内容我面临的问题是我无法在请求规范中创建会话对象这是视图的示例 conte
在子类和 UIViewController 中使用 UITextViewDelegate

我正在子类化 UITextView 并在子类中实现一些委托方法例如textViewDidChangeSelection但我还需要在视图控制器中获取 UITextView 委托的通知因此如果我创建子类的对象并在视图控制器中设置 text
以编程方式更改 WPF 可编辑组合框的背景颜色

我正在尝试动态更改可编辑的背景颜色ComboBox在运行时使用代码特别是我想更改可编辑的背景TextBox这是ComboBox SO 上有几个关于这个问题的答案比如 WPF更改代码中可编辑组合框的背景颜色 https stackov
观看过程替换

我经常运行命令 squeue u USER tee gt wc l where squeue is a 泥浆命令 https slurm schedmd com squeue html查看您正在运行多少个作业这给了我两个输出squeue并
mysqldb 总是将整个查询结果拉入一个块，即使我只是执行 fetchone？

所以如果我这样做 import MySQLdb conn MySQLdb connect cur conn cursor cur execute SELECT FROM HUGE TABLE print hello print cur fe
适用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 还是 HAWQ？

我在 Greenplum DB 中有 TB 的结构化数据我需要对我的数据运行本质上是 MapReduce 作业我发现自己至少重新实现了 MapReduce 的功能以便这些数据适合内存以流式传输方式然后我决定到别处寻找更完整的解决方

适用于 TB 级结构化数据的 Greenplum、Pivo​​tal HD + Spark 还是 HAWQ？

适用于 TB 级结构化数据的 Greenplum、Pivo​​tal HD + Spark 还是 HAWQ？ 的相关文章

随机推荐

热门标签

适用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 还是 HAWQ？

适用于 TB 级结构化数据的 Greenplum、Pivotal HD + Spark 还是 HAWQ？的相关文章