使用各种语言在 Hadoop 中运行作业的优缺点是什么？

2023-12-29

到目前为止，我一直使用 Pig 或 Java 进行 MapReduce，专门针对 Hadoop 集群运行作业。我最近尝试通过 Hadoop 流使用 Python Map Reduce，这也很酷。所有这些对我来说都有意义，但我对何时想要使用一种实现与另一种实现有点模糊。其他。 Java map reduce，我基本上只在需要速度时使用，但是什么时候我会想要使用 Python 流之类的东西，而不是在 PIG/Hive 中用更少、更容易理解的行写出相同的东西？简而言之，各自的优点和缺点是什么？

我将分别涉及 Java 与 Python，然后分别涉及 MR 与 Hive / Pig - 因为我将其视为两个不同的问题
Hadoop 是围绕 Java 构建的，其许多功能可通过 Java API 获得，并且 Hadoop 大部分可以使用 Java 类进行扩展。

Hadoop 确实有能力处理用其他语言创建的 MR 作业 - 这称为流式处理。这个模型只允许我们定义mapper和reducer，但有一些java中不存在的限制。同时 - 输入/输出格式和其他插件必须编写为 java 类
所以我将决策定义如下： a) 使用 Java，除非您有重要的代码库，需要在 MR 工作中继续。 b) 当您需要创建一些简单的临时作业时，请考虑使用 python。

关于 Pig / Hive - 它也是更高级别的以 java 为中心的系统。 Hive 无需任何编程即可使用，但可以使用 java 进行扩展。 Pig从一开始就需要java。我认为，在可以应用的情况下，该系统几乎总是比 MR 工作更可取。通常这些是处理类似于 SQL 的情况。

流式传输与本机 Java 之间的性能注意事项。
流式传输通过其输入流将输入提供给映射器。在 java 的情况下，进程间通信本质上比记录读取器和映射器之间的进程内数据传递效率低。
从上面我可以得出以下结论： a) 如果进行一些轻处理（例如查找子字符串、计数...），此开销可能会很大，并且 java 解决方案将更加高效。
b) 在一些繁重的处理的情况下，可以更有效地用一些非java语言实现——基于流的解决方案可以有一些优势。

Pig/Hive 性能考虑因素。
Pig / Hive 都实现了 SQL 处理的原语。换句话说，它们在 RDBMS 世界中实现执行计划的元素。这些实现都很好并且经过精心调整。同时 Hive（我更了解的东西）是解释器。它不进行代码生成 - 它在预构建的 MR 作业中解释执行计划。这意味着，如果您有一些复杂的条件并且会专门为它们编写代码 - 它有机会比 Hive 做得更好 - 代表编译器与解释器的性能优势。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用各种语言在 Hadoop 中运行作业的优缺点是什么？的相关文章

如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
使用 Pig 从数据中删除单引号

这就是我的数据的样子 10 ACCOUNTING NEW YORK 20 RESEARCH DALLAS 30 SALES CHICAGO 40 OPERATIONS BOSTON 我想删除 and 使用 Pig 脚本从这些数据中获取我希
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
为什么我们需要将外部表移动到托管 Hive 表？

我是 Hadoop 新手正在学习 Hive 在 Hadoop 权威指南第 3 版中第 12 页第428章最后一段我不明白下面关于 HIVE 中外部表的段落一种常见的模式是使用外部表访问存储在 HDFS 中的初始数据集由另一个进
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
Mongodb MapReduce 选择最新日期

我似乎无法让我的 MapReduce 缩减功能正常工作这是我的地图功能 function Map day Date UTC this TimeStamp getFullYear this TimeStamp getMonth this T

随机推荐

“gcc -x c”和“gcc -x c++”汇编输出之间的差异

我在文件 main c 中有以下代码 int main int i for i 0 i lt 5 i return 0 当我编译这个时gcc x c m32 S O0 o main s main c 在 Fedora 16 64 位下我得
如何将数据从 gRPC 拦截器传递到服务方法调用？

我需要传递一些数据ServerAuthIntereptor打电话服务器验证拦截器 used in context parameters map private static final String AUTH CONTEXT authCo
如何在 Eclipse 中比较两个文件？

我想比较两个文件一个在当前项目中另一个在备份目录中我知道如何比较它们是否在同一个项目中如何在 Eclipse 中进行比较 Eclipse 中的 Flex 导航器是什么打开导航器并显示主菜单窗口 gt 显示视图 gt 导航器您可
PhpStorm MySQL Connector/J 更新到 5.1.40 后停止工作

在 PhpStorm 建议更新 MySQL 驱动程序后我与 MySQL 数据库的现有连接和工作连接已停止工作我看到这个问题在我的 Ubuntu 和另一台 Mac 上重现我收到的错误是 08S01 通信链路故障我使用 SSH 隧道来访
Twitter API 问题：使用 GET 的 OAuth 请求令牌有效，POST 失败

我正在使用 Twitter API 进行 OAuth 我已经使用 GET 使请求令牌操作正常工作没有任何问题但是当我使用 POST 执行完全相同的操作时它会给出错误无法验证 oauth 签名以下是我正在使用的各种卷曲选项 cur
为什么在文件未完成加载时调度 URLStream 完成事件？

我正在编写一个 AIR kiosk 应用程序每天晚上都会连接到 WordPress 服务器获取包含所有内容路径的 JSON 文件然后下载该内容并将其保存到 kiosk 硬盘驱动器有数百个文件 jpg png f4v xml 其中大多
头文件中定义的函数的重复符号

假设我有一个头文件file ops hpp看起来像这样 pragma once bool systemIsLittleEndian uint16 t x 0x0011 uint8 t half x uint8 t x if half x 0
如何在序列图中表示循环中进行的调用？

我正在创建一个序列图其中一个类正在被另一个类观察被观察的类在观察者中每 5 秒循环调用一次更新我需要在序列图中显示这一点有没有办法让它无限期地不按顺序循环或者它在序列图的上下文中没有意义吗我不应该包括它吗或者我应该将其包含在不
针对另一个域远程使用 Get-DnsServerResourceRecord

我正在尝试运行以下命令 secpasswd Test secpasswd ConvertTo SecureString secpasswd AsPlainText Force mycreds New Object System Manage
Pygame显示模块初始化和退出

有一个pygame display窗户打开我打电话pygame display quit 为了摧毁窗户因为我需要再次打开窗口所以我调用pygame display init and pygame display set mode 但是
如何从报表设计器调用 Acumatica 函数？

我有一个用 Acumatica 编写的通用函数我们在各种 Acumatica 屏幕上使用它我们希望在报表设计器中使用此函数以便我们可以打印该值示例 CheckBday 如果我们传递客户代码它应该检查此客户生日字段如果是今天则返
非升压asio检查错误c ++

有没有办法使用 tcp 检查非 boost asio 程序中的错误有没有办法随机向连接添加错误我用 C 创建了一个简单的 Echo 服务器现在我必须为其生成随机错误但问题是我不知道如何生成或者如果这有更多帮助我需要检查二维奇偶
Chrome 自动播放政策中的自动播放背景视频

因此在最新的 chrome 中显然自动播放策略已更改因此这反过来又破坏了每个具有应自动播放视频背景的网站我想知道是否有人有任何聪明的解决办法可以解决这个问题我相信按钮或进入页面解决方案将是一种糟糕的解决方法特别是对于背景
如何获取函数内部创建的变量？

我正在 node js 中执行 javascript 文件并且需要访问在该文件中创建的所有变量由于这些 javascript 文件可以根据开发人员上下文保存任何内容因此我需要以编程方式访问变量我的问题是如何获取函数内创建的变量像
创建登录屏幕

制作密码登录屏幕的最佳方法是什么我在某处读到最好使用弹出控件如果是这样我到底需要在 App xaml 中的哪里创建它在为 Windows Phone 7 应用程序实现登录屏幕时您需要考虑许多事项这是一个示例 http baba
通过 HTTP 访问 FTP？

我们有一个外部安全 FTP 服务器我们希望通过 HTTPS 访问该服务器我们的基础设施不支持 FTP 我知道这是可能的但我不知道怎么做我正在寻找这样的东西 ftp ftp mozilla org pub mozilla org zz
如何在浏览器控制台中查看 CORS 飞行前 OPTIONS 请求？

我正在寻找一种在发出 CORS 请求时查看 CORS 飞行前选项请求的方法我想查看服务器的响应标头以帮助我调试遇到的 CORS 问题但我无法在 Chrome 或 Firefox 的网络选项卡或控制台中找到执行此操作的方法我还安装了
Azure AD：如何获取令牌中的组信息？

我们在 MEAN 堆栈中开发了应用程序我们正在使用阿达尔角 https github com AzureAD azure activedirectory library for js用于天蓝色广告身份验证的库根据文档和样本 https
MarginLayoutParams.setMargins() 不起作用？

事情是这样的我想以编程方式添加一些图像图像应该有一个topMargin of 5dip除了第一张图片之外 LinearLayout with a vertical orientation方式代码段下方 LinearLayout bod
使用各种语言在 Hadoop 中运行作业的优缺点是什么？

到目前为止我一直使用 Pig 或 Java 进行 MapReduce 专门针对 Hadoop 集群运行作业我最近尝试通过 Hadoop 流使用 Python Map Reduce 这也很酷所有这些对我来说都有意义但我对何时想要使用一

使用各种语言在 Hadoop 中运行作业的优缺点是什么？

使用各种语言在 Hadoop 中运行作业的优缺点是什么？ 的相关文章

随机推荐

热门标签

使用各种语言在 Hadoop 中运行作业的优缺点是什么？的相关文章