如何以容器格式在 Hadoop 中使用 Snappy

2023-12-25

我必须使用 Snappy 来压缩 map o/p 和 map-reduce o/p。此外，这应该是可拆分的。

正如我在网上学习的那样，为了让 Snappy 编写可分割的 o/p，我们必须以类似容器的格式使用它。

您能建议如何去做吗？我尝试在网上找到一些例子，但找不到合适的例子。我使用的是 Hadoop v0.20.203。

谢谢。皮尤什

用于输出

conf.setOutputFormat(SequenceFileOutputFormat.class); SequenceFileOutputFormat.setOutputCompressionType(conf, CompressionType.BLOCK); SequenceFileOutputFormat.setCompressOutput(conf, true); conf.set("mapred.output.compression.codec","org.apache.hadoop.io.compress.SnappyCodec");

用于地图输出

Configuration conf = new Configuration(); conf.setBoolean("mapred.compress.map.output", true); conf.set("mapred.map.output.compression.codec","org.apache.hadoop.io.compress.SnappyCodec");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

Compression

MapReduce

如何以容器格式在 Hadoop 中使用 Snappy 的相关文章

Sqoop 导出分区的 Hive 表

我在尝试导出分区的 Hive 表时遇到了一些问题这是否完全受支持我尝试用谷歌搜索并找到一张 JIRA 票证 sqoop export connect jdbc mysql localhost testdb table sales exp
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
PHP 可以解压缩使用 .NET GZipStream 类压缩的文件吗？

我有一个 C 应用程序它与基于 PHP 的 SOAP Web 服务进行通信以进行更新和许可我现在正在开发一个反馈系统供用户通过软件自动提交错误和跟踪日志根据我之前发布的问题我认为 Web 服务将是实现此目的的最佳方法最有可能以最
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
PyMongo 中的 MapReduce

我的蒙戈收藏 Impressions具有以下格式的文档 uid 10 impressions pos 6 id 123 service furniture pos 0 id 128 service electronics pos
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
如何使用 gzip 压缩 .net 对象实例

我想在将数据库查询结果添加到缓存之前对其进行压缩我希望能够压缩任何引用类型我有一个用于压缩字符串的工作版本这个想法基于 scott hanselman 的博客文章http shrinkster com 173t http shrink
在 Google Cloud Dataproc 环境中使用 Hadoop 流式处理运行 python map reduce 作业时出错

我想使用 hadoop 流方法在 Google Cloud Dataproc 中运行 python map reduce 作业我的map reduce python脚本输入文件和作业结果输出位于Google Cloud Storage中
对于任何真实数据集，数据压缩比的最小可能值是多少

我在写信ZLIB类似于嵌入式硬件压缩器的 API 它使用 deflate 算法来压缩给定的输入流在进一步讨论之前我想解释一下数据压缩率数据压缩率定义为未压缩大小与压缩大小之间的比率压缩比通常大于一这意味着压缩数据通常比未压缩数据小
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
Mongodb 聚合数组中的子文档

我正在使用 mongodb 作为后端实现一个小型应用程序在此应用程序中我有一个数据结构其中文档将包含一个包含子文档数组的字段我使用以下用例作为基础 http docs mongodb org manual use cases inv
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113

随机推荐

根据向量提供的变量名称和权重创建平均变量

假设我想在给定的数据框中基于两个向量创建一个均值变量一个指定要使用的变量的名称另一个指定这些变量应进入均值变量的权重 vars lt c a b c d weights lt c 0 5 0 7 0 8 0 2 df lt data f
理解 RXJS 可观察输出的问题

我对 rxjs 相当陌生正在尝试学习我正在读这篇媒体文章 https medium com javascript in plain english reactive programming in javascript 8373201a6
如何在 C# 中重写 WinForm UserControl 中的方法和事件？

我在 C WinForms 中有一个名为的自定义控件BaseControl我在那里有一个叫做Selected 我想要举办一个活动SelectedChanged和虚方法OnSelecteChanged在基本控件中它们的行为方式应该与我们在C
O、Ω 和 θ 之间有什么区别？

我正在学习算法分析我无法理解 O 和之间的区别它们的定义方式如下 f n O g n means c g n 是一个上界f n 因此存在一些常数c这样f n 是总是 c g n 对于足够大的n IE n n0对于一些常数n0 f
反序列化混合类型的 JSON 数组

我在使用 DataContractJsonSerializer 类反序列化混合类型的 JSON 数组时遇到问题我花了很多时间寻找解决方案但无济于事所以我想我应该继续在这里询问基本上我得到了如下所示的 JSON 字符串我想让数组反序
如何从 boost::multi precision::cpp_int 转换为 cpp_dec_float<0> （而不是 cpp_dec_float_50 等）？

正如在Boost 多精度库 http www boost org doc libs 1 55 0 libs multiprecision doc html boost multiprecision tut conversions html文
如何获取与复选框关联的标签的值（我是否破坏了 jsfiddle）？

我需要构建用户选择的部门编号的 csv 我从这个 HTML 开始
如何将 DART 应用程序作为 Windows 服务运行？

我一直在研究在下一个项目中使用 DART 语言的可能性此时唯一真正阻碍我的是我无法找到将 DART 应用程序作为 Windows 服务运行的方法我在 Google 上进行了搜索并阅读了 DART 网站上的大部分文档我找到的大部分信息
剪切 XML 形状的一部分

我有一个 XML 格式的矩形视图
如何在 gitconfig 别名中注释 bash 脚本

我的 gitconfig 别名中有以下脚本 alias vx f I want to put a comment here foo foo bar bar separator Comment Here As well result foo
Java 中的 Diffie-Hellman 密钥交换

我正在使用 Java 开发一个个人项目其中涉及通过不安全的通道发送敏感数据我需要知道如何使用其库在 java 中实现 Diffie Hellman Key Exchange DHKE 我知道有关它的所有密码理论因此无需详细介绍我只需
在 R markdown 中循环

我有一个像这样的 R markdown 文档 The following graph shows a histogram of variable x r hist x 我想引入一个循环这样我就可以对多个变量做同样的事情假设是这样的 fo
使用 WorldPay 验证付款金额

我们使用 WorldPay 处理分级会员系统的付款该系统的付款金额根据所选的会员级别而变化付款通过表单发布从多个隐藏字段传递到 WorldPay 其中包括
部署和托管 .net core 2.0 和 Angular 6 应用程序

Intro 目前我有两个独立的项目一种解决方案是针对 NET core Web API 2 0 另一个项目是 Angular 6 应用程序我在将其部署到我的托管提供商 asphostsportal 时遇到问题它由一个根文件夹 htt
错误：找不到导航器的任何屏幕。您是否将任何屏幕定义为其子屏幕？

我正在尝试制作动态 tab screen 我的代码是这样的 import React from react import Text View TouchableOpacity Modal from react native import A
如何检查传入 HTTP 标头请求的内容

我正在研究一些 API 并试图解决这个问题我正在通过 API 向我的服务器发出基本的 HTTP 身份验证请求作为此请求的一部分经过身份验证的密钥作为用户名存储在 HTTP 标头中所以我的问题是如何获取传入请求的内容以便我可以对其进
如何使用资产管道（回形针）中的图像为 Rails 数据库播种？

我正在尝试为客户重构我的 Rails 应用程序我创建了一个包含相关列的新模型 title description body 我需要添加image到这个模型但我不知道要使用什么数据类型而且我读到将图像放入数据库是一个坏主意目前我正在
为什么 JavaScript 最初没有实现块作用域？

我读过并通过自己的经验发现 JavaScript 没有块作用域假设该语言这样设计是有原因的你能向我解释一下这个原因是什么吗我在 Google 和这里四处查看但我发现的帖子只是重申 JS 有函数作用域而不是块作用域而没有解释原因
模拟数组对象

面向对象的 JavaScript 书中的问题想象一下 Array 不存在并且数组文字表示法也不存在创建一个名为 MyArray 的构造函数其行为尽可能接近 Array 我认为这将是一个很好的挑战来测试我的技能这是我想出的但它不起作
如何以容器格式在 Hadoop 中使用 Snappy

我必须使用 Snappy 来压缩 map o p 和 map reduce o p 此外这应该是可拆分的正如我在网上学习的那样为了让 Snappy 编写可分割的 o p 我们必须以类似容器的格式使用它您能建议如何去做吗我尝试在网上

如何以容器格式在 Hadoop 中使用 Snappy

如何以容器格式在 Hadoop 中使用 Snappy 的相关文章

随机推荐

热门标签