Hive gzip 文件解压

2024-02-09

我已经将一堆 .gz 文件加载到 HDFS 中，当我在它们之上创建一个原始表时，我在计算行数时看到了奇怪的行为。比较 gz 表和未压缩表的 count(*) 结果，结果有约 85% 的差异。文件 gz 压缩后的表记录较少。有人见过这个吗？

CREATE EXTERNAL TABLE IF NOT EXISTS test_gz(
  col1 string, col2 string, col3 string)
ROW FORMAT DELIMITED
   LINES TERMINATED BY '\n'
LOCATION '/data/raw/test_gz'
;

select count(*) from test_gz;    result 1,123,456
select count(*) from test;  result 7,720,109

我能够解决这个问题。不知何故，gzip 文件在 map/reduce 作业（hive 或自定义 java map/reduce）中没有完全解压缩。 Mapreduce 作业只会读取大约 450 MB 的 gzip 文件并将数据写入 HDFS，而不会完全读取 3.5GZ 文件。奇怪了，一点错误都没有！

由于文件是在另一台服务器上压缩的，因此我手动解压它们并在hadoop客户端服务器上重新压缩它们。之后，我将新压缩的3.5GZ文件上传到HDFS，然后hive能够完整统计读取整个文件的所有记录。

Marcin

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive gzip 文件解压的相关文章

适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
.NET 的 HttpWebResponse 是否会自动解压缩 GZiped 和 Deflated 响应？

我正在尝试执行一个接受压缩响应的请求 var request HttpWebRequest HttpWebRequest Create requestUri request Headers Add HttpRequestHeader Acc
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
多部分 gzip 文件随机访问（Java 中）

这可能属于不太可行或不值得付出努力的范畴但事实就是如此我正在尝试随机访问存储在多部分 gzip 文件中的记录具体来说我感兴趣的文件被压缩Heretrix http crawler archive org 弧形文件如果您不熟
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
hive regexp_extract 怪异

我在 regexp extract 方面遇到一些问题我正在查询制表符分隔的文件我正在检查的列具有如下所示的字符串 abc def ghi 现在如果我这样做 select distinct regexp extract name 0 f
如何在 JAVA servlet 中处理压缩 (gzip) HTTP 请求（不是响应） - 简单示例？

我为这个问题苦苦挣扎了很长一段时间在找到一个简单的解决方案后想问一个问题和答案这个问题在堆栈溢出时以不同的方式被多次提出并且accepted solutions是partially correct and complex或谈论res
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
如何解压 PHP/Lumen/Laravel 的 gzip 请求？

我收到来自第三方的 gzip 编码文本请求 1mb 所以这是有道理的我的测试路线 router gt post testgzip function Illuminate Http Request request decompressed
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO

随机推荐

如何保持 /*！与 UglifyJS2 的评论？

默认行为寻找 license or preserve 但很多插件和库仍在使用用于许可评论块我该如何使用UglifyJS2 https github com mishoo UglifyJS2 usage保留以以下内容开头的评论 See h
从另一个 Python 脚本运行 Python 脚本时处理异常

我正在从另一个 python 脚本运行一个 python 脚本我想知道如何从父 python 脚本中捕获异常我的父 python 脚本调用另一个 python 脚本 n 次最终被调用的脚本将退出并出现 ValueError 异常我
ie7 内联块的替代方案

对于我的网站我使用内联块属性它适用于 mozilla 和 ie8 但在 ie7 中显示为块元素我怎样才能把它设置正确看看这个 http foohack com 2007 11 cross browser support for in
无法初始化 Log4j - SLF4JLoggerContextFactory

我有一个使用 log4j2 运行的 jetty web 应用程序它没有记录任何内容并且启动时出现以下错误错误 StatusLogger LogManager 返回了 org apache logging slf4j SLF4JLogg
numpy 从索引列表创建 2D 掩码 [+ 然后从掩码数组中绘制]

我有一个二维值数组需要先屏蔽该数组的某些元素索引取自约 100k 元组对的列表然后再从剩余元素中抽取随机样本而不进行替换我需要既快速高效希望避免 for 循环又具有较小内存占用的东西因为实际上主数组约为 20000 x 20
更改文本区域字段中的字体和字体大小

使用以下代码示例
String.Replace 不替换撇号

我试图用字符串替换撇号由于某种原因该方法只是在字符串中找不到撇号这是似乎不起作用的 URL news 2012 march cameron s crackdown on whiplash why the minimum speed r
Criteriabuilder之类的，如何长时间做到这一点？

我尝试使用 Criteriabuilder 中的 like 方法来获取基于模式 10 的所有记录我想要获取 ID 为 101 10002 1003 1000 等的记录我用过这个代码 Predicate p cb like r
求解受限于给出非负解的时滞微分方程 (DDE) 系统

在 MATLAB 中 ode45 http www mathworks com help techdoc ref ode45 html有一个参数叫做NonNegative http www mathworks com help techdo
Grep 在日期范围内创建的所有文件中

我使用的是 Ubuntu 操作系统我想在 2012 年 5 月 28 日到 2012 年 5 月 30 日范围内创建的所有日志文件中 grep 一个单词例如 XYZ 我怎么做这与 Banthar 的解决方案略有不同但它适用于find
如何处理 Go 包中嵌套的“vendor”目录？

我正在编写一个应用程序并导入一些包B 这个包有vendor目录其中又包含包C 我也想用那个包C直接在我的应用程序中所以我决定使用glide包管理器它同时下载B and C into myapp vendor目录但保留myapp ve
更改 datetimeoffset 的时区

我有一个DateTimeOffset值为 11 11 1989 的变量16 00 00 03 30 我可以打电话ToLocalTime 方法它显示 11 11 198918 00 00 05 30 我在印度 p 我正在寻找这样的东西 va
嵌套通用接口

我有一个如下所示的接口架构 C NET4 interface A interface B List a a interface C List b b 我是这样实现的 public interface A public interface B
从派生 * 到基 * 的转换存在，但无法访问

尽管 c 是一个结构体并且默认具有公共继承为什么下面的代码会产生此错误 struct c protected int i public c int ii 0 i ii virtual c fun c c fun cout lt lt in
语法错误：意外的标记，应为“”

添加这个问题是因为我在网上不容易找到答案我正在尝试使用react testing library测试组件是否正确呈现然而我收到了许多错误这些错误似乎没有多大帮助这是我的测试文件 report test ts 以及代码中的组件 im
Android Phonegap 应用程序中未获取 cookie

Android 4 4 2 Cordova 3 4 1 jQuery 2 1 0 jQuery Mobile 1 4 2 我需要将登录凭据发布到服务器本例中为 IBM Domino 9 01 但它无关紧要并且服务器会使用会话 cooki
以编程方式禁用特定 PHP 函数进行测试

我有一个使用 cURL 发出 HTTP 请求的函数该请求返回到file get contents 如果 cURL 在系统上不可用我想为此函数编写单元测试利用 PHPUnit 其中 cURL 可用于某些测试但不可用于其他测试是否可以
如何将客户端的 Python 套接字连接到 Node.js/socket.io？

我想通过套接字将 Blender v2 55 连接到网页对于 Web 部分我可以使用 Node js 和 socket io 我已经使用了一点node js socket io 我认为这不是问题现在对于 Blender 它在 Pyt
什么 JQuery 选择器排除父级与给定选择器匹配的项目？

I have var set foo bar filter function return this parents baz length lt 1 作为选择其类的所有元素的一种方式foo or bar并且谁不是其类的元素的后代baz 是否
Hive gzip 文件解压

我已经将一堆 gz 文件加载到 HDFS 中当我在它们之上创建一个原始表时我在计算行数时看到了奇怪的行为比较 gz 表和未压缩表的 count 结果结果有约 85 的差异文件 gz 压缩后的表记录较少有人见过这个吗 CREATE

Hive gzip 文件解压

Hive gzip 文件解压 的相关文章

随机推荐

热门标签

Hive gzip 文件解压的相关文章