Hive INSERT OVERWRITE DIRECTORY 命令输出不由分隔符分隔。为什么？

2024-01-17

我正在加载的文件由“ ”（空格）分隔。下面是文件。该文件驻留在 HDFS 中：-

1> 我正在创建一个外部表并通过发出以下命令加载文件：-

CREATE EXTERNAL TABLE IF NOT EXISTS graph_edges (src_node_id STRING COMMENT 'Node ID of Source node', dest_node_id STRING COMMENT 'Node ID of Destination node') ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '/user/hadoop/input';

2> 之后，我只需通过发出以下命令将表插入到另一个文件中：-

INSERT OVERWRITE DIRECTORY '/user/hadoop/output' SELECT * FROM graph_edges;

3> 现在，当我cat该文件时，字段不由任何分隔符分隔：-

hadoop dfs -cat /user/hadoop/output/000000_0

Output:-

有人可以帮我吗？为什么删除分隔符以及如何分隔输出文件？

在 CREATE TABLE 命令中我尝试过DELIMITED BY '\t'但后来我得到了不必要的 NULL 列。

任何指示都非常有帮助。我使用的是 Hive 0.9.0 版本。

问题是 HIVE 不允许您指定输出分隔符 -https://issues.apache.org/jira/browse/HIVE-634 https://issues.apache.org/jira/browse/HIVE-634

解决方案是创建用于输出的外部表（带有分隔符规范）并插入覆盖表而不是目录。

假设 HDFS 中有 /user/hadoop/input/graph_edges.csv，

hive> create external table graph_edges (src string, dest string) 
    > row format delimited 
    > fields terminated by ' ' 
    > lines terminated by '\n' 
    > stored as textfile location '/user/hadoop/input';

hive> select * from graph_edges;
OK
001 000
001 000
002 001
003 002
004 003
005 004
006 005
007 006
008 007
099 007

hive> create external table graph_out (src string, dest string) 
    > row format delimited 
    > fields terminated by ' ' 
    > lines terminated by '\n' 
    > stored as textfile location '/user/hadoop/output';

hive> insert into table graph_out select * from graph_edges;
hive> select * from graph_out;
OK
001 000
001 000
002 001
003 002
004 003
005 004
006 005
007 006
008 007
099 007

[user@box] hadoop fs -get /user/hadoop/output/000000_0 .

返回如上，带有空格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

Hive INSERT OVERWRITE DIRECTORY 命令输出不由分隔符分隔。为什么？的相关文章

Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
为 Spark Thrift 服务器提供仓库目录的路径

我已经设置了 Spark 集群并且成功通过 Spark SQL 连接器连接 Tableau 我从 Spark shell 创建了表并使用 saveAsTable 如何访问从 Tableau 保存的表启动spark thrift服务器时
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
如何解决 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2？

我正在尝试在 Hadoop 环境中执行 NLTK 以下是我用于执行的命令 bin hadoop jar HADOOP HOME contrib streaming hadoop streaming 1 0 4 jar input user
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in
HIVE - 使用WITH CLAUSE插入覆盖

我有一个生成的查询以WITH子句开头当我在控制台中运行它时当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时该查询工作正常 INSERT OVERWRITE TABLE proc db master
关于 Hadoop 和压缩输入文件的非常基本的问题

我已经开始研究 Hadoop 如果我的理解是正确的我可以处理一个非常大的文件它会被分割到不同的节点上但是如果文件被压缩那么文件就无法分割并且需要由单个节点处理有效地破坏了运行一个mapreduce 一个并行机器集群我的问题是

随机推荐

如何在 Zend Framework 2 中配置学说扩展？

我已将此行添加到我的composer json中 gedmo doctrine extensions dev master 这是在我的模块的 module config php 中 doctrine gt array driver gt a
将从文件读取的值作为输入传递给 Oracle 中的 SQL 查询

cat file txt 12354 13456 13498 bin bash for i in cat file txt do sqlplus XXXXX XXXXX DB NAME lt lt EOF select from TABLE
Cognos 8 查询查找所有报表和列名称

我想查询 Cognos 8 中的元数据以查找所有报告和列名称如果可能的话我想包含列定义我可以使用 Cognos 报告来执行此操作还是需要查询某个存储库 Thanks 您可以使用以下查询从内容存储中选择报告列表 SELECT CMOBJ
如何刷新recyclerview的上一个项目行视图的视图

大家好希望你们一切都好我正在开发一个 Android 应用程序它将播放不同的动物声音我正在使用回收视图如下面的屏幕截图所示现在我面临一个问题我的行中有一个播放按钮每当我从项目 0 或在视图内显示暂停选项的任何位置播放声音时
如何使用 PySide2 连接 Python 和 QML？

我想在 Ubuntu 上编写一个简单的桌面应用程序我认为一个简单的方法是使用 Qt 和 QML 作为 GUI 使用 Python 作为逻辑语言因为我对 Python 有点熟悉现在我花了几个小时尝试以某种方式连接 GUI 和逻辑但它不
如何加快Spacy的nlp调用速度？

我必须处理数十万条文本我发现以下内容中花费时间最长的事情 nlp English ruler EntityRuler nlp patterns ruler add patterns patterns nlp add pipe ruler
物理/逻辑/虚拟内存地址之间的差异

我对操作系统中的术语物理逻辑虚拟地址有点困惑我使用 Linux open SU SE 这是我的理解物理地址当处理器处于系统模式时处理器使用的地址是物理地址逻辑地址当处理器处于用户模式时使用的地址是逻辑地址无论如何通过添
如何重新启动应用程序（React Native 和 Expo）

我使用 expo 所以我无法访问 android 文件夹我想第一次重新启动我的应用程序我怎样才能做到这一点 I use 反应本机重启 https github com avishayil react native restart 但不起
范围规则如何与类一起使用？

考虑以下 python 代码片段 x 1 class Foo x 2 def foo x 3 class Foo print x prints 3 Foo foo 正如预期的那样这会打印 3 但是如果我们在上面的代码片段中添加一行行为
ARM TrustZone 开发

我想知道是否有人有关于可以使用 ARM TrustZone 的开发板的信息我有 BeagleBoard XM 它使用 TI 的 OMAP3530 和支持信任区的 Cortex A8 处理器但是 TI 确认他们已禁用板上的功能因为它是通
由内而外构建管道代理

是否可以创建一个函数以便Proxy from pipes http hackage haskell org package pipes可以从里到外建造吗由内而外我的意思是从连接上游和下游连接的函数创建一个代理最理想但不可能的签名
创建适配器以用对象填充 Spinner [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个 Android 应用程序Spinner并想用我自己的对象动态填充它这些对象确实已经存在List
如何在python中导入sikuli模块？

我在使 sikuli python 单元测试正常工作时遇到问题并且很高兴获得一些帮助我在互联网上进行了广泛的搜索但没有任何有效的方法我的Python知识非常有限我想这没有帮助我用的是win7 32位西库里 1 0 rc3 r9
通过 MailChimp API v2.0 将用户添加到兴趣组

我想通过 MailChimp API 将订阅者添加到兴趣组这是我的 merge vars array merge vars array GROUPINGS gt array 0 gt array id gt 17385 The group
如何覆盖编辑器服务

我正在尝试采用自定义方式来实现转到定义这需要覆盖编辑器服务尤其是openEditor and findModel 方法据我所见我尝试遵循此评论 https github com microsoft monaco editor iss
我不想显示来自 ParsleyJS 的错误消息

我正在使用 ParsleyJS 库来验证我的表单但如果字段无效我只想应用错误类但不想显示错误消息如果我使用该房产data show errors false 那么类或错误都不会显示我用的是这个方法display none在CSS中
如果没有 global.asax，ASP.NET 网页的路由如何工作

安装了 ASP Net 4 0 的 Web 服务器部署了 Web Pages 2 0 DLL bin 用 cshtml razor 编写的页面但路由不起作用当仅使用网页而不是完整的 MVC 我在 global asax 中定义路由时
动态选项对话框（使用反射）

有谁知道一个好的组件 C WinForms 它允许创建一个选项设置表单给定一个带有一堆属性的自定义类我并不是在寻找闪亮的东西而是仅仅比属性网格更好的东西我可以轻松处理视觉部分但我只是不想浪费时间进行反射来添加和绑定控件如果它
用于选择所有输入类型的 SCSS/CSS 选择器

我有一些输入类型有这个 scss 设置来自框架 textarea input type text input type password input type datetime input type date input type mon
Hive INSERT OVERWRITE DIRECTORY 命令输出不由分隔符分隔。为什么？

我正在加载的文件由空格分隔下面是文件该文件驻留在 HDFS 中 001 000 001 000 002 001 003 002 004 003 005 004 006 005 007 006 008 007 099 007 1 gt

Hive INSERT OVERWRITE DIRECTORY 命令输出不由分隔符分隔。为什么？

Hive INSERT OVERWRITE DIRECTORY 命令输出不由分隔符分隔。为什么？ 的相关文章

随机推荐

热门标签

Hive INSERT OVERWRITE DIRECTORY 命令输出不由分隔符分隔。为什么？的相关文章