Hive 如何存储数据（从 HDFS 加载）？

2023-12-21

我对 Hadoop（HDFS 和 Hbase）和 Hadoop 生态系统（Hive、Pig、Impala 等）相当陌生。我对 Hadoop 组件（例如 NamedNode、DataNode、Job Tracker、Task Tracker）以及它们如何协同工作以高效地存储数据有了很好的了解。

在尝试了解 Hive 等数据访问层的基础知识时，我需要了解表的数据（在 Hive 中创建）到底存储在哪里？我们可以在 Hive 中创建外部表和内部表。由于外部表可以位于 HDFS 或任何其他文件系统中，因此 Hive 不会在仓库中存储此类表的数据。那么内表呢？该表将作为 Hadoop 集群上的数据节点之一上的目录创建。一旦我们从本地或 HDFS 文件系统加载这些表中的数据，是否还会创建更多文件来存储在 Hive 中创建的表中的数据？

举例来说：

名为 test_emp_feedback.csv 的示例文件已从本地文件系统转移到 HDFS。
在 Hive 中创建了一个表（emp_feedback），其结构类似于 csv 文件结构。这会导致在 Hadoop 集群中创建一个目录，例如 /users/big_data/hive/emp_feedback
现在，一旦我创建表并从 test_emp_feedback.csv 加载 emp_feedback 表中的数据

Hive 是否会在 emp_feedback 目录中创建文件的副本？会不会造成数据冗余？

创建托管表会在Hive仓库目录下创建一个与表名同名的目录（通常在/用户/配置单元/仓库/数据库名/表名）。表结构（Hive 元数据）也是在元存储（RDBMS/HCat）中创建的。

在将数据加载到表上之前，该目录（与hive仓库下的表名同名）是空的。

可能有两种可能的情况。

如果表是外部的，则数据根本不会复制到仓库目录。
如果表是托管的（不是外部的），当您将数据加载到表中时，它会被移动（未复制）从当前HDFS位置到Hive仓库目录9/user/hive/warehouse//）。所以这不会复制数据。

注意：除非数据仅由 hive 使用，否则始终建议创建外部表。删除托管表会从 HDFS（HIVE 仓库）中删除数据。

HadoopGig https://hadoopgig.blogspot.ie/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 如何存储数据（从 HDFS 加载）？的相关文章

与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
无法在 Presto 中读取数据 - 在 Hive 中可以读取数据

我有一个 Hive DB 我创建了一个与 Parquet 文件类型兼容的表 CREATE EXTERNAL TABLE default table date date udid string message token string PAR
HBase：返回不存在字段的记录

我在 HBase 中有一个人员表如下所示 ROW KEY COLUMN CELL dinesh column details code value dr 01 dinesh column status is error value fal
以不同用户身份运行 MapReduce 作业

我有一个与 Hadoop 交互的 Web 应用程序 Cloudera cdh3u6 特定的用户操作应在集群中启动新的 MapReduce 作业该集群不是一个安全集群但它使用简单的组身份验证因此如果我以自己的身份通过 ssh 连接到它
CSS3变换：翻译最大值？

我创建了一个实验无限滚动 Pi 的前十亿位 https daniellamb com experiments infinite pi 寻找创建一个具有大量数据集的高性能滚动解决方案我开始测试iScroll http iscrolljs
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
使用 HttpClient 的 .NET Core SPNEGO 身份验证

我目前正在编写一个简单的基于 NET Core 的客户端用于通过 WebHCat 与 Hadoop 集群进行交互并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证就像在curl 或 Powershell Core 等中一样使用
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO
HIVE - 使用WITH CLAUSE插入覆盖

我有一个生成的查询以WITH子句开头当我在控制台中运行它时当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时该查询工作正常 INSERT OVERWRITE TABLE proc db master

随机推荐

如何在 CoffeeScript 粗箭头回调中引用实际的“this”？

标题说明了一切当我在 CoffeeScript 中使用粗箭头时它会存储this首先在调用该函数之前例如 class myClass constructor gt element id element click gt myMethod
React 中的 HTML5 音频标签

我想在我的 React 应用程序中使用一个简单的 HTML5 音频标签我的组件如下所示 import React from react class AudioPlayer extends React Component render re
清理magento缓存时开始和结束标记不匹配：/Varien/Simplexml/Config.php

Entity line 60 parser error Opening and ending tag mismatch config line 28 and confg in home theprint public html lib Va
Eclipse Luna Dark 主题，语法着色重置。如何禁用？

原问题 Eclipse luna 主题问题 https stackoverflow com questions 24628143 eclipse luna theme issue 相关问题如何使 Eclipse 颜色设置永久生效 http
从 Maven 运行 Ant 任务

我使用 Ant 构建自定义 jar 库然后在 Maven 中将其用作依赖项
作为 Upstart 服务启动时无法读取 UTF-8 文件名

我的 Java 程序递归地读取目录的内容这是一个示例树注意非 ASCII 字符 sviluppo sviluppo cia sviluppo cia subdir sviluppo pippo sviluppo pippo prova2
iPhone：如何测试 UIApplicationExitsOnSuspend 是否正常工作？

我将 UIApplicationExitsOnSuspend 设置为布尔值并选中了复选框所以我假设 void applicationDidEnterBackground UIApplication application 不被调用但当我
数字格式中的井号？

NumberFormat nf NumberFormat getCurrencyInstance Locale UK BigDecimal b new BigDecimal 10 System out println String form
Pandas One hot 编码：将不太常见的类别捆绑在一起

我正在对一个分类列进行一次热编码该列有大约 18 种不同类型的值我想仅为那些出现超过某个阈值假设为 1 的值创建新列并创建另一个名为other values如果值不是那些频繁值则值为 1 我正在将 Pandas 与 Scikit
在后台运行 Ruby 脚本

我有一个 Ruby 脚本需要在我的 Linux 机器上一直运行我试过nohup ruby ruby rb 但似乎不起作用如何让脚本在后台运行看一下screen这是一个命令行实用程序开始它 screen 您将得到一个分离的新外壳在
如何使用 GSON 解析嵌套 JSON

我目前正在使用 volley 发出 get 请求在 onResponse 中我尝试使用 gson 将 jsonObject 解析到我的模型请求后返回的JSON success 1 message Done data company c
是否可以将函数存储在字典中？

我的 C 应用程序中有一条消息它是一个序列化为 JSON 的对象当我反序列化它时我有一个名称 string和一个有效负载 string 我希望能够获取 Name 并在函数字典中查找它使用 Payload 数组作为其参数然后将输
如果 pandas dataframe.loc 位置不存在，则返回默认值

我发现自己经常必须在尝试引用数据帧之前检查数据框中是否存在列或行例如我最终添加了很多代码例如 if mycol in df columns and myindex in df index x df loc myindex mycol
实体框架中可以有没有主键的表吗？

我只是在练习代码优先新数据库实体框架msdn http msdn microsoft com en us data jj193542 我想知道是否可以在代码中先创建一个没有主键的表新数据库EF EF 可以用数据库做的事情和数据库可以做的事情
为什么 MVC3 没有搭建我的外键列

我尝试首先使用代码将 MVC 3 与 EF 4 1 结合使用并遵循 Scott Guthries 教程http weblogs asp net scottgu archive 2011 05 05 ef code first and da
将带有换行符和制表符的 python 字符串转换为字典

我对我遇到的这个特殊问题有点困惑我有一个可行的解决方案但我认为它不太Pythonic 我有一个像这样的原始文本输出 Key 1 Value 1 Key 2 Value 2 Key 3 Value 3a Value 3b Value 3c
PHP 以数组形式读取特定的 csv 文件列

我是 PHP 新手希望能够读取有两列的 csv 文件一列是数字有点像 ID 另一列保存整数值我查找了 fgetcsv 函数但无法找到从 csv 文件读取特定列的方法我想仅从第二列获取所有值没有标题有办法做到这一点吗这是我到
Android：单击网页视图中页面中的链接

我在android web视图中包含了一个web应用程序并且网页中有一个链接可以打开其他网站当单击该链接时第一次单击可以正常工作但是当第二次单击时找不到该网站代码是 Override public boolean shouldO
Wix React-native-navigation 更改 Tab 和推屏

如何同时切换选项卡和推送屏幕当按钮被按下时我想切换到另一个选项卡并推送一个新屏幕是否可以 class Example extends Component buttonHandler gt this props navigator sw
Hive 如何存储数据（从 HDFS 加载）？

我对 Hadoop HDFS 和 Hbase 和 Hadoop 生态系统 Hive Pig Impala 等相当陌生我对 Hadoop 组件例如 NamedNode DataNode Job Tracker Task Tracker

Hive 如何存储数据（从 HDFS 加载）？

Hive 如何存储数据（从 HDFS 加载）？ 的相关文章

随机推荐

热门标签

Hive 如何存储数据（从 HDFS 加载）？的相关文章