Hive“添加分区”并发

2024-05-14

我们有一个外部 Hive 表，用于处理原始日志文件数据。这些文件每小时一次，并按日期和源主机名分区。

目前，我们正在使用简单的 python 脚本导入文件，这些脚本每小时触发几次。该脚本根据需要在 HDFS 上创建子文件夹，从临时本地存储复制新文件并将任何新分区添加到 Hive。

今天，使用“ALTER TABLE ... ADD PARTITION ...”创建新分区。但是，如果另一个 Hive 查询正在表上运行，它将被锁定，这意味着添加分区命令将失败（如果查询运行足够长的时间），因为它需要独占锁。

此方法的替代方法是使用“MSCK REPAIR TABLE”，由于某种原因，它不会not似乎获取了表上的任何锁。然而，我的印象是，不建议在生产环境中使用修复表。

在并发环境中以编程方式添加 Hive 分区的最佳实践是什么？
使用 MSCK REPAIR TABLE 有哪些风险或缺点？
对于两个分区添加命令看似不一致的锁定行为是否有解释？ IE。它们对运行查询有不同的影响吗？

这不是一个好的答案，但我们有同样的问题，以下是我们的发现：

在 Hive 文档中，https://cwiki.apache.org/confluence/display/Hive/Locking https://cwiki.apache.org/confluence/display/Hive/Locking，锁似乎非常明智：“ADD 分区”将请求对创建的分区的独占锁，以及对整个表的共享锁。SELECT 查询将请求对表的共享锁。所以它should be fine
然而，至少在 CDH 5.3 中，它不是这样工作的。根据这个线程，https://groups.google.com/a/cloudera.org/forum/#!topic/cdh-user/u7aM9W3pegM https://groups.google.com/a/cloudera.org/forum/#!topic/cdh-user/u7aM9W3pegM这是一个已知的行为，可能是新的（我不确定，但我也认为，作为该线程的作者，CDH 4.7 上不存在该问题）

所以基本上，我们仍在考虑我们的分区策略，但我们可能会尝试提前创建所有可能的分区（在获取数据之前），因为我们确切地知道所有未来分区的值（可能不是您的情况））。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

hive

Hive“添加分区”并发的相关文章

Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制
伪分布式模式下的 Hadoop。连接被拒绝

P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时我得到以下输出 starting namenode logging to home raveesh Hado
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
名称节点处于安全模式

我提到了这些问题名称节点处于安全模式无法离开 https stackoverflow com questions 15803266 name node is in safe mode not able to leave and SafeM
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
如何将 Pandas 数据框保存到配置单元表？

我有 pandas 数据框我正在尝试找到将数据框数据保存到配置单元表的最佳方法一种方法是保存到 csv 文件并将其加载到 hive 表有一个更好的方法吗 None
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader

我正在编写一个 M R 作业该作业处理以二进制格式编写的大型时间序列数据文件如下所示此处换行以提高可读性显然实际数据是连续的 TIMESTAMP 1 TIMESTAMP 1 TIMESTAMP 2 TIMESTAMP 2 TIME
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除

随机推荐

非加密用途的最快哈希值？

我本质上是在准备要放入数据库的短语它们可能格式错误所以我想存储它们的简短散列我将简单地比较它们是否存在所以散列是理想的我假设 MD5 在处理 100 000 个请求时相当慢所以我想知道散列短语的最佳方法是什么也许推出我自己的散
创建 OpenCV 的 mouseCallback 函数的基于类的实现时遇到问题

正如标题所示我在基于类的 C 结构中实现 OpenCV 的 mouseCallback 函数时遇到了一些麻烦请允许我解释一下我定义了一个名为 BriskMatching 的类在其中创建了一个名为 mouseCallback 的成员函
android edittext 带有下拉列表

我有一个编辑文本它从用户那里获取值我想添加一个选项允许用户在单击 edittext 时通过下拉列表从不同的选项中进行选择有谁知道如何做到这一点这是编辑文本代码
有没有一种软件可以在所有浏览器中测试网站？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想要一个可以安装大多数已知浏览器包括 ie 6 的软件让我像在浏览器上一样测试我的网站以修复我的 CSS 并使其跨浏览器我知
Java 8 Lambda 表达式编译成什么？ [复制]

这个问题在这里已经有答案了考虑以下 Java 8 片段 public static void main String args List
HTML 链接在移动设备上不可点击，但在桌面设备上可点击

我在使用移动网站顶部的两个按钮时遇到问题 www thefrienddentist ie 它们在桌面上可点击但在移动设备上我没有得到任何响应 html 放置在 WP 主题的标题中 div style background color wh
使用 Android NDK 将文件写入 SD 卡以外的位置？

除了SD卡之外还有其他方法可以将文件写入其他位置吗我在文件系统上尝试了许多不同的路径但 fopen 总是返回 NULL 除了我在 sdcard 内写入读取的任何文件还有其他相当于
Firefox 中的 jQuery 日期选择器日历问题 [重复]

这个问题在这里已经有答案了在 2016 年的某些月份我在 Firefox 移动和网络中的 jQuery UI 日期选择器中显示了错误的日期例如 2016 年 3 月 31 日是星期四 2016 年 4 月 1 日当然是星期五但在我
使用 Web API AuthorizeAttribute 角色的 Azure AD OAuth 客户端凭据授予流程

Given 我们有 NET Web API 服务它使用以下方式保护对控制器和操作的访问授权属性 https learn microsoft com en us dotnet api system web mvc authorizeattr
从 varchar(100) 类型获取时间（HH:MM AM/PM）格式

如何将字符串 RD OT 07 30 转换为时间我只知道如何将 07 30 AM 转换为时间下面的代码给了我一个空白数据 id strtoupper POST id query mysql query SELECT STR TO DAT
Java：为什么它使用固定数量的内存？或者它如何管理内存？

JVM 似乎使用了一些固定数量的内存至少我经常看到参数 Xmx 对于最大尺寸和 Xms 对于初始大小这表明我感觉 Java 应用程序不能很好地处理内存我注意到一些事情即使一些非常小的示例演示应用程序也会加载大量内存也许这是因为
什么是 char i=0x80 以及为什么位移位中没有发生溢出

这是一个程序 include
在 iOS 8 中创建通话/双高状态栏？

是否有调用自定义通话双高状态栏的标准方法如果没有那么构建我自己的功能的最佳起点是哪里我知道关于如何做到这一点存在一些多年的问题但没有任何令人满意的答案有什么新方法可以做到这一点吗可能在 iOS 8 中这里没有什么新鲜事但我
TypeError [ClientMissingIntents]：必须为客户端提供有效意图

我在 replit 上的 Discord js 中创建机器人时代码中出现以下错误 TypeError ClientMissingIntents 必须为客户端提供有效的意图在 Client validateOptions home run
Edi 文件头未使用 BizTalk 转换为 XML

我创建了将 EDI 转换为 XML 的 BizTalk 项目它将所有事务段转换为 XML 但标头段 n 例如 ISA 不会转换为 XML 格式 Here is configuration in BizTalk for EDI file 我
在 lambda 中延迟初始化和缓存内部值的简洁方法

首先用简单的方法让代码自己说话 int heavy calc needed to be called once sleep 7500000 years return 42 int main auto foo And cached for l
AsyncTask 和 Handlers 之间有什么区别？在 Listview 中使用哪一个更好？

我正在使用嵌入在另一个列表中的多个列表这显然会减慢应用程序的速度因此我想到使用多线程将单独的列表视为线程然后将其中加载的数据作为单独的线程以使其更快这是更好的方法吗我可以根据它举一些例子吗甚至链接 Handler 与应用程序
如何设置Python的USER_SITE；我需要吗？

我在 OS X 10 10 只需使用 pip 维护上安装了 Python 我的站点包位于 Library Python 2 7 site packages 苹果的封装在 System Library Frameworks Python f
玩笑错误 TypeError: (0 , _jest.test) 不是函数

我收到错误类型错误 0 jest test 不是一个函数当尝试使用时npm test 我认为这可能与配置有关我该如何解决这个问题 File sum js function sum a b return a b export defau
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制

Hive“添加分区”并发

Hive“添加分区”并发 的相关文章

随机推荐

热门标签

Hive“添加分区”并发的相关文章