Hive 中的增量/增量负载

2023-11-21

我有以下用例：

我的应用程序有一个表多年数据 in RDBMSD B。我们已经用过sqoop将数据获取到 HDFS 并加载到按以下分区的 hive 表中年、月.

现在，应用程序每天都会更新并将新记录插入 RDBMS 表中。这些更新的记录可以跨越历史月份。更新的记录和新的插入记录可以通过更新的时间戳字段来确定（它将具有当天时间戳）。

现在的问题是：如何使用这些更新的记录每天进行增量/增量加载配置单元表。

-> 我知道有一个 sqoop 功能允许增量导入。但是，仅仅新增增量进口对我们来说还不够。

因为 -

-> 我不能直接在hive表中插入这些记录（使用insert into），因为这会导致重复记录（更新记录）。

-> 同样，我不能使用插入覆盖语句，因为这些只是跨多个月的更新和插入记录。插入覆盖将删除较早的记录。

当然，最简单的选择是每天使用 sqoop 获取完整数据，但我们不想这样做，因为数据量很大。

因此，基本上我们只想完全加载那些我们已收到更新/插入记录的分区。

我们愿意探索 hive 或 sqoop 端的选项。您能告诉我们吗？

提前致谢。

对于任何基于 Hive 的系统来说，更新都是一个众所周知的难题。

一种典型的方法是两步过程

将任何已更改的数据插入到一张表中。正如您所说，更新行时这将导致重复。
定期用第一个表中的“删除重复”数据覆盖第二个表。

第二步可能会很痛苦，但确实没有办法解决。在某种程度上，您必须覆盖，因为 Hive 不进行就地更新。不过，根据您的数据，您也许能够足够巧妙地对表进行分区，以避免完全覆盖。例如，如果步骤 1 仅插入到少数分区，则只需将这些分区覆盖到第二个表中。

此外，根据访问模式，将第二个“去重”表作为视图而不具体化也是有意义的。不过，通常这只会延迟查询时间的痛苦。

我见过的唯一另一种方法是使用非常自定义的输入和输出格式。您可以在这里阅读：http://pkghosh.wordpress.com/2012/07/08/making-hive-squawk-like-a-real-database/

Owen O'Malley 也一直致力于将这个想法的一个版本添加到标准 Hive 中，但这仍在开发中：https://issues.apache.org/jira/browse/HIVE-5317

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 中的增量/增量负载的相关文章

警告：/usr/lib/sqoop/../accumulo 不存在！ Accumulo 导入将失败。请将 $ACCUMULO_HOME 设置为 Accumulo 安装的根目录

我的虚拟机详细信息 Cloudera 快速入门虚拟机 5 5 0 VM VM 工作站 12 名玩家 Windows Windows 10 64 位 Java Java 1 8 当我运行 sqoop 命令时我遇到以下错误 Warning u
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
适用于 Python 3.x 的 Hive 客户端

是否可以使用 Python 3 x 连接到 hadoop 并运行 hive 查询我正在使用Python 3 4 1 我发现可以按照这里写的方式完成 https cwiki apache org confluence display Hiv
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
如何对 RDD 进行分区

我有一个文本文件其中包含大量由空格分隔的随机浮动值我正在将此文件加载到 scala 中的 RDD 中这个RDD是如何分区的另外是否有任何方法可以生成自定义分区以便所有分区都具有相同数量的元素以及每个分区的索引 val dRDD
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
hive 中的授予权限在 hdp2.2 上不起作用

我正在 CentOS 6 5 上使用 Ambari 设置来试验 HDP2 2 集群但在运行 Hive GRANT 查询时遇到问题例如一个查询 grant select on Tbl1 to user root 给了我一个看起来像这样的
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集
Apache Impala 中是否有相当于 Hive 的“爆炸”功能的函数？

Hive的函数explode是记录在这里 https cwiki apache org confluence display Hive LanguageManual UDF LanguageManualUDF Built inTable G
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
从机上的 DiskErrorException - Hadoop 多节点

我正在尝试处理来自 hadoop 的 XML 文件在对 XML 文件调用字数统计作业时出现以下错误 13 07 25 12 39 57 INFO mapred JobClient Task Id attempt 201307251234
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu

随机推荐

当选择下拉列表发生onchange（从数据库填充）时，如何自动提交Rails formhelper

我的视图中有一个表单其中有两个下拉菜单两者都从数据库表填充我想在任一下拉菜单上发生 onchange 事件时自动提交表单 div class act div
IE6 + IE7 CSS 溢出问题：隐藏； - 位置：相对；组合

因此我为主页创建了一个滑块使用 jQuery 滑动一些带有标题和预告文本的图像一切正常我去检查 IE 发现 IE 6 和 7 完全杀死了我的滑块 css 我不明白为什么但由于某种原因我无法使用 Overflow hidden 隐
如何知道 SoundPlayer 何时完成播放声音

我使用以下代码在内存中动态创建频率音并异步播放该音 public static void PlayTone UInt16 frequency int msDuration UInt16 volume 16383 using var mStr
购物车，可以使用Devise的会话功能吗？

我正在编写一个电子商务网站我需要实现购物车功能我希望客户能够在不事先注册的情况下将产品添加到购物车所以我想我可以通过会话来实现这一点这可以在 Devise gem 中完成吗还是我必须实现我自己的会话模型才能使其工作您需要处理自己
SQL Server 2005：将 varchar 值“1.23E-4”转换为十进制失败

declare a varchar 40 set a 1 23e 4 declare b decimal 27 12 if isnumeric a 1 begin select b cast a as decimal 27 12 end e
data.frame 中的唯一/排序

我有一个像这样的数据框 x c 01 01 01 22 22 03 03 03 35 35 y c f f f m m m m m f f df data frame spn x sex y 似乎 spn sex 1 01 f 2 01 f
Java 中的两个数组声明有什么区别？ [复制]

这个问题在这里已经有答案了在我的书中他们一直在以下两种方法之间切换声明数组的方式 int array1 1 2 3 int array2 1 2 3 我想知道两个括号的位置有什么区别为什么当我将括号放在名称后面例如在数组 1 中时
Android - 从代码中引用当前应用的主题中的属性值

Android 开发指南explains如何使用问号而不是 at 来引用当前应用的主题中的属性值有谁知道如何从代码中做到这一点例如在定制组件中在 XML 中它看起来像这样 style header background 以编程方式
Django 自定义左外连接

我用这个查询了 Django 模型 news News objects filter Q likes user isnull True Q likes user user extra select is liked NewsLikes me
使用 PHP 将 CSV 转换为 JSON？

我需要转换一个CSV文件到JSON在服务器上使用 PHP 我正在使用这个有效的脚本 function csvToJSON csv rows explode n csv i 0 len count rows json n data forea
有办法防止 cookie 被盗吗？

在 Web 2 0 应用程序中许多用户通常希望保持登录状态记住我标志而另一方面他们的 cookie 可以访问非常私密的数据有没有办法防止有人直接从计算机或通过嗅探窃取 cookie 从而使用 cookie 来访问用户的数据始终
“in”运算符或 obj.hasOwnProperty(prop) 的 Big O 表示法的效率是多少

Mozilla的网站上清楚地描述了hasOwnProperty 和in操作员但是它没有提供有关其效率的任何实施细节我怀疑他们会是O 1 恒定时间但希望看到任何可能存在的参考或测试将我的评论变成答案 hasOwnProperty s
使用自己的应用程序打开自定义文件[重复]

这个问题在这里已经有答案了可能的重复如何将文件扩展名与 C 中的当前可执行文件关联所以我正在申请学校最终项目在这个应用程序中我有一个Project 班级这可以保存为自定义文件例如测试 gpr gpr 是扩展名如何让 Wi
将静态参数传递给类

据我所知你不能将参数传递给 C 中的静态构造函数但是在创建类的实例之前我确实需要传递两个参数并将它们分配给静态字段我该怎么办这可能是对工厂方法的调用 class Foo private int bar private stat
Python场景变化检测

我想知道是否有人有Python和视频处理的经验本质上我想知道是否有任何库可以让我在视频中进行场景检测如果没有是否有任何可以让我将视频分成一系列帧并让我处理像素 Thanks OpenCV有 Python 绑定我不认为它有任何内置的
如果我在 PHP 中执行 print_r ，它会以垃圾形式打印数组

如何以树状格式打印数组使其更易于阅读 Try pre pre 它将提供 HTML 的空白策略修剪掉的正确树结构
Rails 当前页面？当方法为 POST 时“失败”

我有一个非常简单的问题我有一页报告每个报告都有自己的选项卡我在用着current page 以确定应突出显示哪个选项卡当我提交任何报告时 current page 似乎不再起作用显然是因为请求方法是POST 这是预期的行为吗cur
在 OSX Catalina 上安装用于 gem 安装的 Ruby 开发工具

我知道这个问题有很多例子我已经完成了这些答案中的所有内容但 4 小时后却一无所获我正在尝试在 Catalina 10 15 7 上安装 gem 并获得非常流行的 System Library Frameworks Ruby frame
如何在 WPF 中删除鼠标悬停时按钮的发光

我在 WPF 中使用一个简单的按钮我已经在背景上放置了按钮的图像我的问题是当我将鼠标指针移动到按钮时它会获得默认发光并覆盖作为背景给出的图像
Hive 中的增量/增量负载

我有以下用例我的应用程序有一个表多年数据 in RDBMSD B 我们已经用过sqoop将数据获取到 HDFS 并加载到按以下分区的 hive 表中年月现在应用程序每天都会更新并将新记录插入 RDBMS 表中这些更新的记录可以跨越

Hive 中的增量/增量负载

Hive 中的增量/增量负载 的相关文章

随机推荐

热门标签

Hive 中的增量/增量负载的相关文章