SQOOP增量导入:当从数据库中删除一行时,它如何处理数据?

2024-01-02

假设我有一个包含列( emp_id、emp_name、emp_age 、 emp_update_ts )的员工表,如果表上有更新,则 updat_ts 字段每次都会自动更新为当前时间戳。现在我的问题是:

当我更新/插入表中的行并使用lastmodified运行增量sqoop导入时,它将使我的数据库和hdfs同步,但是“如果从表中删除数据然后我使用lastmodified选项运行sqoop增量怎么办?它还负责从 HDFS 中删除数据以保持它们同步或者有其他方法可以处理删除情况吗?


SQOOP只是一个导入/导出工具。它不会检查任何已删除的数据。 导入/导出过程完成后,您必须通过编写查询手动比较两个数据库。

或者,如果您的数据集很小,那么您可以通过 impala 导入 csv 并检查。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

SQOOP增量导入:当从数据库中删除一行时,它如何处理数据? 的相关文章

随机推荐