如何使用 oozie 安排 sqoop 操作

2023-12-08

我是 Oozie 的新手,只是想知道 - 如何使用 Oozie 安排 sqoop 作业。我知道 sqoop 操作可以添加为 Oozie 工作流程的一部分。但是我如何安排 sqoop 操作并让它每隔 2 分钟或每天晚上 8 点自动运行一次(只是一个 cron 作业)?


您需要创建包含开始、结束和频率的 coordinator.xml 文件。这是一个例子

<coordinator-app name="example-coord" xmlns="uri:oozie:coordinator:0.2"

             frequency="${coord:days(7)}"
             start="${start}"
             end=  "${end}"

             timezone="America/New_York">

  <controls>
    <timeout>5</timeout>
  </controls>

  <action>
    <workflow>
        <app-path>${wf_application_path}</app-path>
    </workflow>
  </action>
</coordinator-app>

然后创建 coordinator.properties 文件,如下所示:

host=namenode01
nameNode=hdfs://${host}:8020

wf_application_path=${nameNode}/oozie/deployments/example
oozie.coord.application.path=${wf_application_path}

start=2013-07-13T07:00Z
end=2013-09-31T23:59Z

将您的 coordinator.xml 文件上传到 hdfs,然后使用类似的内容提交您的协调器作业

oozie job -config coordinator.properties -run

检查文档http://oozie.apache.org/docs/3.3.2/CoordinatorFunctionalSpec.html它包含一些示例。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 oozie 安排 sqoop 操作 的相关文章

  • Hadoop 作业失败,资源管理器无法识别 AttemptED

    我正在尝试在 Oozie 工作流程中聚合一些数据 但是聚合步骤失败 我在日志中发现了两个有趣的点 第一个是一个似乎重复出现的错误 容器完成后 它会被终止 但会以非零退出代码 143 退出 它完成了 2015 05 04 15 35 12 0
  • 构建oozie:未知主机repository.codehaus.org

    我正在尝试构建从此处下载的 Oozie 4 2 0 http ftp cixug es apache oozie 4 2 0 oozie 4 2 0 tar gz 启动构建后 bin mkdistro sh DskipTests 我收到此错
  • Distcp - 容器运行超出物理内存限制

    我已经在 distcp 上苦苦挣扎了好几天 我发誓我已经用谷歌搜索得够多了 这是我的用例 USE CASE 我在某个位置有一个主文件夹 hdfs 根目录 有很多子目录 深度不固定 和文件 容量 200 000 个文件 30 GO 我只需要为
  • org.apache.hadoop.mapreduce.counters.LimitExceededException:计数器太多:121 max=120

    我正在运行一个 hadoop 作业 来自 oozie 它有很少的计数器和多输出 我收到如下错误 org apache hadoop mapreduce counters LimitExceededException 计数器太多 121 ma
  • E0701 OOZIE 工作流程中的 XML 架构错误

    以下是我的workflow xml
  • 错误:E0708:E0708:无效转换

    使用这个tutorial https blogs oracle com datawarehousing entry building simple workflows in oozie我为配置单元脚本创建了工作流程 但当我运行以下命令时出现
  • 如何强制协调员行动以特定频率实现?

    我想知道是否有可能 如何强制协调员定期具体化或实例化工作流程 即使先前实例化的工作流程尚未完成 让我解释 我有一个简单的协调员 如下所示
  • oozie 中 Hive 操作的作业队列

    我有一个 oozie 工作流程 我正在提交所有配置单元操作
  • Oozie Hive 动作挂起,心跳永远

    我试图通过我在 Hue 中创建的 Oozie 工作流程运行 Hive 操作 但该操作永远 心跳 并且不会执行 Hive SQL 我读过其他关于心跳永远的文章 但这篇文章似乎发生在不同的时刻 即在解析 SQL 语句之后 我检查了集群中每个节点
  • oozie java api提交作业,kerberos身份验证错误

    我有 hadoop 2 7 集群 oozie 4 0 1 以安全模式运行 使用 kerberos 一切都很好 我可以使用 cli 命令提交作业 如下所示 基尼特我的用户 oozie工作 ooziehttps 10 1 130 10 2100
  • Oozie 不断将旧版本的 httpcore jar 添加到类路径中

    我不断收到异常 因为 Oozie 将错误版本的 httpcore jar 添加到类路径中 我尝试了不同的选项 例如 oozie launcher mapreduce task classpath user precedence oozie
  • 是否可以只用一名协调员启动一些 oozie 工作流程?

    我不确定是否可以使用这个好工具来实现我想要的目的 我有很多工作流程 这些工作流程可以是依赖的 也可以是非依赖的 示例 workflow1 工作流程 xml job properties workflow2 工作流程 xml job prop
  • 如何在oozie作业中指定多个libpath?

    我的 oozie 工作使用 2 个 jarx jar and y jar以下是我的 job properties 文件 oozie libpath lib oozie use system libpath true 当两个 jar 都位于
  • Sqoop 自由格式查询导致 Hue/Oozie 中的参数无法识别

    我正在尝试使用自由格式查询运行 sqoop 命令 因为我需要执行聚合 它作为 Oozie 工作流程通过 Hue 界面提交 以下是命令和查询的缩小版本 处理命令时 query 语句 用引号引起来 会导致查询的每个部分被解释为无法识别的参数 如
  • oozie Sqoop 操作无法将数据导入到 hive

    我在执行 oozie sqoop 操作时遇到问题 在日志中我可以看到 sqoop 能够将数据导入到临时目录 然后 sqoop 创建 hive 脚本来导入数据 将临时数据导入配置单元时失败 在日志中我没有收到任何异常 下面是我正在使用的 sq
  • Oozie SSH 操作

    Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令 我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了 这里真正的问题可能是什么 请指出解决方案 logs AUTH FAILE
  • 处理 oozie 工作流程中的循环

    我有一个 oozie 用例 用于检查输入数据可用性并根据数据可用性触发 MapReduce 作业 所以我编写了一个 shell 脚本来检查输入数据 并在 oozie 中为其创建了一个 ssh 操作 输入数据检查的重试次数和重试间隔应该是可配
  • 有没有办法在 Oozie 中全局使用 config-default.xml ?

    来自文档 https oozie apache org docs 4 1 0 WorkflowFunctionalSpec html a4 Parameterization of Workflows config default xml必须
  • sqoop 通过 oozie 导出失败

    我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常 但是当我通过调用oozie 它出现以下错误并失败 我还包括了罐子 没有描述性日志 sqoop脚本 export c
  • 如何捕获 Oozie Spark 输出

    有没有办法捕获spark的输出然后将其输入到shell上 我们当前正在使用 scala 创建 jar 文件 并希望我们的 Spark 输出成为 shell 输入 我的想法是使用 wf actionData spark XXXX var 我只

随机推荐