无法在 MLEngineTrainingOperator 中指定 master_type

2024-01-10

我正在使用气流来安排管道，这将导致使用人工智能平台训练 scikitlearn 模型。我用这个 DAG 来训练它

    with models.DAG(JOB_NAME,
                    schedule_interval=None,
                    default_args=default_args) as dag:

        # Tasks definition
        training_op = MLEngineTrainingOperator(
            task_id='submit_job_for_training',
            project_id=PROJECT,
            job_id=job_id,
            package_uris=[os.path.join(TRAINER_BIN)],
            training_python_module=TRAINER_MODULE,
            runtime_version=RUNTIME_VERSION,
            region='europe-west1',
            training_args=[
                '--base-dir={}'.format(BASE_DIR),
                '--event-date=20200212',
            ],
            python_version='3.5')
        training_op

训练包加载所需的 csv 文件并在其上训练 RandomForestClassifier。

在文件的数量和大小增加之前，这种方法可以正常工作。然后我得到这个错误：

ERROR - The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL). To find out more about why your job exited please check the logs:

文件的总大小约为 4 GB。我不知道使用的默认机器是什么，但这似乎还不够。希望这能解决内存消耗问题我尝试更改参数n_jobs的分类器来自-1 to 1，不再有运气。

查看 MLEngineTrainingOperator 的代码和文档，我添加了一个自定义的scale_tier和一个master_type n1-highmem-8、8个CPU和52GB的RAM，如下所示：

with models.DAG(JOB_NAME,
                schedule_interval=None,
                default_args=default_args) as dag:

    # Tasks definition
    training_op = MLEngineTrainingOperator(
        task_id='submit_job_for_training',
        project_id=PROJECT,
        job_id=job_id,
        package_uris=[os.path.join(TRAINER_BIN)],
        training_python_module=TRAINER_MODULE,
        runtime_version=RUNTIME_VERSION,
        region='europe-west1',
        master_type="n1-highmem-8",
        scale_tier="custom",
        training_args=[
            '--base-dir={}'.format(BASE_DIR),
            '--event-date=20200116',
        ],
        python_version='3.5')
    training_op

这导致了另一个错误：

ERROR - <HttpError 400 when requesting https://ml.googleapis.com/v1/projects/MY_PROJECT/jobs?alt=json returned "Field: master_type Error: Master type must be specified for the CUSTOM scale tier.">

我不知道出了什么问题，但似乎这不是这样做的方法。

编辑：使用命令行我设法启动该作业：

gcloud ai-platform jobs submit training training_job_name --packages=gs://path/to/package/package.tar.gz --python-version=3.5 --region=europe-west1 --runtime-version=1.14 --module-name=trainer.train --scale-tier=CUSTOM --master-machine-type=n1-highmem-16

不过我想在气流中做到这一点。

任何帮助将非常感激。

编辑：我的环境使用旧版本的 apache airflow 1.10.3，其中不存在 master_type 参数。更新版本到1.10.6解决了这个问题

我的环境使用旧版本的 apache airflow 1.10.3，其中不存在 master_type 参数。更新版本到1.10.6解决了这个问题

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无法在 MLEngineTrainingOperator 中指定 master_type 的相关文章

还有一个“此 DAG 在网络服务器 DagBag 对象中不可用”

这似乎是一个相当普遍的问题我有一个 DAG 我不仅可以手动触发它airflow trigger dag 但它甚至按照其时间表执行但拒绝显示在 UI 中我已经多次重新启动网络服务器和调度程序按刷新十亿次然后运行它airflow
Airflow Worker - 连接中断：IncompleteRead（0 字节读取）

使用 Airflow Worker 和 Web 服务器调度程序作为在 EC2 上的 Kubernetes Engine 上运行的 Docker 映像我们有一个任务KubernetesPodOperator这是资源密集型的每 15 分钟
通过 feature_columns 使用 Dataset API 将自由文本特征输入 Tensorflow Canned Estimators

我正在尝试建立一个模型reddit score f subreddit comment 主要是作为一个示例我可以在此基础上构建一个工作项目我的代码是here https github com andrewm4894 my google
Airflow initdb slot_pool 不存在

我面临一个问题airflowpostgres 后端初始化乌班图 18 04 1 气流 v1 10 6 Postgres 10 10 Python 3 6 当我跑步时 airflow initdb I get 2019 11 22 10 1
添加到本地主机数据库的气流连接（在 docker 上运行的 postgres）

我有一个本地运行的 dockerized postgres 我可以通过 pgAdmin4 和 via 连接到它psql 使用相同的连接详细信息我在 UI 上设置了气流连接但是当尝试加载使用该连接的 DAG 时它会抛出错误损坏的 D
我的代码中出现内存不足异常

作为 Oracle 数据库压力测试的一部分我正在长时间运行代码并使用 java 版本 1 4 2 简而言之我正在做的是 while true Allocating some memory as a blob byte data new
气流：Dag 每隔几秒安排两次

我尝试每天仅运行一次 DAG00 15 00 午夜 15 分钟然而它被安排了两次间隔几秒钟 dag DAG my dag default args default args start date airflow utils dates
气流：找不到 dag_id

我在不同的 AWS 机器上运行气流服务器和工作线程我已经在它们之间同步了 dags 文件夹然后运行airflow initdb在两者上并在运行时检查 dag id 是否相同airflow list tasks
airflow webserver 命令失败并显示 {filesystemcache.py:224} 错误 - 不允许操作

我正在 Cent OS 7 上安装 Airflow 我已经配置了 Airflow db init 并检查了 nginx 服务器的状态及其工作正常但是当我运行airflow webserver命令时我收到下面提到的错误 2021 03 2
使用 numpy 数组时出现内存错误 Python

我原来的list 函数有超过 200 万行代码当我运行计算的代码时出现内存错误有什么办法可以绕过它吗这list 下面是实际 numpy 数组的一部分熊猫数据 import pandas as pd import math impo
内存不足异常

我有一个非常占用内存的应用程序它在一些大数组中保存了大量的数据我最近注意到偶尔出现 OutOfMemoryException 这些 OutOfMemoryExceptions 早在我的应用程序 ASP Net 用完可用的 800mb 内
从大表中检索所有记录时如何避免 OOM（内存不足）错误？

我的任务是将一个巨大的表转换为自定义 XML 文件我将使用 Java 来完成这项工作如果我只是发出 SELECT FROM customer 它可能会返回大量数据最终导致 OOM 我想知道有没有一种方法可以在记录可用后立即处理该记录
气流获取重试次数

在我的 Airflow DAG 中我有一个任务需要知道它是第一次运行还是重试运行如果是重试尝试我需要调整任务中的逻辑我对如何存储任务的重试次数有一些想法但我不确定其中是否有合法的或者是否有更简单的内置方法可以在任务中获取此信息
Amazon MWAA Airflow - 任务容器在没有日志的情况下关闭/停止/终止

我们使用 Amazon MWAA Airflow 很少有任务标记为 FAILED 但根本没有日志就好像容器在我们没有注意到的情况下被关闭了一样我找到了这个链接 https cloud google com composer docs h
无法设置气流，在“启动气流数据库”时出现错误

无法设置气流在启动气流数据库时出现错误我收到以下错误 File Library Frameworks Python framework Versions 3 8 bin airflow line 26 in
Airflow 1.10.3 - 空白“最近任务”和“DAG 运行”

我在 Ubuntu 18 10 上安装了 Airflow 1 10 3 并且能够添加 DAG 并运行它们但 Web UI 中的最近任务和 DAG 运行为空我所看到的只是一个黑色虚线圆圈它不断加载但什么也没有实现我最近将 Ai
当我读取 500MB FileStream 时出现 OutOfMemoryException

我使用 Filestream 读取大文件 gt 500 MB 但出现 OutOfMemoryException 任何有关它的解决方案我的代码是 using var fs3 new FileStream filePath2 FileMode
了解 Linux oom-killer 日志

我的应用程序被 oom killer 杀死了它是在实时 USB 上运行的 Ubuntu 11 10 无需交换 PC 具有 1 Gig 的 RAM 唯一运行的应用程序除了所有内置的 Ubuntu 东西是我的程序 flasherav 请注
将所有气流连接导出到新环境

我正在尝试将所有现有的气流连接迁移到新的气流我正在查看 cli 选项airflow connections help 它提供了列出的选项但没有提供从 json 格式导出导入的选项有没有办法通过 cli airflow ui 跨多个气
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https

随机推荐

PHP DateTime DateInterval isset 在 var_dump 之后发生变化

该对象中的任何变量都是 isset 但如果我使用 var dump interval 或 print r interval 这些变量就会变成 isset 这也适用于empty empty 所以在下面的代码中 interval gt i最初是
HttpClient 4.1 出现 SSL“对等未验证”错误

我正在构建一个简单的应用程序监视器来轮询我们的 API URL 之一如果无法从响应中获取 HTTP 200 状态代码则向我们发送电子邮件这表明我们的 API 由于某种原因已关闭我正在使用 HttpClient4 1 这很重要因为它
从 Google Play 商店安装应用程序后仅显示卸载按钮

从 Google Play 商店安装应用程序后打开按钮就会消失它只显示卸载按钮我找不到设备上列出的我的应用程序我已经在不同的设备上尝试过但结果是相同的我现在的版本是34 以前的版本还可以这是安装应用程序后的屏幕截图您从项目的
Google Maps API - 获取地址坐标

我想将地址转换为长纬度有没有什么方法可以在不使用 JavaScript 的情况下做到这一点因为就我而言没有必要display任何事情因为转换是在后台进行的你正在寻找的东西叫做地理编码 http en wikipedia org
局部函数中声明的值类型变量是否是堆栈分配的？

我正在阅读最近介绍的本地函数并开始思考这个问题 Afaik lambda 中值类型的局部变量是在堆中分配的此外在捕获值类型时本地函数比 lambda 更有优势在这种情况下不需要额外的堆分配我仍然不清楚局部函数中声明的局部值类型
无法让“Hello World”与 Angular JS 一起使用

我正在尝试学习有关 AngularJS 基础知识的 PluralSight 课程这家伙的代码和我的代码如下
检查连接四个字段的算法

我想知道在四人制比赛中检查获胜者的最佳方法是什么我对你们的想法感兴趣以及是否有一些众所周知的算法可以解决此类问题解决方案我用 Python 实现了 Ardavan 的哈希表解决方案我让算法在每个字段上运行一次在我的 Inte
python pandas dataframe 聚合 groupby

我的 pandas DataFrame 有很多行和列这里只显示三行 date place number 2010 LON 10 2010 BER 20 2010 LON 5 2011 LON 10 2011 BER 15 2011 BER
比较两列，并返回 Excel 中的特定相邻单元格

我正在使用以下组合if vlookup match iserror函数不幸的是我没能找到正确的公式比较两列的匹配情况非常容易困难的部分是在找到匹配项后返回特定的单元格所以我正在处理的是这样的事情 Header Column A Co
iOS 10 不调用通知服务扩展

我尝试实现新的通知服务扩展但遇到问题在我的NotificationService swift 文件中我有以下代码 class NotificationService UNNotificationServiceExtension var
在android studio中的所有活动中保留帐户信息

我的应用程序只是一个管理数据库应用程序我设置了一个远程 mysql 服务器我的 android studio 应用程序使用 http post 请求连接到该服务器假设我想在所有活动中保留用户名密码等帐户信息现在我使用 putExt
CUBA：实体继承

提供的示例实体继承具有以下实体模型顾客公司拓展客户人扩展客户命令 OrderEdit 屏幕显示如何处理与客户可以是公司或个人关联的字段的继承这是非常清楚的但是公司和个人的编辑屏幕不考虑继承它们只是复制通常从客户继承的
为什么线程 10000 次 start() 调用比 10000 次 run() 调用花费更多时间？

我正在线程上做一个 hello world 我使用以下命令创建了一个简单的线程run 调用这只是一个普通的方法调用和一个使用 start 调用的重复线程它会生成另一个线程来处理但是 start 通话次数多于run 调用这不是线程调
使用Maven部署后如何运行测试？

我正在尝试决定如何为 Java EE Web 应用程序创建一组验收测试设置如下 Maven 用于生成 WAR 文件并将其部署到 Glassfish 中部署时 MySQL 数据库架构会使用 Hibernate hbm2ddl auto 选
将 Prawn PDF 保存为回形针附件？

我使用 Prawn 和 Prawnto 向用户显示基于 PDF 的报告但在某些情况下我还想将 PDF 保存为我的模型之一的附件我所有的附件都使用回形针有人对如何做到这一点有任何建议吗 Thanks 使用 prawnto 时您需要评
:not(:first-child) 和 :not(:first-of-type) 不起作用

我有一个树系统我想做的是给除了第一个父母之外的所有父母留出余地这是我的 HTML div div class theBody div class someContainer div class someItemClass Test di
如何使用JPA持久化LocalDate？

我想将没有时间的日期存储到我的数据库中所以我选择使用LocalDate type 正如这篇文章中提到的如何使用 JPA 持久保存 LocalDate 和 LocalDateTime2 1 https thoughts on java
如何向 Python 单元测试提供标准输入、文件和环境变量输入？

如何在出现以下情况时编写测试测试用户输入测试从文件读取的输入测试从环境变量读取的输入如果有人能告诉我如何处理上述场景那就太好了如果您能给我指出一些我可以的文档文章博客文章那就太棒了读您所描述的所有三种情况都是您需要特别
带有大文件的 Amazon s3 上的 dask read_csv 超时

s3 上的 dask read csv 大文件超时 s3fs S3FileSystem read timeout 5184000 one day s3fs S3FileSystem connect timeout 5184000 one d
无法在 MLEngineTrainingOperator 中指定 master_type

我正在使用气流来安排管道这将导致使用人工智能平台训练 scikitlearn 模型我用这个 DAG 来训练它 with models DAG JOB NAME schedule interval None default args de

无法在 MLEngineTrainingOperator 中指定 master_type

无法在 MLEngineTrainingOperator 中指定 master_type 的相关文章

随机推荐

热门标签