如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

2024-05-18

当我远程运行数据管道时，会引发 PicklingError：数据管道是使用 Beam SDK for Python 编写的，并且我在 Google Cloud Dataflow 之上运行它。当我在本地运行时，管道工作正常。

以下代码生成 PicklingError：这应该会重现该问题

import apache_beam as beam
from apache_beam.transforms import pvalue
from apache_beam.io.fileio import _CompressionType
from apache_beam.utils.options import PipelineOptions
from apache_beam.utils.options import GoogleCloudOptions
from apache_beam.utils.options import SetupOptions
from apache_beam.utils.options import StandardOptions

if __name__ == "__main__":
  pipeline_options = PipelineOptions()
  pipeline_options.view_as(StandardOptions).runner = 'BlockingDataflowPipelineRunner'
  pipeline_options.view_as(SetupOptions).save_main_session = True
  google_cloud_options = pipeline_options.view_as(GoogleCloudOptions)
  google_cloud_options.project = "project-name"
  google_cloud_options.job_name = "job-name"
  google_cloud_options.staging_location = 'gs://path/to/bucket/staging'
  google_cloud_options.temp_location = 'gs://path/to/bucket/temp'
  p = beam.Pipeline(options=pipeline_options)
  p.run()

下面是回溯开始和结束的示例：

WARNING: Could not acquire lock C:\Users\ghousains\AppData\Roaming\gcloud\credentials.lock in 0 seconds
WARNING: The credentials file (C:\Users\ghousains\AppData\Roaming\gcloud\credentials) is not writable. Opening in read-only mode. Any refreshed credentials will only be valid for this run.
Traceback (most recent call last):
  File "formatter_debug.py", line 133, in <module>
    p.run()
  File "C:\Miniconda3\envs\beam\lib\site-packages\apache_beam\pipeline.py", line 159, in run
    return self.runner.run(self)
    ....
    ....
    ....
  File "C:\Miniconda3\envs\beam\lib\sitepackages\apache_beam\runners\dataflow_runner.py", line 172, in run
    self.dataflow_client.create_job(self.job))    
  StockPickler.save_global(pickler, obj)
  File "C:\Miniconda3\envs\beam\lib\pickle.py", line 754, in save_global (obj, module, name)) 
  pickle.PicklingError: Can't pickle <class 'apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum'>: it's not found as apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum

我发现当 Pipeline 对象包含在被腌制并发送到云的上下文中时，会引发错误：

pickle.PicklingError: Can't pickle <class 'apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum'>: it's not found as apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum

自然，你可能会问：

既然 Pipeline 对象通常是可pickle的，那么当它被发送到云时，是什么使得它变得不可pickle呢？
如果这确实是问题所在，那么我不会一直收到此错误 - Pipeline 对象通常不是包含在发送到云的上下文中吗？
如果 Pipeline 对象通常不包含在发送到云的上下文中，那么为什么 Pipeline 对象包含在我的案例中？

(1)

你打电话时p.run()在管道上cloud=True，首先发生的事情之一是p.runner.job=apiclient.Job(pipeline.options)安顿好了apache_beam.runners.dataflow_runner.DataflowPipelineRunner.run.

如果没有设置此属性，则 Pipeline 是可 pickle 的。但是一旦设置完毕，管道就不再是可腌制的，因为p.runner.job.proto._Message__tags[17] is a TypeValueValuesEnum，它被定义为嵌套类apache_beam.internal.clients.dataflow.dataflow_v1b3_messages。据我所知，嵌套类不能被腌制（即使是通过莳萝 - 请参阅如何在 python 中 pickle 嵌套类？ https://stackoverflow.com/questions/1947904/how-can-i-pickle-a-nested-class-in-python).

(2)-(3)

与直觉相反，Pipeline 对象通常不包含在发送到云的上下文中。你打电话时p.run()在管道上cloud=True，只有以下对象被腌制（请注意，腌制发生在p.runner.job已设置）：

If save_main_session=True，则指定模块中的所有全局对象__main__被腌制的。（__main__是您从命令行运行的脚本）。
管道中定义的每个转换都是单独腌制的

就您而言，您遇到了#1，这就是您的解决方案有效的原因。我实际上遇到了#2，我定义了一个beam.Maplambda 函数作为复合方法PTransform。（当应用复合转换时，管道将作为转换的属性添加...）我的解决方案是在模块中定义这些 lambda 函数。

一个长期的解决方案是我们在 Apache Beam 项目中解决这个问题。待定！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？的相关文章

可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗？

我有一个将数据写入 Google Cloud pubsub 的应用程序根据 pubsub 的文档由于重试机制而导致的重复偶尔可能会发生还有消息乱序的问题这在 pubsub 中也得不到保证另外根据文档可以使用 Google Cl
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
Google Pubsub Python 客户端库订阅者随机崩溃

请问有人可以帮助我使用 Google Pubsub Python 客户端库吗我正在关注以下教程https cloud google com pubsub docs pull pubsub pull messages async pytho
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException

我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中它执行 https 调用想想 REST API 在我的本地环境中所有这些都可以在 DirectRun 中正常运行这是我的本地环境 apache beam 2
如何使 Google App Engine 上的 Rails 应用程序重定向到 HTTPS

我已成功将 Rails 应用程序部署到 Google App Engine 我的域也由 Google 托管现在我想将访问我的 http 地址的任何人重定向到我的 https 地址我找到了针对 Python 应用程序执行此操作的文档her
从 Dataflow 进行流式传输时从 BigQuery 删除数据

从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据我们的用例是这样的我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间从表中删除 3 天前的数据是否建议这样做如果是有
Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为
在 Cloud Dataflow 中进行 ETL 和解析 CSV 文件

我是云数据流和 Java 的新手所以我希望这是正确的问题我有一个 csv 文件其中有 n 个列和行可以是字符串整数或时间戳我需要为每一列创建一个新的 PCollection 吗我在示例中找到的大多数文档都类似于 PCollec
使用 gcloud 的凭据助手访问 Google 源存储库会阻止 osxkeychain 工作

In the Google 源代码存储库文档 https cloud google com source repositories docs adding repositories as remotes 它要求你使用git config c
Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti
将文件从远程服务器复制到谷歌云存储桶

如何将文件从远程服务器复制到 Google 存储桶例如 gcloud compute scp username server path to file gs my bucket 这个方法会报错 All sources must be lo
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降
将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag
如何在 Jenkins 管道中使用 Google 服务帐户进行身份验证

我想用gcloud在 Jenkins 管道中因此我必须首先使用 Google 服务帐户进行身份验证我正在使用https wiki jenkins io display JENKINS Google OAuth Plugin https
在 Apache Beam 中连接行

我无法理解 Apache Beam 中的连接例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac
bigquery DataFlow 错误：在 EU 中读写时无法在不同位置读写

我有一个简单的 Google DataFlow 任务它从 BigQuery 表中读取数据并写入另一个表如下所示 p beam io Read beam io BigQuerySource query select dia import
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
如何配置 Google 计算引擎以对 Nodejs 服务器使用 HTTPS？

我想使用 https SSL 在 google 计算引擎中运行 nodejs 和 socket io 服务器我安装了自签名证书https cloud google com compute docs load balancing http
如何从“gcloud”工具检索 App Engine 应用程序的源代码？

我已迁移到新系统并丢失了 App Engine 应用程序的本地副本愚蠢的是我没有使用源代码管理我知道我用过gcloud工具来检索我过去项目的源代码但我似乎无法找到如何再次执行此操作我发现的一切都指向如何使用appcfg py 其中
如何在 App-Engine 上运行的基于 Express 的 Node JS 应用程序中获取远程客户端的 IP 地址

尝试获取 IP 时所有标准标头值都包含不正确的值 req ip ffff 172 17 0 5 req headers x forwarded for 169 254 160 2 req socket remoteAddress ffff

随机推荐

将数组向左或向右旋转一定数量的位置，复杂度为 o(n)

我想编写一个程序根据用户的输入正 gt 负 include
pthread_cond_timedwait() 和 pthread_cond_broadcast() 解释

因此我在堆栈溢出和其他资源上进行了大量搜索但我无法理解有关上述函数的一些内容具体来说 1 当pthread cond timedwait 因为定时器值用完而返回时它如何自动重新获取互斥锁互斥锁可能被锁定在其他地方例如在生产者
JavaScript中如何确保输入的值是数字而不是字符串？

我创建了这个函数 function num var x prompt please enter your first number var y prompt please enter your second number if isNaN
全局传递 xhr onload 函数的值

在我正在创建的应用程序中我有以下 XMLHttpRequest 并且我正在尝试传递结果data在的里面xhr onload 到在同一父函数中创建的数组中 var url http api soundcloud com resolve j
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
为什么在 JavaScript 中 if([]) 被验证而 [] == false ？

if false alert empty array is false alert alert 0 if alert empty array is true 他们都会运行警报 Demo http jsfiddle net roine ZFD
UML类图：抽象方法和属性是这样写的吗？

当我第一次为一个小型 C 项目创建 uml 类图时我在属性方面遇到了一些麻烦最后我只是将属性添加为变量 lt
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
Golang 正则表达式在字符串之间替换

我有一些可能采用以下形式的字符串 MYSTRING MYSTRING n MYSTRING n MYSTRING randomstringwithvariablelength n 我希望能够将其正则表达式为MYSTRING foo 基本上替
在 JQuery 中发布表单并填充 DIV - 在 IE 中损坏

我正在尝试创建一个通过 jQuery 发布数据并将返回值填充到同一 DIV 中的表单这样页面就不会在发布操作时刷新 div div
如何判断 Bash 中是否存在文件？

这会检查文件是否存在 bin bash FILE 1 if f FILE then echo File FILE exists else echo File FILE does not exist fi 我如何只检查文件是否存在not ex
如何在 Web 服务器上设置 gzip 压缩？

我有一个嵌入式网络服务器总共有 2 兆空间通常您使用 gzip 文件对客户端有利但这会节省我们在服务器上的空间我读到你可以只 gzip js 文件并将其保存在服务器上我在 IIS 上测试过但没有任何运气为了使这项工作成功我
在文件之间共享 mqtt 客户端对象

我这样连接到 MQTT mqtt js const mqtt require mqtt var options needed options var client mqtt connect mqtt someURL options clie
颤振轮播图像滑块在点击事件期间打开单独的页面被调用

我是新来的我想问一个关于我的代码的问题我查看了 youtube 和一些关于这个 inkwell 的 google 教程以及点击功能来在 flutter 上打开新的类活动但结果是当点击图像时它会打开不同的图像屏幕但它们共享相同的
从父类调用子类方法

a doStuff 方法是否可以在不编辑 A 类的情况下打印 B did stuff 如果是这样我该怎么做 class Program static void Main string args A a new A B b new B a
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
指定访问组时出现 KeychainItemWrapper 错误

相当长一段时间以来我一直在使用 KeychainItemWrapper 的 ARC 版本成功读取和写入私有钥匙串项目我现在正在努力将我的 iOS 应用程序转换为使用共享访问组以便我的 2 个共享相同应用程序前缀的应用程序可以访问钥匙串
有没有办法让我简化这些回声？ [复制]

这个问题在这里已经有答案了我仍在学习如何编写 shell 脚本并且我面临着一个挑战让我更容易回显 Name1 Name2 Name15 我不太确定从哪里开始我已经想法但如果我搞砸了我不想看起来很傻有什么帮助吗我实际上还没有尝
使用参数将变量从 vbscript 传递到批处理文件

请问如何将 inp 变量从这段 vb 传递到我的名为 job bat 的批处理确实在从 job bat 进行回显 echo 2 时我注意到 inp 未正确传递提示命令视图 inp而不是从 vbs 检索到的值谢谢 For Each
如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

当我远程运行数据管道时会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的并且我在 Google Cloud Dataflow 之上运行它当我在本地运行时管道工作正常以下代码生成 Pi

如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？ 的相关文章

随机推荐

热门标签

如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？的相关文章