一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

2024-05-18

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法，遵循所示的模式here https://stackoverflow.com/a/37279526/1843329.

然而，在该示例中，所需的所有参数_transform()由估计器方便地传递到模型/变压器中_fit()方法。但我的变压器有几个参数来控制变换的应用方式。这些参数是变压器特定的，因此将它们与用于拟合模型的特定于估计器的参数一起提前传递到估计器中会感觉很奇怪。

我可以通过添加额外的内容来解决这个问题Params到变压器。当我在 ML Pipeline 之外使用估算器和转换器时，这种方法效果很好。但是，一旦我的估计器对象作为阶段添加到管道中，如何设置这些特定于转换器的参数呢？例如，您可以调用getStages() on a pyspark.ml.pipeline.Pipeline因此可以得到估计量，但是没有对应的getStages()方法上PipelineModel。我在上面看不到任何设置参数的方法PipelineModel阶段要么。

那么在调用之前如何设置变压器的参数transform()在拟合的管道模型上？我使用的是 Spark 2.2.0。

没有getStages()方法上PipelineModel但同一个班级确实有一个无证会员 https://github.com/apache/spark/blob/v2.2.0/python/pyspark/ml/pipeline.py#L189 called stages.

例如，如果您刚刚安装了具有 3 个阶段的管道模型，并且想要在第二阶段设置一些参数，则可以执行以下操作：

myModel = myPipelineModel.stages[1]
myModel.setMyParam(42)
# Or in one line:
#myPipelineModel.stages[1].setMyParam(42)

# Now we can push our data through the fully configured pipeline model:
resultsDF = myPipelineModel.transform(inputDF)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？的相关文章

使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
无法启动 Spark-Shell

我使用的是 Spark 1 4 1 我可以毫无问题地使用spark submit 但当我跑的时候 spark bin spark shell 我收到以下错误我已经配置了SPARK HOME and JAVA HOME 不过 Spark 1
按年份进行透视并获取 2020 年以来的金额总和

我有这样的数据我想按年份旋转并仅显示 2020 年以来的总数我该如何实现这一目标您可以使用以下方法实现此目的PIVOT https spark apache org docs 3 2 1 api python reference ap
Spark 与 Webhdfs/httpfs

我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者理想情况下 sc
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
当我们在 Apache Spark 中使用时，无法找到 Set([TOPIC NAME,0])) 的领导者

我们使用 Apache Spark 1 5 1 和 kafka 2 10 0 8 2 1 以及 Kafka DirectStream API 通过 Spark 从 Kafka 获取数据我们使用以下设置在 Kafka 中创建了主题复制因子
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常

我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
创建涉及 ArrayType 的 Pyspark 架构

我正在尝试为我的新 DataFrame 创建一个架构并尝试了括号和关键字的各种组合但无法弄清楚如何完成这项工作我目前的尝试 from pyspark sql types import schema StructType StructF
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也

随机推荐

添加 LINQ 的 LongCount 扩展方法是否有实际原因？

LINQ 有 2 种计算可枚举数的方法 Count and LongCount 实际上这两者之间的唯一区别是第一个返回一个int 而第二个返回一个long 我不清楚为什么添加第二种方法它的唯一用例似乎是处理超过 2B 元素的枚举对我来
使用 Entity Framework Core 2 将原始 SQL 将存储过程结果映射到 POCO/DTO

我几乎到处寻找但很难找到解决方案我花了一周时间使用存储过程创建一个极其复杂的计算查询我想从该查询中获取结果并将其放入 POCO 类中类似于我在使用 EF 6 之前所做的操作将存储过程列名称映射到 POCO DTO https fo
ReactJS 子级 - 过滤掉空值

我正在渲染我的组件
我可以将 SimpleInjectors 诊断结果写入日志文件吗？

在调用中使用简单注入器container Verify 在我的配置结束时并在调试器中获取诊断信息如中所述文档 http simpleinjector codeplex com wikipage title Diagnostics 我想将
如何在保持纵横比的同时增加保存的图形的大小

我正在绘制数据并将其保存到文件中 import matplotlib pyplot as plt fig plt figure figsize 10 10 plt gca set aspect 1 plt scatter range 10
用表达式分割轴标签

我有一个带有包含表达式的长标签的图我想将其分成两行在表达式中添加 n 结果不符合预期 ylabel lt expression A very long label with text and n expression alpha bet
Docusign - 更改已完成签名通知电子邮件消息/简介

我想这很简单只是我没有找到正确的位置有没有一种方法可以为已完成的签名电子邮件通知编写自定义电子邮件简介就像您可以在嵌入式签名 API 代码中为签名通知请求生成自定义电子邮件简介一样目前我的集成已嵌入第一个签名者然后通过电子邮件发
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
这个方法比 Math.random() 更快吗？

我是一名初学者目前已经开始开发一款使用粒子群优化算法的 Android 游戏我现在正在尝试稍微优化我的代码并且 for 循环中有相当多的 Math random 几乎一直在运行所以我正在考虑一种方法来绕过并跳过所有 Math ran
指针和cstring长度

我在这里设置指针一个指向名称另一个指向名称但获取长度怎么当我使用的时候cout lt lt strlen tail 它一直告诉我长度是3 即使我输入的是 12 include
如何在 WordPress 中按类别获取所有帖子

我想在 WordPress 中按类别获取帖子 args array post type gt project postslist get posts args 0 gt WP Post 对象 ID gt 421 post author gt
在 Windows 服务和 Azure WebJob 之间利用单一代码库的方法

我正在开发一个定时重复流程在某些情况下将部署在本地而在其他情况下将部署在云 Azure 中我正在研究 Windows 服务和 Azure WebJob 鉴于我只需要重复过程作为定时部分我正在考虑将大量逻辑放在一个库中只是本地部署的
在 gridview 控件中使用单选按钮

我有一个 gridview 控件其中使用存储过程显示数据该网格有三列第一列包含单选按钮总体思路是用户应该能够从在我的例子中 5 个单选按钮中仅选择一个单选按钮当前功能的问题是我可以同时选择所有单选按钮我尝试使用 groupna
正确的文件扩展名或缩写是什么。 golang 的文本/模板？

我正在考虑为其创建语法荧光笔但我不知道这种特定类型模板的常规缩写 In 例子之一 http golang org pkg text template example Template helpers从文本模板 godoc 中它们引用
iPhone 应用程序在首次 Facebook Connect 授权/登录后崩溃

我一直在到处寻找答案但找不到问题是我有一个 iPhone 应用程序在 AppStore 上它使用脸书 iPhone SDK https github com facebook facebook iphone sdk 我使用 SDK
如何在同一个html上绘制2个谷歌图表

我正在尝试下面的代码但它仅显示第一个代码的图表你能告诉我哪里出错了吗我尝试做很多改变但仍然没有成功 i am only getting single chart as shown in below photo enter code
适用于 IOS 和 Android 的支付网关 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在开发一个应用程序用户必须在澳大利亚餐馆通过应用程序 android ios 付款有两种付款方式通过 PayPal 或 Visa
使用联接更新表？

我正在尝试使用表 B 中的数据更新表 A 我以为我可以做这样的事情 update A set A DISCOUNT 3 from INVOICE ITEMS A join ITEM PRICE QUNTITY B on A ITEM PRI
为什么我收到错误“无法设置类型 Y 上的属性 X，因为集合已设置为 EntityCollection”？

当我尝试将一个集合映射到 EF4 中的另一个集合时出现此错误无法设置类型 Resource EF810770B4FCA2E071F38C2F2EE328AAC216CA2A7BF157503E6658A42D7CF53A 的属性 Res
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而

一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？ 的相关文章

随机推荐

热门标签

一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？的相关文章