尝试拟合 CrossValidator 对象时 DataBricks PySpark 出错

2024-03-31

首先，我是 DataBricks 和 PySpark 的新手，所以如果这是我没有看到的简单解决方案，我深表歉意。我的集群位于 DataBricks 运行时 9.1 LTS（Spark 3.1.2、Scala 2.12）上。

我正在研究一个 NLP 入门问题，进行餐厅评论情绪分析。我使用各种注释和逻辑回归模型构建了管道。我正在尝试实现 CrossValidator 对象来调整我的参数。

当我尝试使用 CrossValidator 时，收到以下警告：

/databricks/spark/python/pyspark/ml/util.py:92: UserWarning: CrossValidator_0c70efdbf04c 
fit call failed but some spark jobs may still running for unfinished trials. 
To address this issue, you should enable pyspark pinned thread mode.

以下错误追溯到我的 fit() 调用：

IllegalArgumentException: requirement failed: Tensorflow model has not been initialized

我的 CrossValidator 代码如下：

pipe_added = Pipeline().setStages([pipe_sw_cstm, lr])

cv = CrossValidator(estimator = pipe_added,
                   estimatorParamMaps = lr_params,
                   evaluator = BinaryClassificationEvaluator(),
                   numFolds = 3,
                   seed = 31415
)

cvModel = cv.fit(train)

这一切都应该在循环内运行并迭代不同的初始管道，这些初始管道与所需的模型组合到变量中pipe_added。这个新的复合管道将与所需模型的参数列表一起发送到 CrossValidator。我在这里删除了大部分迭代代码，转而使用静态版本进行调试。

不使用 CrossValidator 对象时，Logistic 回归模型可以正确拟合数据

明显的第一步是启用固定线程模式，我尝试在集群环境变量中设置以下内容

PYSPARK_PIN_THREAD=true

但现在我在运行代码时遇到新错误，fit() 调用仍然失败：

AttributeError: 'GatewayClient' object has no attribute 'thread_connection'

所以看来我应该单独保留固定线程模式。

我尝试导入tensorflow以及mlflow.tensorflow，但没有成功。任何支持将不胜感激，调试库之间的依赖关系已经是我的弱点，更不用说在使用新主库的新平台上了。

编辑 1：使用 TrainValidationSplit 会引发相同的警告和错误。

你好：我认为你应该把BinaryClassificationEvaluator参数labelcol= lr.getLabelCol()或您使用的标签列的名称

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

尝试拟合 CrossValidator 对象时 DataBricks PySpark 出错的相关文章

如何在刻度标签和轴之间添加空间

我已成功增加刻度标签的字体但现在它们距离轴太近了我想在刻度标签和轴之间添加一点呼吸空间如果您不想全局更改间距通过编辑 rcParams 并且想要更简洁的方法请尝试以下操作 ax tick params axis both whic
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

Android java.lang.SecurityException on Settings.Secure.putString()

我正在尝试在 Android 2 2 中设置系统属性使用Android for eclipse插件导致异常的行是 Settings Secure putString getContentResolver Settings Secure
我们可以在android NDK代码中使用系统IPC吗

在这里我想使用系统 IPC 方法例如
在 Eclipse 中调试 Android Widget 代码

我在 Android 编程的帮助下开始解锁 Android 曼宁 http www manning com ableson 这是一本来自圣诞老人的好书在运行了一些小测试和示例之后我开始为我自己的应用程序开发概念我希望我的应用程序作为家
WebStorm 可以在我编写代码时自动格式化代码吗？

在 Visual Studio 中当我输入一些特殊字符如时它会自动格式化相关代码段但在 WS 中什么也没有发生我试图找到这个选项但最终没有结果 e g In VS if we type something like var
为 PostgreSQL 8.3 安装 PL/Ruby

这是为了能够发展postgres具有嵌入式功能ruby代码但我一直无法建造它据建议http www robbyonrails com articles 2005 08 22 installing untrusted pl ruby fo
三元赋值的“写出”等价物是什么？

我有一个结构是不可默认构造我想根据条件为该结构的对象分配不同的值由于该结构是非默认构造的因此不可能声明它的统一对象但是可以使用三元来做到这一点 struct foo foo int a foo generateFoo1 retur
Swift 中的抽象类和抽象函数[重复]

这个问题在这里已经有答案了我来自 Java 现在我想在 Swift 中创建抽象类我有这门课Java 我想做同样的事情Swift如果可能的话 abstract class Fetcher private Item items public
调用 android.speech.RecognizerIntent API 会导致连接错误对话框，并在日志中显示“calling_package”警告

我编写了一个小应用程序允许用户通过按钮选择使用语音搜索的语言而不是依赖用户的语言偏好有时您希望用日语进行语音搜索而不将整个 UI 切换为日语我正在我的 HTC Desire Android 2 1 Softbank x06ht 上
GItlab：有什么方法可以选择变量值作为下拉菜单

在 Gitlab ci 中我们声明了变量如下所示 USER NAME value description Enter Username File Name description Enter the file name 它只提供一个文本
删除字符的正确方法是什么**

我有一个 char 基本上是一个字符串数组我需要删除它确保清除所有指针的正确方法是什么经验法则是你需要一个delete or delete 对于每个new or new 您发出的所以如果你这样做 char pp new char N
未找到与 Doctrine2 多态关联的字段

我有一个多态关联类表继承我需要使用 DQL 来查询特定子类的实体可以在 WHERE 子句中使用 x INSTANCE OF Entity 来完成现在我需要为该子类设置特定的条件但我收到此错误类 Person 没有名为 Stude
Nextjs 和 Jest 变换/transformIgnorePatterns 不适用于 esm 模块

我对此进行了大量研究并找到了相当多的解决方案我找到了一种解决方法并希望获得transform and transformIgnorePatterns在职的然而我唯一能做的似乎就是在我的内部手动添加一些模拟模块 mocks fold
如何更改 Android 选项卡小部件的背景？

我的类扩展了 TabActivity TabHost mTabHost getTabHost TabHost TabSpec tab1 mTabHost newTabSpec tab1 TabHost TabSpec tab2 mTabHo
使用 Fluent Api 时复合键 EF Core 出现错误

所以我在 Entity Framework Core 中有以下类我正在尝试进行代码优先迁移但我一生都无法弄清楚如何为这项工作提供流畅的 API public class Participants public Activity Acti
通过网络扫描发现服务器IP地址

我要开发 C 客户端服务器应用程序我需要告诉客户端服务器的 IP 地址是什么它可能来自客户端或服务器广播任何关于这方面的帮助和解决方案都会非常有用如果有一些示例代码那就更好了 Thanks 您可以使用BroadCast方法进行广播
将枚举案例的关联值提取到元组中

我知道如何使用 switch 语句提取枚举案例中的关联值 enum Barcode case upc Int Int Int Int case quCode String var productBarcode Barcode upc 8 1
CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
建议在 C#.NET 中加密 XML 文件的最佳算法？

我必须加密 XML 文件并通过网络发送到私人服务器中我的另一个应用程序将通过提供实际的公钥来解密文件并将其导入到 SQL 你能建议我最好的方法吗 File XML类型可能的尺寸最大 250 MB 技术 C NET 2008 Use X
YUI 压缩机和 .NET 应用程序

我想使用 YUI Compressor 原始版本并将其用作典型 MS 构建过程 Visual Studio 2008 MSBuild 的一部分有人对此有任何指导或想法吗例如合并到项目中的好方法如何处理现有的 CSS 和 JS 引用
尝试拟合 CrossValidator 对象时 DataBricks PySpark 出错

首先我是 DataBricks 和 PySpark 的新手所以如果这是我没有看到的简单解决方案我深表歉意我的集群位于 DataBricks 运行时 9 1 LTS Spark 3 1 2 Scala 2 12 上我正在研究一个 N

尝试拟合 CrossValidator 对象时 DataBricks PySpark 出错

尝试拟合 CrossValidator 对象时 DataBricks PySpark 出错 的相关文章

随机推荐

热门标签

尝试拟合 CrossValidator 对象时 DataBricks PySpark 出错的相关文章