Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件

2024-01-04

我是火花新手。我正在使用以下配置集在 Spark 独立版 (v3.0.0) 中编写机器学习算法：

SparkConf conf = new SparkConf();
conf.setMaster("local[*]");
conf.set("spark.driver.memory", "8g");
conf.set("spark.driver.maxResultSize", "8g");
conf.set("spark.memory.fraction", "0.6");
conf.set("spark.memory.storageFraction", "0.5");
conf.set("spark.sql.shuffle.partitions", "5");
conf.set("spark.memory.offHeap.enabled", "false");
conf.set("spark.reducer.maxSizeInFlight", "96m");
conf.set("spark.shuffle.file.buffer", "256k");
conf.set("spark.sql.debug.maxToStringFields", "100");

这就是我创建 CrossValidator 的方式

ParamMap[] paramGrid = new ParamGridBuilder()
            .addGrid(gbt.maxBins(), new int[]{50})
            .addGrid(gbt.maxDepth(), new int[]{2, 5, 10})
            .addGrid(gbt.maxIter(), new int[]{5, 20, 40})
            .addGrid(gbt.minInfoGain(), new double[]{0.0d, .1d, .5d})
            .build();

    CrossValidator gbcv = new CrossValidator()
            .setEstimator(gbt)
            .setEstimatorParamMaps(paramGrid)
            .setEvaluator(gbevaluator)
            .setNumFolds(5)
            .setParallelism(8)
            .setSeed(session.getArguments().getTrainingRandom());

问题是，当（在 paramGrid 中） maxDepth 只是 {2, 5} 和 maxIter {5, 20} 时，一切都工作得很好，但是当它像上面的代码一样时，它会继续记录：WARN DAGScheduler: broadcasting large task binary with size xx, xx 从 1000 KiB 变为 2.9 MiB，通常会导致超时异常我应该更改哪些火花参数以避免这种情况？

对于超时问题，请考虑更改以下配置：

Spark.sql.autoBroadcastJoinThreshold 设置为 -1。

这将消除广播大小 10MB 的限制。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

apachesparkmllib

apachesparkml

Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件的相关文章

Java中反射是如何实现的？

Java 7 语言规范很早就指出本规范没有详细描述反射我只是想知道反射在Java中是如何实现的我不是问它是如何使用的我知道可能没有我正在寻找的具体答案但任何信息将不胜感激我在 Stackoverflow 上发现了这个关于 C
给定两个 SSH2 密钥，我如何检查它们是否属于 Java 中的同一密钥对？

我正在尝试找到一种方法来验证两个 SSH2 密钥一个私有密钥和一个公共密钥是否属于同一密钥对我用过JSch http www jcraft com jsch 用于加载和解析私钥更新可以显示如何从私钥 SSH2 RSA 重新生成公钥
在 HTTPResponse Android 中跟踪重定向

我需要遵循 HTTPost 给我的重定向当我发出 HTTP post 并尝试读取响应时我得到重定向页面 html 我怎样才能解决这个问题代码 public void parseDoc final HttpParams params n
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息当多个文件而不是一个传递到输入时它会给出内存不足错误 All files have been queued awaiting termination
如何为俚语和表情符号构建正则表达式 (regex)

我需要构建一个正则表达式来匹配俚语即 lol lmao imo 等和表情符号即 P 等我按照以下示例进行操作http www coderanch com t 497238 java java Regular Expression D
从 127.0.0.1 到 2130706433，然后再返回

使用标准 Java 库从 IPV4 地址的点分字符串表示形式获取的最快方法是什么 127 0 0 1 到等效的整数表示 2130706433 相应地反转所述操作的最快方法是什么从整数开始2130706433到字符串表示形式 127 0
Java TestNG 与跨多个测试的数据驱动测试

我正在电子商务平台中测试一系列商店每个商店都有一系列属性我正在考虑对其进行自动化测试是否有可能有一个数据提供者在整个测试套件中提供数据而不仅仅是 TestNG 中的测试我尝试不使用 testNG xml 文件作为机制因为这些属性
在两个活动之间传输数据[重复]

这个问题在这里已经有答案了我正在尝试在两个不同的活动之间发送和接收数据我在这个网站上看到了一些其他问题但没有任何问题涉及保留头等舱的状态例如如果我想从 A 类发送一个整数 X 到 B 类然后对整数 X 进行一些操作然后将其发送
如何将 pfx 文件转换为 jks，然后通过使用 wsdl 生成的类来使用它来签署传出的肥皂请求

我正在寻找一个代码示例该示例演示如何使用 PFX 证书通过 SSL 访问安全 Web 服务我有证书及其密码我首先使用下面提到的命令创建一个 KeyStore 实例 keytool importkeystore destkeystore
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
在mockito中使用when进行模拟ContextLoader.getCurrentWebApplicationContext()调用。我该怎么做？

我试图在使用 mockito 时模拟 ContextLoader getCurrentWebApplicationContext 调用但它无法模拟 here is my source code Mock org springframewo
声明的包“”与预期的包不匹配

我可以编译并运行我的代码但 VSCode 中始终显示错误早些时候有一个弹出窗口我不记得是什么了我点击了全局应用从那以后一直是这样 Output is there but so is the error The declared
获取 JVM 上所有引导类的列表？

有一种方法叫做findBootstrapClass对于一个类加载器如果它是引导的则返回一个类有没有办法找到类已经加载了您可以尝试首先通过例如获取引导类加载器呼叫 ClassLoader bootstrapLoader ClassLo
捕获的图像分辨率太大

我在做什么我允许用户捕获图像将其存储到 SD 卡中并上传到服务器但捕获图像的分辨率为宽度 4608 像素和高度 2592 像素现在我想要什么如何在不影响质量的情况下获得小分辨率图像例如我可以获取或设置捕获的图像分辨率为原始图像分
使用 JMF 创建 RTP 流时出现问题

我正处于一个项目的早期阶段需要使用 RTP 广播DataStream创建自MediaLocation 我正在遵循一些示例代码该代码目前在rptManager initalize localAddress 出现错误无法打开本地数据端口
当我从 Netbeans 创建 Derby 数据库时，它存储在哪里？

当我从 netbeans 创建 Derby 数据库时它存储在哪里如何将它与项目的其余部分合并到一个文件夹中右键单击Databases gt JavaDB in the Service查看并选择Properties This will
JGit 检查分支是否已签出

我正在使用 JGit 开发一个项目我设法删除了一个分支但我还想检查该分支是否已签出我发现了一个变量CheckoutCommand但它是私有的 private boolean isCheckoutIndex return startCo
Spring Boot @ConfigurationProperties 不从环境中检索属性

我正在使用 Spring Boot 1 2 1 并尝试创建一个 ConfigurationProperties带有验证的bean 如下所示 package com sampleapp import java net URL import j

随机推荐

在 C++ 中查找和移动文件

我是新来的C 我刚刚读过
Androidx ServiceTestRule 找不到我的服务

公平地说我不是在测试该服务而是使用服务作为我的测试类的一部分来测试蓝牙库因此我的测试类需要创建一个调用蓝牙库的服务然后测试类需要绑定到该服务来执行测试但是尝试启动服务总是会出现以下错误从而导致空指针异常 W Activity
由于“多进程”，即时运行不起作用

配置即时运行后运行按钮有一个黄色的小雷电但是当我运行应用程序时 Android Studio 仍然执行完整的构建和安装完整的消息列在图片中我查了一下官方文档http tools android com tech docs insta
使用RecyclerView的asynctask在android中下载图像

这是我的关注AsyncTask下载图像的类代码RecyclerView public class MyDownloadImageAsyncTask extends AsyncTask
wget 使用 -r 和 -O - 挂起

这是一个VERY奇怪的wget行为我使用的是 Debian 7 2 wget r O www blankwebsite com 永远挂起我是认真的hangs 它不是通过互联网搜索我可以用一个来验证它strace 如果我这样做 whil
将外部节点添加到 GCP Kubernetes 集群

我在 GCP 上有一个使用 GCP 仪表板创建的 kubernetes 集群我在其中创建了 3 个默认节点现在我想将我的笔记本电脑作为节点添加到该集群中我发现我们可以使用kubeadm init为此但每当我在 gcloud 控制台
Java - 访问被拒绝 java.io.FileNotFoundException [重复]

这个问题在这里已经有答案了我有以下代码 List
如何借用HashMap同时读写？

我有一个函数f接受两个引用一个mut还有一个没有mut 我有以下价值观 f里面一个HashMap use std collections HashMap fn f a i32 b mut i32 fn main let mut map H
1064：执行 PyMySQL 查询时出现 SQL 语法错误 [重复]

这个问题在这里已经有答案了我正在使用 PyMySQL 从 python 执行 SQL 查询命令我的 pystyle 是pyformat发现使用 gt gt gt pymysql paramstyle pyformat 我的数据库和游标详
为什么我们通常使用||结束|？有什么不同？

我只是想知道为什么我们通常使用逻辑或两个布尔值之间不按位或尽管它们都运行良好我的意思是看看以下内容 if true true pass if true false pass if false true pass if false f
如果 GPS 关闭，WiFi getScanResults 将返回空列表。（安卓6.0.1）

我试图解释这个 gif 中的问题基本上这个测试应用程序接收 RSSI CHANGED 意图并在屏幕上显示扫描结果除非启用 GPS 否则扫描结果始终为空我想我的问题是why 要通过蓝牙和 Wi Fi 扫描访问附近外部设备的硬件标识符
LSApplicationQueriesSchemes 和派生数据

我想在我的应用程序中打开一个whatsapp url let whatsAppUrl NSURL string whatsapp send text Hello 2C 20World if UIApplication sharedAppli
使用正则表达式删除尾随小数点和零

这是从字符串中删除尾随小数和零的正确正则表达式吗我无法让它工作我缺少什么 78 000 gt 78 78 008 gt 78 008 str replaceAll 0 你需要逃离因为它是正则表达式中的一个特殊字符可以匹配任何字符您
查找 pandas.Series 中的值何时跨越/达到阈值

考虑以下系列 s pd Series 0 1 2 3 4 1 5 4 3 2 1 有没有一种简单的方法可以知道达到超过 2 值的次数没有明显的迭代解决方案上例的预期结果应为 4 系列中第 2 条线向上或向下交叉 4 次 Edit 更新
如何使用python yaml解析内部变量？

我有一个文件test yml Servers Server1 location Earth network ip 0 0 0 0 mac 00 00 00 00 00 00 inbound Configs Earth allowed con
irb 中的 Ruby 字符串比较和字符编码

这是错误 gt M nd med navnet Kim 30 094 29 946 148 Kvinder med navnet Kim 341 345 4 M nd med navnet Kim Hansen 1 586 1 573 13
VS 10 中的 VS 11 -D_SCL_SECURE_NO_WARNINGS 现在被视为错误

我试图使用最新的 boost split 函数并且使用较旧的 VS 编译器在使用它时通常会收到与 boost 代码实现中的不安全操作相关的警告现在当使用 Vs 11 时它会抛出一个与此相关的错误有没有办法让它在不修改boost代
CollectionView 上没有目录中的图片

我想显示目录中的所有图片但是我正在目录中创建文件夹以便可以对图片进行排序我想显示几个文件夹中的所有图片我正在使用代码 void viewDidLoad super viewDidLoad Do any additional setu
何时需要将表从 MyISAM 更改为 InnoDb？

这个问题就像我之前问题的延续 InnoDb 比 MyISAM 更适合频繁的并发更新和插入我这样说对吗 https stackoverflow com questions 1722155 am i right that innodb is
Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件

我是火花新手我正在使用以下配置集在 Spark 独立版 v3 0 0 中编写机器学习算法 SparkConf conf new SparkConf conf setMaster local conf set spark driver me

Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件

Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件 的相关文章

随机推荐

热门标签

Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件的相关文章