如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

2024-05-11

我正在尝试保存 ML Pipeline 生成的数千个模型。正如答案中所示here https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api，模型可以保存如下：

import java.io._

def saveModel(name: String, model: PipelineModel) = {
  val oos = new ObjectOutputStream(new FileOutputStream(s"/some/path/$name"))
  oos.writeObject(model)
  oos.close
}

schools.zip(bySchoolArrayModels).foreach{
  case (name, model) => saveModel(name, Model)
}

我尝试过使用s3://some/path/$name and /user/hadoop/some/path/$name因为我希望模型最终保存到亚马逊 s3，但它们都失败，并显示消息指示找不到路径。

如何将模型保存到Amazon S3？

将模型保存到 HDFS 的一种方法如下：

// persist model to HDFS
sc.parallelize(Seq(model), 1).saveAsObjectFile("hdfs:///user/root/linReg.model")

然后可以将保存的模型加载为：

val linRegModel = sc.objectFile[LinearRegressionModel]("linReg.model").first()

欲了解更多详情，请参阅（ref https://phdata.io/exploring-spark-mllib-part-4-exporting-the-model-for-use-outside-of-spark/)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将模型从 ML Pipeline 保存到 S3 或 HDFS？的相关文章

org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
如何在java中将一个数组列表替换为另一个不同大小的数组列表

我有两个大小不同的数组列表如何从此替换 ArrayList
过滤两次 Lambda Java

我有一个清单如下 1 2 3 4 5 6 7 和预期结果必须是 1 2 3 4 5 6 7 我知道怎么做才能到7点我的结果 1 2 3 4 5 6 我也想知道如何输入 7 我添加了i gt i objList size 1到我的过滤器
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
jQuery AJAX 调用 Java 方法

使用 jQuery AJAX 我们可以调用特定的 JAVA 方法例如从 Action 类该 Java 方法返回的数据将用于填充一些 HTML 代码请告诉我是否可以使用 jQuery 轻松完成此操作就像在 DWR 中一样此外对于
在 Jar 文件中运行 ANT build.xml 文件

我需要使用存储在 jar 文件中的 build xml 文件运行 ANT 构建该 jar 文件在类路径中可用是否可以在不分解 jar 文件并将 build xml 保存到本地目录的情况下做到这一点如果是的话我该怎么办呢 Update
在接口中使用默认方法是否违反接口隔离原则？

我正在学习 SOLID 原则 ISP 指出客户端不应被迫依赖于他们所使用的接口不使用在接口中使用默认方法是否违反了这个原则我见过类似的问题但我在这里发布了一个示例以便更清楚地了解我的示例是否违反了 ISP 假设我有这个例子 pu
Java 集合的并集或交集

建立并集或交集的最简单方法是什么Set在 Java 中我见过这个简单问题的一些奇怪的解决方案例如手动迭代这两个集合最简单的单行解决方案是这样的 set1 addAll set2 Union set1 retainAll set2 In
检测并缩短字符串中的所有网址

假设我有一条字符串消息您应该将 file zip 上传到http google com extremelylonglink zip http google com extremelylonglink zip not https stack
无法创建请求的服务[org.hibernate.engine.jdbc.env.spi.JdbcEnvironment]-MySQL

我是 Hibernate 的新手我目前正在使用 Spring boot 框架并尝试通过 hibernate 创建数据库表我知道以前也问过同样的问题但我似乎无法根据我的环境找出如何修复错误休眠配置文件
在 junit 测试中获取 javax.lang.model.element.Element 类

我想测试我的实用程序类 ElementUtils 但我不知道如何将类作为元素获取在 AnnotationProcessors 中我使用以下代码获取元素 Set
内部类的构造函数引用在运行时失败并出现VerifyError

我正在使用 lambda 为内部类构造函数创建供应商ctx gt new SpectatorSwitcher ctx IntelliJ建议我将其更改为SpectatorSwitcher new反而 SpectatorSwitcher 是我正
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
如何访问JAR文件中的Maven资源？ [复制]

这个问题在这里已经有答案了我有一个使用 Maven 构建的 Java 应用程序我有一个资源文件夹com pkg resources 我需要从中访问文件例如directory txt 我一直在查看各种教程和其他答案但似乎没有一个对我有
尝试将 Web 服务部署到 TomEE 时出现“找不到...的 appInfo”

我有一个非常简单的项目用于培训目的它是一个 RESTful Web 服务我使用 js css 和 html 创建了一个客户端我正在尝试将该服务部署到 TomEE 这是我尝试部署时遇到的错误我在这里做错了什么刚刚遇到这个问题我曾
java for windows 中的文件图标叠加

我正在尝试像 Tortoise SVN 或 Dropbox 一样在文件和文件夹上实现图标叠加我在网上查了很多资料但没有找到Java的解决方案 Can anyone help me with this 很抱歉确认您的担忧但这无法在 Ja
关键字“table”附近的语法不正确，无法提取结果集

我使用 SQL Server 创建了一个项目其中包含以下文件 UserDAO java public class UserDAO private static SessionFactory sessionFactory static se
找不到符号 NOTIFICATION_SERVICE？

package com test app import android app Notification import android app NotificationManager import android app PendingIn
包 javax.el 不存在

我正在使用 jre6 eclipse 并导入 javax el 错误包 javax el 不存在 javac 导入 javax el 过来这不应该是java的一部分吗谁能告诉我为什么会这样谢谢米 EL 统一表达语言是 Java
在java中为组合框分配键

我想添加一个JComboBox在 Swing 中这很简单但我想为组合中的每个项目分配值我有以下代码 JComboBox jc1 new JComboBox jc1 addItem a jc1 addItem b jc1 addItem

随机推荐

如何使用 SymPy 求给定一阶导数的 n 阶导数？

Given some f and the differential equation x t f x t how do I compute x n t in terms of x t For example given f x t sin
AWS Cognito - 如何确定用户是否使用电子邮件或电话号码注册

我们已经按照描述实施了自定义身份验证触发器here https docs aws amazon com cognito latest developerguide user pool lambda challenge html 我们设置了用
您认为 ASP.NET MVC 会与 ASP.NET Webforms 竞争吗？

您认为 ASP NET MVC 会在 Microsoft Web 开发市场中占据重要份额吗还是会占市场的 10 15 哦是的它将让 Web 表单脱颖而出我们已经看到了真正的 MVC 框架在 Java 世界中的价值在 MS 世界中这
模板与非模板类，跨编译器的不同行为

我在一些应用程序中使用编译时计数器它确实很有用昨天我想用 gcc 编译一个程序我之前使用的是 msvc 并且计数器的行为在模板类中发生了变化它在模板类中不再工作过于简化的代码 Maximum value the counter c
允许在 Safari 上聊天应用程序使用 audio.play()

由于苹果禁用了自动播放音频的功能HTMLMedia Element play https developer mozilla org en US docs Web API HTMLMediaElement play在没有用户交互的 java
为什么我们在同一台服务器上使用多个应用程序服务器实例

我想这是有充分理由的但我不明白为什么有时我们会在同一物理服务器上放置例如 5 个具有相同 Web 应用程序的实例这与多处理器架构的优化有关吗 JVM 或其他允许的最大内存限制嗯过了很长一段时间我又看到这个问题了一台机器上的多个 J
java.lang.NoClassDefFoundError: org/apache/commons/cli/ParseException

我想将 apache cli 添加到我的应用程序中但我有问题当我尝试运行它时显示这些错误 Error A JNI error has occurred please check your installation and try aga
PyCharm：安装包失败

我需要安装一些软件包无论我尝试哪个方向情况只会变得更糟请帮忙 40 497 执行错误目录 Users doekewartena Library Caches pip http 或其父目录不属于当前用户并且缓存已被禁用请检查该目录
Cypress.io 如何处理异步代码

我正在将旧的水豚测试转移到 cypress io 因为我们的应用程序正在采用 SPA 方式在我们的案例中我们有超过 2000 个测试涵盖了很多功能因此测试功能的常见模式是让用户创建并发布报价一开始我写了 cypress 浏览页面
将我的自定义模型绑定到我的 POST 控制器

我正在使用最近发布的 MVC 4 Beta 4 0 20126 16343 并且正在努力解决反序列化模型绑定不适用于数组的已知问题请参阅此处堆栈溢出 https stackoverflow com questions 9592838 d
未使用的功能会产生什么后果

我想知道在代码中使用未使用的函数会产生什么如果有什么后果如果您查找并删除所有未使用的函数和变量性能是否会有明显的改进或者删除未使用的函数和变量只是一个好习惯未使用的功能不会损害性能他们让维护代码的人的工作变得更加困难现代 ID
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
Guava MultiSet 与 Map？

我对Multiset的理解是一个带有频率的集合但是我总是可以使用Map来表示频率还有其他原因使用Multiset吗优点Multiset
将参数传递给调试器中的 perl 文件并在系统执行的文件中设置断点

因此我使用 perl d file pl 在 perl 调试器中运行一个文件但 file pl 也应该接受参数如何向 file pl 提供参数还有一个问题 file pl 中有这一行 system file2 pl 如果 file2
Facebook 异常 #100：无法解析为有效的用户 ID

尝试使用 PHP 发布到用户的 facebook 墙时我收到错误 error type OAuthException message 100 http spats in nssc2 does not resolve to a valid
NodeJS 错误堆栈未定义 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我正在使用节点检查器我注意到new Error 有未定义的堆栈如果我将此值分配给一个变量该变量将显示堆栈未定义有趣的是跑步new
如何在 asp.net mvc 4 中使用 signalr v2 beta

v2 之前 RouteTable Routes MapHubs 在 v2 中 MapHubs 不再存在 wiki 说添加一个 Startup 类和一个 Configuration 方法以及对 app MapHubs 的调用 namespac
Java并发锁和条件的使用

我可以用object wait object notify and synchronized blocks解决生产者消费者类型的问题同时我可以使用locks and conditions from java util concurrent
如何加载具有可变文件名的 .mat 文件？

select all mat files oar dir oar mat n oar name loop through files for l 1 length oar load pat oar l lt this is the mat
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro

如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

如何将模型从 ML Pipeline 保存到 S3 或 HDFS？ 的相关文章

随机推荐

热门标签

如何将模型从 ML Pipeline 保存到 S3 或 HDFS？的相关文章