如何在 Spark 中使用 Sklearn 模型进行预测？

2024-03-10

我使用 sklearn 在 python 中训练了一个模型。我们如何使用相同的模型加载 Spark 并在 Spark RDD 上生成预测？

Well,

我将展示 Sklearn 中的线性回归示例，并向您展示如何使用它来预测 Spark RDD 中的元素。

首先使用 sklearn 示例训练模型：

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

这里我们刚刚进行了拟合，您需要预测 RDD 中的每个数据。

在这种情况下，您的 RDD 应该是带有 X 的 RDD，如下所示：

rdd = sc.parallelize([1, 2, 3, 4])

所以你首先需要广播你的 sklearn 模型：

regr_bc = self.sc.broadcast(regr)

然后你可以用它来预测你的数据，如下所示：

rdd.map(lambda x: (x, regr_bc.value.predict(x))).collect()

因此，RDD 中的元素是您的 X，第二个元素将是您预测的 Y。collect 将返回如下内容：

[(1, 2), (2, 4), (3, 6), ...]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

scikitlearn

PySpark

apachesparkmllib

如何在 Spark 中使用 Sklearn 模型进行预测？的相关文章

SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

从稀疏定义列表中挑选无模式下值的算法

我有以下问题我正在开发一个随机模拟器它随机采样系统的配置并存储每个配置在特定时间实例被访问次数的统计数据代码大致是这样的 f Integer Integer 0 someplace later in the code e g ind
jQuery 中的缓动函数

这个问题听起来太微不足道了但我在任何地方都找不到答案我正在浏览 jQuery 文档看到了一些像这样的签名 show duration easing callback and animate properties duration ea
如何过滤多个extjs网格列？

要过滤一个网格列我们可以使用 xtype button text Search handler function store clearFilter var searchValue Ext getCmp textFieldId getVa
目录轮询的最佳实践

我必须进行批处理来自动化业务流程我必须定期轮询目录以检测新文件并进行处理当旧文件正在处理时新文件可以进来目前我使用quartz调度程序和线程同步来确保只有一个线程可以处理文件部分代码为应用程序上下文 xml
MSVC 中带有 UTF8 字符的 wchar_t*

我正在尝试格式化wchar t 与 UTF 8 字符一起使用vsnprintf然后使用打印缓冲区printf 给出以下代码 This code is modified version of KB sample https www ibm c
Spring MVC 控制器中代理 HttpServletRequest 最简单的方法

我正在使用 spring mvc 构建 REST 服务我现在正在寻找一种从 Spring MVC 控制器内部将 HTTP 请求代理到外部 REST 服务的方法我正在获取 HttpServletRequest 对象并希望代理它并进行尽可
查找所有子控件WPF

我想找到 WPF 控件中的所有控件我查看了很多示例似乎它们都需要名称作为参数传递或者根本不起作用我有现有的代码但它无法正常工作 public static IEnumerable
C 预处理器能够逐字符处理字符串吗？

我想在编译时隐藏字符串我知道它可以在其他预处理器中完成但我还没有找到一种方法来做到这一点C预处理器好吧你可以做到但它很难看 define ENCODE STRING 14 str str 0 0x020 str 1 0x020 s
Ruby 的 String#gsub、unicode 和非单词字符

作为更大系列操作的一部分我试图获取更大字符串的标记化块并去掉标点符号非单词官样文章等我最初的尝试使用String gsub和 W正则表达式字符类如下所示 my str Hello processed my str gsub W p
在 Visual Studio 2008 中创建项目解决方案的设置

所以我对工资单申请的最终查询是如何创建工资单应用程序设置我需要知道的就是如何将安装项目添加到现有解决方案中如何将解决方案中的文件添加到安装项目以及要添加哪些文件添加并在哪个文件夹中即默认有三个文件夹应用程序文件夹用户桌面用
有没有办法唯一地标识我的 Chrome 扩展程序运行内容脚本的 iframe？

在我的 Chrome 扩展中我注入了内容脚本进入所有IFRAMEs在一个页面内这是其中的一部分manifest json file content scripts run at document end all frames true
为什么 JavaScript 函数需要有关键字“async”？ “await”关键字还不够吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案例如为什么下面的函数需要 async 没有使用await是否足够具体以使编译器能够毫无歧义地解析代码 Why do we need async
WPF TextBox 不会填充 StackPanel

我有一个TextBox控制在一个StackPanel whose Orientation被设定为Horizontal 但无法让 TextBox 填充剩余的 StackPanel 空间 XAML
无法在 VS2017 中加载源 https://api.nuget.org/v3/index.json 的服务索引？

我收到此错误 nuget org 无法加载源的服务索引https api nuget org v3 index json https api nuget org v3 index json 发送时发生错误的请求无法连接到远程服务器A连接
NReco视频剪辑

我编写了一个使用 NReco 库剪切视频的函数 public void SplitVideo string SourceFile string DestinationFile int StartTime int EndTime var ff
对 JavaScript 中的递归和执行流程有更清晰的解释吗？

我正在阅读 Eloquent JavaScript 并遇到了这个难题的示例考虑这个难题从数字 1 并重复加 5 或乘以 3 可以有无限数量的新数字产生的你会怎样写一个函数给定一个数字尝试找到添加序列并产生的乘法数字
使用maven 3.8.5在intellij Idea中导入Springboot 2.7项目时出错

当使用start spring io时使用 springboot 2 7 生成的项目附带 MavenProject 3 8 5 当在 intellij 中导入时会导致一个很难调试或本身不自言自语的错误错误 java lang Runt
获取本[周/月/季度/年]最后一天的日期

有什么方法可以获取日期 adatetime pd Timestamp或同等金额本周月季度年的最后一天datetime pandas或其他日期和时间实用程序 Using datetime only gt gt gt d datet
Java 8/Javascript (Nashorn) 长互操作性

在 Java 8 Nashorn 中执行的以下 Javascript 代码的行为不符合预期 if a b do sth a 和 b 是来自 Java 对象的长值例如 1023948 1023949 例如当 a 1023949 且 b 1
如何在 Spark 中使用 Sklearn 模型进行预测？

我使用 sklearn 在 python 中训练了一个模型我们如何使用相同的模型加载 Spark 并在 Spark RDD 上生成预测 Well 我将展示 Sklearn 中的线性回归示例并向您展示如何使用它来预测 Spark RDD

如何在 Spark 中使用 Sklearn 模型进行预测？

如何在 Spark 中使用 Sklearn 模型进行预测？ 的相关文章

随机推荐

热门标签

如何在 Spark 中使用 Sklearn 模型进行预测？的相关文章