如何在 Spark 中使用 Sklearn 模型进行预测?

2024-03-10

我使用 sklearn 在 python 中训练了一个模型。我们如何使用相同的模型加载 Spark 并在 Spark RDD 上生成预测?


Well,

我将展示 Sklearn 中的线性回归示例,并向您展示如何使用它来预测 Spark RDD 中的元素。

首先使用 sklearn 示例训练模型:

# Create linear regression object
regr = linear_model.LinearRegression()

# Train the model using the training sets
regr.fit(diabetes_X_train, diabetes_y_train)

这里我们刚刚进行了拟合,您需要预测 RDD 中的每个数据。

在这种情况下,您的 RDD 应该是带有 X 的 RDD,如下所示:

rdd = sc.parallelize([1, 2, 3, 4])

所以你首先需要广播你的 sklearn 模型:

regr_bc = self.sc.broadcast(regr)

然后你可以用它来预测你的数据,如下所示:

rdd.map(lambda x: (x, regr_bc.value.predict(x))).collect()

因此,RDD 中的元素是您的 X,第二个元素将是您预测的 Y。collect 将返回如下内容:

[(1, 2), (2, 4), (3, 6), ...]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Spark 中使用 Sklearn 模型进行预测? 的相关文章

  • SQLAlchemy 通过关联对象声明式多对多自连接

    我有一个用户表和一个朋友表 它将用户映射到其他用户 因为每个用户可以有很多朋友 这个关系显然是对称的 如果用户A是用户B的朋友 那么用户B也是用户A的朋友 我只存储这个关系一次 除了两个用户 ID 之外 Friends 表还有其他字段 因此
  • 将 saxon 与 python 结合使用

    我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用 有两种可能的方法 设置一个 HTTP 服务 接受
  • 将 Matplotlib 误差线放置在不位于条形中心的位置

    我正在 Matplotlib 中生成带有错误栏的堆积条形图 不幸的是 某些层相对较小且数据多样 因此多个层的错误条可能重叠 从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置 即沿 x 轴移动它 以便重叠的线显示在彼此
  • 使 django 服务器可以在 LAN 中访问

    我已经安装了Django服务器 可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时 从同一网络下的另一台电脑 my ip
  • 为 Anaconda Python 安装 psycopg2

    我有 Anaconda Python 3 4 但是每当我运行旧代码时 我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
  • 从字符串中删除识别的日期

    作为输入 我有几个包含不同格式日期的字符串 例如 彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期 在下一步中 我想从字符串中删除
  • 如何替换 pandas 数据框列中的重音符号

    我有一个数据框dataSwiss其中包含瑞士城市的信息 我想用普通字母替换带有重音符号的字母 这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
  • python 相当于 R 中的 get() (= 使用字符串检索符号的值)

    在 R 中 get s 函数检索名称存储在字符变量 向量 中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数 尽管花了一些时间翻
  • 如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理?

    Spark 2 2引入了Kafka的结构化流源 据我了解 它依赖 HDFS 检查点目录来存储偏移量并保证 恰好一次 消息传递 但是旧码头 比如https blog cloudera com blog 2017 06 offset manag
  • Spark KMeans 无法处理大数据吗?

    KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
  • 添加不同形状的 numpy 数组

    我想添加两个不同形状的 numpy 数组 但不进行广播 而是将 缺失 值视为零 可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状 我正在弄乱每个 np shape
  • 如何在ipywidget按钮中显示全文?

    我正在创建一个ipywidget带有一些文本的按钮 但按钮中未显示全文 我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
  • 在 Spark 中计算逻辑回归系数的标准误差

    我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
  • 每个 X 具有多个 Y 值的 Python 散点图

    我正在尝试使用 Python 创建一个散点图 其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值 如果每个 X 值的 Y 值的数量相同 我可以使用以下代码使其工作 import numpy as np import mat
  • 类型错误:预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

    我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入 状态TypeError List of Tensors when single Te
  • Python 类继承 - 诡异的动作

    我观察到类继承有一个奇怪的效果 对于我正在处理的项目 我正在创建一个类来充当另一个模块的类的包装器 我正在使用第 3 方 aeidon 模块 用于操作字幕文件 但问题可能不太具体 以下是您通常如何使用该模块 project aeidon P
  • 导入错误:没有名为 site 的模块 - mac

    我已经有这个问题几个月了 每次我想获取一个新的 python 包并使用它时 我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误 实际上 我无法使用任何新软件包 因为每次我
  • Python Selenium:如何在文本文件中打印网站上的值?

    我正在尝试编写一个脚本 该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中 最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物 的 HTML span class
  • 如何将输入读取为数字?

    这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章 目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数 注意 在Python 2
  • Statsmodels.formula.api OLS不显示截距的统计值

    我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

  • 从稀疏定义列表中挑选无模式下值的算法

    我有以下问题 我正在开发一个随机模拟器 它随机采样系统的配置 并存储每个配置在特定时间实例被访问次数的统计数据 代码大致是这样的 f Integer Integer 0 someplace later in the code e g ind
  • jQuery 中的缓动函数

    这个问题听起来太微不足道了 但我在任何地方都找不到答案 我正在浏览 jQuery 文档 看到了一些像这样的签名 show duration easing callback and animate properties duration ea
  • 如何过滤多个extjs网格列?

    要过滤一个网格列 我们可以使用 xtype button text Search handler function store clearFilter var searchValue Ext getCmp textFieldId getVa
  • 目录轮询的最佳实践

    我必须进行批处理来自动化业务流程 我必须定期轮询目录以检测新文件并进行处理 当旧文件正在处理时 新文件可以进来 目前 我使用quartz调度程序和线程同步来确保只有一个线程可以处理文件 部分代码为 应用程序上下文 xml
  • MSVC 中带有 UTF8 字符的 wchar_t*

    我正在尝试格式化wchar t 与 UTF 8 字符一起使用vsnprintf然后使用打印缓冲区printf 给出以下代码 This code is modified version of KB sample https www ibm c
  • Spring MVC 控制器中代理 HttpServletRequest 最简单的方法

    我正在使用 spring mvc 构建 REST 服务 我现在正在寻找一种从 Spring MVC 控制器内部将 HTTP 请求代理到外部 REST 服务的方法 我正在获取 HttpServletRequest 对象 并希望代理它并进行尽可
  • 查找所有子控件WPF

    我想找到 WPF 控件中的所有控件 我查看了很多示例 似乎它们都需要名称作为参数传递 或者根本不起作用 我有现有的代码 但它无法正常工作 public static IEnumerable
  • C 预处理器能够逐字符处理字符串吗?

    我想在编译时隐藏字符串 我知道它可以在其他预处理器中完成 但我还没有找到一种方法来做到这一点C预处理器 好吧 你可以做到 但它很难看 define ENCODE STRING 14 str str 0 0x020 str 1 0x020 s
  • Ruby 的 String#gsub、unicode 和非单词字符

    作为更大系列操作的一部分 我试图获取更大字符串的标记化块 并去掉标点符号 非单词官样文章等 我最初的尝试使用String gsub和 W正则表达式字符类 如下所示 my str Hello processed my str gsub W p
  • 在 Visual Studio 2008 中创建项目解决方案的设置

    所以我对工资单申请的最终查询是 如何创建工资单应用程序设置 我需要知道的就是 如何将安装项目添加到现有解决方案中 如何将解决方案中的文件添加到安装项目以及要添加哪些文件 添加并在哪个文件夹中 即默认有三个文件夹 应用程序文件夹 用户桌面 用
  • 有没有办法唯一地标识我的 Chrome 扩展程序运行内容脚本的 iframe?

    在我的 Chrome 扩展中 我注入了内容脚本进入所有IFRAMEs在一个页面内 这是其中的一部分manifest json file content scripts run at document end all frames true
  • 为什么 JavaScript 函数需要有关键字“async”? “await”关键字还不够吗? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 例如 为什么下面的函数需要 async 没有使用await是否足够具体以使编译器能够毫无歧义地解析代码 Why do we need async
  • WPF TextBox 不会填充 StackPanel

    我有一个TextBox控制在一个StackPanel whose Orientation被设定为Horizontal 但无法让 TextBox 填充剩余的 StackPanel 空间 XAML
  • 无法在 VS2017 中加载源 https://api.nuget.org/v3/index.json 的服务索引?

    我收到此错误 nuget org 无法加载源的服务索引https api nuget org v3 index json https api nuget org v3 index json 发送时发生错误 的请求 无法连接到远程服务器A连接
  • NReco视频剪辑

    我编写了一个使用 NReco 库剪切视频的函数 public void SplitVideo string SourceFile string DestinationFile int StartTime int EndTime var ff
  • 对 JavaScript 中的递归和执行流程有更清晰的解释吗?

    我正在阅读 Eloquent JavaScript 并遇到了这个难题的示例 考虑这个难题 从 数字 1 并重复 加 5 或乘以 3 可以有无限数量的新数字 产生的 你会怎样写一个 函数 给定一个数字 尝试 找到添加序列并 产生的乘法 数字
  • 使用maven 3.8.5在intellij Idea中导入Springboot 2.7项目时出错

    当使用start spring io时 使用 springboot 2 7 生成的项目附带 MavenProject 3 8 5 当在 intellij 中导入时 会导致一个很难调试或本身不自言自语的错误 错误 java lang Runt
  • 获取本[周/月/季度/年]最后一天的日期

    有什么方法可以获取日期 adatetime pd Timestamp或同等金额 本 周 月 季度 年 的最后一天datetime pandas或其他日期和时间实用程序 Using datetime only gt gt gt d datet
  • Java 8/Javascript (Nashorn) 长互操作性

    在 Java 8 Nashorn 中执行的以下 Javascript 代码的行为不符合预期 if a b do sth a 和 b 是来自 Java 对象的长值 例如 1023948 1023949 例如 当 a 1023949 且 b 1
  • 如何在 Spark 中使用 Sklearn 模型进行预测?

    我使用 sklearn 在 python 中训练了一个模型 我们如何使用相同的模型加载 Spark 并在 Spark RDD 上生成预测 Well 我将展示 Sklearn 中的线性回归示例 并向您展示如何使用它来预测 Spark RDD