Spark 在运行 LinearRegressionwithSGD 时未利用所有核心

2023-12-01

我正在本地计算机(16G,8 个 cpu 核心)上运行 Spark。我试图在大小为 300MB 的数据集上训练线性回归模型。我检查了CPU统计信息以及正在运行的程序,它只执行一个线程。 文档称他们已经实现了 SGD 的分布式版本。http://spark.apache.org/docs/latest/mllib-线性-methods.html#implementation-developer

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD, LinearRegressionModel
from pyspark import SparkContext


def parsePoint(line):
  values = [float(x) for x in line.replace(',', ' ').split(' ')]
  return LabeledPoint(values[0], values[1:])

sc = SparkContext("local", "Linear Reg Simple")
data = sc.textFile("/home/guptap/Dropbox/spark_opt/test.txt")
data.cache()
parsedData = data.map(parsePoint)


model = LinearRegressionWithSGD.train(parsedData)

valuesAndPreds = parsedData.map(lambda p: (p.label,model.predict(p.features)))
MSE = valuesAndPreds.map(lambda (v, p): (v - p)**2).reduce(lambda x, y: x + y) / valuesAndPreds.count()
print("Mean Squared Error = " + str(MSE))


model.save(sc, "myModelPath")
sameModel = LinearRegressionModel.load(sc, "myModelPath")

我认为您想要做的是明确说明要在本地上下文中使用的核心数量。从评论中可以看出here, "local"(这就是你正在做的)在一个线程上实例化一个上下文,而"local[4]"将以 4 核运行。相信你也可以使用"local[*]"在系统上的所有内核上运行。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 在运行 LinearRegressionwithSGD 时未利用所有核心 的相关文章

随机推荐

  • C#中通过代码设置列表框项的字体和颜色

    我正忙于一个自定义列表框 我将其用作 C 中的寄存器读取器 现在我想在确定的项目中设置一个确定的项目 其字体和颜色与其他项目不同 我检查了这个问题根据答案我编写了以下代码 private void myListBox DrawItem ob
  • 如何只读取英文字符

    我正在阅读一个有时包含中文和英文以外语言字符的文件 如何编写一个只读取英文单词 字母的正则表达式 难道只是 a zA Z 如果我执行上述操作 那么像 e t 这样的词仍然会被选中 但我不希望这样 t match a zA Z gt nil
  • 搜索栏,将路径颜色从黄色更改为白色

    我有两个问题 1 如何将搜索栏 路径 的颜色从黄色 默认颜色 更改为白色 我的意思是 当我滑动拇指时 它会将穿过的线从灰色变为黄色 我希望轨道 线路保持灰色或白色 基本上 我只想移动拇指 而搜索栏中没有颜色变化 2 如何将搜索栏的拇指从矩形
  • Valgrind 检测到仍然存在泄漏

    本块中提到的所有函数都是库函数 我怎样才能纠正这个内存泄漏 它列在 仍然可达 类别 还有 4 个 非常相似 但大小不同 630 bytes in 1 blocks are still reachable in loss record 5 o
  • 不使用 libSystem macOS 链接目标文件

    我正在为 x86 64 上的 macOS 编写一个编译器 但是当我将目标文件链接在一起时 ld says ld dynamic main executables must link with libSystem dylib for infe
  • 为什么只有部分设备会收到推送通知

    我设置了一个推送通知服务 根据 RSS 源向客户端发送通知 我有一项服务每分钟运行一次 以查看是否有新帖子添加到提要中 如果是这样 该服务将向所有客户端发送通知 然而 一些人一直抱怨说他们没有收到任何推送通知 这是我用来发送消息的函数 fu
  • 多次克隆 NumPy 数组

    我将一张图片加载到 numpy 数组中 需要将其图片设置为 2 个不同的阈值 import numpy as np import cv2 cap cv2 Videocapture 0 pic cap read pic1 pic pic2 p
  • 受限 CRTP 过早拒绝

    我正在尝试实现一个从基模板继承的派生类 并将派生类作为其模板参数 希望下面的示例能够澄清问题 template
  • 如何在 Windows 8 中重复使用在 Mac 上创建的软链接

    我在 MacBook Pro 中创建的 1000 张图像说 我的软链接很少 我正在 iOS 应用程序中使用它们 现在我正在 Windows 8 手机应用程序中移植相同的应用程序 因此我想在 Windows Phone 8 应用程序中重用相同
  • Java 中使用派生类型作为参数的方法重载

    假设我有现有的代码 我想扩展它 但又想尽可能避免更改它 这段代码周围有一个接收某种类型的方法 Engine method Base b 现在 我想扩展这个功能 因此 我将 Base 扩展为一个名为 Derived 的类型 它包含我需要的更多
  • 如何在 angular2 中应用主题?

    我需要为我在 angular2 中开发的 Web 应用程序提供两个主题 红色 蓝色 当我更改主题时 所有组件都应该反映它吗 在 Angular2 中应用主题的最佳实践是什么 您可以使用文件代币从 angular platform b row
  • JDBCPreparedStatement导致MySQL语法错误

    我收到错误 您的 SQL 语法有错误 请检查与您的 MySQL 服务器版本对应的手册 了解在第 1 行 orderr 附近使用的正确语法 所以我认为错误是我使用了两个 但在我的代码中我没有使用任何 注意该表实际上被命名为 order pub
  • 如何将 cv::MAT 转换为 NHCW 格式?

    在User Guide html中 tensorRT的输入 输出需要使用NCHW格式 什么是 NCHW 格式 如何将 cv MAT 转换为 NCHW 格式 我使用 TensorRT 运行推理 如下代码所示 没有任何错误 但是 这不是正确的输
  • 用于 WPF 富客户端应用程序的图像编辑器组件

    您是否知道可在 WPF 客户端应用程序中使用的简单 NET 组件 该组件具有以下功能 将图像从文件或剪贴板加载到画布中 缩放和移动 定义画布背景颜色 将画布导出为新图像 提前谢谢 普伦森 这些呢 http xdraw codeplex co
  • 使用 asyncio 时无法使用 os.fork() 将多个进程绑定到一个套接字服务器

    我们都知道 使用 asyncio 可以显着提高套接字服务器的性能 如果我们能够利用 cpu 中的所有核心 可能通过多处理模块或os fork etc 我现在正在尝试构建一个多核套接字服务器演示 其中一个异步套接字服务器侦听每个核心并全部绑定
  • 具有相同标识符值的不同对象已与保存时的会话错误相关联[重复]

    这个问题在这里已经有答案了 可能的重复 Spring Hibernate 具有相同标识符值的不同对象已与会话关联 我的休眠注释一直存在问题 我在两个类之间有双向关系 这是映射 感谢axtavt Entity public class Rec
  • PhantomJS:在 REPL 中运行时 page.open() 没有响应

    我试图通过标准输入发送一些 phantomJS 来运行它 但我打开的网页没有响应 这是我尝试执行的 JavaScript require webpage create open http google com function consol
  • 错误:无法读取 null 的属性“close”

    你好 亲爱的社区 我想知道为什么当我尝试使用 mongodb 和 nodejs 时会收到此错误 const MongoClient require mongodb MongoClient MongoClient connect mongod
  • usaco:十三号星期五我的逻辑有什么问题吗?

    该问题要求计算一周中每一天出现的 13 号的数量 这是我的代码 class CopyOffriday public static void main String args throws IOException BufferedReader
  • Spark 在运行 LinearRegressionwithSGD 时未利用所有核心

    我正在本地计算机 16G 8 个 cpu 核心 上运行 Spark 我试图在大小为 300MB 的数据集上训练线性回归模型 我检查了CPU统计信息以及正在运行的程序 它只执行一个线程 文档称他们已经实现了 SGD 的分布式版本 http s