Spark 在运行 LinearRegressionwithSGD 时未利用所有核心

2023-12-01

我正在本地计算机（16G，8 个 cpu 核心）上运行 Spark。我试图在大小为 300MB 的数据集上训练线性回归模型。我检查了CPU统计信息以及正在运行的程序，它只执行一个线程。文档称他们已经实现了 SGD 的分布式版本。http://spark.apache.org/docs/latest/mllib-线性-methods.html#implementation-developer

from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD, LinearRegressionModel
from pyspark import SparkContext


def parsePoint(line):
  values = [float(x) for x in line.replace(',', ' ').split(' ')]
  return LabeledPoint(values[0], values[1:])

sc = SparkContext("local", "Linear Reg Simple")
data = sc.textFile("/home/guptap/Dropbox/spark_opt/test.txt")
data.cache()
parsedData = data.map(parsePoint)


model = LinearRegressionWithSGD.train(parsedData)

valuesAndPreds = parsedData.map(lambda p: (p.label,model.predict(p.features)))
MSE = valuesAndPreds.map(lambda (v, p): (v - p)**2).reduce(lambda x, y: x + y) / valuesAndPreds.count()
print("Mean Squared Error = " + str(MSE))


model.save(sc, "myModelPath")
sameModel = LinearRegressionModel.load(sc, "myModelPath")

我认为您想要做的是明确说明要在本地上下文中使用的核心数量。从评论中可以看出here, "local"（这就是你正在做的）在一个线程上实例化一个上下文，而"local[4]"将以 4 核运行。相信你也可以使用"local[*]"在系统上的所有内核上运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparkmllib

Spark 在运行 LinearRegressionwithSGD 时未利用所有核心的相关文章

具有定期更新的静态数据集的结构化流

将流媒体与静态数据集合并是结构化流媒体的一个重要功能但在每个批次中数据集都会从数据源刷新由于这些源并不总是那么动态因此在指定的时间段或批次数内缓存静态数据集会提高性能在指定的时间段批次数之后将从源重新加载数据集否则从缓存
如何在 pySpark 数据框中添加行 ID [重复]

这个问题在这里已经有答案了我有一个 csv 文件我在 pyspark 中将其转换为 DataFrame df 经过一番改造后我想在 df 中添加一列这应该是简单的行 ID 从 0 或 1 开始到 N 我将 df 转换为 rdd 并使
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple

随机推荐

C#中通过代码设置列表框项的字体和颜色

我正忙于一个自定义列表框我将其用作 C 中的寄存器读取器现在我想在确定的项目中设置一个确定的项目其字体和颜色与其他项目不同我检查了这个问题根据答案我编写了以下代码 private void myListBox DrawItem ob
如何只读取英文字符

我正在阅读一个有时包含中文和英文以外语言字符的文件如何编写一个只读取英文单词字母的正则表达式难道只是 a zA Z 如果我执行上述操作那么像 e t 这样的词仍然会被选中但我不希望这样 t match a zA Z gt nil
搜索栏，将路径颜色从黄色更改为白色

我有两个问题 1 如何将搜索栏路径的颜色从黄色默认颜色更改为白色我的意思是当我滑动拇指时它会将穿过的线从灰色变为黄色我希望轨道线路保持灰色或白色基本上我只想移动拇指而搜索栏中没有颜色变化 2 如何将搜索栏的拇指从矩形
Valgrind 检测到仍然存在泄漏

本块中提到的所有函数都是库函数我怎样才能纠正这个内存泄漏它列在仍然可达类别还有 4 个非常相似但大小不同 630 bytes in 1 blocks are still reachable in loss record 5 o
不使用 libSystem macOS 链接目标文件

我正在为 x86 64 上的 macOS 编写一个编译器但是当我将目标文件链接在一起时 ld says ld dynamic main executables must link with libSystem dylib for infe
为什么只有部分设备会收到推送通知

我设置了一个推送通知服务根据 RSS 源向客户端发送通知我有一项服务每分钟运行一次以查看是否有新帖子添加到提要中如果是这样该服务将向所有客户端发送通知然而一些人一直抱怨说他们没有收到任何推送通知这是我用来发送消息的函数 fu
多次克隆 NumPy 数组

我将一张图片加载到 numpy 数组中需要将其图片设置为 2 个不同的阈值 import numpy as np import cv2 cap cv2 Videocapture 0 pic cap read pic1 pic pic2 p
受限 CRTP 过早拒绝

我正在尝试实现一个从基模板继承的派生类并将派生类作为其模板参数希望下面的示例能够澄清问题 template
如何在 Windows 8 中重复使用在 Mac 上创建的软链接

我在 MacBook Pro 中创建的 1000 张图像说我的软链接很少我正在 iOS 应用程序中使用它们现在我正在 Windows 8 手机应用程序中移植相同的应用程序因此我想在 Windows Phone 8 应用程序中重用相同
Java 中使用派生类型作为参数的方法重载

假设我有现有的代码我想扩展它但又想尽可能避免更改它这段代码周围有一个接收某种类型的方法 Engine method Base b 现在我想扩展这个功能因此我将 Base 扩展为一个名为 Derived 的类型它包含我需要的更多
如何在 angular2 中应用主题？

我需要为我在 angular2 中开发的 Web 应用程序提供两个主题红色蓝色当我更改主题时所有组件都应该反映它吗在 Angular2 中应用主题的最佳实践是什么您可以使用文件代币从 angular platform b row
JDBCPreparedStatement导致MySQL语法错误

我收到错误您的 SQL 语法有错误请检查与您的 MySQL 服务器版本对应的手册了解在第 1 行 orderr 附近使用的正确语法所以我认为错误是我使用了两个但在我的代码中我没有使用任何注意该表实际上被命名为 order pub
如何将 cv::MAT 转换为 NHCW 格式？

在User Guide html中 tensorRT的输入输出需要使用NCHW格式什么是 NCHW 格式如何将 cv MAT 转换为 NCHW 格式我使用 TensorRT 运行推理如下代码所示没有任何错误但是这不是正确的输
用于 WPF 富客户端应用程序的图像编辑器组件

您是否知道可在 WPF 客户端应用程序中使用的简单 NET 组件该组件具有以下功能将图像从文件或剪贴板加载到画布中缩放和移动定义画布背景颜色将画布导出为新图像提前谢谢普伦森这些呢 http xdraw codeplex co
使用 asyncio 时无法使用 os.fork() 将多个进程绑定到一个套接字服务器

我们都知道使用 asyncio 可以显着提高套接字服务器的性能如果我们能够利用 cpu 中的所有核心可能通过多处理模块或os fork etc 我现在正在尝试构建一个多核套接字服务器演示其中一个异步套接字服务器侦听每个核心并全部绑定
具有相同标识符值的不同对象已与保存时的会话错误相关联[重复]

这个问题在这里已经有答案了可能的重复 Spring Hibernate 具有相同标识符值的不同对象已与会话关联我的休眠注释一直存在问题我在两个类之间有双向关系这是映射感谢axtavt Entity public class Rec
PhantomJS：在 REPL 中运行时 page.open() 没有响应

我试图通过标准输入发送一些 phantomJS 来运行它但我打开的网页没有响应这是我尝试执行的 JavaScript require webpage create open http google com function consol
错误：无法读取 null 的属性“close”

你好亲爱的社区我想知道为什么当我尝试使用 mongodb 和 nodejs 时会收到此错误 const MongoClient require mongodb MongoClient MongoClient connect mongod
usaco：十三号星期五我的逻辑有什么问题吗？

该问题要求计算一周中每一天出现的 13 号的数量这是我的代码 class CopyOffriday public static void main String args throws IOException BufferedReader
Spark 在运行 LinearRegressionwithSGD 时未利用所有核心

我正在本地计算机 16G 8 个 cpu 核心上运行 Spark 我试图在大小为 300MB 的数据集上训练线性回归模型我检查了CPU统计信息以及正在运行的程序它只执行一个线程文档称他们已经实现了 SGD 的分布式版本 http s

Spark 在运行 LinearRegressionwithSGD 时未利用所有核心

Spark 在运行 LinearRegressionwithSGD 时未利用所有核心 的相关文章

随机推荐

热门标签

Spark 在运行 LinearRegressionwithSGD 时未利用所有核心的相关文章