Spark 中的总和变坏了

2023-12-30

基于KMeans 的不平衡因子？ https://stackoverflow.com/questions/39235576/unbalanced-factor-of-kmeans，我试图计算不平衡因子，但失败了。

RDD 的每个元素r2_10是一对，其中键是簇，值是点的元组。这些都是身份证。下面我介绍一下发生的情况：

In [1]: r2_10.collect()
Out[1]: 
[(0, ('438728517', '28138008')),
 (13824, ('4647699097', '6553505321')),
 (9216, ('2575712582', '1776542427')),
 (1, ('8133836578', '4073591194')),
 (9217, ('3112663913', '59443972', '8715330944', '56063461')),
 (4609, ('6812455719',)),
 (13825, ('5245073744', '3361024394')),
 (4610, ('324470279',)),
 (2, ('2412402108',)),
 (3, ('4766885931', '3800674818', '4673186647', '350804823', '73118846'))]

In [2]: pdd = r2_10.map(lambda x: (x[0], 1)).reduceByKey(lambda a, b: a + b)

In [3]: pdd.collect()
Out[3]: 
[(13824, 1),
 (9216, 1),
 (0, 1),
 (13825, 1),
 (1, 1),
 (4609, 1),
 (9217, 1),
 (2, 1),
 (4610, 1),
 (3, 1)]

In [4]: n = pdd.count()

In [5]: n
Out[5]: 10

In [6]: total = pdd.map(lambda x: x[1]).sum() 

In [7]: total
Out[7]: 10

and total应该有总点数。然而，是10……目标是22！

我在这里缺少什么？

问题是因为您错过了计算每个簇中分组的点数，因此您必须更改方式pdd被创建。

pdd = r2_10.map(lambda x: (x[0], len(x[1]))).reduceByKey(lambda a, b: a + b)

但是，您可以在一次传递中获得相同的结果（无需计算pdd），通过映射的值RDD然后通过使用减少sum.

total = r2_10.map(lambda x: len(x[1])).sum()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

function

apachespark

machinelearning

distributedcomputing

Spark 中的总和变坏了的相关文章

为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
不接受任何内容也不返回任何内容的函数接口[重复]

这个问题在这里已经有答案了 JDK中是否有一个标准的函数式接口不接受也不返回任何内容我找不到一个像下面这样 FunctionalInterface interface Action void execute 可运行怎么样 Functi
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Firefox 书签探索未超过 Javascript 的第一级

我已经编写了一些代码来探索我的 Firefox 书签但我只获得了第一级书签即我没有获得文件夹中的链接 e g 搜索引擎雅虎网站谷歌网站在此示例中我只能访问 Search engines 和 google com 不能访问 yah
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

如何水平对齐跨度文本和输入元素

我正在努力创建一个搜索表单在这个搜索表单中我使用了
CMake Eclipse 构建配置

我想使用 CMake 生成 Eclipse CDT 项目其中生成的 Eclipse 项目包含定义的构建类型作为 IDE 中的可选构建配置例如 if CMAKE CONFIGURATION TYPES set CMAKE CONFIGUR
Networkx：使用公共函数进行边权重计算

假设我有一个函数euc 2d graph n1 n2 计算同一图的两个节点之间的欧几里德距离每个节点都有一个给定的pos x y 这是在图创建时分配的 NetworkX 提供了一个函数来获取图的所有边的总权重即graph size we
如何返回带有捕获的 unique_ptr 的 lambda [重复]

这个问题在这里已经有答案了使用这个 https stackoverflow com a 16968463 629530 https stackoverflow com a 16968463 629530 我可以在 lambda 中捕获 u
密码自动完成功能不适用于我的网络应用程序（在 Firefox 中）

我已经用 HTML 创建了一个登录提交表单但由于某种原因自动完成功能在 Firefox 中不起作用这是 Firefox 中发生的情况我提供用户名和密码然后单击登录按钮 Firefox 会提示我是否要记住密码我按记住并登录即可
Vagrant 来测试厨师食谱 - 但如何处理私人 git

我使用 vagrant 来测试我的厨师食谱问题是我已经克隆了我的私人存储库并且机器没有被认证我如何自动对 boostrap Chef 进行 git 身份验证我正在使用 vagrant ubuntu 11 10 with Chef Th
throw new TypeError('OAuth2Strategy 需要 clientID 选项'); }

这是出现的错误该怎么办我创建了一个 socket io 聊天应用程序这是一个使用 nodejs socket io 和 package json 的聊天应用程序包 json dependencies body parser 1 15
如果在构造函数中设置 DataContext，在调用 InitializeComponent() 之前还是之后设置它有什么关系吗？

我有一个 WPF 窗口它在构造函数中接受一些参数然后我使用这些构造函数来设置窗口的状态该构造函数过程的一部分是实例化我的视图模型类然后将其设置为窗口DataContext 我的问题是我什么时候应该设置我的DataContext等于我
在 Powershell 中捕获 Windows 窗体关闭事件

我有一个窗口窗体当我单击 Windows 窗体控制框的关闭 X 按钮时我想显示一条消息或可能执行某些操作下面是代码 void System Reflection Assembly LoadWithPartialName System
你应该在 Github 上分叉还是分支？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案许多 github 存储库要求在每次重要的代码更改时创建一个分支这与 git 中的分支完全相同为什么github要引入forks 我喜欢 g
为类变量赋值是为该对象的所有实例分配它

我有一个带字典的课我创建了该类的 n 个实例当我该字典中某个键上的值时它会反映在我从该对象实例化的每个对象中如何使该字典对于该类的每个实例都是唯一的这是我创建对象的方法 for num in range 0 numOfPlaye
WAMP 服务器 Apache 无法启动

有几个主题与此非常相似但是在查看了已解决的主题后我没有遇到相同的问题其余的也没有解决我已经安装了新版本的 WAMP 没有对任何文件进行任何更改打开 wamp 图标永远不会从红色变为绿色放到网上就报错无法执行菜单项内部错误
创建多行取决于特殊条件[重复]

这个问题在这里已经有答案了我的 data frame 如下 duration classlabel 100 W 120 1 390 2 30 3 30 2 150 3 30 4 60 3 60 4 30 3 120 4 30 3 120
左侧 -> 右侧和顶部 -> 底部位置之间的 CSS 过渡

是否可以使用 CSS 过渡在位置集之间设置动画left 0px to right 0px所以它一直穿过屏幕我需要从上到下完成同样的事情我是否卡住了计算屏幕宽度对象大小 nav position absolute top 0px lef
用Python创建图片蒙太奇

我没有使用 python 的经验但该脚本的所有者没有响应当我将照片拖到此脚本上以创建蒙太奇时它最终会切掉右侧边缘最后一张照片的一半 4张图片宽 1 2 3 4 5 6 7 8 图4和图8通常会减半那里有图片的空间虽然是空白的我想
选择哪种 JVM 进行 GC 黑客攻击？

我有一个 GC 算法的设计我想为 JVM 实现它以允许进行基准测试有没有人有过关于哪种实现可以轻松进行黑客攻击的经验但哪种实现仍然具有内置的 GC 可以进行有意义的比较编辑我想要一个具有垃圾收集功能的 JVM 因为我想使用它收集
如何使用 jquery 将数据追加到表中

我有一个 HTML 表 table class table striped table bordered style width 100 thead tr th width 5 Sr No th th width 25 Product Na
多线程 sqlalchemy web 应用程序中推荐的scoped_session 使用模式是什么？

我正在使用 python 和 sqlalchemy 0 7 编写一个应用程序它首先初始化 sqlalchemy orm 使用声明式然后启动一个多线程 Web 服务器我目前正在使用 web py 进行快速原型设计但将来可能会改变我还
线程“main”中的异常 java.lang.NoClassDefFoundError: (名称错误[已关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我的项目位
Spark 中的总和变坏了

基于KMeans 的不平衡因子 https stackoverflow com questions 39235576 unbalanced factor of kmeans 我试图计算不平衡因子但失败了 RDD 的每个元素r2 10是一对

Spark 中的总和变坏了

Spark 中的总和变坏了 的相关文章

随机推荐

热门标签

Spark 中的总和变坏了的相关文章