Spark中用于对称运算的笛卡尔上三角：`x*(x+1)//2`而不是`x**2`

2024-01-08

我需要计算 Spark 中列表项的成对对称分数。 IE。score(x[i],x[j]) = score(x[j], x[i])。一种解决方案是使用x.cartesian(x)。然而它会执行x**2操作而不是最低限度的必要操作x*(x+1)//2.

Spark 中解决此问题最有效的方法是什么？

附言。在纯 Python 中，我会使用迭代器，例如：

class uptrsq_range(object):

    def __init__(self, n):

        self._n_ = n
        self._length = n*(n+1) // 2

    def __iter__(self):
        for ii in range(self._n_):
            for jj in range(ii+1):
                yield (ii,jj)

    def __len__(self):
        """
        recepe by sleblanc @ stackoverflow
        """
        "This method returns the total number of elements"
        if self._length:
            return self._length
        else:
            raise NotImplementedError("Infinite sequence has no length")
            # or simply return None / 0 depending
            # on implementation

for i,j in uptrsq_range(len(x)):
    score(x[i], x[j])

最通用的方法是遵循cartesian with filter。例如：

rdd = sc.parallelize(range(10))

pairs = rdd.cartesian(rdd).filter(lambda x: x[0] < x[1])
pairs.count()

## 45

如果RDD比较小，你可以收集、广播和flatMap:

xs = sc.broadcast(rdd.collect())
pairs = rdd.flatMap(lambda y: [(x, y) for x in xs.value if x < y])
pairs.count()

## 45

如果可以在内部进一步过滤数据，这尤其有用flatMap以减少产生值的数量。

如果数据太大而无法收集/存储在内存中，但可以轻松计算（例如一系列数字）或可以从工作人员（本地可访问的数据库）有效访问，您可以flatMap如上所述或使用mapPartitions例如这样：

def some_function(iter):
    import sqlite3
    conn = sqlite3.connect('example.db')
    c = conn.cursor()
    query = ...  

    for x in iter:
        # fetch some data from a database
        c.execute(query, (x, ))
        for y in c.fetchall():
            yield (x, y)

rdd.mapPartitions(some_function)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

Spark中用于对称运算的笛卡尔上三角：`x*(x+1)//2`而不是`x**2` 的相关文章

在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

为什么选择 React.Children.only？

向反应专家提出快速问题 React Children only https reactjs org docs react api html reactchildrenonly是它的顶级 api 之一 react redux 非常常用
是否可以通过AWS lambda连接到本地计算机托管的数据库

我在 AWS 中启动了一个 RDS 实例 s3 和 EC2 并且使用 lambda 正确触发了它现在我希望将 RDS 和 EC2 从 AWS 更改为本地计算机我的 lambda 是从 s3 触发的在AWS中如何通过lambda连接本地
来自事件的流星地理定位方法

我想获取 latLng 但只能在事件发生后获取如何才能实现这一目标我尝试过跟踪器等但没有任何效果唯一有效的是调用 Geolocation latLng 从事件之前的助手内部这就是我希望它能发挥作用的方式我对 Session se
Sones GraphDB 查询返回错误

我在这里关注他们的教程 http developers sones de wiki doku php id quickreference 五分钟指南 http developers sones de wiki doku php id qui
CryptoJS 和 Closure 中的 SHA512 不一样

我在一个简单的加密挑战中遇到了一些麻烦我想做以下事情获取 url 编码和 base64 编码的值进行 url 解码进行 Base64 解码使用 Sha512 进行哈希处理使用 CryptoJS 时我使用以下代码 var par
在 Shiny R 中保存用户输入的 LeafletProxy 结果

在 Shiny R 中我正在制作一个带有叠加层的地图应用程序然后添加用户输入的叠加层因此当用户上传数据并看到带有标记的更新地图后我希望用户能够将新地图下载为 html 文件我将在下面对我正在做的事情做一个简化的演示服务器 ui
如何动态或在运行时设置 PropertyGrid 的 DefaultValueAttribute？

我正在定义一个与以下命令一起使用的自定义类属性网格 http msdn microsoft com en us library aa302326 aspx控制比如说其中一个属性定义如下 CategoryAttribute Section
Rspec 和 Capybara 未定义的局部变量或方法“page”

嗨我尝试开始我的第一个 RoR 项目但一开始就陷入困境我的 Gemfile 中有水豚 gem group development test do gem byebug gem web console gem spring gem rs
在 Node、Webpack 和 babel-loader 中使用 ES7 async/await 时出错

我正在尝试使用带有 webpack 和 babel loader es2015 stage 0 预设的 node js 在服务器上使用 javascript ES7 语法我已经让它可以与 babel node 一起使用但是当我运行 w
单击 GCM 通知时打开活动

我正在制作 gcm 申请现在我可以收到通知但是当我点击通知时它只是打开应用程序我需要打开另一个活动而不是主活动有什么办法可以做到这一点吗 final Intent intent new Intent context YourAct
一只猴子如何修补 python 中的函数？

我在用另一个函数替换不同模块中的函数时遇到了麻烦这让我发疯假设我有一个模块 bar py 如下所示 from a package baz import do something expensive def a function prin
如何在 UIDatePicker 中记住并加载选定的日期？

我有一个UIDatePicker那么允许您选择日期而不是时间然后我保存这个NSDate并使用将其显示在不同视图的标签中但是当我使用以下命令加载视图时UIDatePicker 如果用户已经选择了一个日期我希望它显示所选日期使用N
NSURLProtocol canInitWithRequest：调用多次

我们的应用程序中有很多网络视图我最近添加了一个 NSURLProtocol 来拦截来自它们的一些请求我注意到一些 Web 视图多次调用 NSURLPRotocol canInitWithRequest 方法其请求似乎完全相同有时6
包含正则表达式分隔符的简单且经过测试的在线正则表达式在 C# 代码中不起作用

我有一个像这样的正则表达式 name dr det fb ydp eu ebook trunk annotations ctrl php api1751 4060 1193 0487 name Regex Replace name W g
Avalonia UI 弹出叠加层

我的问题很简单如何使用 avalonia 实现叠加弹出效果我的意思是我想让包含我的 UI 元素的整个面板变暗一点尝试了不透明度属性但它看起来不太好并且 OpacityMask 似乎只支持透明作为颜色但我如果可能的话想要半透明
Docker 容器启动命令未获取 .bashrc 变量

我在启动容器时使用 docker 执行命令但似乎环境变量没有从 bashrc 文件中获取请给我一些建议谢谢 dockerFile 我将其添加到 bashrc 中 echo export PYTHONPATH PYTHONPATH mo
带有 numpy 数组的张量板

有人可以举例说明如何使用tensorboard可视化numpy数组值吗这里有一个相关的问题我不太明白 Tensorboard 记录非张量 numpy 信息 AUC https stackoverflow com questions 38
Dbt：在默认位置未找到 .dbt 文件夹

我正在创建 dbt 项目但是运行命令时dbt init
mousemove 事件仅在 mousedown 后更新一次

我在 jquery 中使用 mousemove 时遇到问题我想在 mousedown 事件和 mousemove 事件之后检查鼠标指针的坐标但它只更新一次结果只是 mousedown 事件发生时的坐标我真的需要一些建议谢谢我在这
Spark中用于对称运算的笛卡尔上三角：`x*(x+1)//2`而不是`x**2`

我需要计算 Spark 中列表项的成对对称分数 IE score x i x j score x j x i 一种解决方案是使用x cartesian x 然而它会执行x 2操作而不是最低限度的必要操作x x 1 2 Spark 中解决此问

Spark中用于对称运算的笛卡尔上三角：`x*(x+1)//2`而不是`x**2`

Spark中用于对称运算的笛卡尔上三角：`x*(x+1)//2`而不是`x**2` 的相关文章

随机推荐

热门标签