哪种 pyspark 抽象适合我的大型矩阵乘法？

2024-01-25

我想执行大型矩阵乘法 C = A * B.T然后通过应用严格的阈值来过滤 C，收集形式为（行索引、列索引、值）的列表。

A 和 B 很稀疏，条目大多为零。它们最初表示为稀疏 scipy csr 矩阵。

矩阵的大小（当它们是密集格式时）：
答：9G（900,000 x 1200）
B：6.75G（700,000×1200）
C、阈值处理前：5000G
C、阈值处理后：0.5G

使用 pyspark，您认为什么策略在这里最有效？我应该使用哪个抽象来并行化 A 和 B？我还应该考虑什么来优化分区大小？

我应该坚持使用 scipy 稀疏矩阵对象并将它们简单地并行化为 RDD（也许使用一些自定义序列化）？

我是否应该使用 DataFrame 存储 A 和 B 矩阵的非零条目，然后在它们位于执行器上时将它们转换为本地 pyspark 矩阵类型？

我应该使用 MLlib 的 DistributedMatrix 抽象吗？对于这个策略，我想我首先将我的 scipy csr 矩阵转换为 coo 格式，然后创建一个 pyspark CooperativeMatrix，然后转换为

块矩阵？密集表示，但允许与另一个分布式 BlockMatrix 进行矩阵乘法。
索引行矩阵？稀疏表示，但只允许与局部矩阵相乘（例如广播 SparseMatrix ？）

*编辑浏览文档也很高兴发现 IndexedRowMatrix 函数 columnSimilarities()，当目标是计算余弦相似度时，这可能是一个不错的选择。

我现在正在寻找本地解决方案。我有两台机器可用于原型设计：16G RAM、10 个 CPU 或 64G RAM、28 个 CPU。一旦我有了一个好的原型，就计划在集群上运行它。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

sparsematrix

cosinesimilarity

哪种 pyspark 抽象适合我的大型矩阵乘法？的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

在scala中将两个元组组合成一个新的更大元组的干净方法？

假设我有以下元组 scala gt val t1 Tuple2 abcd efg t1 java lang String java lang String abcd efg scala gt val t2 Tuple2 1234 lmnop
ios - 资源文件大小超过 2GB 的企业应用程序

我正在开发一个用于企业分发的 ipad 应用程序仅由我公司人员使用它有很多视频文件图像 pdf等制作应用程序后 ipa的大小约为2 2 GB 我想知道该应用程序是否可以在所有 iPad 上有效运行或者这样做会很麻烦吗期待一些不会
无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER

我在训练 NER 的 BERT CRF 模型时遇到了一个未知问题我使用 keras contrib 作为 CRF 模型这是导入的库 pip install transformers pip install git https www g
Flutter：如何在不复制整个文件的情况下调整/覆盖 Flutter 核心代码的属性？

这个问题与以下 StackOverflow 问题相关底部工作表的初始高度为屏幕的一半如果滚动则高度会增加到全屏 https stackoverflow com questions 52028107 bottom sheet with
nodejs - 如何比较 bcrypt 的两个哈希密码

您好在我搜索解决方案后我需要一些关于这个问题的帮助但我还没有找到我想将2个哈希密码与相同密码的bcrypt进行比较我该怎么做例如我有这 2 个哈希密码它们来自 bcrypt 中的相同密码 var password E Js
有没有办法保证Java中的接口扩展类？

假设我有以下情况 public abstract class Vehicle public void turnOn public interface Flier public void fly 有没有一种方法可以保证任何实现的类Flier还
如何将文件从旧文件夹结构移动到新文件夹结构？

我想修改现有的文件夹结构我有一个按以下方式组织的文件树 Client Name State Province City Order Number 但我对其进行了修改在订单号之前添加一个地址并用连字符分隔如下所示 Client Nam
变址寻址方式和隐式寻址方式

索引寻址模式通常用于访问数组因为数组是连续存储的我们有一个索引寄存器它在每次迭代中都会递增当添加到基地址时它会给出数组元素地址我不明白这种寻址模式的实际需要为什么我们不能通过直接寻址来做到这一点我们有了基地址每次访问的时候
document.createElement("script") 同步

是否可以调用 js同步文件然后立即使用
XmlAttribute/XmlText 不能用于编码复杂类型

我在下面的类中收到以下错误无法序列化 DataObjects Ingredient 类型的成员 Ingredient XmlAttribute XmlText 不能用于对复杂类型进行编码有什么想法吗 DataContract Seria
Exchange Web 服务创建会议请求工作示例

是否有关于如何使用 C 使用 EWS for Exchange 2007 创建会议请求的工作示例需要哪些属性我添加了一个 Web 服务引用并且可以连接以创建和发送各种项目但不断收到错误设置操作对属性无效关于响应消息它从来没有说
在 Visual Studio 2008 中更改字体大小和样式

Visual Studio 2008 中更改字体大小和字体类型的设置在哪里使用菜单Tools gt Options gt 内部环境 gt 字体和颜色
iFrame：如何使用 javascript 将服务器响应（HTML）直接显示到 iFrame 中？

我收到一个简单的服务器响应它是一个 html 文件我想在 iFrame 中显示相同的内容而不将该文件保存到我的工作区或计算机中我正在进行 ajax 调用如下所示 Ext Ajax request url url method PO
字符识别（OCR算法）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个项目其中我必须开发 OCR 算法我必须从图像中读取文本然后将其转换为不同的语言所以我的第一个任务是从图像中获取文
Android编程打开DataUsage设置页面

在 Android 5 0 中移动数据设置可在数据使用设置中使用我想在android中打开数据使用设置页面但我没有找到任何打开它的意图为什么要打开数据使用设置页面你尝试过这种方法吗 final Intent intent new
MIN 和 MAX 宏的 Swift 等效项

在 C Objective C 中可以使用 MIN 和 MAX 宏找到两个数字之间的最小值和最大值 Swift 不支持宏并且语言基础库中似乎没有等效的宏是否应该采用自定义解决方案也许基于这样的泛型one http www cplu
未捕获的语法错误：意外的标记 e

I am getting Uncaught Syntax Error newly the only addition is sending retrieve json data from server to client How to in
通过 Bash Shell 脚本从 url 列表中提取父域名

我有一个像这样的网址列表 http noto zrobimystrone pl pucenter images NGdocs http visionwebmkt com unsubscribe php M 879552 C b744d324
列出给定库模块中的谓词

有没有办法列出 SICStus Prolog 给定库模块中定义的所有谓词例如如果我加载列表模块 use module library lists 我可以从提示符中运行另一个谓词来告诉我刚刚导入了哪些谓词吗这适用于 SWI Prolog
哪种 pyspark 抽象适合我的大型矩阵乘法？

我想执行大型矩阵乘法 C A B T然后通过应用严格的阈值来过滤 C 收集形式为行索引列索引值的列表 A 和 B 很稀疏条目大多为零它们最初表示为稀疏 scipy csr 矩阵矩阵的大小当它们是密集格式时答 9G 900

哪种 pyspark 抽象适合我的大型矩阵乘法？

哪种 pyspark 抽象适合我的大型矩阵乘法？ 的相关文章

随机推荐

热门标签

哪种 pyspark 抽象适合我的大型矩阵乘法？的相关文章