将 PySpark DenseVector 转换为数组

2023-12-21

我正在尝试将 DenseVector 的 pyspark 数据帧列转换为数组，但总是出现错误。

data = [(Vectors.dense([8.0, 1.0, 3.0, 2.0, 5.0]),),
(Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),
(Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]

df = spark.createDataFrame(data,["features"])

我尝试定义一个 UDF 并使用 toArray()

to_array = udf(lambda x: x.toArray(), ArrayType(FloatType()))
df = df.withColumn('features', to_array('features'))

但是，如果我执行 df.collect() ，我会收到以下错误

org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 17.0 failed 4 times, 
most recent failure: Lost task 1.3 in stage 17.0 (TID 100, 10.139.64.6, executor 0): 
net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict 
(for numpy.core.multiarray._reconstruct)

关于我如何实现这一目标有什么想法吗？

toArray() https://spark.apache.org/docs/latest/api/python/pyspark.ml.html?highlight=vectors#pyspark.ml.linalg.Vectors返回一个无法转换为的 numpy.ndarrayArrayType(FloatType())隐含地。额外使用.tolist()转换它：

import pyspark.sql.functions as F
import pyspark.sql.types as T

#or: to_array = F.udf(lambda v: list([float(x) for x in v]), T.ArrayType(T.FloatType()))
to_array = F.udf(lambda v: v.toArray().tolist(), T.ArrayType(T.FloatType()))
df = df.withColumn('features', to_array('features'))

如果您正在使用 Pyspark>=3.0.0你可以使用新的向量到数组 https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.functions.vector_to_array.html?highlight=vector_to#pyspark.ml.functions.vector_to_array功能：

from pyspark.ml.functions import vector_to_array
df = df.withColumn('features', vector_to_array('features'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

PySpark

将 PySpark DenseVector 转换为数组的相关文章

Pandas apply 与 np.vectorize 从现有列创建新列的性能

我正在使用 Pandas 数据框并希望创建一个新列作为现有列的函数我还没有看到关于之间速度差异的很好的讨论df apply and np vectorize 所以我想我会在这里问熊猫apply 功能很慢根据我的测量在一些实验中如下
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
KFold 和 ShuffleSplit CV 有什么区别？

看起来 KFold 每次迭代对象时都会生成相同的值而 Shuffle Split 每次都会生成不同的索引它是否正确如果是这样其中一个相对于另一个有什么用处 cv cross validation KFold 10 n folds 2
为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
Python + PostgreSQL + 奇怪的ascii = UTF8编码错误

我有包含字符的 ascii 字符串 x80 代表欧元符号 gt gt gt print x80 当将包含该字符的字符串数据插入数据库时我得到 psycopg2 DataError invalid byte sequence for enc
conda 无法从 yml 创建环境

我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境我在 Ubuntu 服务器上的命令行中运行代码虚拟环境名为 py36 当我运行下面的代码时我收到下面的消息环境也没有被创建这个问题是因为我有几个必须使用 pip
字典中的列表，Python 中的循环

我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
如何使用循环将十进制转换为二进制？

我想编写一个程序将十进制数 0 到 9 转换为二进制数我可以编写如何使用重复除法将十进制数转换为二进制数的代码但是我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦这是我的代码 number 0 remaind
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
Matplotlib 图例不工作

自从升级 matplotlib 以来每当尝试创建图例时我都会收到以下错误 usr lib pymodules python2 7 matplotlib legend py 610 UserWarning Legend does not
Python正则表达式从字符串中获取浮点数

我正在使用正则表达式来解析字符串中的浮点数 re findall a zA Z d d t 是我使用的代码这段代码有问题如果数字和任何字符之间没有空格则不会解析该数字例如 0 1 2 3 4 5 6 7 8 9 的预期输出为 0 1
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
从另一个 python 脚本获取返回信息

我在 Linux 上我有一个 python 脚本我想从另一个 python 脚本调用它我不想将其作为模块导入为了一层安全性现在为了学术练习因为我想弄清楚这一点我实际上想让一个脚本使用 os system 或另一个类似的函数并
最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
从数据集的给定日期范围中提取属于一天的数据

我有一个数据集日期范围为 2018 年 1 月 12 日到 8 月 3 日其中包含一些值维数为my df数据框是 my df shape 9752 2 每行包含半小时频率第一行开始于2018 01 12 my df iloc 0 D

随机推荐

在 vim 中打开与当前文件相同的文件夹中的文件

在vim中当我打开一个缓冲区时我经常需要加载该文件所在目录中的另一个文件但因为我通常不这样做cd进入其中将pwd是父文件夹所以我每次都必须重新输入路径这有捷径吗或者将密码更改为文件所在目录的方法 example cd src
如何确定一个 3D 对象是否适合另一个 3D 对象（容器）？

给定两个 3D 对象我如何找到一个是否适合第二个对象并找到该对象在容器中的位置应平移和旋转对象以适合容器但不得进行其他修改其他并发症相同的情况但寻找最适合的解决方案即使它不是正确的匹配最小化不适合容器的物体的体积支持弹性
Puppeteer：如何监听对象事件

是否可以监听页内对象调度的事件假设我访问的页面中有以下代码 var event new CustomEvent status detail ok window addEventListener status function e cons
强制 git push + pull 超时

我发现的所有问题都想避免 git 推拉超时就我而言我想强迫他们我的推拉都是通过 ssh 传输到在某个时间点可能不可用的远程计算机例如我有一个脚本可以推送到两个远程公共存储库我不希望这个脚本在推送到第一个存储库并且该机器不可用
Flexslider 和从右到左的语言支持

我在 WordPress 上安装了一个包含 Flexslider 的模板我的语言是从右到左 RTL 书写的当页面为 RTL 时 Flexslider 停止并且不显示图像我该如何解决这个问题 Flex 滑块不支持 RTL 语言解决这个
C++：崩溃时不显示 glibc 的回溯和内存映射

我正在使用 Python 进行自动 C 代码测试所以我有一个编译和执行 C 代码的 Python 脚本当 C 代码崩溃时即使我重定向 libc 输出也可以从我的 Python 脚本输出中看到cout and cerr正在执行的 C 程
从数据库更新模型时出现实体框架错误，反之亦然

当我尝试使用 VS Express 2013 for web EF6 1 1 和 NET Framework 4 5 从数据库更新模型时会发生以下情况在本例中我只是在表定义中向表中添加了一个字段并更新了数据库之后我在 EDMX 模
使用GridSearchCV时出现值错误

我正在使用 GridSearchCV 进行分类我的代码是 parameter grid SVM dual True False loss squared hinge hinge penalty l1 l2 clf GridSearchCV
Autofac PropertiesAutowired - 是否可以忽略一个或多个属性？

尽管建议通过构造函数传递依赖项但我发现使用无参数构造函数然后自动装配所有属性的开发成本显着减少并使应用程序更易于开发和维护然而有时例如在视图模型上我有一个在容器中注册的属性但我不想在构造时填充该属性例如绑定到容器的所选项目有
谷歌移动视觉库无法下载

我正在尝试将 Google Mobile Vision TextRecogniser API 实现到我的应用程序中以读取给定图像中的文本当我尝试使用该功能时出现以下错误 W DynamiteModule Local module de
为什么 Julia 不鼓励对 UTF8 字符串建立索引？

Julia 的入门指南在 Y 分钟内学习 Julia https learnxinyminutes com docs julia 阻止用户索引 UTF8 字符串 Some strings can be indexed like an ar
如何调整表单大小以自动适应其内容？

我正在尝试实现以下行为表单上有一个选项卡控件在该选项卡控件上有一个树视图为了防止出现滚动条我希望表单在第一次显示时根据树视图的内容更改其大小如果树视图有太多节点无法在窗体的默认大小上显示则窗体应更改其大小以便树视图上没有垂直滚
无法在列表框中绑定命令

我的 WPF 使用 MVVM 方法我正在尝试在列表控件中绑定 2 个控件
我自己的 R 中的 K 均值算法

我是 R 编程的初学者我正在 R 中进行此练习作为编程入门我已经在 R 中实现了自己的 K 均值实现但在某一点上卡住了一段时间我需要达成共识算法迭代直到找到每个簇的最佳中心这是没有迭代的原始算法它只是从整个数据中随机选取一个数
在ColdFusion中，有没有办法确定代码在哪个服务器上运行？

ColdFusion 代码中是否有任何方法可以确定代码在哪个服务器上执行我有一些负载平衡的 ColdFusion 服务器当我捕获异常时我希望能够知道代码正在哪个服务器上运行因此我可以将该信息包含在日志记录报告代码中服务器是 Wi
当您无法提供色彩美感时手动创建图例

在试图回答时这个问题 https stackoverflow com questions 34066131 can data points be labeled in stripcharts 34068263 创建所需绘图的一种方法是使用g
为什么在JPA Hibernate中更新查询；所有属性都在 SQL 中更新

我将 JPA 与 Hibernate 一起使用当我修改对象的一个属性并更新它时生成的 SQL 显示所有列都已更新为什么它不只更新修改的列有没有办法实现这一点因为我觉得这样会更加优化默认情况下 hibernate 包含更新查询中
在 NetBeans 中找不到主类

我一直在为我的编程课做作业我正在使用 NetBeans 我完成了我的项目并且运行良好当我尝试运行它时收到一条消息未找到主类这是主要的一些代码 package luisrp3 import java io FileNotFoundE
如何使用 Seaborn 在 hexbins 上绘制回归线？

我终于成功地将我的 hexbin 分布图整理成几乎漂亮的东西 import seaborn as sns x req apply clicks y req reqs wordcount sns jointplot x y kind hex
将 PySpark DenseVector 转换为数组

我正在尝试将 DenseVector 的 pyspark 数据帧列转换为数组但总是出现错误 data Vectors dense 8 0 1 0 3 0 2 0 5 0 Vectors dense 2 0 0 0 3 0 4 0 5 0

将 PySpark DenseVector 转换为数组

将 PySpark DenseVector 转换为数组 的相关文章

随机推荐

热门标签

将 PySpark DenseVector 转换为数组的相关文章