无法将类型转换为 Vector

2024-03-04

给定我的 pyspark Row 对象：

>>> row
Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))
>>> row.clicked
0
>>> row.features
SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})
>>> type(row.features)
<class 'pyspark.ml.linalg.SparseVector'>

但是，row.features 未能通过 isinstance(row.features,Vector) 测试。

>>> isinstance(SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}), Vector)
True
>>> isinstance(row.features, Vector)
False
>>> isinstance(deepcopy(row.features), Vector)
False

这个奇怪的错误给我带来了巨大的麻烦。如果不传递“isinstance(row.features, Vector)”，我无法使用地图函数生成 LabeledPoint。如果有人能解决这个问题，我将非常感激。

这不太可能是一个错误。你没有提供重现问题所需的代码 https://stackoverflow.com/help/mcve但很可能您将 Spark 2.0 与 ML 转换器一起使用，并且比较了错误的实体。

让我们用一个例子来说明这一点。简单数据

from pyspark.ml.feature import OneHotEncoder

row = OneHotEncoder(inputCol="x", outputCol="features").transform(
    sc.parallelize([(1.0, )]).toDF(["x"])
).first()

现在让我们导入不同的向量类：

from pyspark.ml.linalg import Vector as MLVector, Vectors as MLVectors
from pyspark.mllib.linalg import Vector as MLLibVector, Vectors as MLLibVectors
from pyspark.mllib.regression import  LabeledPoint

并进行测试：

isinstance(row.features, MLLibVector)

False

isinstance(row.features, MLVector)

True

正如你所看到的，我们拥有的是pyspark.ml.linalg.Vector not pyspark.mllib.linalg.Vector与旧 API 不兼容：

LabeledPoint(0.0, row.features)

TypeError                                 Traceback (most recent call last)
...
TypeError: Cannot convert type <class 'pyspark.ml.linalg.SparseVector'> into Vector

您可以将 ML 对象转换为 MLLib 对象：

from pyspark.ml import linalg as ml_linalg

def as_mllib(v):
    if isinstance(v, ml_linalg.SparseVector):
        return MLLibVectors.sparse(v.size, v.indices, v.values)
    elif isinstance(v, ml_linalg.DenseVector):
        return MLLibVectors.dense(v.toArray())
    else:
        raise TypeError("Unsupported type: {0}".format(type(v)))

LabeledPoint(0, as_mllib(row.features))

LabeledPoint(0.0, (1,[],[]))

或者简单地：

LabeledPoint(0, MLLibVectors.fromML(row.features))

LabeledPoint(0.0, (1,[],[]))

但一般来说，您应该在必要时避免出现这种情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

apachesparkmllib

apachesparkml

无法将类型转换为 Vector 的相关文章

配置 Spark on Yarn 以使用 hadoop 本机库

Summary 我是 Spark 新手在使用 Snappy 压缩保存文本文件时遇到了问题我不断收到下面的错误消息我遵循了互联网上的许多指示但没有一个对我有用最终我找到了解决方法但是我希望有人就正确的解决方案提供建议 java
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何将数组列表转换为 Spark 数据帧

假设我有一个列表 x 1 10 2 14 3 17 我想转换x具有两列的 Spark 数据框id 1 2 3 和value 10 14 17 我怎么能这么做呢 Thanks x 1 10 2 14 3 17 df sc paralleliz
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本

随机推荐

使用两个环境变量来阻止 Apache .htaccess 中的访问

我正在使用 SetEnvIf 和 Deny 来阻止对 htaccess 中某些国家地区的访问但我需要从该阻止中排除某些 URL 因此我为这些 URL 设置另一个环境变量如何根据变量 1 和变量 2 的组合进行拒绝 SetEnvIf G
weblogic 10.3.4 中强制释放连接

我在 oracle soa 服务器 11g 上的托管服务器控制台中收到以下错误
Chrome 移动模拟模式中的 (maxTouchPoints) 和（文档中的“ontouchstart”）错误

我使用这样的触摸屏设备检测 if window navigator maxTouchPoints ontouchstart in document handle as mobile device else handle as desktop
在 React 中将对象转换为 JSON 并作为 .json 文件下载

我有一个包含一些信息的 javascript 对象我想将其转换为 JSON 并将其下载为 json 文件看来我只能JSON stringify obj 将其转换为 JSON 但我如何实际将其下载为 json 文件呢如果您只是想通过 J
无法从 CPython 读取巨大（20GB）文件

我有一些我无法理解的 CPython 问题这一切都归结为这样一个事实使用相同的代码读取小文本文件可以工作但甚至无法从 20GB txt 文件中读取一行一些有用的信息较小的文件 1MB 是 20GB 大文件的子集从开始处起 1MB
“ColorAnimation”动画对象无法用于为属性“Background”设置动画，因为它的类型“System.Windows.Media.Brush”不兼容

我正在尝试以编程方式使用颜色动画来为单元格设置动画但是当我执行时我得到了这个storyboard Begin System Windows Media Animation ColorAnimation animation object c
在 NumPy 数组中查找重复序列的索引

这是一个后续上一个问题 https stackoverflow com q 59662725 2955541 如果我有一个 NumPy 数组 0 1 2 2 3 4 2 2 5 5 6 5 5 2 2 对于每个重复序列从每个索引开始是否
PHP imagejpeg 保存文件不起作用

我有 php 代码来修剪白色外边框并调整大小当我使用 imagejpeg newImage 将其输出到浏览器时它工作正常但是当我尝试使用 imagejpeg newImage test jpg 保存时它不会保存在任何地方请帮助 i
在 Sqlcmd 中转义特殊符号

我有一个 bat 文件当我安装应用程序时它会执行一堆 sql 脚本在安装对话框中用户设置数据库名称登录名和密码然后在此 bat 文件中使用它们这里是 SET server local SET db dbname SET use
谷歌云实例在关闭浏览器后终止

我有一个 bash 脚本我想在谷歌云服务器上连续运行它我通过浏览器中的 SSH 连接到我的虚拟机但关闭浏览器后脚本停止了我尝试使用 Cloud Shell 但如果重新启动笔记本电脑脚本会从头启动它不能连续工作是否可以在谷歌云
删除多维数组中的父键

我想从数组中删除键 Properties 如下所示我有 Array Values gt 1 List gt Array Product gt Array Details gt Array Properties gt Array Id gt
Java中如何设置鼠标的位置？

我正在使用 Java 进行一些 Swing GUI 工作我认为我的问题相当简单如何设置鼠标的位置正如其他人所说这可以通过使用来实现Robot mouseMove x y http java sun com javase 6 docs
VS2008 PDB 文件大小限制还原：LNK1201 也是

VS2k8 中 PDB 文件的大小限制是多少我在一个开发工作站上 32 位 PAE 内核上的 RAM 和页面文件各为 3GB 但在 PDB 增长超过 1GB 后不久链接器就抛出了 LNK1201 错误 MSPDBSRV 是否只是耗尽了地
正则表达式提取文件名

我有一个纯文本网络响应需要提取文件名对于好的正则表达式有什么建议吗 Total parts 1 Name file Content Type text plain Size 1167 content type text plain co
有没有办法设置 HTML5 范围控件的样式？

有没有办法设置 HTML5 范围控件的样式是否可以更改滑块滑动的线条的颜色事实证明 webkit中有 input type range webkit appearance none important input type range
无法匹配 C 中的正则表达式

我对以下正则表达式有问题 prefix w w s 0 9 1 4 s s 0 9 1 4 s s 0 9 1 4 s w 匹配字符串如下 prefix string string 100 100 0 string 我无法在我的 C 代码中
多个表上的 FreeText COUNT 查询超级慢

我有两张桌子 Product ID Name SKU Brand ID Name 产品表大约有120K条记录品牌表有30K条记录我需要查找名称和品牌与特定关键字匹配的所有产品的数量我使用自由文本包含如下所示 SELECT coun
验证、方法执行和JIT编译过程中类加载的原因和跟踪

我试图非常详细地了解哪些事件会导致类加载并且在测试过程中我在这个非常基本的示例中遇到了一种我不理解的行为 public class ClinitTest public static Integer num public static L
Emacs：是否可以列出 dired 中标记文件的某个查询字符串的所有匹配行？

前几天我发现 M x 发生了 Emacs中如何实现代码折叠效果 https stackoverflow com questions 1085170 how to achieve code folding effects in emacs 我
转换为 Vector' aria-label='无法将类型转换为 Vector'> 无法将类型转换为 Vector

给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt

无法将类型 转换为 Vector

无法将类型 转换为 Vector 的相关文章

随机推荐

热门标签

无法将类型转换为 Vector

无法将类型转换为 Vector 的相关文章