如何将向量列分成两列？

2024-01-29

我使用 PySpark。

Spark ML 的随机森林输出 DataFrame 有一个“概率”列，它是一个具有两个值的向量。我只想向输出 DataFrame 添加两列“prob1”和“prob2”，它们对应于向量中的第一个和第二个值。

我尝试过以下方法：

output2 = output.withColumn('prob1', output.map(lambda r: r['probability'][0]))

但我收到错误“col 应该是 Column”。

关于如何将向量列转换为其值列有什么建议吗？

我根据上面的建议找出了问题所在。在 pyspark 中，“密集向量简单地表示为 NumPy 数组对象”，因此问题出在 python 和 numpy 类型上。需要添加 .item() 将 numpy.float64 转换为 python float。

以下代码有效：

split1_udf = udf(lambda value: value[0].item(), FloatType())
split2_udf = udf(lambda value: value[1].item(), FloatType())

output2 = randomforestoutput.select(split1_udf('probability').alias('c1'), split2_udf('probability').alias('c2'))

或者将这些列附加到原始数据框：

randomforestoutput.withColumn('c1', split1_udf('probability')).withColumn('c2', split2_udf('probability'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparkml

如何将向量列分成两列？的相关文章

Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
如何使用PySpark结构流+Kafka

我尝试将 Spark 结构流与 kafka 一起使用并且在使用 Spark 提交时遇到问题消费者仍然从生产中接收数据但 Spark 结构出错请帮我找到我的代码的问题这是我在 test py 中的代码 from kafka impo
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
为什么我的执行程序核心构建指定了 OOM？

我有一个正在运行的构建DRIVER MEMORY LARGE NUM EXECUTORS 64 and EXECUTOR CORES LARGE 为什么这没有足够的资源来防止我的工作因执行者损失而失败OOM https stackoverf
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
带有 pySpark 的 GraphFrames

我想将 GraphFrames 与 PySpark 一起使用目前在 Google Dataproc 上使用 Spark v2 3 3 安装 GraphFrames 后 pip install graphframes 我尝试运行以下代码 f
pickle.PicklingError：无法腌制未打开读取的文件

我在 Dataproc 上运行 PySpark 作业时收到此错误可能是什么原因这是错误的堆栈跟踪 File usr lib python2 7 pickle py line 331 in save self save reduce ob
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0

随机推荐

Pcap 函数具有“未定义的引用”

我正在尝试完成本教程 http www tcpdump org pcap html http www tcpdump org pcap html 现在我已经使用以下命令安装了 pcap 代码提示和所有正在运行的内容 sudo apt get
JUnit Eclipse JPA persistence.xml 未找到

场景如下我正在 Eclipse 上做一个 J2EE 项目该项目是使用 Maven 创建的我正在尝试启动并运行我的单元测试当我尝试创建 EntityManager 时它会抛出异常 javax persistence Persiste
同时写入两个文本框[重复]

这个问题在这里已经有答案了在我的 WPF 应用程序中我有两个文本框我正在寻找以下内容我希望如果用户在上面写了一些东西textbox1该应用程序会将相同的值放入textbox2
如何在QTP中测试标签

我正在使用 QTP 9 5 测试我编写的应用程序德尔福我安装了 Delphi Add in 和 QTP 可以识别Delphi控件大多数但不是全部特别是 TLabel QTP无法识别这个控制并被对象间谍忽略关于如何测试标签有什么建
通过 FileSystemObject 迭代文件夹中的文件

好的所以我认为自己是一名 Excel VBA 专家尽管我有一段时间没有对它做太多事情但我对这个感到困惑这显然意味着它是一个非常简单的东西由于我的傲慢 D 我使用分配给全局变量称为 myFSO 原始的我知道的 FileSyst
角度路由器导航然后重新加载

所以我想在导航到特定路线后重新加载应用程序我使用 router navigate 根据用户角色导航到特定路线效果很好但如果来自登录页面我必须在路由后重新加载页面不是每次用户打开该特定路线时此处重新加载是为了更新页面语言取决于用户
Android：XML 文件的设计视图为白色和空白

我在 res 文件夹下创建了一个菜单文件夹并在该菜单文件夹中创建了一个名为抽屉菜单 xml 的文件这是该文件的文本 menu menu
如何从 PyPi 包中提取依赖项而不下载它？

我想远程获取 PyPi 包的依赖项而不需要完全下载它我似乎理解阅读 pip 代码在解决依赖关系时 pip 似乎会在下载包后读取 Egg 还有其他办法吗 Use 点子树 https pypi python org pypi pipde
跳过 x 帧！应用程序可能在其主线程上做了太多工作。这个错误意味着什么以及如何解决这个问题？

我正在尝试在我的 Flutter 应用程序中使用 firbase 进行身份验证用户登录并进入已验证屏幕后就会显示此错误我正在使用具有简单逻辑的 google sign in 插件 bool isAuth false check i
在 Java EE 中与 EJB 交互的最佳方式

我有一个中等规模的 Java EE 6 项目它使用多个 EJB 其中一个唯一目的是通过 JPA 管理数据库调用我的问题是添加执行一些随机功能的新类然后调用数据库访问 EJB 来保存此类中的数据的最佳方法是什么如果这个新类需要访问注释
哪些 Cocoa 视图和控件将创建类似网络首选项显示 (Mac OS) 的一部分的内容？ [复制]

这个问题在这里已经有答案了我正在构建一个 OSX 应用程序并希望创建一组类似于标准网络首选项配置面板底部的控件我遇到了一些我没有预料到的布局问题这些是我的具体问题什么包含 3 个按钮因此按钮所在的行中都有类似的阴影特别是是什
如何通过代理发送WebRequest？

下面的代码需要如何修改才能发送WebRequest通过指定的proxy server and port number Dim Request As HttpWebRequest WebRequest Create url Request M
将 scss 转换为 css 时出现“primary”：$primary-text-emphasis-dark 错误

终端截图 https i stack imgur com rU177 png import Documents bootstrap 5 3 0 alpha2 scss functions scss import Documents boot
我可以从 MVC 中的视图访问资源文件吗？

我想用资源文件中存储的值填充下拉列表最好的方法是什么我可以创建一个 SelectList 并将其推送到模型中在这种情况下下拉列表将自动填充但是我可以从 View 访问资源文件吗如果是的话我应该吗所有资源字符串都被编译到一个类
如何使用现有本体从 XML 文件中提取 RDF 三元组？

我正在尝试使用现有本体从 XML 文件中提取 RDF 三元组我正在使用Java 并且可以使用XPath从XML和Jena中提取数据来读写RDF文档和本体如何根据已有的本体从XML中提取相关的三元组忘记使用 XPath 来提取三元组吧
使用 preg_replace 时如何增加替换字符串中的计数？

我有这个代码 count 0 preg replace test test count content 1 count 对于每次替换我都会获得 test0 我想要 test0 test1 test2 等 Use preg replace
VBA - 通过用户定义的函数更新其他单元格

我在 VBA 中有一个 UDF 用户定义函数需要修改 Excel 上的单元格范围由于 UDF 无法做到这一点我尝试使用事件调用当我引发自定义事件并尝试写入单元格时出现 Value 错误另一方面应用程序事件例如Private
如何在 R 中设置 unicode 语言环境？

我的 UTF 8 R 文件中有一些特殊字符并且尝试在 R 命令行中将代码作为文件运行返回unexpected INCOMPLETE STRING 同时代码可以逐行运行例如在 RStudio 或 Eclipse 中我建议我需要通过以下
导入 Git 存储库时，Jenkins“无法找到请求目标的有效认证路径”错误

我正在尝试建立一个Git repo https git scm com docs git checkout来自詹金斯使用詹金斯 Git 插件 https wiki jenkins io display JENKINS Git Plugin在
如何将向量列分成两列？

我使用 PySpark Spark ML 的随机森林输出 DataFrame 有一个概率列它是一个具有两个值的向量我只想向输出 DataFrame 添加两列 prob1 和 prob2 它们对应于向量中的第一个和第二个值我尝试过以

如何将向量列分成两列？

如何将向量列分成两列？ 的相关文章

随机推荐

热门标签

如何将向量列分成两列？的相关文章