将 IndexToString 应用于 Spark 中的特征向量

2024-05-15

Context:我有一个数据框，其中所有分类值都已使用 StringIndexer 进行索引。

val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name }    

val categoryIndexers = categoricalColumns.map {
  col => new StringIndexer().setInputCol(col).setOutputCol(s"${col}Indexed") 
}

然后我使用 VectorAssembler 对所有特征列（包括索引的分类列）进行矢量化。

val assembler = new VectorAssembler()
    .setInputCols(dfIndexed.columns.diff(List("label") ++ categoricalColumns))
    .setOutputCol("features")

应用分类器和一些额外的步骤后，我最终得到一个包含标签、特征和预测的数据框。我想将我的特征向量扩展为单独的列，以便将索引值转换回原始字符串形式。

val categoryConverters = categoricalColumns.zip(categoryIndexers).map {
colAndIndexer => new IndexToString().setInputCol(s"${colAndIndexer._1}Indexed").setOutputCol(colAndIndexer._1).setLabels(colAndIndexer._2.fit(df).labels)
}

问题：有没有simple这样做的方法，或者是以某种方式将预测列附加到测试数据帧的最佳方法？

我尝试过的：

val featureSlicers = categoricalColumns.map {
  col => new VectorSlicer().setInputCol("features").setOutputCol(s"${col}Indexed").setNames(Array(s"${col}Indexed"))
}

应用这个给了我我想要的列，但它们是矢量形式（正如它的意思）而不是类型 Double。

Edit:所需的输出是原始数据框（即分类特征作为字符串而不是索引），并带有指示预测标签的附加列（在我的例子中为 0 或 1）。

例如，假设我的分类器的输出如下所示：

+-----+---------+----------+
|label| features|prediction|
+-----+---------+----------+
|  1.0|[0.0,3.0]|       1.0|
+-----+---------+----------+

通过在每个功能上应用 VectorSlicer 我会得到：

+-----+---------+----------+-------------+-------------+
|label| features|prediction|statusIndexed|artistIndexed|
+-----+---------+----------+-------------+-------------+
|  1.0|[0.0,3.0]|       1.0|        [0.0]|        [3.0]|
+-----+---------+----------+-------------+-------------+

这很棒，但我需要：

+-----+---------+----------+-------------+-------------+
|label| features|prediction|statusIndexed|artistIndexed|
+-----+---------+----------+-------------+-------------+
|  1.0|[0.0,3.0]|       1.0|         0.0 |         3.0 |
+-----+---------+----------+-------------+-------------+

然后能够使用 IndexToString 并将其转换为：

+-----+---------+----------+-------------+-------------+
|label| features|prediction|    status   |    artist   |
+-----+---------+----------+-------------+-------------+
|  1.0|[0.0,3.0]|       1.0|        good |  Pink Floyd |
+-----+---------+----------+-------------+-------------+

or even:

+-----+----------+-------------+-------------+
|label|prediction|    status   |    artist   |
+-----+----------+-------------+-------------+
|  1.0|       1.0|        good |  Pink Floyd |
+-----+----------+-------------+-------------+

嗯，这不是一个非常有用的操作，但应该可以使用列元数据和简单的 UDF 来提取所需的信息。我假设您的数据已经创建了类似于此的管道：

import org.apache.spark.ml.feature.{VectorSlicer, VectorAssembler, StringIndexer}
import org.apache.spark.ml.Pipeline

val df = sc.parallelize(Seq(
  (1L, "a", "foo", 1.0), (2L, "b", "bar", 2.0), (3L, "a", "bar", 3.0)
)).toDF("id", "x1", "x2", "x3")

val featureCols = Array("x1", "x2", "x3")
val featureColsIdx = featureCols.map(c => s"${c}_i")

val indexers = featureCols.map(
  c => new StringIndexer().setInputCol(c).setOutputCol(s"${c}_i")
)

val assembler = new VectorAssembler()
  .setInputCols(featureColsIdx)
  .setOutputCol("features")

val slicer = new VectorSlicer()
  .setInputCol("features")
  .setOutputCol("string_features")
  .setNames(featureColsIdx.init)


val transformed = new Pipeline()
  .setStages(indexers :+ assembler :+ slicer)
  .fit(df)
  .transform(df)

首先我们可以从特征中提取所需的元数据：

val meta = transformed.select($"string_features")
  .schema.fields.head.metadata
  .getMetadata("ml_attr") 
  .getMetadata("attrs")
  .getMetadataArray("nominal")

并将其转换为更易于使用的东西

case class NominalMetadataWrapper(idx: Long, name: String, vals: Array[String])

// In general it could a good idea to make it a broadcast variable
val lookup = meta.map(m => NominalMetadataWrapper(
  m.getLong("idx"), m.getString("name"), m.getStringArray("vals")
))

最后是一个小的UDF：

import scala.util.Try

val transFeatures = udf((v: Vector) => lookup.map{
  m => Try(m.vals(v(m.idx.toInt).toInt)).toOption
})

transformed.select(transFeatures($"string_features")).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparkml

将 IndexToString 应用于 Spark 中的特征向量的相关文章

createOrReplaceTempView 在 Spark 中如何工作？

我是 Spark 和 Spark SQL 的新手如何createOrReplaceTempView在 Spark 工作如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
如何在 akka actor 中测试公共方法？

我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
带可变参数的 Spark UDF

如文档中所示列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
Scala 警告、IntelliJ 和编译器标志

我目前正在试用 IntelliJ Scala 插件有件事让我有点烦恼编译时我收到 3 个警告 Warning scala Recompiling 4 files Warning scala Warning scala there wer
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
Scala 功能设计模式目录

一周以来我一直在阅读 Scala 编程作者一步一步地介绍了该语言的元素但我仍然很困惑何时使用演员闭包柯里化等功能性的东西我正在寻找功能结构的典型用例或最佳实践的目录我并不是说在 Scala 中重新实现像 GoF 这样的众所周知的
创建自定义 scala 集合，其中映射默认返回自定义集合？

特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
Scala 将递归有界类型参数（F 界）转换为类型成员

我将如何转换 trait Foo A lt Foo A 给类型成员也就是说我想要以下内容 trait Foo type A lt Foo type A 但我遇到了困难因为名称 A 已在类型细化中使用这个问题是类似的并衍生自通过类
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
Scala 匿名函数中的 return 语句

为什么显式 return 语句使用return关键字在匿名函数中从封闭的命名函数返回而不仅仅是从匿名函数本身返回例如以下程序会导致类型错误 def foo String x Integer gt return x foo 我知道建
对 Spark 数据集中的数字字符串进行排序

假设我有以下内容Dataset productCode amount XX 13 300 XX 1 250 XX 2 410 XX 9 50 XX 10 35 XX 100 870 Where productCode is of Strin
使用 pyspark awsglue 时显示 DataFrame

如何使用 awsglue 的 job etl 显示 DataFrame 我尝试了下面的代码但没有显示任何内容 df show code datasource0 glueContext create dynamic frame from c
将 DOCTYPE 添加到 Scala XML 的最简单方法？

我怎样才能在 Scala XML 中制作这个最小的 HTML5 p p 当然在 Scala 中制作类似 HTML 的 XML 很简单 gt val html p p html scala xml Elem p p 但是我怎样才能注入DO
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
SBT插件——编译前执行自定义任务

我刚刚编写了我的第一个 SBT 自动插件它有一个生成设置文件的自定义任务如果该文件尚不存在当显式调用任务时一切都会按预期工作但我希望在使用插件编译项目之前自动调用它无需项目修改其 build sbt 文件有没有办法实现这一点
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S

随机推荐

CakePHP - 选择性 SSL

如何对网站的某些部分强制使用 HTTPS 例如登录页面或注册页面并使用 HTTP 来完成网站的其余部分我最喜欢的强制转换为 https 的方法是将其作为 php 脚本中的第一件事它可以在 Joomla 中运行也可以在 CakePHP
“ActionBarDrawerToggle”何时显示其“openDrawerContentDescRes”和“closeDrawerContentDescRes”字符串？

背景 ActionBarDrawerToggle 的CTOR是这样的 public ActionBarDrawerToggle Activity activity DrawerLayout drawerLayout int openDraw
满足条件时终止所有进程

我正在使用星图来运行测试功能当进程首次找到排列 5 2 4 3 1 时终止所有进程的最佳最安全方法是什么 import multiprocessing as mp import time def testing lts code st
Doctrine 装置如何覆盖 purger 类？

From doctrine fixture bundle the console doctrine fixtures load n命令定义如下 https github com doctrine DoctrineFixturesBundle
对话框动画被 webview 弄乱了：android bug？

我制作了一个带有进入和退出慢速动画的对话框但对话框包含一个 webviewmyMsg 加载本地文件因此没有延迟并弄乱了动画使用下面的代码无 Web 视图对话框可以完美运行在 Enter 和 Exit 时都具有动画效果
如何从 Neo4j 服务器插件登录？

我正在尝试调试我正在编写的 Neo4J 服务器插件中的问题有可以输出的日志吗在哪里或如何执行此操作并不明显好问题我想你可以使用 Java 日志记录吗这应该被路由到正常的日志系统中
Javascript Date.parse 以破折号分隔并以年份开头时的错误

我正在寻求确认这是否是真正的文档和或 Javascript 的 Date parse 方法的实现错误我所指的文档位于https developer mozilla org en JavaScript Reference Global O
Jquery Draggable()、clone() 附加 div...请拨动我的 jsfiddle

UPDATE http jsfiddle net wJUHF 7 http jsfiddle net wJUHF 7 对于任何可能阅读本文的人来说这是更新且有效的小提琴我正在努力让这个小提琴发挥作用这就是问题所在我可以将图像拖到容器
为什么Redis中没有有序的hashmap？

Redis 数据类型 http redis io topics data types包括排序集 http redis io topics data types intro sorted sets以及其他用于键值存储的必要数据结构但我想知道
npm install 不起作用，抛出错误

我正在尝试在 nodejs 中安装 yo 和其他一些软件包但是我不断收到错误我是节点新手所以我有点迷失我运行的是 Mac OS X 10 10 3 我正在使用的命令是 sudo npm install global yo 这样做会给
Xcode 10 存档到“其他项目”而不是“MacOS 应用程序”

在我升级到 Xcode 10 之前这是完美的我的应用程序集成了 Quicklook 和 Spotlight 插件这些插件是单独构建的然后在构建阶段使用以下设置复制两个复制文件 Destination Wrapper Subpath
使用控制器通过 codeigniter 处理返回的自定义 css 和 javascript 文件

我正在开发一个 php codeigniter 项目我正在考虑创建一个专门用于处理返回自定义 css 和 javascript 文件的控制器在之前的项目中我在视图文件的标头中包含了外部 CSS 和 JS 文件但它们本质上必须是静态的
MVC4更新部分视图

我正在开发一个简单的 MVC 应用程序我有主视图部分视图和控制器这是我的主要视图 model partitalViewTest Models Qset div class transbox style height 1 Html Pa
视图与画布比例不适合画布

当我尝试将画布缩放为绘制缩放视图时我的视图实际上已缩放但视图被裁剪可能是因为它的布局参数 public void onDraw Canvas canvas canvas scale 2f 2f view draw canvas 简单图
Swift 包管理器：“多个目标名为...”

我正在尝试构建一个服务器端 Swift Web 应用程序我的应用程序的基础框架将是Kitura https www kitura io来自IBM 此外我还想利用AWS SDK Swift https github com noppoMa
在 swagger 中隐藏 spring 请求正文中的某些字段

下面的示例 api 允许用户创建一个对象用户应该能够指定name的领域Thing对象而id字段应该自动生成根据以下设置将显示 swaggerboth请求的名称和 id 字段作为用户可以输入的内容并将这两个字段显示为可选事实上对
关于多客户端和可定制 Web 应用程序的架构所需的建议[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
std::condition_variable::wait_for 和 std::condition_variable::wait_until 有什么区别？

The 我正在使用的参考 http en cppreference com w cpp thread condition variable对两者的解释如下 wait for 阻塞当前线程直到条件变量被唤醒或在指定的超时持续时间之后 wai
Java 在组件中心之间绘制一条线

当用户单击一个标签在另一个标签上拖动并释放时我试图在两个 JLabel 的中心之间绘制一条线无论窗口大小如何都应该有效但线条不在中心如何解决以下示例有效但线条似乎被 JFrame 的边界偏移因此它们不是中心我不想尝试从点
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType

将 IndexToString 应用于 Spark 中的特征向量

将 IndexToString 应用于 Spark 中的特征向量 的相关文章

随机推荐

热门标签

将 IndexToString 应用于 Spark 中的特征向量的相关文章