将 Spark 特征向量转换为数组

2024-03-08

我有一个特征列，它使用 Spark 的 VectorAssembler 打包成向量向量，如下所示。data是输入 DataFrame（类型为spark.sql.DataFrame).

val featureCols = Array("feature_1","feature_2","feature_3")
val featureAssembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features")
val dataWithFeatures = featureAssembler.transform(data)

我正在使用以下方法开发自定义分类器Classifier and ClassificationModel开发者API。ClassificationModel需要开发一个predictRaw()从模型输出预测标签向量的函数。

def predictRaw(features: FeaturesType) : Vector

该函数由API设置并带有一个参数，其特点是FeaturesType并输出一个向量（在我的例子中，我将其视为 SparkDenseVector as DenseVector延长了Vector特征）。

由于VectorAssembler的封装，features列的类型Vector每个元素本身就是每个训练样本的原始特征的向量。例如：

特征列 - Vector 类型
[1.0, 2.0, 3.0] - element1，本身是一个向量
[3.5, 4.5, 5.5] - element2，本身是一个向量

我需要将这些特征提取到Array[Double]为了实施我的predictRaw()逻辑。理想情况下，我希望得到以下结果以保留基数：

`val result: Array[Double] = Array(1.0, 3.5, 2.0, 4.5, 3.0, 4.5)`

即按列优先顺序，因为我会将其转换为矩阵。

我试过了：

val array = features.toArray // this gives an array of vectors and doesn't work

我还尝试将功能输入为 DataFrame 对象而不是 Vector，但由于 VectorAssembler 中的功能打包，API 需要 Vector。例如，此函数本身可以工作，但不符合 API，因为它期望 FeaturesType 为 Vector，而不是 DataFrame：

def predictRaw(features: DataFrame) :DenseVector = {
  val featuresArray: Array[Double] = features.rdd.map(r => r.getAs[Vector](0).toArray).collect 
//rest of logic would go here
}

我的问题是features属于类型Vector, not DataFrame。另一种选择可能是打包features as a DataFrame但我不知道如何在不使用的情况下做到这一点VectorAssembler.

感谢所有建议，谢谢！我看过Spark DataFrame 中向量的访问元素（逻辑回归概率向量） https://stackoverflow.com/questions/44425159/access-element-of-a-vector-in-a-spark-dataframe-logistic-regression-probability但这是用Python编写的，我使用的是Scala。

如果您只想将 DenseVector 转换为 Array[Double]，则使用 UDF 相当简单：

import org.apache.spark.ml.linalg.DenseVector
val toArr: Any => Array[Double] = _.asInstanceOf[DenseVector].toArray
val toArrUdf = udf(toArr)
val dataWithFeaturesArr = dataWithFeatures.withColumn("features_arr",toArrUdf('features))

这将为您提供一个新列：

|-- features_arr: array (nullable = true)
|    |-- element: double (containsNull = false)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Spark 特征向量转换为数组的相关文章

在 Scala 中调用 WebSocket 中的方法

我是 scala Play 框架和 Akka 的新手我的函数定义为 def socket WebSocket accept String String request gt ActorFlow actorRef out gt MyWebS
如何定义与更高类型类型（类型构造函数）绑定的上下文

我尝试过以下方法 def test Option T Ordering value1 Option T value2 Option T val e implicitly Ordering Option T compare value1 va
您可以为 None 指定类型参数或告诉编译器它是一个 Option[String] 吗？

我想知道我是否可以在我的代码中写这样的东西 None String 我很惊讶没有人提到它的存在Option empty scala gt Option empty String res0 Option String None 请注意在许多
在 CodeIgniter 中将数组与 Calendar 类一起使用

我正在尝试为我的日历应用程序创建一个相当复杂的数组它应该包含日期日期名称类型和事件如果有我已经创建了这个 dates 22 day gt Friday type gt weekday 23 day gt Saturday typ
如何访问 Scala XML 中的父元素

The scala xml包表示带有标记树节点的 XML 但是这棵树在 Scala 2 7 中是单向的吗因为似乎没有办法访问Elem给定的父级Elem 这似乎同样适用于父母Document 例如在 XOM 中你有getParent an
数组与列表的性能

假设您需要一个需要频繁迭代的整数列表数组我的意思是非常频繁原因可能有所不同但可以说它位于大容量处理的最内层循环的核心一般来说人们会选择使用列表 List 因为它们的大小具有灵活性最重要的是 msdn 文档声称列表在内部使用数组
如何打印数组中每个单词之间的空格

我记得在 w3school 上看到过一个函数你可以打印出数组的所有单词并在它们之间添加一个空格但无论我如何谷歌我都找不到它其外观示例 function printWords var array Car Bus Motorcykle p
QByteArray 到整数

正如您可能从标题中看出的那样我在转换QByteArray为一个整数 QByteArray buffer server gt read 8192 QByteArray q size buffer mid 0 2 int size q siz
PHP 数组到 JavaScript 数组

假设我在 php 中有这个数组 cities array Caracas gt array air gt array 4 3 5 Working Days Saturday sea gt array 18 3 5 Days Wednesda
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
多维数组内的移动

我有一个用表格显示的数组如何使用用户输入进行移动目前 0 被分配给每个数组但我计划为该数组分配其他值我的问题是如何使用用户输入在数组内向上向下向右向左移动和对角移动 Array 0 gt Array 0 gt 0 1 gt
如何使用 jQuery 通过 Ajax 发送复选框数组的值？

我有一个包含很多表单字段的表单 12 x n 行每行中的第一个字段代表产品是一个类似于以下内容的复选框
递归获取数组的键并创建下划线分隔的字符串

现在我得到了一个包含某种信息的数组我需要从中创建一个表例如 Student Address StreetAddress gt Some Street StreetName gt Some Name Marks1 gt 100 Marks
如何构建 if 语句并与各种值进行比较？

我该怎么写这个if以更好的方式声明条件 if data in 8 downto 1 x 70 or data in 8 downto 1 x 69 or data in 8 downto 1 x 72 or data in 8 downto
如何从数组中提取特定元素？

如果我有一个数组a 1 2 3 4 5 6 7 8 9 10 我想要这个数组的一个子集第 1 个第 5 个和第 7 个元素是否可以通过简单的方式从该数组中提取这些内容我在想这样的事情 a 0 4 6 1 5 7 但这行不通还有一种
Android：如何在播放媒体（mp3）时在特定毫秒内显示文本

我正在尝试做一个类似卡拉 OK 的应用程序我想在某一毫秒到来时显示一个或多个单词例如 1148 毫秒 gt 打印尼古拉斯 1826 毫秒 gt 打印是 2766 毫秒 gt 打印旧 ms gt 显示这是我的代码包 com ex
为什么你需要创建这些 json 读/写，而在 java 中你不需要创建这些 json 读/写？

如果我错了请纠正我但是当使用 Java 和 Spring MVC 时您不必创建这些额外的类来将 Java 类映射到 JSON 以及将 JSON 映射到类为什么必须在 Play with Scala 中执行此操作和Scala有关系吗
META-INF/服务应该在 sbt 中的哪里

META INF 目录应该放在哪里以便 sbt 获取自定义配置我在尝试使用 ServiceLoader 时遇到了这个问题并且我试图在 META INF services 中创建自定义服务如果您将 META INF 文件夹放在 src
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
对具有混合类型值的数组进行数字排序

我有一个像这样的混合数组 fruits array lemon Lemon 20 banana apple 121 40 50 然后申请sort 其功能如下 sort fruits SORT NUMERIC foreach fruits a

随机推荐

wamp 2.2 中调用未定义函数curl_init() 错误

当我尝试实施 google 和 facebook 身份验证时出现以下错误在 Windows 7 中使用 wamp 服务器致命错误调用未定义的函数curl init E wamp www mysite protected extensio
cabal 沙盒安装仍然失败，并显示“软件包可能会因重新安装而损坏”

我正在尝试建立榆树平台 http elm lang org 使用阴谋集团沙箱但是安装失败并显示消息软件包可能会因重新安装而损坏在我看来这似乎与沙盒的整个目的相矛盾我曾相信沙盒应该避免这种错误任何人都可以为我解释这个错误甚至更
Scala 中的“上下文绑定”是什么？

Scala 2 8 的新功能之一是上下文边界什么是上下文绑定以及它在哪里有用当然我首先搜索了并发现例如this https stackoverflow com questions 2961986 how do you write a
以编程方式更改 iPhone 中的设备方向

我有基于导航的应用程序当我单击根视图中的任何行时下一个视图应该处于横向模式我无法找到适当的方法来实现这一点我尝试的是 BOOL shouldAutorotateToInterfaceOrientation UIInterfaceOr
按绝对值排序而不改变数据

我正在寻找一种简单的方法来按特定列的绝对值对 pandas 数据框进行排序但实际上不更改数据框中的值类似的东西sorted df key abs 所以如果我有一个像这样的数据框 a b 0 1 3 1 2 5 2 3 1 3 4 2 4
在 ES6 模块中通过字符串访问导出函数

考虑以下 exports handleEvent event export function handleEvent event do something with event 这在使用 babel 转译节点模块时有效因为它将所有内容粘贴
在 XSLT 1.0 中将 EDT 转换为 GMT

我的输入值为 2017 年 9 月 12 日星期二 15 03 22 EDT 或 2017 09 12T15 03 22 0000000 我需要类似 2017 09 12T19 03 22Z 是否可以在 XSLT 1 0 中将 EDT 日期
在 Android 中隐藏键盘的最佳方法

我想知道在 EditText 输入文本后隐藏键盘的最佳方法 1 setonfocuschangelistener 是否仅在按下完成按钮或焦点从一个 EditText 更改为另一个时触发此侦听器当我使用这个方法时我无法隐藏键盘 2 set
SSMS 2012 智能感知行为

SSMS 2012 中智能感知的行为似乎已更改因此它的行为与 Visual Studio 或 SSMS 2008 不同以前我总是按空格键这会插入智能感知中当前突出显示的单词但在 SSMS 2012 中我必须按 TAB 或按向下键然后
如何使用 python 传递字符串+ web url并接收响应[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在使用 Python 和谷歌翻译
iOS 的 BLE 外设名称不正确

我正在编写一个 iOS 应用程序来与 BLE 设备通信设备可以在连接之间更改名称不能在 BLE 连接期间但 iOS 拒绝更改设备名称例如当设备名称为 SadName 时我可以连接到该设备我断开连接关闭应用程序等然后将设备的
检查空值并在不存在时分配另一个值的最短方法

我拉着varchar值来自数据库并想要设置string如果它们是我将它们分配为 null 我目前正在这样做 if string IsNullOrEmpty planRec approved by true this approved by
如何在 CSS 中组合变换？

我有一个 CSS 动画它使用变换来相对于其当前位置移动 CSS fish animation fishanimation 4s ease in out infinite alternate keyframes fishanimation
Android espresso - 如何检查 Listview 底部 TextView 的值？

在上面的附图中它是一个带有TextView 交付报告的ListView Its status can be Sent or Sending or Failed 我想检查已发送条件这意味着断言消息已成功发送由于这是一个对话新消息
CSS 声明 - 元素类型和 ID 还是只是 ID？

我应该如何使用 CSS 声明这边走 div main content width 900px border 1px solid CCC margin 20px 0 20px 0 padding 40px overflow hidden 或
我可以用算术运算的方式编写关系运算符吗？

所以我有一个相当复杂的函数 template
从 csv 导入时如何获取记录为 NULL 的缺失值

我有多个大型 csv 文件每个文件在许多地方都有缺失值当我将 csv 文件导入 SQLite 时我希望将缺失值记录为 NULL 因为另一个应用程序希望缺失数据由 NULL 指示我当前的方法无法产生预期的结果 CSV 文件 test
是否可以从另一个类库中的静态类获取ConnectionString？

我已在 appsettings json 文件中添加了连接字符串我需要访问后台操作所需的连接字符串但为了使用连接字符串我必须通过同一解决方案中不同项目的静态类进行访问我无法使用ConfigurationManager Connect
当 TFS 团队查询结果发生更改时发出警报

是否可以创建一个 TFS 警报在某个查询的结果发生更改时通知用户 Example 我有一个查询结果找到 10 个工作项这些工作项之一已更改它不再满足此查询查询结果应为 9 我想要一条通知告诉我查询结果已更改也指已更改的工作项
将 Spark 特征向量转换为数组

我有一个特征列它使用 Spark 的 VectorAssembler 打包成向量向量如下所示 data是输入 DataFrame 类型为spark sql DataFrame val featureCols Array feature

将 Spark 特征向量转换为数组

将 Spark 特征向量转换为数组 的相关文章

随机推荐

热门标签

将 Spark 特征向量转换为数组的相关文章