带点火花的列名称

2024-02-20

我正在尝试从DataFrame并将其转换为RDD[Vector].

问题是我的列名称中带有“点”，如下数据集：

"col0.1","col1.2","col2.3","col3.4"
1,2,3,4
10,12,15,3
1,12,10,5

这就是我正在做的：

val df = spark.read.format("csv").options(Map("header" -> "true", "inferSchema" -> "true")).load("C:/Users/mhattabi/Desktop/donnee/test.txt")
val column=df.columns.map(c=>s"`${c}`")
val rows = new VectorAssembler().setInputCols(column).setOutputCol("vs")
  .transform(df)
  .select("vs")
  .rdd
val data =rows.map(_.getAs[org.apache.spark.ml.linalg.Vector](0))
  .map(org.apache.spark.mllib.linalg.Vectors.fromML)

val mat: RowMatrix = new RowMatrix(data)
//// Compute the top 5 singular values and corresponding singular vectors.
val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(mat.numCols().toInt, computeU = true)
val U: RowMatrix = svd.U  // The U factor is a RowMatrix.
val s: Vector = svd.s  // The singular values are stored in a local dense vector.
val V: Matrix = svd.V  // The V factor is a local dense matrix.

println(V)

请帮助我考虑名称中带有点的列。谢谢

如果您的问题是.(dot)在列名称中，您可以使用`(backticks)括起列名称。

df.select("`col0.1`")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

apachesparkmllib

apachesparkml

带点火花的列名称的相关文章

在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写
Scala 特性：val/def 和 require

下面的代码抛出IllegalArgumentException trait T val x Long require x gt 0 object T extends App val y new T val x 42L 而以下情况则不然 tr
使用 scala 在 Flink 中进行实时流预测

弗林克版本 1 2 0斯卡拉版本 2 11 8 我想使用 DataStream 来使用 scala 中的 flink 模型进行预测我在使用 scala 的 flink 中有一个 DataStream String 其中包含来自 kafka
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Scala 解析器组合器的运算符优先级

我正在研究需要考虑运算符优先级的解析逻辑我的需求并不太复杂首先我需要乘法和除法比加法和减法具有更高的优先级例如 1 2 3 应视为 1 2 3 这是一个简单的例子但你明白了我需要将更多自定义标记添加到优先级逻辑中我可以根据此处
如何为 Spark RDD 中的元素分配唯一的连续编号

我有一个数据集 user product review 并希望将其输入到 mllib 的 ALS 算法中该算法需要用户和产品是数字而我的是字符串用户名和字符串SKU 现在我获取不同的用户和 SKU 然后在 Spark 外部为它们分配数
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
默认情况下，Spark sql 模式中的可为空性是建议性的。严格执行的最佳方法是什么？

我正在开发一个简单的 ETL 项目它读取 CSV 文件执行对每列进行一些修改然后将结果以 JSON 格式写出我想要读取我的结果的下游进程确信我的输出符合一个商定的模式但我的问题是即使我定义我的输入模式的所有字段都为 nu
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
Spark 执行器登录 YARN

我正在 Cloudera 集群上以 YARN 客户端模式启动分布式 Spark 应用程序一段时间后我在 Cloudera Manager 上看到一些错误一些执行者会断开连接并且这种情况会系统性地发生我想调试该问题但 YARN 未
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa

随机推荐

浮点异常 - gcc bug？

考虑以下代码 include
由于 NanoMatch 问题，Firestore 的 Firebase 功能失败

我是云函数新手正在测试此示例代码https github com firebase functions samples tree master quickstarts uppercase firestore https github co
简单的问题：读取文件，反转它并写入 Ruby 中的另一个文件

I have o File new ouput txt rw File new my file txt lines reverse each line line o close 我不知道使用什么方法写入文件输出o puts理解数组所以你可
捕捉并继续？ C＃

这是一个简单的问题寻求一个简单的答案不需要代码作为演示当我调用函数时它返回异常并且整个函数停止如何忽略异常并继续执行该功能您不能忽略异常如果您没有捕获它那么异常将向上传播调用堆栈直到有人捕获它并处理它或者它到达调用堆栈的
在 A4 svg 绘图中绘制 1 像素描边宽度图表

我目前正在尝试在svg中绘制一些图形纸张尺寸是A4 1个逻辑单元代表1mm 所以我将viewport设置为297mmx210mm viewbox设置为297x210 现在的问题是我绘制的图形的笔划宽度不再是 1 像素例如
UINavigationController：如何删除堆栈视图

假设这是我的堆栈布局 View3 gt Top of the stack View2 View1 HomeView gt Bottom of the stack 所以我在View3现在如果我点击Home按钮我要加载HomeView 这意
如何编写接受无限参数的函数？

我只能找到one函数采用可变数量参数的方式是这样的 include
什么是 .idea 文件夹？

当我在 JetBrains WebStorm 中创建项目时会出现一个名为 idea被创建我删除了可以吗会影响我的项目吗当您使用智能集成开发环境 http www jetbrains com idea 该项目的所有特定于项目的设置都存
在x86中“test eax,eax”和“cmp eax,0”有什么区别

Is test eax eax比更有效率cmp eax 0 是否存在以下情况 test eax eax是必要的地方cmp eax 0不满足要求正如臧明杰在评论中已经说过的 test eax eax几乎与cmp eax 0 除了它短于cmp
jquery 简单图像滑块 w/ajax

我有一个页面上面有很多图像只想按需加载额外的图像 IE 如果用户单击它或将鼠标悬停在上面等等我见过的大多数如果不是全部滑块都使用隐藏属性所有元素都会立即加载这在我的情况下会造成过度的负担我喜欢 http nivo dev7
为什么使用“ORDER BY”命令时 RU 消耗减少这么多？

我正在使用文档数据库但对 Order By 命令的工作原理有些困惑查询 1 的成本超过 4k RU SELECT FROM c WHERE c ts gt 0 查询 2 仅花费 95 RU SELECT FROM c WHERE c t
为什么 void 函数有返回值？

我是一名编程初学者我对函数的返回值有疑问我正在学习Java 我附上了我书中的代码其中包含经典的选择排序现在显然书中的代码可以工作了然而主函数中的这三行是我的问题的基础 int a new int 1 9 2 8 3 7 4 6
如何在 SVG 元素悬停时显示工具提示 div

I requirement for an inline SVG chart which has a more information icon which should trigger tooltip on hover See attach
从其他类访问 IBOutlet

我有一个基于文档的可可应用程序应用程序菜单中的一个项目连接到IBAction 单击该项目需要执行一项使用IBOutlet在使用另一个类的主 nib 文件中 MyDocument 创建同一类的 2 个对象每个笔尖一个对象似乎不起作用我如
Python：如何使用plotly制作阴影区域或交替背景颜色？

仅使用这几行代码plot ly https plot ly python offline plotting offline with cufflinks将在 jupyter 笔记本中为您提供以下绘图片段 1 import plotly i
如何修复“java.sql.SQLException：无法添加外键约束。”创建具有双主外键关系的表时

我正在使用 Kotlin 和 Jetbrain 的公开 SQL 库为我正在开发的项目设置数据库我正在尝试在两个表cw cache 父表和cw requests 子表之间建立外键关系此设置适用于 Sqlite 数据库但当我尝试在 M
AWS SDK无法读取环境变量

我正在为 Jenkins 设置 AWS env 变量如下所示 sudo apt get update y sudo apt get install y python3 python pip python devel sudo pip in
Yeoman，如何引用凉亭包（字体很棒）？

我对 Yeoman 完全陌生我遇到了一个问题设置项目后我决定使用 font awesome 所以我使用 Bower 安装了它并且工作正常问题是 font awesome 不在 dist bower components 文件夹中但
如何使用.NET在Windows窗体中显示Windows文件夹内容？

我想在我的 Windows 窗体中显示文件夹内容用户可以从其中复制粘贴用户所需的文件为此我必须使用什么类型的容器基本上你有两个选择您可以获得一个已经构建的控件并在您的应用程序中使用它它们有很多但不是很好您必须付费购买一个或者
带点火花的列名称

我正在尝试从DataFrame并将其转换为RDD Vector 问题是我的列名称中带有点如下数据集 col0 1 col1 2 col2 3 col3 4 1 2 3 4 10 12 15 3 1 12 10 5 这就是我正在做的 va

带点火花的列名​​称

带点火花的列名​​称 的相关文章

随机推荐

热门标签

带点火花的列名称

带点火花的列名称的相关文章