Spark 2.0 中访问向量列时出现 MatchError

2023-11-26

我正在尝试在 JSON 文件上创建 LDA 模型。

使用 JSON 文件创建 Spark 上下文：

import org.apache.spark.sql.SparkSession

val sparkSession = SparkSession.builder
  .master("local")
  .appName("my-spark-app")
  .config("spark.some.config.option", "config-value")
  .getOrCreate()

 val df = spark.read.json("dbfs:/mnt/JSON6/JSON/sampleDoc.txt")

显示df应该显示DataFrame

display(df)

对文本进行标记

import org.apache.spark.ml.feature.RegexTokenizer

// Set params for RegexTokenizer
val tokenizer = new RegexTokenizer()
                .setPattern("[\\W_]+")
                .setMinTokenLength(4) // Filter away tokens with length < 4
                .setInputCol("text")
                .setOutputCol("tokens")

// Tokenize document
val tokenized_df = tokenizer.transform(df)

这应该显示tokenized_df

display(tokenized_df)

Get the stopwords

%sh wget http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words > -O /tmp/stopwords

可选：将停用词复制到 tmp 文件夹

%fs cp file:/tmp/stopwords dbfs:/tmp/stopwords

收集所有的stopwords

val stopwords = sc.textFile("/tmp/stopwords").collect()

过滤掉stopwords

 import org.apache.spark.ml.feature.StopWordsRemover

 // Set params for StopWordsRemover
 val remover = new StopWordsRemover()
                   .setStopWords(stopwords) // This parameter is optional
                   .setInputCol("tokens")
                   .setOutputCol("filtered")

 // Create new DF with Stopwords removed
 val filtered_df = remover.transform(tokenized_df)

显示过滤后的内容df应验证stopwords被删除了

 display(filtered_df)

向量化单词出现的频率

 import org.apache.spark.mllib.linalg.Vectors
 import org.apache.spark.sql.Row
 import org.apache.spark.ml.feature.CountVectorizer

 // Set params for CountVectorizer
 val vectorizer = new CountVectorizer()
               .setInputCol("filtered")
               .setOutputCol("features")
               .fit(filtered_df)

验证vectorizer

 vectorizer.transform(filtered_df)
           .select("id", "text","features","filtered").show()

之后我发现安装这个问题vectorizer在LDA中。我认为的问题是CountVectorizer给出稀疏向量，但 LDA 需要密集向量。仍在尝试找出问题所在。

这是地图无法转换的例外情况。

import org.apache.spark.mllib.linalg.Vector
val ldaDF = countVectors.map { 
             case Row(id: String, countVector: Vector) => (id, countVector) 
            }
display(ldaDF)

例外：

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 4083.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4083.0 (TID 15331, 10.209.240.17): scala.MatchError: [0,(1252,[13,17,18,20,30,37,45,50,51,53,63,64,96,101,108,125,174,189,214,221,224,227,238,268,291,309,328,357,362,437,441,455,492,493,511,528,561,613,619,674,764,823,839,980,1098,1143],[1.0,1.0,2.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,1.0,2.0,1.0,5.0,1.0,2.0,2.0,1.0,4.0,1.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,2.0,1.0,1.0,1.0])] (of class org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema)

LDA 有一个工作示例，不会引发任何问题

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.Row
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.mllib.clustering.{DistributedLDAModel, LDA}

val a = Vectors.dense(Array(1.0,2.0,3.0))
val b = Vectors.dense(Array(3.0,4.0,5.0))
val df = Seq((1L,a),(2L,b),(2L,a)).toDF

val ldaDF = df.map { case Row(id: Long, countVector: Vector) => (id, countVector) } 

val model = new LDA().setK(3).run(ldaDF.javaRDD)
display(df)

唯一的区别是在第二个片段中我们有一个密集矩阵。

这与稀疏性无关。从 Spark 2.0.0 ML 开始Transformers不再生成o.a.s.mllib.linalg.VectorUDT but o.a.s.ml.linalg.VectorUDT并局部映射到o.a.s.ml.linalg.Vector。这些与旧的 MLLib API 不兼容，旧的 MLLib API 在 Spark 2.0.0 中即将弃用。

您可以使用以下方式将其转换为“旧”Vectors.fromML:

import org.apache.spark.mllib.linalg.{Vectors => OldVectors}
import org.apache.spark.ml.linalg.{Vectors => NewVectors}

OldVectors.fromML(NewVectors.dense(1.0, 2.0, 3.0))
OldVectors.fromML(NewVectors.sparse(5, Seq(0 -> 1.0, 2 -> 2.0, 4 -> 3.0)))

但使用它更有意义ML如果您已经使用 ML 转换器，请实现 LDA。

为了方便起见，您可以使用隐式转换：

import scala.languageFeature.implicitConversions

object VectorConversions {
  import org.apache.spark.mllib.{linalg => mllib}
  import org.apache.spark.ml.{linalg => ml}

  implicit def toNewVector(v: mllib.Vector) = v.asML
  implicit def toOldVector(v: ml.Vector) = mllib.Vectors.fromML(v)
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

apachesparkmllib

apachesparkml

Spark 2.0 中访问向量列时出现 MatchError 的相关文章

在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Scala 模式匹配变量绑定

为什么提取器返回时不能以样式绑定变量Option
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
缓存 Slick DBIO 操作

我正在尝试加快 SELECT FROM WHERE name 的速度Play 中的查询类型 Scala 应用程序我正在使用 Play 2 4 Scala 2 11 play slick 1 1 1 包该软件包使用Slick 3 1版本
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
为什么在 Scala 中函数类型需要以单独的参数组传递到函数中

我是 scala 新手我用两种方式编写了相同的代码但我对两种方式有点困惑在第二种方式中 f 的参数类型是自动派生的但在 type1 中 scala 编译器无法执行相同的操作我只是想了解这背后的想法是什么 Type1 给出编译错误
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
向 Scala Swing Panel 添加标签时出现类型不匹配错误

我有这个课程扩展FlowPanel我正在尝试向其中添加标签 import java awt Label Color import scala swing import scala util Random class MyPanel exte
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
是否有适用于 Haskell 或 Scala 等函数式语言的 LL 解析器生成器？

我注意到明显缺乏用函数式语言创建解析器的 LL 解析器我一直在寻找但没有成功的理想发现是为 ANTLR 风格的 LL 语法生成 Haskell 解析器语法的模小数重新格式化并且令我惊讶的是每个最后一个解析器生成器都具有函数我发现的语
关于 scala.math.Integral 的问题

有什么方法mkNumericOps andmkOrderingOps of scala math Integral http www scala lang org api current scala math Integral html我们

随机推荐

为什么 onAppear() 当放置在 swiftUI 中的 NavigationView 内的元素上时会执行两次？ (Xcode 12.0)

FirstView Appeared被打印两次当视图首次加载时一次当选择 NavigationLink 时再次一次 import SwiftUI struct FirstView View var body some View Navi
Javascript .Replace 替代方案

我正在为 eBay 编写一个模板但是 eBay 不允许 replace 下面的代码用于翻转选项卡部分当用户将鼠标悬停在选项卡 a 上时相应的 div div a 变得可见有没有一种解决方法可以让代码在不使用 replace 的情况下
这个 O(N*k) 排序算法是什么？

当工作 BrainF 最快的排序我发现了这个算法它是O N k 其中k是输入中的最大值它需要 O N 额外的存储空间物理上的类比是你有 N 堆令牌栈的高度代表要排序的值每个标记代表一个位为另外 N 堆留出空间您从每个有令牌的
使用 R 从 XTS 对象中提取该月第一个工作日的回报

我对 R 非常陌生所以如果我在解释这个问题时出现任何术语错误我深表歉意我在 csv 文件中有一组每日退货数据我已设法将其转换为 xts 对象数据格式为 HighYield EUR MSCI World EUR 2002 01 31
枚举的 XML 序列化

我在序列化枚举值时遇到问题这是代码 System Xml Serialization XmlRootAttribute Namespace IsNullable false public class REQUEST System Xml
将图像存储到数据库 blob；从数据库检索到 Picturebox

您好我之前发布了此内容并获得了一些帮助但仍然没有有效的解决方案感谢上一个问答我确定我的保存到数据库代码以及检索到图片代码有问题即使我手动将图片保存在数据库中它仍然无法检索这是我根据网络上的 3 或 4 个示例拼凑而成的
类型错误：需要一个浮点数

无法发布图片所以 a i 1 i 1 sin x ln x i 2 i 1 任务需要找到a1 a2 an n 是自然的并且是给定的这就是我尝试这样做的方式 import math a k 0 p 0 def factorial n f
使用 JSON.net 序列化 Dictionary？

我正在尝试使用 JSON net 序列化字典 Using JsonConvert SerializeObject theDict 这是我的结果 1 Blah1 false Blah2 false Blah3 None Blah4 false
Python 正确使用 __str__ 和 __repr__

我当前的项目需要大量使用位字段我找到了一个简单实用的位字段类的配方但它缺少一些我需要的功能所以我决定扩展它我刚刚要实施 str and repr 我想确保我遵守惯例 str 应该是非正式和简洁的所以我让它返回位字段的十进制值即st
权限被拒绝：用 Java 创建文件

使用 Mac 在 Eclipse 中编译以下代码后 import java io public class Filer public static void main String args throws IOException File
VB.Net - “With”和闭包不能混用

只是想我会分享这个以防其他人遇到这个问题我今天做了类似的事情我花了一段时间才弄清楚为什么这会在运行时导致问题这段代码 Public Class foo Public bar As String blah End Class Publi
如何将 Spring WebClient 与 Jetty 一起使用，而不是 Netty？

根据文档可以将 Spring Reactive WebClient 与 Netty 等不同的服务器一起使用 WebClient 通过 HTTP 客户端库提供更高级别的 API 经过默认它使用 Reactor Netty 但可以使用不同的插
jQuery $.animate() 多个元素但只触发一次回调

如果您选择一个类或元素集合来使用 jQuery 制作动画 myElems animate 然后还使用回调函数最终会得到很多不必要的东西animate calls var i 1 myElems animate width 200px 20
Android NDK 平台版本相对于 API 级别的确切意义是什么？

我有一个 Android 应用程序minSdkVersion apiLevel设置为 18targetSdkVersion apiLevel设置为23 因此我设置了NDKplatformVersion to 18 不幸的是在添加 Open
在 Lua 5.2 中重新创建 setfenv()

我怎样才能重新创建的功能setfenv在 Lua 5 2 中我无法准确理解您应该如何使用新功能 ENV环境变量在 Lua 5 1 中你可以使用setfenv很容易对任何功能进行沙箱处理 Lua 5 1 print G G address
ES6 模板文字比字符串连接更快吗？

在 ES6 中使用字符串连接或模板文字时 HTML 代码生成在现代浏览器中运行速度是否明显更快例如字符串连接
PHP 代码块之间的变量范围

我对 PHP 还很陌生并且继续学习我经常需要检索某个变量并访问其属性
ArrayList() 与 arrayListOf()

我正在学习一些 Kotlin 基础知识发现了两种语法 ArrayList
Phonegap支持根相对路径吗？最佳实践是什么？

读后我真的很困惑iOS 上的 PhoneGap 具有资产的绝对路径 URL有几个问题 Phonegap支持根相对路径吗例如离子框架混合移动开发有这样的路径samples Phonegap 路径的最佳实践是什么基本上在电话间隙开发中与
Spark 2.0 中访问向量列时出现 MatchError

我正在尝试在 JSON 文件上创建 LDA 模型使用 JSON 文件创建 Spark 上下文 import org apache spark sql SparkSession val sparkSession SparkSession b

Spark 2.0 中访问向量列时出现 MatchError

Spark 2.0 中访问向量列时出现 MatchError 的相关文章

随机推荐

热门标签