Spark 结构化流内存流 + 行 + 编码器问题

2024-01-19

我正在尝试使用 Spark 结构化流在本地计算机上运行一些测试。

在批处理模式下，这是我正在处理的行：

val recordSchema = StructType(List(StructField("Record", MapType(StringType, StringType), false)))
val rows         = List(
    Row(
      Map("ID" -> "1",
        "STRUCTUREID" -> "MFCD00869853",
        "MOLFILE" -> "The MOL Data",
        "MOLWEIGHT" -> "803.482",
        "FORMULA" -> "C44H69NO12",
        "NAME" -> "Tacrolimus",
        "HASH" -> "52b966c551cfe0fa7d526bac16abcb7be8b8867d",
        "SMILES" -> """[H][C@]12O[C@](O)([C@H](C)C[C@@H]1OC)""",
        "METABOLISM" -> "The metabolism 500"
       )),
    Row(
      Map("ID" -> "2",
        "STRUCTUREID" -> "MFCD00869854",
        "MOLFILE" -> "The MOL Data",
        "MOLWEIGHT" -> "603.482",
        "FORMULA" -> "",
        "NAME" -> "Tacrolimus2",
        "HASH" -> "52b966c551cfe0fa7d526bac16abcb7be8b8867d",
        "SMILES" -> """[H][C@]12O[C@](O)([C@H](C)C[C@@H]1OC)""",
        "METABOLISM" -> "The metabolism 500"
      ))
  )
val df  = spark.createDataFrame(spark.sparkContext.parallelize(rows), recordSchema)

在 Batch more 中使用它是一种魅力，没有问题。

现在我尝试使用 MemoryStream 进入流模式进行测试。我添加了以下内容：

implicit val ctx = spark.sqlContext
val intsInput = MemoryStream[Row]

但编译器抱怨如下：

未找到参数证据$1的隐式：编码器[行]

因此，我的问题是：我应该在这里做什么才能使其正常工作

我还看到，如果添加以下导入，错误就会消失：

导入spark.implicits._

实际上，我现在收到以下警告而不是错误

参数证据 $1 的不明确隐式：编码器 [行]

我不太了解编码器机制，如果有人可以向我解释如何不使用这些隐式，我将不胜感激。原因是当涉及到从 Rows 创建 DataFrame 时，我在一本书中红色了以下内容。

推荐方法：

val myManualSchema = new StructType(Array(
  new StructField("some", StringType, true),
  new StructField("col", StringType, true),
  new StructField("names", LongType, false)))
val myRows = Seq(Row("Hello", null, 1L))
val myRDD = spark.sparkContext.parallelize(myRows)
val myDf = spark.createDataFrame(myRDD, myManualSchema)
myDf.show()

然后作者继续这样说：

在Scala中，我们还可以利用Spark的隐含功能控制台（如果您将它们导入 JAR 代码中），方法是在序列类型。这不适用于空类型，所以它不是必须推荐用于生产用例。

val myDF = Seq(("Hello", 2, 1L)).toDF("col1", "col2", "col3")

如果有人可以花时间解释当我使用隐式时在我的场景中发生了什么，并且这样做是否相当安全，或者是否有一种方法可以更明确地做到这一点而不导入隐式。

最后，如果有人能给我指点关于编码器和 Spark 类型映射的好文档，那就太好了。

EDIT1

我终于可以使用它了

  implicit val ctx = spark.sqlContext
  import spark.implicits._
  val rows = MemoryStream[Map[String,String]]
  val df = rows.toDF()

尽管我的问题是我对自己所做的事情没有信心。在我看来，就像在某些情况下我需要创建一个 DataSet 才能将其转换为 DF[ROW] 并进行 toDF 转换。我知道使用 DS 是类型安全的，但比使用 DF 慢。那么为什么要使用 DataSet 这个中介呢？这不是我第一次在 Spark 结构化流中看到这一点。再说一次，如果有人能帮助我解决这些问题，那就太好了。

我鼓励你使用 Scalacase classes用于数据建模。

final case class Product(name: String, catalogNumber: String, cas: String, formula: String, weight: Double, mld: String)

现在你可以拥有一个List of Product在记忆中：

  val inMemoryRecords: List[Product] = List(
    Product("Cyclohexanecarboxylic acid", " D19706", "1148027-03-5", "C(11)H(13)Cl(2)NO(5)", 310.131, "MFCD11226417"),
    Product("Tacrolimus", "G51159", "104987-11-3", "C(44)H(69)NO(12)", 804.018, "MFCD00869853"),
    Product("Methanol", "T57494", "173310-45-7", "C(8)H(8)Cl(2)O", 191.055, "MFCD27756662")
  )

The 结构化流API https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html通过使用众所周知的方法可以很容易地推理流处理Dataset[T]抽象。粗略地说，您只需要担心三件事：

Source https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#input-sources：源可以生成输入数据流，我们可以将其表示为Dataset[Input]。每个新数据项Input到达的数据将被附加到这个无界数据集中。您可以根据需要操纵数据（例如Dataset[Input] => Dataset[Output]).
流式查询 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#starting-streaming-queries and Sink https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-sinks：查询生成一个结果表，该结果表在每个触发间隔从源更新。更改被写入称为接收器的外部存储中。
输出方式 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#output-modes：可以通过不同的模式将数据写入 Sink：完整模式、追加模式和更新模式。

假设您想了解分子量大于 200 单位的产品。

正如您所说，使用批处理 API 相当简单直接：

// Create an static dataset using the in-memory data
val staticData: Dataset[Product] = spark.createDataset(inMemoryRecords)

// Processing...
val result: Dataset[Product] = staticData.filter(_.weight > 200)

// Print results!
result.show()

使用 Streaming API 时，您只需要定义一个source and a sink作为额外的步骤。在这个例子中，我们可以使用MemoryStream和console水槽打印结果。

// Create an streaming dataset using the in-memory data (memory source)
val productSource = MemoryStream[Product]
productSource.addData(inMemoryRecords)

val streamingData: Dataset[Product] = productSource.toDS()

// Processing...
val result: Dataset[Product] = streamingData.filter(_.weight > 200)

// Print results by using the console sink. 
val query: StreamingQuery = result.writeStream.format("console").start()

// Stop streaming
query.awaitTermination(timeoutMs=5000)
query.stop()

请注意，staticData和streamingData具有确切的类型签名（即Dataset[Product]）。这使得我们无论使用 Batch 还是 Streaming API 都可以应用相同的处理步骤。您还可以考虑实现一个通用方法def processing[In, Out](inputData: Dataset[In]): Dataset[Out] = ???以避免在这两种方法中重复自己。

完整代码示例：

object ExMemoryStream extends App {

  // Boilerplate code...
  val spark: SparkSession = SparkSession.builder
    .appName("ExMemoryStreaming")
    .master("local[*]")
    .getOrCreate()

  spark.sparkContext.setLogLevel("ERROR")

  import spark.implicits._
  implicit val sqlContext: SQLContext = spark.sqlContext

  // Define your data models 
  final case class Product(name: String, catalogNumber: String, cas: String, formula: String, weight: Double, mld: String)

  // Create some in-memory instances
  val inMemoryRecords: List[Product] = List(
    Product("Cyclohexanecarboxylic acid", " D19706", "1148027-03-5", "C(11)H(13)Cl(2)NO(5)", 310.131, "MFCD11226417"),
    Product("Tacrolimus", "G51159", "104987-11-3", "C(44)H(69)NO(12)", 804.018, "MFCD00869853"),
    Product("Methanol", "T57494", "173310-45-7", "C(8)H(8)Cl(2)O", 191.055, "MFCD27756662")
  )

  // Defining processing step
  def processing(inputData: Dataset[Product]): Dataset[Product] =
    inputData.filter(_.weight > 200)

  // STATIC DATASET
  val datasetStatic: Dataset[Product] = spark.createDataset(inMemoryRecords)

  println("This is the static dataset:")
  processing(datasetStatic).show()

  // STREAMING DATASET
  val productSource = MemoryStream[Product]
  productSource.addData(inMemoryRecords)

  val datasetStreaming: Dataset[Product] = productSource.toDS()

  println("This is the streaming dataset:")
  val query: StreamingQuery = processing(datasetStreaming).writeStream.format("console").start()
  query.awaitTermination(timeoutMs=5000)
  
  // Stop query and close Spark
  query.stop()
  spark.close()

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 结构化流内存流 + 行 + 编码器问题的相关文章

运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
玩：将表单字段绑定到双精度型？

也许我只是忽略了一些明显的事情但我无法弄清楚如何将表单字段绑定到 Play 控制器中的双精度型例如假设这是我的模型 case class SavingsGoal timeframeInMonths Option Int amount
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
Akka 2 中的调度程序有哪些差异和使用模式？

我很难理解它们的差异和推荐用法Akka 2 中的调度程序 http doc akka io docs akka current scala dispatchers html 我想我明白了平衡调度程序 http doc akka io api
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
是否有适用于 Haskell 或 Scala 等函数式语言的 LL 解析器生成器？

我注意到明显缺乏用函数式语言创建解析器的 LL 解析器我一直在寻找但没有成功的理想发现是为 ANTLR 风格的 LL 语法生成 Haskell 解析器语法的模小数重新格式化并且令我惊讶的是每个最后一个解析器生成器都具有函数我发现的语
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
sbt 项目构建中的多个目标目录

我有一个这样结构的 sbt 项目 build sbt project build properties plugins sbt src main java smcho App java test java smcho AppTest jav
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
配置Scala工作表的工作目录

我希望 Scala 工作表和 Scala 解释器的工作目录是 Eclipse 项目路径而不是 Eclipse 安装目录我怎样才能非编程方式实现这一目标我知道我可以使用System setProperty user dir 但恕我
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
META-INF/服务应该在 sbt 中的哪里

META INF 目录应该放在哪里以便 sbt 获取自定义配置我在尝试使用 ServiceLoader 时遇到了这个问题并且我试图在 META INF services 中创建自定义服务如果您将 META INF 文件夹放在 src
java.lang.OutOfMemoryError：Scala 上超出了 GC 开销限制

我是 Scala 开发人员我在Routes它包含的文件1008行如果我添加另一行则会抛出下面的错误 Uncaught error from thread sbt web scheduler 1 shutting down JVM sin

随机推荐

将服务器端事件添加到扩展器控件

我有一个扩展控件可以提升文本框的OnTextChanged用户完成输入后 500 毫秒发生事件问题在于OnTextChanged当文本框失去焦点时引发这会导致问题因为回发我想做的是给扩展器控件它自己的服务器端事件比如说 OnDe
如何使用 ggplot2 剪切、裁剪或白色填充紧紧包围多边形外部的矩形

我只是想用白色填充简单多边形之外的区域出于某种原因它在中心画了一根奇怪的木桩就像它认为这是一个吸血鬼杀手或其他什么东西一样搞砸了我尝试跟随这个帖子 https stackoverflow com questions 2128664
Vue.js 路由器：历史模式和 AWS S3 (RoutingRules)

我有一个使用 Amazon S3 和 Cloudflare 启动并运行的 Vue js 应用程序当我打开索引并浏览到 dashboard 时一切正常但是当我直接在新选项卡中打开仪表板之类的路线或刷新页面时我从 S3 收到以下错误
RoR 设计：sign_in 总是返回无效的电子邮件/密码

每次登录时我都会收到错误消息表明电子邮件密码无效 routes devise for users devise scope users do get users sign out gt devise sessions destroy
最好的异常处理策略应该是什么

我正在开发用户从 UI 调用方法的应用程序在此我从业务类调用一个方法该方法调用另一个方法用户界面 gt 方法1 gt 方法2 gt 方法3 如果任何方法中发生任何异常我想向用户显示错误消息我应该直接向调用者方法抛出异常吗在 UI
Discord JS - 如何对同一个嵌入多次做出反应？

我只拿到了第一个钱袋子表情符号对频道中的最新消息做出反应这是机器人发送的嵌入但是我希望机器人对新嵌入做出反应钱袋子 and ticket 表情符号到目前为止它会与钱袋子表情符号但是当它尝试与 ticket 表情符号如
Angular 6 Firebase 快照返回未定义

我正在将对象上传到我的数据库然后尝试检索所有项目在第二步中我遇到错误我的对象类 export class Data key string name string address string address2 string pscod
Sublime Text 2：如何在不移动光标的情况下向上/向下翻页

我使用的是 OS X 10 8 4 ST2 当我使用 Home 和 End 键时视口移动并且光标保持不变这是标准的 Mac 行为也是我所期望的但是当我使用 Page Up pageup pgup 和 Page Down paged
Python3 shebang 线未按预期工作

我在 Solaris 环境中运行 Python 脚本时遇到以下问题看来我在 shebang 线上做了一些不正确的事情但我无法判断这是 Python 3 问题还是命令行问题但我怀疑它与 shebang 行有某种关系因为当我在命令行上显
“砰”或“！”是什么意思？在 git 命令之前？

正如您从这段摘录中看到的有一个在 git 命令之前重点是什么 alias commitx git add git commit https stackoverflow com a 8956546 1354543 https stack
如何每 10 秒发出一次 Ajax 请求（长轮询除外）？

我尝试使用以下命令每 10 秒从服务器请求一个 json 对象 setInterval function ajax url success function data do stuff with data 10000 但这不是很有效我了解
使用 WordNet 确定两个文本之间的语义相似度？

如何使用 WordNet 确定 python 中两个文本之间的语义相似度明显的预处理是删除停用词和词干但是然后呢我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离这是一元语法的标准但这些都是大型 400 个
无法解析符号“FusedLocationProviderClient”

我有一个错误无法解析符号 FusedLocationProviderClient 声明时 private FusedLocationProviderClient mFusedLocationClient 这里也问同样的问题无法解析符号 Fu
sqlalchemy 按计数列过滤

我有一个用户查询它按每个用户拥有的订单数量 ordersCount 进行过滤 User query filter ordersCount gt 2 如果我运行它它会显示 where 子句中的未知列 ordersCount 根据我的经验
捕获文本框滚动事件？

Textbox or richtextbox 我唯一想要的就是当滚动条移动时触发一个函数我已经找到了GetScrollPos and SetScrollPos 我想过定期检查滚动条位置但必须有更好的方法那么使用 WinForms 更
Spring MVC 和 Velocity：模板结构

我想实现这种模板功能有一个模板定义完整 x html 网页的页眉页脚和公共部分当返回字符串时 Controller它将定义包含到模板特定部分的视图像这样控制器 RequestMapping value method Reques
EF Core 迁移错误：“无法创建‘ApplicationContext’类型的对象”

我尝试使用 EF Core 进行迁移但收到错误如何修复此错误 PM gt add migration ini 无法创建 ApplicationContext 类型的对象添加一个 IDesignTimeDbContextFactory
在iPhone中使用带有userid参数的base64 haxcode将图像上传到服务器

我正在使用这段代码但问题是它在 nsdata 转换块中对 Haxcode 进行编码我想发送相同的代码我用 userid 得到的代码是固定整数请帮忙 NSData imageData NSData dataWithData UIIma
表达式树 - 不必要的转换为 int32

在处理字节和短整型时表达式树似乎构建了不必要的转换它们将两侧例如在二进制表达式中转换为 int32 这是我见过的一些 Linq 提供程序中的一个问题每个提供程序都必须剥离这个冗余层才能得到原始表达式 NHibernate 不会删除
Spark 结构化流内存流 + 行 + 编码器问题

我正在尝试使用 Spark 结构化流在本地计算机上运行一些测试在批处理模式下这是我正在处理的行 val recordSchema StructType List StructField Record MapType StringType

Spark 结构化流内存流 + 行 + 编码器问题

Spark 结构化流内存流 + 行 + 编码器问题 的相关文章

随机推荐

热门标签

Spark 结构化流内存流 + 行 + 编码器问题的相关文章