Spark scala 模拟 Spark.implicits 用于单元测试

2024-05-16

当尝试使用 Spark 和 Scala 简化单元测试时，我使用 scala-test 和mockito-scala（以及mockito Sugar）。这只是让你做这样的事情：

val sparkSessionMock = mock[SparkSession]

然后你通常可以用“何时”和“验证”来完成所有的魔法。

但是如果你有一些需要导入的实现

import spark.implicits._

在其代码中，那么单元测试的简单性似乎消失了（或者至少我还没有找到解决这个问题的最合适的方法）。

我最终得到这个错误：

org.mockito.exceptions.verification.SmartNullPointerException: 
You have a NullPointerException here:
-> at ...
because this method call was *not* stubbed correctly:
-> at scala.Option.orElse(Option.scala:289)
sparkSession.implicits();

由于输入问题，简单地模拟 SparkSession 内“隐式”对象的调用不会有帮助：

val implicitsMock = mock[SQLImplicits]
when(sparkSessionMock.implicits).thenReturn(implicitsMock)

不会让你通过，因为它说它需要你的模拟中对象的类型：

require: sparkSessionMock.implicits.type
found: implicitsMock.type

请不要告诉我我应该做 SparkSession.builder.getOrCreate()...从那时起，这不再是单元测试，而是更重量级的集成测试。

（编辑）：这是一个完整的可重现示例：

import org.apache.spark.sql._
import org.mockito.Mockito.when
import org.scalatest.{ FlatSpec, Matchers }
import org.scalatestplus.mockito.MockitoSugar

case class MyData(key: String, value: String)

class ClassToTest()(implicit spark: SparkSession) {
    import spark.implicits._

    def read(path: String): Dataset[MyData] = 
         spark.read.parquet(path).as[MyData]
}

class SparkMock extends FlatSpec with Matchers with MockitoSugar {

     it should "be able to mock spark.implicits" in {
         implicit val sparkMock: SparkSession = mock[SparkSession]
         val implicitsMock = mock[SQLImplicits]
         when(sparkMock.implicits).thenReturn(implicitsMock)
         val readerMock = mock[DataFrameReader]
         when(sparkMock.read).thenReturn(readerMock)
         val dataFrameMock = mock[DataFrame]
         when(readerMock.parquet("/some/path")).thenReturn(dataFrameMock)
         val dataSetMock = mock[Dataset[MyData]]
         implicit val testEncoder: Encoder[MyData] = Encoders.product[MyData]
         when(dataFrameMock.as[MyData]).thenReturn(dataSetMock)

         new ClassToTest().read("/some/path/") shouldBe dataSetMock
    }
 }

你不能嘲笑隐式。隐式在编译时解决，而模拟在运行时发生（运行时反射，通过字节码操作）字节好友 https://bytebuddy.net）。您不能在编译时导入仅在运行时才会被模拟的隐式。您必须手动解析隐式（原则上，如果您在运行时再次启动编译器，则可以在运行时解析隐式，但这会困难得多1 https://stackoverflow.com/questions/64308467/is-there-anyway-in-scala-to-get-the-singleton-type-of-something-from-the-more 2 https://stackoverflow.com/questions/64045433/load-dataset-from-dynamically-generated-case-class 3 https://stackoverflow.com/questions/59348301/in-scala-2-or-3-is-it-possible-to-debug-implicit-resolution-process-in-runtime 4 https://stackoverflow.com/questions/64111895/dynamically-parse-json-in-flink-map/).

Try

class ClassToTest()(implicit spark: SparkSession, encoder: Encoder[MyData]) {
  def read(path: String): Dataset[MyData] = 
    spark.read.parquet(path).as[MyData]
}

class SparkMock extends AnyFlatSpec with Matchers with MockitoSugar {

  it should "be able to mock spark.implicits" in {
    implicit val sparkMock: SparkSession = mock[SparkSession]
    val readerMock = mock[DataFrameReader]
    when(sparkMock.read).thenReturn(readerMock)
    val dataFrameMock = mock[DataFrame]
    when(readerMock.parquet("/some/path")).thenReturn(dataFrameMock)
    val dataSetMock = mock[Dataset[MyData]]
    implicit val testEncoder: Encoder[MyData] = Encoders.product[MyData]
    when(dataFrameMock.as[MyData]).thenReturn(dataSetMock)

    new ClassToTest().read("/some/path") shouldBe dataSetMock
  }
}

//[info] SparkMock:
//[info] - should be able to mock spark.implicits
//[info] Run completed in 2 seconds, 727 milliseconds.
//[info] Total number of tests run: 1
//[info] Suites: completed 1, aborted 0
//[info] Tests: succeeded 1, failed 0, canceled 0, ignored 0, pending 0
//[info] All tests passed.

请注意"/some/path"两个地方应该是一样的。在您的代码片段中，两个字符串不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark scala 模拟 Spark.implicits 用于单元测试的相关文章

Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
最小重复子串

我正在看 Perl代码高尔夫页面 http www perlmonks org node id 82878 不要问为什么并遇到了这个第 3 洞最小重复图案编写一个子例程它接受一个字符串该字符串可能包含重复模式并返回最小的重复
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
PowerMock + Mockito VS 单独 Mockito

谁能总结一下到底有哪些功能可以让您在 Mockito 之上添加 PowerMock 到目前为止我已经找到了这些模拟静态最终和私有方法删除静态初始化器允许在没有依赖注入的情况下进行模拟我不清楚这一点你能详细说明一下吗它还添加其
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
使用 Spray-json 解析简单数组

我正在尝试但失败了了解 Spray json 如何将 json feed 转换为对象如果我有一个简单的 key gt value json feed 那么它似乎可以正常工作但是我想要读取的数据出现在如下列表中 name John a
通用特征的隐式转换

我正在实现一个数据结构并希望用户能够使用任何类型作为密钥只要他提供一个合适的密钥类型来包装它我有这个关键类型的特质这个想法是进行从基类型到键类型的隐式转换反之亦然实际上只使用基类型该特征看起来像这样 trait Key T
Scala 如何忽略 Java 的检查异常？

例如如果调用 JavaThread sleep这会抛出一个已检查的InterruptedException来自 Scala 源文件然后不需要将调用包含在 Scala 中try catch Scala 如何删除将调用包围在 a 中的规则tr
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
Scala 和变量中的模式匹配

我是 Scala 新手有点想知道模式匹配是如何工作的想象一下我有以下内容 case class Cls i Int case b Cls i gt Ok case e Cls gt Ok case f Cls gt Ok case s
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
缓存 Slick DBIO 操作

我正在尝试加快 SELECT FROM WHERE name 的速度Play 中的查询类型 Scala 应用程序我正在使用 Play 2 4 Scala 2 11 play slick 1 1 1 包该软件包使用Slick 3 1版本
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何模拟从抽象类继承的受保护子类方法？

如何使用 Mockito 或 PowerMock 模拟由子类实现但从抽象超类继承的受保护方法换句话说我想在模拟 doSomethingElse 的同时测试 doSomething 方法抽象超类 public abstract clas
Scala 中的 Shapeless 结构编程：如何正确使用 SYB 实现？

我想使用SYB http research microsoft com en us um people simonpj papers hmap 实施于无形图书馆 https github com milessabin shapeless编写

随机推荐

如何在 Razor 编辑视图中显示选中的单选按钮 Asp net core mvc

尽管 Razor 视图中的 Asp 网络核心代码 model List
Emacs C++，打开相应的头文件

我是 emacs 新手我想知道是否有在头文件源文件和相应的源文件头文件之间切换的快捷方式是否有像通用 emacs 参考卡那样的参考卡 Thanks There s ff find other file 您可以使用以下方法将其绑定到
IDisposable 的显式实现

虽然有很多关于IDisposable在 SO 上找到我还没有找到答案我通常遵循这样的做法当我的一个班级拥有一个IDisposable对象然后它也实现IDisposable并打电话Dispose在拥有的对象上然而最近我遇到了一个类它
如何在c中断言两个类型相等？

在 C 中如何断言两种类型相等在 C 中我会使用 std is same 但搜索 StackOverflow 和其他地方似乎只能给出 C 和 C 的结果在C中没有办法做到这一点吗请注意这不是询问变量是否具有某种类型而是询问两个类
通过 R 中的数据子集执行计算

我想对数据框的 PERMNO 列中的每个公司编号进行计算其摘要可以在此处查看 gt summary companydataRETS PERMNO RET Min 10000 Min 0 971698 1st Qu 32716 1st Qu
游戏中心邀请处理程序，它属于哪里？

我已经搜索了该网站并发现了这个 GameCenter 邀请处理程序 https stackoverflow com questions 4639284 gamecenter invitation handler He says 正如文档中所
为什么java.lang.Cloneable不重写java.lang.Object中的clone()方法？

Java 规范java lang Cloneable接口将自身定义为表示扩展它的任何对象也实现了clone 休眠的方法java lang Object 具体来说它说一个类实现了Cloneable接口来指示java lang Object
如何建立与 FileZilla Server 1.2.0 的 FTPS 数据连接

使用 Apache commons net 的 Java FTPSClient 进行会话恢复是一个已知问题会话恢复是 FTPS 服务器数据连接所需的一项安全功能 Apache FTPSClient 不支持会话恢复并且 JDK API 使
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
使用 md5 加密的 PHP 和 Mysql 查询出现问题

我使用普通的 php mysql 插入查询并使用 md5 加密密码这是插入查询 sql mysql query INSERT INTO user username password role approved values usernam
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i
Keycloak-js updateToken(minValidity) 需要澄清

我在Keycloak js中阅读了很多该方法的示例但没有对以下方法进行明确的解释 updateToken minValidity number KeycloakPromise
如何使用xlwt设置文本颜色

我无法找到有关如何设置文本颜色的文档在 xlwt 中如何完成以下操作 style xlwt XFStyle bold font xlwt Font font bold True style font font background col
Errors/BindingResult 参数应在模型属性、@RequestBody 或 @RequestPart 参数之后立即声明

我通过剖析示例应用程序来自学 Spring 然后到处添加代码来测试我在剖析过程中开发的理论在测试添加到 Spring 应用程序中的一些代码时我收到以下错误消息 An Errors BindingResult argument is ex
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
决策树和规则引擎 (Drools)

In the application that I m working on right now I need to periodically check eligibility of tens of thousands of object
我可以通过在 Android Activity 中声明适当的成员“静态”来提高效率吗

如果一个 Activity 在实践中是单例我认为我可以通过声明适当的成员静态来获得一些效率且风险为零是的 The Android 文档说 http developer android com guide topics fundam
WCF 服务主机配置 - 请尝试将 HTTP 端口更改为 8732

我的 PC 上运行着一个复杂的基于 WCF 服务的解决方案但由于安装 Windows 8 1 时出现问题我不得不刷新我的 PC 现在我已经重新安装了 Visual Studio 2012 我的项目不再正常运行当我调试单元测试时 w
Java中单例的其他方式[重复]

这个问题在这里已经有答案了只是我在考虑编写单例类的其他方法那么这个类是否被认为是单例类呢 public class MyClass static Myclass myclass static myclass new MyClass pr
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes

Spark scala 模拟 Spark.implicits 用于单元测试

Spark scala 模拟 Spark.implicits 用于单元测试 的相关文章

随机推荐

热门标签

Spark scala 模拟 Spark.implicits 用于单元测试的相关文章