如何从 Scala 方法创建 UDF（计算 md5）？

2024-01-07

我想从两个已经工作的函数构建一个 UDF。我正在尝试计算 md5 哈希作为现有 Spark Dataframe 的新列。

def md5(s: String): String = { toHex(MessageDigest.getInstance("MD5").digest(s.getBytes("UTF-8")))}
def toHex(bytes: Array[Byte]): String = bytes.map("%02x".format(_)).mkString("")

结构（到目前为止我所拥有的）

val md5_hash: // UDF Implementation
val sqlfunc = udf(md5_hash)
val new_df = load_df.withColumn("New_MD5_Column", sqlfunc(col("Duration")))

不幸的是我不知道如何正确地实现该函数作为 UDF。

为什么不使用内置的md5 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24@md5(e:org.apache.spark.sql.Column):org.apache.spark.sql.Column功能？

md5(e: 列): 列计算二进制列的 MD5 摘要并以 32 个字符的十六进制字符串形式返回值。

然后您可以按如下方式使用它：

val new_df = load_df.withColumn("New_MD5_Column", md5($"Duration"))

您必须确保该列是二进制类型，因此如果它是 int，您可能会看到以下错误：

org.apache.spark.sql.AnalysisException：无法解析'md5（Duration)' 由于数据类型不匹配：参数 1 需要二进制类型，但是，'Duration' 是 int 类型。;;

然后您应该将类型更改为md5-兼容，即二进制类型，使用bin http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24@bin(e:org.apache.spark.sql.Column):org.apache.spark.sql.Column功能。

bin(e: 列): 列返回给定长列的二进制值的字符串表示形式的表达式。例如，bin("12")回报"1100".

那么解决方案可能如下：

val solution = load_df.
  withColumn("bin_duration", bin($"duration")).
  withColumn("md5", md5($"bin_duration"))
scala> solution.show(false)
+--------+------------+--------------------------------+
|Duration|bin_duration|md5                             |
+--------+------------+--------------------------------+
|1       |1           |c4ca4238a0b923820dcc509a6f75849b|
+--------+------------+--------------------------------+

您还可以将函数“链接”在一起，并在一个函数中进行转换和计算 MD5withColumn，但我更喜欢将步骤分开，以防出现需要解决的问题，并且中间步骤通常会有所帮助。

表现

您会考虑使用内置函数的原因bin and md5自定义用户定义函数 (UDF) 的优点是could由于 Spark SQL 处于完全控制状态，因此可以获得更好的性能would不添加额外的步骤来序列化和反序列化内部行表示。

这里的情况并非如此，但仍然需要较少的导入和使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 Scala 方法创建 UDF（计算 md5）？的相关文章

了解如何使用 apply 和 unappy

我试图更好地理解的正确用法apply and unapply方法考虑到我们想要序列化和反序列化的对象这是正确的用法吗即斯卡拉方式的使用apply and unapply case class Foo object Foo appl
哪些 ORM 与 Scala 配合得很好？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
AssertionError：断言失败：没有在 Databricks 中进行 DeleteFromTable 的计划

这个命令运行良好有什么原因吗 sql SELECT FROM Azure Reservations WHERE timestamp gt 2021 04 02 返回 2 行如下 sql DELETE FROM Azure Reservat
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext
将 Scala 库转换为 DLL (.NET)

我正在尝试从 scala 类创建一个 Dll 我将 IntelliJ 与 SBT 一起使用我已经找到了一种使用 ikvm converter 将 jar 文件转换为 Dll 的方法现在的问题是当我在 SBT 下使用 package 从
逆变方法参数类型

wiki 逆变方法参数类型 https en wikipedia org wiki Covariance and contravariance 28computer science 29 Contravariant method argum
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
如何在 Scala 中打印任何内容的列表？

目前我有一个打印整数的方法 def printList args List Int Unit args foreach println 我如何修改它使其足够灵活可以打印任何内容的列表您不需要专用的方法所需的功能已经在集合类中 pri
Java 表达式树 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有相当于 net的 LINQ 下的表达式树JVM 我想实现一些类似 LINQ 的代码结构Scala
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori

随机推荐

如何从启用了“以管理员身份运行”的基于 WiX 的安装程序安装桌面快捷方式（到批处理文件）？

我正在从基于 WiX 的安装程序安装桌面快捷方式到批处理文件如何在启用以管理员身份运行设置的情况下自动配置此快捷方式目标操作系统是Windows Server 2008 R2 并且安装程序正在以提升的权限运行 Update 感谢
Porter Stemmer 算法未返回预期输出？当修改为def时

我正在使用PorterStemmer http tartarus org martin PorterStemmer Python 端口 http tartarus org martin PorterStemmer python txt 波特
实体框架 SaveChanges() 与 SaveChangesAsync() 和 Find() 与 FindAsync()

我一直在寻找上述两对之间的差异但没有找到任何文章清楚地解释它以及何时使用其中之一那么有什么区别SaveChanges and SaveChangesAsync 而之间Find and FindAsync 在服务器端当我们使用Async
Kivy按钮文本对齐问题

我正在尝试在 Kivy 中开发一个电子邮件应用程序基本上只是作为学习框架内部和外部的练习我正在尝试创建初始窗口但遇到了一些绊脚石这个想法是它只会在收件箱中显示电子邮件列表就像移动设备上的任何基本电子邮件应用程序一样我遇到的问题
在 MySQL 中使用 UPDATE 和 JOIN 时出现语法错误“near FROM”？

UPDATE bestall SET view t1 v rawview t1 rv FROM bestall INNER JOIN beststat as t1 ON bestall bestid t1 bestid 这个查询给出了附近的
如何编写一个 zipWith 方法，该方法返回与传递给它的集合类型相同的集合？

我已经达到了这样的程度 implicit def collectionExtras A xs Iterable A new def zipWith B C That ys Iterable B f A B gt C implicit cbf
首先在 EF 代码中混合 Fluent API 和 DataAnnotations

虽然我们主要对代码优先的 POCO 使用流畅的配置但我们发现对表名 PK 等使用数据注释很有用因为它使没有引用的非 EF 组件变得更容易到 ObjectContext 来与这些实体进行交互根据我们的经验这两种配置风格似乎可以自由混合
从 Jenkins Multijob 迁移到 Pipeline 插件

目前我们正在使用 Jenkins CI 1 643 我相信以及 Multijob 插件和 Job DSL 使用 Job DSL 生成作业集合以及包含特定顺序的所有其他作业构建分析单元测试集成测试等的多作业我有兴趣升级到 Je
maven插件安装：安装文件错误

我使用 install install file 将 jar 安装到我的本地存储库我的 pom xml 编写如下
将无序列表制作为下拉菜单

如果我在 WordPress 上显示此代码将其转换为跳转菜单的最简单方法是什么 ul class toc odd level 1 li a href 1 It s finally here a li li a href 2 Improve
Python 中的线程需要更长的时间而不是使其更快？

我编写了 3 个不同的代码来比较有线程和没有线程基本上测量通过使用线程节省了多少时间结果没有任何意义这是我的代码 import time def Function global x x 0 while x lt 300000000 x
在多宿主 Windows 10 计算机上接收 UDP 多播消息

我有一个C NET侦听 UDP 多播消息的客户端我需要在单个网络接口上接收消息有时我看不到收到的消息当我禁用其他接口时它可以工作我尝试使用本网站上类似问题的代码将套接字选项设置为特定接口但是我不确定这是否只影响发送多播消息而不
在 PHP 中学习 mvc 的最佳方法是什么？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对 mvc 完全陌生如何学习走这条路了解 MVC Google 一下参见维基百科文章选择一个框架我建议 CodeIgni
提高 Fortran 代码性能的提示和技巧 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在新的 iTunes connect 中创建应用内购买测试用户？

我在 itune connect 中创建了一个测试用户用户创建成功并且还可以登录手机苹果商店但是当我要在同一用户的应用程序购买中进行测试时我无法进行测试总是显示错误无法找到您输入的 Apple ID 或您的密码不正确请重试
适用于 Chrome，但不适用于 Firefox - jquery

carat weight right li css left function index value if value 100 this children span css margin left 58px text align righ
继续出现此编译错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案当我编译时我不断收到此错误 mario c 4 1 error expected identifier or 我尝试过改变一些东
.htaccess - 将域/lang/重定向到每种语言的子域

我已经为此苦苦挣扎了好几个星期但无法找到解决方案我必须在多语言网站的 htaccess 中进行重定向其所有页面都遵循相同的结构但每种语言都有一个子域以下方式对 http 和 https 有效 domain es es allpag
gcc -D_FORTIFY_SOURCE=1 和 -D_FORTIFY_SOURCE=2 之间的区别

有人可以指出两者之间的区别吗gcc D FORTIFY SOURCE 1 and D FORTIFY SOURCE 2 我猜 2更安全吗我无法找到逐点列出差异的列表我也读过 D FORTIFY SOURCE 2应该与使用 O2 否则并非
如何从 Scala 方法创建 UDF（计算 md5）？

我想从两个已经工作的函数构建一个 UDF 我正在尝试计算 md5 哈希作为现有 Spark Dataframe 的新列 def md5 s String String toHex MessageDigest getInstance MD5

如何从 Scala 方法创建 UDF（计算 md5）？

表现

如何从 Scala 方法创建 UDF（计算 md5）？ 的相关文章

随机推荐

热门标签

如何从 Scala 方法创建 UDF（计算 md5）？的相关文章