Spark - Java UDF 返回多列

2024-02-29

我正在使用 SparkSql 1.6.2 （Java API），我必须处理以下 DataFrame，该 DataFrame 在 2 列中具有值列表：

ID  AttributeName AttributeValue
 0  [an1,an2,an3] [av1,av2,av3]
 1  [bn1,bn2]     [bv1,bv2]

所需的表是：

ID  AttributeName AttributeValue
 0  an1           av1
 0  an2           av2
 0  an3           av3
 1  bn1           bv1
 1  bn2           bv2

我想我必须结合使用爆炸函数和自定义 UDF 函数。

我找到了以下资源：

分解（转置？）Spark SQL 表中的多列 https://stackoverflow.com/questions/33220916/explode-transpose-multiple-columns-in-spark-sql-table
如何使用 JAVA 在 Spark DataFrame 上调用 UDF？ https://stackoverflow.com/questions/35348058/how-do-i-call-a-udf-on-a-spark-dataframe-using-java

我可以成功运行一个示例，读取两列并返回列中前两个字符串的串联

 UDF2 combineUDF = new UDF2<Seq<String>, Seq<String>, String>() {
        public String call(final Seq<String> col1, final Seq<String> col2) throws Exception {
            return col1.apply(0) + col2.apply(0);
        }
    };

 context.udf().register("combineUDF", combineUDF, DataTypes.StringType);

问题是编写返回两列的 UDF 的签名（在 Java 中）。据我了解，我必须定义一个新的 StructType 如下所示，并将其设置为返回类型，但到目前为止我还没有设法使最终代码正常工作

StructType retSchema = new StructType(new StructField[]{
            new StructField("@AttName", DataTypes.StringType, true, Metadata.empty()),
            new StructField("@AttValue", DataTypes.StringType, true, Metadata.empty()),
        }
    );

context.udf().register("combineUDF",combineUDF,retSchema);

任何帮助将不胜感激。

UPDATE:我试图首先实现 zip(AttributeName,AttributeValue) 所以我只需要在 SparkSql 中应用标准爆炸函数：

ID  AttName_AttValue
 0  [[an1,av1],[an1,av2],[an3,av3]]
 1  [[bn1,bv1],[bn2,bv2]]

我构建了以下 UDF：

UDF2 combineColumns = new UDF2<Seq<String>, Seq<String>, List<List<String>>>() {
        public List<List<String>> call(final Seq<String> col1, final Seq<String> col2) throws Exception {
            List<List<String>> zipped = new LinkedList<>();

            for (int i = 0, listSize = col1.size(); i < listSize; i++) {
                List<String> subRow = Arrays.asList(col1.apply(i), col2.apply(i));
                zipped.add(subRow);
            }

            return zipped;
        }

    };

但是当我运行代码时

myDF.select(callUDF("combineColumns", col("AttributeName"), col("AttributeValue"))).show(10);

我收到以下错误消息：

scala.MatchError: [[an1,av1],[an1,av2],[an3,av3]] （属于 java.util.LinkedList 类）

看起来组合已正确执行，但返回类型不是 Scala 中预期的类型。

有帮助吗？

最后我设法得到了我正在寻找的结果，但可能不是以最有效的方式。

基本上有2步：

两个列表的 zip
按行展开列表

对于第一步，我定义了以下 UDF 函数

UDF2 concatItems = new UDF2<Seq<String>, Seq<String>, Seq<String>>() {
    public Seq<String> call(final Seq<String> col1, final Seq<String> col2) throws Exception {
        ArrayList zipped = new ArrayList();

        for (int i = 0, listSize = col1.size(); i < listSize; i++) {
            String subRow = col1.apply(i) + ";" + col2.apply(i);
            zipped.add(subRow);
        }

        return scala.collection.JavaConversions.asScalaBuffer(zipped);
    }

};

缺少 SparkSession 的函数注册：

sparkSession.udf().register("concatItems",concatItems,DataTypes.StringType);

然后我用以下代码调用它：

DataFrame df2 = df.select(col("ID"), callUDF("concatItems", col("AttributeName"), col("AttributeValue")).alias("AttName_AttValue"));

在这个阶段 df2 看起来像这样：

ID  AttName_AttValue
 0  [[an1,av1],[an1,av2],[an3,av3]]
 1  [[bn1,bv1],[bn2,bv2]]

然后我调用以下 lambda 函数将列表分解为行：

 DataFrame df3 = df2.select(col("ID"),explode(col("AttName_AttValue")).alias("AttName_AttValue_row"));

在这个阶段，df3 看起来像这样：

ID  AttName_AttValue
 0  [an1,av1]
 0  [an1,av2]
 0  [an3,av3]
 1  [bn1,bv1]
 1  [bn2,bv2]

最后，为了将属性名称和值拆分为两个不同的列，我将 DataFrame 转换为 JavaRDD 以便使用映射函数：

JavaRDD df3RDD = df3.toJavaRDD().map(
            (Function<Row, Row>) myRow -> {
                String[] info = String.valueOf(myRow.get(1)).split(",");
                return RowFactory.create(myRow.get(0), info[0], info[1]);
        }).cache();

如果有人有更好的解决方案，请随时发表评论。我希望它有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

apachesparksql

UDF

Spark - Java UDF 返回多列的相关文章

使用 LinkedList 实现下一个和上一个按钮

这可能是一个愚蠢的问题但我很难思考清楚我编写了一个使用 LinkedList 来移动加载的 MIDI 乐器的方法我想制作一个下一个和一个上一个按钮以便每次单击该按钮时都会遍历 LinkedList 如果我硬编码itr next or
.properties 中的通配符

是否存在任何方法我可以将通配符添加到属性文件中并且具有所有含义例如a b c d lalalala 或为所有以结尾的内容设置一个正则表达式a b c anything 普通的 Java 属性文件无法处理这个问题不请记住它实际上是
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
如何使用assertEquals 和 Epsilon 在 JUnit 中断言两个双精度数？

不推荐使用双打的assertEquals 我发现应该使用带有Epsilon的形式这是因为双打不可能100 严格但无论如何我需要比较两个双打预期结果和实际结果但我不知道该怎么做目前我的测试如下 Test public void te
org.apache.hadoop.security.AccessControlException：客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS] 问题

我正在使用 java 客户端通过 Kerberos 身份验证安全访问 HDFS 我尝试打字klist在服务器上它显示已经存在的有效票证我收到的异常是客户端无法通过以下方式进行身份验证 TOKEN KERBEROS 帮助将不胜感激这是一
Spring AspectJ 在双代理接口时失败：无法生成类的 CGLIB 子类

我正在使用Spring的
如何在java中将一个数组列表替换为另一个不同大小的数组列表

我有两个大小不同的数组列表如何从此替换 ArrayList
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
java.lang.IllegalStateException：提交响应后无法调用 sendRedirect()

这两天我一直在尝试找出问题所在我在这里读到我应该在代码中添加一个返回我做到了但我仍然得到 java lang IllegalStateException Cannot call sendRedirect after the respo
在 junit 测试中获取 javax.lang.model.element.Element 类

我想测试我的实用程序类 ElementUtils 但我不知道如何将类作为元素获取在 AnnotationProcessors 中我使用以下代码获取元素 Set
Eclipse Maven Spring 项目 - 错误

I need help with an error which make me crazy I started to study Java EE and I am going through tutorial on youtube Ever
内部类的构造函数引用在运行时失败并出现VerifyError

我正在使用 lambda 为内部类构造函数创建供应商ctx gt new SpectatorSwitcher ctx IntelliJ建议我将其更改为SpectatorSwitcher new反而 SpectatorSwitcher 是我正
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
tomcat 中受密码保护的应用程序

我正在使用 JSP Servlet 开发一个Web应用程序并且我使用了Tomcat 7 0 33 as a web container 所以我的要求是tomcat中的每个应用程序都会password像受保护的manager applica
如何使用 jUnit 将测试用例添加到套件中？

我有 2 个测试类都扩展了TestCase 每个类都包含一堆针对我的程序运行的单独测试如何将这两个类以及它们拥有的所有测试作为同一套件的一部分执行我正在使用 jUnit 4 8 在 jUnit4 中你有这样的东西 RunWith
Cucumber 0.4.3 (cuke4duke) 与 java + maven gem 问题

我最近开始为 Cucumber 安装一个示例项目并尝试使用 maven java 运行它我遵循了这个指南 http www goodercode com wp using cucumber tests with maven and ja
长轮询会冻结浏览器并阻止其他 ajax 请求

我正在尝试在我的中实现长轮询Spring MVC Web 应用程序 http static springsource org spring docs 2 0 x reference mvc html但在 4 5 个连续 AJAX 请求后它会
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v
双枢轴快速排序和快速排序有什么区别？

我以前从未见过双枢轴快速排序是快速排序的升级版吗双枢轴快速排序和快速排序有什么区别我在 Java 文档中找到了这个排序算法是双枢轴快速排序作者弗拉基米尔雅罗斯拉夫斯基乔恩本特利和约书亚布洛赫这个算法在许多数据集上提供
如何防止在Spring Boot单元测试中执行import.sql

我的类路径中有一个 import sql 文件其中包含一些 INSERT 语句当使用 profile devel 运行我的应用程序时它的数据被加载到 postgres 数据库中到目前为止一切正常当使用测试配置文件执行测试时 imp

随机推荐

Excel 在代码隐藏中将数据添加到 WorksheetPart

大家好我正在使用以下代码创建一个包含 3 个工作表的 Excel 文件 using SpreadsheetDocument spreadSheet SpreadsheetDocument Create path UrlReport xls
string.unpack 在 Ruby 中如何工作？

有人可以解释为什么以下解包的结果是如何计算的吗 aaa unpack h2H2 gt 16 61 在二进制中 a 0110 0001 我不确定 h2 如何变成16 0001 0000 或 H2 如何变成61 0011 1101 不是 16
Angularjs 使用指令进行初始表单验证

我有一个名为的验证指令valid number用于使用 setValidity 设置表单的有效性这对于我在输入框中键入的任何文本值都适用该输入框中已将指令作为属性应用 HTML 是
默认日期年份设置为 1970 年

我需要解析一个最初没有设置年份的字符串例如 8 月 13 日 11 30 但是当我输出日期时它会添加年份我尝试设置年份但年份完全错误输出为 Thu Aug 13 11 30 00 GMT 3911 有没有办法在解析日期后设置年份 S
AngularJS forEach 和 splice

我有一个像这样的数组 scope emails key Work value email protected cdn cgi l email protection key value key Work value email protect
无法在 macOS Mojave 中安装 Xcode 10 网络链接调节器

我在 macOS Mojave beta 11 上使用 Xcode 10 最终版本我下载了 Xcode 10 的附加工具包来自苹果网站 https developer apple com download more for 20Xcode
当我拉取 Git 子模块存储库及其封闭存储库时，为什么我还要提交本地更改？

假设我有一个 Git 存储库 R 它有一个子目录该子目录是子模块存储库 SR 在机器 A 上我对 SR 进行了更改我承诺推动他们如果我向上移动到父目录 git status 将显示有本地更改据我所知这是因为 gitlink 已
如何在 Yii 2 中检索会话值

当我将产品添加到购物车会话并获取会话购物车值时我遇到了 Yii 2 会话的问题 session start print r SESSION exit 我得到了这条线 Array flash gt Array id gt 65 另外在尝试
RESTful 幂等性

我正在利用 ROA 面向资源的架构设计一个 RESTful Web 服务我正在尝试找出一种有效的方法来保证 PUT 请求的幂等性在服务器指定资源键的情况下创建新资源根据我的理解传统的方法是创建一种事务资源例如 CREATE PE
如何根据两个坐标计算角度？

我正在开发一个基于 3D 对象的项目并通过我的程序操作它们我目前有一个文本框允许我输入以度为单位的标题和一个按钮该按钮将计算使我的主要对象更改其标题所需的值这是该函数的代码 private void btnSetHeading C
ubuntu 14.04 上乘客安装 nginx 模块的捆绑程序错误

我正在安装乘客 nginxubuntu 14 04 ruby 2 2 4 有bundler错误与passenger install nginx module passenger install nginx module home ubunt
使用 mingw 在 eclipse 中未定义对 WinMain 错误 1 的引用

项目测试用例的配置调试构建 make all Building target testcase exe Invoking MinGW C Linker g o testcase exe atest o main o C cppunit sr
Rails 3. 如何在模型中显式地将数字四舍五入到小数点后两位？ [复制]

这个问题在这里已经有答案了可能的重复 Rails 3 如何在编辑表单中显示两位小数 https stackoverflow com questions 7772859 rails 3 how do display two decimal
如何将 propertyvaluefactory 指向地图的值？

而不是将 propertyvaluefactory 指向对象的属性如下所示 traineeCol setCellValueFactory new PropertyValueFactory sumName 我需要它指向地图内的属性而地图又
ggsave 错误“无法打开文件”

我在跑步ggsave plot pdf 并得到这个错误 Error in grDevices pdf version version cannot open file plot pdf 即使我没有打开plot pdf 我正在研究 NFS 如
如何将 uuid lib 与 mod_wsgi 一起使用？

这是回溯 mod wsgi Target WSGI script project wsgi py cannot be loaded as Python module mod wsgi Exception occurred processin
提取并添加链接到字符串中的 URL [重复]

这个问题在这里已经有答案了可能的重复如何用链接替换普通 URL https stackoverflow com questions 37684 how to replace plain urls with links 我有几个带有链接的
Orchard CMS 是否支持带有实体框架的 MVC4

我有一个使用 MVC4 Entity Framework 4 4 构建的站点有2个项目即一个是关于我们的网站的另一个是类库定义为 edmx 这次我们需要将其迁移以支持CMS 并且我们选择使用 Orchard CMS 我需要知道
同时使用 GPRS 和 GSM

我正在尝试使用 GSM GPRS 调制解调器的 GPRS 功能将数据发送到远程服务器但我无法这样做我在 Arduino 论坛上发布了一个问题但没有得到任何回复这是问题的链接 https robotics stackexchange
Spark - Java UDF 返回多列

我正在使用 SparkSql 1 6 2 Java API 我必须处理以下 DataFrame 该 DataFrame 在 2 列中具有值列表 ID AttributeName AttributeValue 0 an1 an2 an3 av

Spark - Java UDF 返回多列

Spark - Java UDF 返回多列 的相关文章

随机推荐

热门标签

Spark - Java UDF 返回多列的相关文章