如何获取使用 concat_ws 生成的结果的大小？

2024-05-23

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat_ws。我怎样才能获得该列表中的值的计数？这是我的代码：

Dataset<Row> ds = df.groupBy("COL1").agg(org.apache.spark.sql.functions
    .concat_ws(",",org.apache.spark.sql.functions.collect_list("COL2")).as("sample"));

Use size http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions%24@size(e:org.apache.spark.sql.Column):org.apache.spark.sql.Column功能。

大小（e：列）：列返回数组或映射的长度。

以下示例使用 Scala 编写，您可以将其转换为 Java，但无论使用哪种编程语言，总体思路都是完全相同的。

val input = spark.range(4)
  .withColumn("COL1", $"id" % 2)
  .select($"COL1", $"id" as "COL2")
scala> input.show
+----+----+
|COL1|COL2|
+----+----+
|   0|   0|
|   1|   1|
|   0|   2|
|   1|   3|
+----+----+

val s = input
  .groupBy("COL1")
  .agg(
    concat_ws(",", collect_list("COL2")) as "concat",
    size(collect_list("COL2")) as "size") // <-- size
scala> s.show
+----+------+----+
|COL1|concat|size|
+----+------+----+
|   0|   0,2|   2|
|   1|   1,3|   2|
+----+------+----+

在 Java 中，如下所示。谢谢克里希纳·普拉萨德 https://stackoverflow.com/users/5061863/krishna-prasad与 SO/Spark 社区分享代码！

Dataset<Row> ds = df.groupBy("COL1").agg(
  org.apache.spark.sql.functions.concat_ws(",",org.apache.spark.sql.functions.collect_list("‌COL2")).as("sample")‌, 
  org.apache.spark.sql.functions.size(org.apache.spark.sql.functions.collect_list("COL2‌")).as("size"));

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

apachesparksql

如何获取使用 concat_ws 生成的结果的大小？的相关文章

OSGi：如果不取消服务会发生什么

这是我获取 OSGi 服务的方式 ServiceReference reference bundleContext getServiceReference Foo class getName Foo foo Foo bundleContex
JAVA - Xuggler - 组合 MP3 音频文件和 MP4 电影时播放视频

使用 JAVA 和 Xuggler 以下代码组合 MP3 音频文件和 MP4 电影文件并输出组合的 mp4 文件我希望在合并音频和视频文件时应自动播放输出视频文件 String inputVideoFilePath in mp4 Stri
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Hibernate.createBlob() 方法从 Hibernate 4.0.1 开始已弃用，并移至 Hibernate.getLobCreator(Session session).createBlob()

Method Hibernate createBlob 已弃用自休眠4 0 1并搬到Hibernate getLobCreator Session session createBlob 任何解决方案我应该在方法内传递什么getLobCrea
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
我可以使用子接口重新编译公共 API 并保持二进制兼容性吗？

我有一个公共 API 在多个项目中多次使用 public interface Process
Java 文件上传速度非常慢

我构建了一个小型服务它从 Android 设备接收图像并将其保存到 Amazon S3 存储桶中代码非常简单但是速度非常慢事情是这样的 public synchronized static Response postCommentP
如何使用 Maven 打包并运行具有依赖项的简单命令行应用程序？

我对 java 和 Maven 都是全新的所以这可能非常简单如果我遵循maven2hello world此处的说明 http maven apache org guides getting started maven in Five m
具有 java XSLT 扩展的数组

我正在尝试使用 java 在 XSLT 扩展中使用数组我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
在游戏视图下添加 admob

我一直试图将 admob 放在我的游戏视图下这是我的代码 public class HoodStarGame extends AndroidApplication Override public void onCreate Bundle
如何在selenium服务器上提供自定义功能？

我知道可以通过某种方法获得一些硒功能其中之一如下 driver getCapabilities getBrowserName 它返回浏览器名称的值但如果它指的是一个可用的方法如果我没有误解的话这似乎与自定义功能有关就像我的意思是
在 Spring 中重构这个的最佳方法？

private final ExecutorService executorParsers Executors newFixedThreadPool 10 public void parse List
Java中的Object类是什么？

什么是或什么类型private Object obj Object http download oracle com javase 6 docs api java lang Object html是Java继承层次结构中每个类的最终祖先从
javafx android 中的文本字段和组合框问题

我在简单的 javafx android 应用程序中遇到问题问题是我使用 gradle javafxmobile plugin 在 netbeans ide 中构建了非常简单的应用程序其中包含一些文本字段和组合框我在 android
Eclipse 中 Spring MVC 模型对象的 (jsp /jstl) 视图中的代码辅助

在 Spring MVC 中当将对象放置在视图模型中时如下所示 public String getUser Model model fetch user model addAttribute user user return viewN
具有特定参数的 Spring AOP 切入点

我需要创建一个我觉得很难描述的方面所以让我指出一下想法 com x y 包或任何子包中的任何方法一个方法参数是接口 javax portlet PortletRequest 的实现该方法中可能有更多参数它们可以是任何顺序我需要
Trie 数据结构 - Java [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案是否有任何库或文档链接提供了在 java 中实现 Trie 数据结构的更多信息任何帮助都会很棒 Thanks 你可以阅读Java特里树
调整添加的绘制组件的大小和奇怪的摆动行为

这个问题困扰了我好几天我正在制作一个特殊的绘画程序我制作了一个 JPanel 并添加了使用 Paint 方法绘制的自定义 jComponent 问题是每当我调整窗口大小时所有添加的组件都会消失或者只是不绘制因此我最终会得到一个
如何在 JFreeChart 中设置多个系列的线条粗细？

我创建了很多图表在他们每个人中我都需要打电话 renderer setSeriesStroke i new BasicStroke 2 0f 对于每个系列 renderer is chart getXYPlot getRenderer 我

随机推荐

解压在 Python 2.5 和 Python 3.1 中腌制的数据，然后使用 zlib 解压缩

在 Python 2 5 中我使用以下代码存储数据 def GLWriter file name string import cPickle import zlib data zlib compress str string file o
Linux 仅使用时间/日期戳重命名文件

我有一个文件我想将 mv 重命名为year month day h m s 最好的方法是什么我已尝试以下操作但它不会动态添加正确的标记原始文件名称中实际上有一个反斜杠 mv getnw myfilename txt Y m d H
在控制器之间共享异步数据，无需发出多个请求

我正在尝试做一个单曲 http请求获取我的 JSON 文件之一并在我的所有控制器中使用该数据我在 Egghead io 上看到了如何跨多个控制器共享数据我还阅读了这个 StackOverflow 问题在 angular js 中的控制
如何通过html5视频标签检查浏览器是否可以播放mp4？

如何通过html5视频标签检查浏览器是否可以播放mp4 这可能对您有帮助
需要从 Xamarin 中的选取器中选择至少一项

在我的应用程序中有一个选择器和按钮我想要两件事需要从选取器中选择至少一项否则将无法单击按钮例如就像HTML 中的必需属性如果值为提供者1 然后导航到此页面否则如果提供商2 然后导航至此页面视图中选择器和按钮的代码
如何查找引用特定 dll 的所有程序集？

我有一个包含大量内容的目录dlls 我需要找到所有引用特定内容的内容dll 我正在考虑以下解决方案循环程序集并调用每个程序集ildasm 转储manifest到一个文本文件中在文本文件中搜索所需的程序集名称然而这个解决方案对我来说是非
如何在基于视图的应用程序中添加导航控制器

我想向基于视图的应用程序添加导航控制器我们如何以编程方式和使用 xib 文件来完成此操作如果您需要在 uiviewcontroller 中合并导航控制器您需要按如下方式初始化它 UIViewController yourViewCon
当我转向依赖注入时，using 语句会发生什么情况

我目前正在使用以下代码 public class MyProvider public MyProvider public void Fetch using PopClient popClient new PopClient 因为我希望能够对
以编程方式设置 Windows Phone 7 音量

有没有办法以编程方式更改 Windows Phone 7 的声音设置启用或禁用约会和所有其他通知的声音还可以更改全局音量即铃声没有 API 可以启用您提到的任务您可以使用 XNA API 调整应用程序中声音的音量但这只是当前可
删除Android webview左右边距

我正在开发一个 webview 应用程序我的问题是左右两侧有空白我是初学者我不知道如何删除它们请帮忙注意请在您的答案中具体说明例如将此代码添加到名为布局的 java 框中的全屏内容中预先非常感谢这是代码 1 布局全屏活
在哪里可以找到 IBM Worklight v5.0.0.3 的 Worklight Studio 插件？

我正在尝试查找 IBM Worklight Studio v5 0 0 3 Eclipse 插件 Eclipse Marketplace 仅提供最新版本 5 0 6 IBM 似乎没有公开提供 IBM Worklight Studio Ecl
R 监督潜在狄利克雷分配包

我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap
无法在 BeagleBone Green Wireless 上配置 SPI0

注所选答案为解决该问题的原始答案更多详细信息请参阅下面的补充答案我无法在 BeagleBone Green Wireless BBGW 上配置 SPI0 我试图在不使用覆盖层的情况下实现这一目标仅使用纯 DeviceTree dev
cvc-complex-type.2.4.c：匹配通配符严格，但找不到元素“mvc:annotation-driven”的声明

我猜这是一个 xml 解析问题但我只是看不到它在哪里我读了一些关于这个主题的文章但没有任何帮助我有这个 spring mvc 配置
如何将 HTML 转换为 Textile？

我正在抓取一个静态 html 网站并将内容移至数据库支持的 CMS 中我想在 CMS 中使用 Textile 有没有一种工具可以将 HTML 转换为 Textile 这样我就可以抓取现有网站将 HTML 转换为 Textile 然后将该
Aptana 3 未启动，仅显示“发生错误。请参阅日志文件。”

我已检查日志文件并看到以下内容如何解决的想法 ENTRY org eclipse osgi 4 0 2012 10 22 09 44 40 920 MESSAGE Application error STACK 1 java lang N
mysql时间比较

我有 job start 和 job end 时间 timediff 会给我时间差现在我想看看这项工作是否花费了超过 2 小时 30 分钟我如何比较它如果我这样做我会收到错误 timediff job start job end g
为什么允许在 for 循环中使用列表订阅？ [复制]

这个问题在这里已经有答案了 Python 如何接受以下构造 l 1 2 3 4 for i l i in enumerate l print l i 似乎没有任何抱怨愉快地打印出来1 2 3 4 这是如何被允许的以及它到底有什么作用 Th
Google Pub/Sub Java 示例

我无法找到使用 java 从 pub sub 读取消息的方法我在我的 pom 中使用这个 Maven 依赖项
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset

如何获取使用 concat_ws 生成的结果的大小？

如何获取使用 concat_ws 生成的结果的大小？ 的相关文章

随机推荐

热门标签

如何获取使用 concat_ws 生成的结果的大小？的相关文章