使用 pyspark 进行条件聚合

2023-12-01

考虑以下作为数据框

a        b  c   d   e  
africa  123 1   10  121.2
africa  123 1   10  321.98
africa  123 2   12  43.92
africa  124 2   12  43.92
usa     121 1   12  825.32
usa     121 1   12  89.78
usa     123 2   10  32.24
usa     123 5   21  43.92
canada  132 2   13  63.21
canada  132 2   13  89.23
canada  132 3   21  85.32
canada  131 3   10  43.92

现在我想使用数据帧将下面的 case 语句转换为 PYSPARK 中的等效语句。

我们可以直接使用这个 in case 语句，使用 hivecontex/sqlcontest nut 寻找传统的 pyspark nql 查询

select 
case 
    when c <=10 then sum(e)
    when c between 10 and 20 then avg(e)
else 0.00 end 
from table 
group by a,b,c,d

问候安维什

您可以将 SQL 代码直接翻译为DataFrame原语：

from pyspark.sql.functions import when, sum, avg, col

(df
    .groupBy("a", "b", "c", "d")  # group by a,b,c,d
    .agg(  # select 
        when(col("c") < 10, sum("e"))  #  when c <=10 then sum(e)
            .when(col("c").between(10 ,20), avg("c"))  # when c between 10 and 20 then avg(e)
            .otherwise(0))   # else 0.00

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

使用 pyspark 进行条件聚合的相关文章

Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

如何使 UICollectionView 单元格水平居中？

我做了一些研究但我找不到任何关于如何将 UICollectionView 中的单元格水平居中的代码示例而不是第一个单元格是这样的X00 我希望它是这样的0X0 有什么办法可以做到这一点吗 EDIT 可视化我想要的东西当 Collect
如何将我的 Swift 代码转换回 2.3

我下载了 XCode Beta 8 并将所有 swift 代码从 Swift 2 3 转换为 Swift 3 它给我带来了太多问题并导致我开始了一个我已经工作了大约 4 个月的项目如何将我的代码从 Swift 3 转换回 Swift 2
方括号在 C 中如何工作？

我刚刚开始学习 C 我正在尝试了解基础知识很多教程会告诉你一些事情让你相信它而无需任何真正的解释而且我找不到人类可读的答案在下面的 include
C# 中按特定精度向下舍入

我怎样才能舍入double由特定的precision 我需要一个函数来获取double并返回最接近该 double 的值该值是该特定的倍数precision并且低于两倍例如如果精度 2 5 9 3 gt 7 5 12 5 gt 12
使用 NameValueCollection 的 WCF 序列化问题

我正在尝试通过 WCF 序列化 NameValueCollection 我不断收到异常告诉我添加一种又一种类型添加它们后我终于得到了类型 System Object 无法添加到已知类型列表因为另一个类型 System Collect
为什么 JavaScript 中的函数是对象？

请向我解释一下为什么函数是 javascript 中的对象对象是具有属性的结构属性的值可以是一个函数我们称这个属性为方法但我们不能执行一个对象我们不能这样做 var cat name Murzik age 17 cat 但我们可以
Swift 3 - 准备 Segue

我的故事板中有 3 个场景我的初始视图控制器是一个导航控制器然后根视图控制器与 UI ViewController 视图控制器 a 有一个关系然后我有一个从 ViewController 中的按钮到第三个 ViewController
上传base64图像facebook graph api 如何使用这个脚本

上传 Base64 图像 Facebook Graph API我想使用附加链接的这个脚本如何在我的 WordPress 帖子中使用它我想用它作为 Facebook 封面照片网站看看我从各种示例中拼凑而成的代码您可以使用它将纯 bas
使用 Excel VBA 抓取 HTML

我一直在尝试抓取并解析网站上的一些财务数据以便我可以使用 VBA 将数据添加到 Excel 电子表格中我找到了几种可能的解决方案但我似乎无法让它们适合我的参数我的问题是我只需要表中的一个变量平均目标价格我一直无法弄清楚我做错了什
将 SQLite 数据库中存储的经度和纬度数据导出到文件以便可以通过网站导入到 Google Map API 的最简单方法是什么？

我创建了一个应用程序它在 SQLite 数据库中记录一系列经度和纬度值并将它们显示为 MapActivity 上的彩色轨迹我现在希望能够以某种方式导出这些数据最好导出到文件以便用户可以将这些值上传到显示 Google Map AP
php在上传时调整图像大小

我得到了一个表单用户可以在其中插入一些数据并上传图像为了处理图像我得到了以下代码 define MAX SIZE 10000 errors 0 image FILES fileField name uploadedfile FILES
请求库：cx_Freeze 后缺少 SSL 握手证书文件

我正在 python 3 3 中构建一个使用 requests 库的应用程序当我尝试获取带有 SSL 连接的 URL 时我想使用 verify true 来验证它当运行我的 python 脚本时这非常有效当我冻结相同的脚本时它会
Uploadify + Paperclip + Rails 嵌套关联 before_save

我需要创建一个模特申请表模特可以在其中填写并添加图片我正在使用 Uploadify Paperclip 和 Rails 3 方法来遵循这个示例 https github com websymphony Rails3 Paperclip
当不存在符号信息时，如何使用 GDB 为 x86 程序集设置断点？ [复制]

这个问题在这里已经有答案了当没有符号信息时即无法编写时如何使用 GDB 对 x86 汇编代码设置断点b start 我想立即停止执行但是写b 0不是很有用因为这会在地址处停止执行0 但我需要在地址处中断执行x相对于起点当不存在符
如何在 LongListSelector 中突出显示所选项目

我想简单地在 LongListSelector 中当前选定的项目周围显示边框我已经为 LongListSelector 设置了 ItemTemplate 但我不确定如何修改边框以便只有当前选定的项目包含边框主页 xaml
清理 PHP/SQL $_POST、$_GET 等...？

好吧这个主题是一个温床我明白这一点我还了解这种情况取决于您使用的代码我有三种情况需要解决我有一个表格我们需要允许人们使用逗号波形符等发表评论和声明但仍然免受攻击我有人用英语输入这样的日期 10 13 11 mm dd yy
安装 UWP，无需开发者模式和旁加载

在非商店的win10 UWP中安装应用程序应打开开发者模式或侧载模式然而我公司的安全级别很高我无法更改目标笔记本的任何设置具体来说这些笔记本在更新和安全方面甚至不适合开发人员我的工作是使用 UWP 为公司创建一个自动 wif
Google Earth Engine 中带有 map() 函数的双循环

In Google 地球引擎开发人员指南有一个建议要避免for 循环他们建议使用map 函数如本例所示 to avoid var clientList for var i 0 i lt 8 i clientList push i 1 p
如果用户禁用了应用程序的推送，是否可以实现无声远程通知？

在我的设置选项卡中我有一个特定功能的开关可以根据 API 响应关闭或打开在网站上只有管理员有权打开关闭我可以每次在设置点击时进行 user API 调用来检查用户的当前设置但有几个缺点例如如果用户已经在设置中则它不会更新
使用 pyspark 进行条件聚合

考虑以下作为数据框 a b c d e africa 123 1 10 121 2 africa 123 1 10 321 98 africa 123 2 12 43 92 africa 124 2 12 43 92 usa 121 1 1

使用 pyspark 进行条件聚合

使用 pyspark 进行条件聚合 的相关文章

随机推荐

热门标签

使用 pyspark 进行条件聚合的相关文章