pyspark sql查询：根据条件计算不同值

2024-02-16

我有一个数据框如下：

+-----------+------------+-------------+-----------+
| id_doctor | id_patient | consumption | type_drug |
+-----------+------------+-------------+-----------+
| d1        | p1         |        12.0 | bhd       |
| d1        | p2         |        10.0 | lsd       |
| d1        | p1         |         6.0 | bhd       |
| d1        | p1         |        14.0 | carboxyl  |
| d2        | p1         |        12.0 | bhd       |
| d2        | p1         |        13.0 | bhd       |
| d2        | p2         |        12.0 | lsd       |
| d2        | p1         |         6.0 | bhd       |
| d2        | p2         |        12.0 | bhd       |
+-----------+------------+-------------+-----------+

我想统计每位医生服用 bhd 的消耗量

我尝试了以下查询，但它不起作用：

dataframe.groupBy(col("id_doctor")).agg(
    countDistinct(col("id_patient")).where(
        col("type_drug") == "bhd" & col("consumption") < 16.0
    )
)

有什么帮助吗？

thanks!

PySpark 中的另一个解决方案无需添加另一列：

dataframe.groupBy("id_doctor").agg(
    F.countDistinct(
        F.when(
            col("type_drug") == "bhd" & col("consumption") < 16.0, col("id_doctor")
        ).otherwise(None)
    )
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

apachespark

PySpark

apachesparksql

pyspark sql查询：根据条件计算不同值的相关文章

java.sql.Timestamp 到微秒精度的字符串

我正在将时间戳列从数据库读取到 java sql Timestamp 对象中然后我想将时间戳的值转换为 String 对象但保持微秒精度调用 toString 方法让我接近但它似乎在微秒内丢失了尾随零如果时间戳以非零数字结尾则一
如何授予所有表的 REFERENCES 权限

我必须授予REFERENCES登录权限说sql login 我可以给予资助REFERENCES对单个表的权限例如 GRANT REFERENCES ON Mytable TO sql login 有什么办法可以授予REFERENCES允许
sql查询将两列与一列连接起来

我在 MS Access 2010 中有 2 个表如下所示 USERS u id u name LOAN l id l from ref users u id l to ref users u id l amount Users u id
如何有效地从 DB2 表中删除所有行

我有一个大约有 50 万行的表我想删除所有行如果我做简单的delete from tbl 事务日志已满我不关心这种情况下的事务无论如何我都不想回滚我可以删除许多事务中的行但是有更好的方法吗如何有效地从 DB2 中的表中删除所有
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
如何在SSRS中的表上创建热图？

如何在 SSRS 中创建这样的内容颜色将根据行中的值承销商从红色变为绿色所有这些都在一个组中您可以通过右键单击各个单元格并根据表达式设置填充颜色来完成此操作 In the Image below I ve mistakingly
SQL参数化查询不显示结果

我的 DataAcess 类中有以下函数但它没有显示任何结果我的代码如下 public List
java mysql 准备好的语句

我正在尝试使用 java 向数据库中进行简单的插入它告诉我我的 sql 语法已关闭但是当我复制打印出来的字符串并将其放入 phpmyadmin 中的 sql 命令中时它会正确执行该命令并且我似乎无法弄清楚 java 中的字符串查询
根据表sql中的行替换字符串中的字符

我需要用一些映射的字符替换字符串中的字符列表我有一个表 dbo CharacterMappings 有 2 列 CharacterToFilter 和 ReplacementCharacter 假设这个表中有3条记录 Filter Rep
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
如何在Oracle中使用Timestamp_to_scn和Scn_to_timestamp？

我的查询结果是这样的 select cast to date a start time mm dd yyyy hh mi ss pm as timestamp date of call ora rowscn from calling tab
使用两个日期之间的随机日期时间更新每一行

我有一个专栏叫date created我希望每一行保存一个随机日期日期距当前时间为 2 天我正在运行以下查询但它会更新具有相同随机日期的所有行我希望每一行都是随机的并且不相同 update table set date create
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
PHP 绑定“bigint”数据类型（MySQLi 准备好的语句）

studentId 57004542323382 companyOfferId 7 sql INSERT INTO studentPlacement companyOfferId studentId VALUES if stmt db gt
拆分列中的字符串并在列中添加值

我有一个包含几行数据的表如下所示 16 W 2 Work ALBO 00 Proposal ALxO Amendement 1 20091022 signed pdf 17 W 2 Work ALBO 00 Proposal Level1
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Oracle：使用SQL或PL/SQL查找动态SQL中的错误位置

如何在 PL SQL 或 SQL 中找到动态 SQL 语句中的错误位置从 SQL Plus 中我看到了错误的位置例如无效的 SQL DML 语句 SYS orcl gt SELECT 2 X 3 FROM 4 TABLEX 5 TA
分层查询

我希望我能够解释困扰我的问题我有以下分层数据集这只是 34K 记录的子集 PARENT ID CHILD ID EXAM TUDA12802 TUDA12982 N TUDA12982 TUDA12984 J TUDA12984 TUD
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple

随机推荐

Rails 路线 - 斜杠字符与哈希字符

在 url 和 Rails 路由中使用斜杠字符与井号井号字符有什么区别这些工作 get static pages about get about to static pages about as about 这些不 get stat
MVC - 一个模型可以由几个其他模型组成吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
当同步/异步与串行/并发队列混合时，调度程序如何工作？

在 Grand Central Dispatch 中调度程序如何处理不同的队列 serial and concurrent 当使用dispatch sync函数和dispatch async功能首先我们需要两种类型queue one s
使用 Spring Data Mongo 的 ObjectId 进行 Facet + 聚合查询问题

我正在开发Spring Boot Spring Data Mongo 我真的很努力 public Page
命令组合设计模式

有没有人有 Ruby 中使用组合命令的好例子这是我在各种设计模式文献中看到的一种设计模式混合体听起来相当强大但一直无法找到任何有趣的用例或代码受到总体想法的启发这篇博文中的示例模式实现 http blog ashwinraghav
INVD指令有什么用？

The x86 INVD http faydoc tripod com cpu invd htm使缓存层次结构无效without显然将内容写回内存我很好奇这样的指令有什么用鉴于人们对各个缓存级别中可能存在哪些数据的控制非常少甚至对
jsp页面中使用spring bean的教程

我不熟悉与 HTML 交付相关的技术例如 JSP 但我知道基本概念在我的应用程序中我使用 Spring Beans 和 Spring Security 以及 Blaze DS 通过 AMF 协议与 Flex 应用程序进行通信一切都很
Google 地图 API 中的建议路线选项？

我需要显示源和目的地之间的多条路线例如如果我选择源和目的地我就能够找到一条路线但就像在谷歌地图中一样我们有一个建议的路线选项我需要实现它但我所有的尝试都失败了请找到下面的代码例如它显示源和目的地之间的单个路由如果我错过
在 php 中测量字符串大小（以字节为单位）

我正在为一个门户网站做一个房地产提要它告诉我字符串的最大长度应该是 20 000 字节 20kb 但我以前从未遇到过这个我怎样才能测量byte的大小varchar string 所以我可以做一个 while 循环来修剪它您可以使用 m
java中的资源是什么？为什么使用完后要关闭它？

java中资源一词的含义是什么尽管垃圾收集器在jvm中运行为什么我们在使用后必须关闭它为什么我们必须在finally块中编写资源清理代码资源是数量有限的东西例如数据库连接和文件描述符 GC 释放内存但您仍然必须释放资源例如
Nestjs ConfigModule.forRoot() 异步

我想从具有 REST API 的配置服务器加载 Nestjs 中的配置以允许集中式应用程序配置但是 ConfigModule forRoot 函数没有异步版本因此配置返回为undefined 有没有办法解决通过创建返回 Nest C
如何将系统音量与媒体播放器应用程序同步

我刚刚开发了一个简单的媒体播放器可以播放歌曲并且有一个可以调节歌曲音量的搜索栏这是我的代码 public class MainActivity extends AppCompatActivity Button playBtn Seek
在 Windows 中使用两只鼠标执行完全不同的操作

我目前正在尝试开发一个应用程序以使用两只鼠标在 Windows 中执行完全不同的操作然而在花了几天时间之后我开始怀疑使用 Windows API 是否可以实现我想要做的事情由于我远不是 Windows API 方面的专家因此我想
是否可以使用 jQuery.attr() 函数设置多个数据属性？

这有效 myObj attr data test 1 num1 myObj attr data test 2 num2 但这并没有 myObj attr data test 1 num1 data test 2 num2 我在这里错过了一些
当 Firebase 函数发送时，时间戳会在 BigQuery 上返回错误

我正在尝试从 Firebase 函数将时间戳字段发送到 BigQuery 我正在发送 admin firestore FieldValue serverTimestamp BigQuery 上的字段是 TIMESTAMP 类型我收到一个错
以科学记数法打印 cpp_dec_float ，不带尾随零

我在用着cpp dec float http www boost org doc libs 1 55 0 libs multiprecision doc html boost multiprecision tut floats cpp de
dyld：警告，未知环境变量：DYLD_LIBRARY_PATH_64 位

我使用 Mac OS X 开发人员工具捆绑的属性列表编辑器将环境变量 DYLD LIBRARY PATH 64 位设置为文件 MacOSX environment plist 中的值 path to dylib 我保存了该文件并退出重新登
将 PHP for 循环转换为 foreach [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对算法不太熟悉有人可以帮我把这个 for 循环转换为 foreach 吗 for i 0 i lt count cartBookI
无线 iphone 应用程序分发 - itms 服务协议问题

我已经遵循了所有的指示Apple http developer apple com library ios featuredarticles FA Wireless Enterprise App Distribution Introduct
pyspark sql查询：根据条件计算不同值

我有一个数据框如下 id doctor id patient consumption type drug d1 p1 12 0 bhd d1 p2 10 0 lsd d1 p1 6 0 bhd d1 p1

pyspark sql查询：根据条件计算不同值

pyspark sql查询：根据条件计算不同值 的相关文章

随机推荐

热门标签

pyspark sql查询：根据条件计算不同值的相关文章