Sparksql 多条件过滤（使用where子句选择）

2024-04-25

您好，我有以下问题：

numeric.registerTempTable("numeric").

我想要过滤的所有值都是文字空字符串，而不是 N/A 或空值。

我尝试了这三个选项：

numeric_filtered = numeric.filter(numeric['LOW'] != 'null').filter(numeric['HIGH'] != 'null').filter(numeric['NORMAL'] != 'null')
numeric_filtered = numeric.filter(numeric['LOW'] != 'null' AND numeric['HIGH'] != 'null' AND numeric['NORMAL'] != 'null')
sqlContext.sql("SELECT * from numeric WHERE LOW != 'null' AND HIGH != 'null' AND NORMAL != 'null'")

不幸的是， numeric_filtered 始终为空。我检查过，数字有应该根据这些条件过滤的数据。

以下是一些示例值：

低高正常

3.5 5.0 空

2.0 14.0 空

空 38.0 空

空空空

1.0 无 4.0

您正在使用逻辑连接（AND）。这意味着所有列都必须不同于'null'要包含的行。让我们来说明一下，使用filter以版本为例：

numeric = sqlContext.createDataFrame([
    ('3.5,', '5.0', 'null'), ('2.0', '14.0', 'null'),  ('null', '38.0', 'null'),
    ('null', 'null', 'null'),  ('1.0', 'null', '4.0')],
    ('low', 'high', 'normal'))

numeric_filtered_1 = numeric.where(numeric['LOW'] != 'null')
numeric_filtered_1.show()

## +----+----+------+
## | low|high|normal|
## +----+----+------+
## |3.5,| 5.0|  null|
## | 2.0|14.0|  null|
## | 1.0|null|   4.0|
## +----+----+------+

numeric_filtered_2 = numeric_filtered_1.where(
    numeric_filtered_1['NORMAL'] != 'null')
numeric_filtered_2.show()

## +---+----+------+
## |low|high|normal|
## +---+----+------+
## |1.0|null|   4.0|
## +---+----+------+

numeric_filtered_3 = numeric_filtered_2.where(
    numeric_filtered_2['HIGH'] != 'null')
numeric_filtered_3.show()

## +---+----+------+
## |low|high|normal|
## +---+----+------+
## +---+----+------+

您尝试过的所有其余方法都遵循完全相同的架构。这里你需要的是逻辑或（OR）。

from pyspark.sql.functions import col 

numeric_filtered = df.where(
    (col('LOW')    != 'null') | 
    (col('NORMAL') != 'null') |
    (col('HIGH')   != 'null'))
numeric_filtered.show()

## +----+----+------+
## | low|high|normal|
## +----+----+------+
## |3.5,| 5.0|  null|
## | 2.0|14.0|  null|
## |null|38.0|  null|
## | 1.0|null|   4.0|
## +----+----+------+

或使用原始 SQL：

numeric.registerTempTable("numeric")
sqlContext.sql("""SELECT * FROM numeric
    WHERE low != 'null' OR normal != 'null' OR high != 'null'"""
).show()

## +----+----+------+
## | low|high|normal|
## +----+----+------+
## |3.5,| 5.0|  null|
## | 2.0|14.0|  null|
## |null|38.0|  null|
## | 1.0|null|   4.0|
## +----+----+------+

也可以看看：Pyspark：when子句中的多个条件 https://stackoverflow.com/q/37707305

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

sql

apachespark

apachesparksql

PySpark

Sparksql 多条件过滤（使用where子句选择）的相关文章

python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
Python - 用逗号分割，跳过括号内的内容

我需要用逗号分隔字符串但我对这种情况有一个问题 TEXT EXAMPLE THIS IS A EXAMPLE BUT NOT WORKS FOR ME SECOND THIRD 我想拆分并得到 var 0 TEXT EXAMPLE THI
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
更新plpgsql中触发器函数中的多列

给出以下架构 create table account type a id SERIAL UNIQUE PRIMARY KEY some column VARCHAR create table account type b id SERIA
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
将多行合并为一行并根据行数附加列

我正在尝试将同一个表的多行合并为一个我有一个像这样的示例表 Col1 Col2 Col3 Col4 Col5 Col6 1 BH1 CB 12 CC CC Conveyor Mal 1 BH1 CB 104 ZC ZC Full Emp
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Oracle：如果表存在

我正在为 Oracle 数据库编写一些迁移脚本并希望 Oracle 有类似于 MySQL 的东西IF EXISTS构造具体来说每当我想删除 MySQL 中的表时我都会执行类似的操作 DROP TABLE IF EXISTS tabl
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
外键引用多个表

我有4张桌子 A ida name B ida B specific stuff C ida C specific stuff D ida D specific stuff 我希望另一个表 E 可以仅引用 B 或 C 而不是 D 我可以在其
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
让 Prometheus 发送 SQL 查询

我正在尝试使用普罗米修斯 https prometheus io 监视我的 MySQL 数据库但似乎找不到添加 SQL 查询的区域例如我想运行一个返回值的 SQL 查询然后将该值添加到图表中发送警报有没有办法让 Promethe

随机推荐

该对象是一个整型。我可以用不到五行代码获得它的值吗？

我有一个数据阅读器我想将其中的值与值 42 进行比较我知道它是一个整数类型例如 MySQL 称之为INT TINYINT SMALLINT MEDIUMINT BIGINT JUMBODELUXEINT ETC 我不想将实际类型硬连接
#1227 - 访问被拒绝；您需要（至少一项）超级权限才能执行此操作

您好我目前遇到 MySQL 问题这里出了什么问题我是一个cPanel用户是的我已经搜索过这个但没有找到明确的答案看来这比其他具有相同错误代码问题的人更具体请添加详细的回复我可以跟进 P s 我使用的是共享托管帐户 DELI
如何让多个div改变一个div的背景图片

我有一个 div 作为网站的横幅标题图像该图像最初将显示房屋的图片横幅还将有 6 个 div 作为按钮当用户将鼠标悬停在每个 div 上时它会将标题的背景图像更改为代表每个页面的不同图像这是我到目前为止的代码 Fiddle ht
为什么 Visual Studio 2013 会发出 C4996 错误？

在 Visual Studio 的早期版本中使用 sleep 或 strncpy 等函数只会输出警告最新版本突然报错错误 C4996 sleep 此函数或变量已被取代通过较新的库或操作系统功能考虑使用而是睡觉详情请参见在线帮助
为什么我的全局 .gitignore 文件没有被忽略？

cat gitconfig core editor vim excludefiles home augustin gitignore cat gitignore toto mkdir git test cd git test git ini
使用 Webpack 波形符别名时通过 Vim 中的“gf”解析 JavaScript 模块

我是使用波浪号的 Vue js 项目的新成员模块导入中的符号如 import WhateverApi from api whatever 项目存储库包含所有类型的文件 Vagrant 机器 Laravel 后端应用程序配置文件和 Vu
不兼容的类型：对象无法转换为 Diff

我有这个 Java 方法他用它来比较数据 org apache commons lang3 builder Diff public void addChangedPositions DiffrentResult diffrentResul
相当于ContinueWith(delegate, CancellationToken) 与await 继续

我有这样的情况 private Task LongRunningTask Something private void DoSomethingMore Task previousTask public Task IndependentlyC
PHP 通过剪切 x 个字符后最后一个空格的字符串来进行摘录

如果字符串长度超过 110 个字符我会尝试从长文本中进行摘录同时删除最后一个空格之后的所有内容 string a if mb strlen string gt 110 pos mb strpos string 110 excerpt r
UTF-16 十六进制解码 NodeJS

我正在尝试将 UTF 16 十六进制 Hello 世界解码为 NodeJS 中的字符串我尝试通过从十六进制创建缓冲区来做到这一点 let vari new Buffer from 00 48 00 65 00 6C 00 6C 00 6
在 C++ 项目中使用 mysql_query 进行多个查询

因此这不适用于 mysql query 我严格使用 C 不使用 php 我希望执行这个双重查询以便我在并发用户创建 ID 的事务系统中始终拥有唯一的 ID mysql query connection INSERT INTO User
MariaDB 服务器在 600 秒后客户端连接超时

我的 MariaDB 服务器在 600 秒 10 分钟不活动后使我的 C 客户端使用 libmariadb 超时我不确定为什么因为我找不到任何指定该数字的已配置超时这是我的代码我在其中执行一个简单的 SELECT 查询等待 1
如何制作通用的jpa存储库？我应该这样做吗？为什么？

我是堆栈溢出的新手并且正在使用 hibernate 和 mysql 处理 spring jpa 数据我为每个实体类创建了一个 JpaRepository 但现在我觉得我应该对所有实体使用一个存储库因为我所有的存储库都有通用的 CRUD
比较枚举的最佳方法[重复]

这个问题在这里已经有答案了例如我有一个枚举enum Color Red Brown 我还有一些该类型的变量 Color c1 Brown c2 Red 与恒定值进行比较的最佳方法是什么 if c1 Color Brown is brow
Magento CSRF 保护

我正在 Magento 中查看自定义表单我看到了这些教程 http fastdivision com 2012 03 29 diy magento create ajax login registration forms for your
cakephp 3 中的授权和 ACL

我搜索了文档但没有找到有关 cakephp 3 中 ACL 实现的任何信息如何在 cakephp 3 中使用 ACL 实现授权 ACL 不像 CakePHP 2 那样内置在 CakePHP 3 中它现在作为单独的插件提供引用自htt
企业在无法通过互联网访问 Chrome 网上商店的锁定 Windows 计算机上部署 Chrome 扩展程序

对于 Windows 上企业安装的 Chrome 扩展程序是否有任何替代部署方法不会从 Chrome 网上应用店获取扩展程序情况是一些企业使用锁定的网络无法访问外部互联网并且不允许访问公共 Google URL 来获取扩展程序有
如何在 Win32 中滚动条到达底部时启用按钮？

我正在用 Win32 编写一个许可协议对话框但我很困惑与往常一样我希望当 RichEdit 控件的滚动条滑块到达底部时启用接受不接受按钮但我找不到获得该事件通知的方法我最早能够了解它是当用户释放鼠标左键时有没有办法做到这一
ClearCase 中的子分支？

当我想在 CC 中使用分支时我通常会在配置规范中添加如下内容 element first branch LATEST element Main LATEST mkbranch first branch element Main LATES
Sparksql 多条件过滤（使用where子句选择）

您好我有以下问题 numeric registerTempTable numeric 我想要过滤的所有值都是文字空字符串而不是 N A 或空值我尝试了这三个选项 numeric filtered numeric filter nume

Sparksql 多条件过滤（使用where子句选择）

Sparksql 多条件过滤（使用where子句选择） 的相关文章

随机推荐

热门标签

Sparksql 多条件过滤（使用where子句选择）的相关文章