如何将数据聚合到范围（分桶）？

2023-12-02

我有一张像这样的桌子

+---------------+------+
|id             | value|
+---------------+------+
|               1|118.0|
|               2|109.0|
|               3|113.0|
|               4| 82.0|
|               5| 60.0|
|               6|111.0|
|               7|107.0|
|               8| 84.0|
|               9| 91.0|
|              10|118.0|
+---------------+------+

ans 希望将值聚合或分箱到一个范围0,10,20,30,40,...80,90,100,110,120我如何在 SQL 或更具体的 Spark sql 中执行此操作？

目前我有一个与范围连接的横向视图，但这看起来相当笨拙/效率低下。

离散化的分位数并不是我真正想要的，而是CUT与这个范围。

edit

https://github.com/collectivemedia/spark-ext/blob/master/sparkext-mllib/src/main/scala/org/apache/spark/ml/feature/Binning.scala会执行动态垃圾箱，但我宁愿需要这个指定的范围。

在一般情况下，静态分箱可以使用org.apache.spark.ml.feature.Bucketizer:

val df = Seq(
  (1, 118.0), (2, 109.0), (3, 113.0), (4, 82.0), (5, 60.0),
  (6, 111.0), (7, 107.0), (8,  84.0), (9, 91.0), (10, 118.0)
).toDF("id", "value")

val splits = (0 to 12).map(_ * 10.0).toArray

import org.apache.spark.ml.feature.Bucketizer
val bucketizer = new Bucketizer()
  .setInputCol("value")
  .setOutputCol("bucket")
  .setSplits(splits)

val bucketed = bucketizer.transform(df)

val solution = bucketed.groupBy($"bucket").agg(count($"id") as "count")

Result:

scala> solution.show
+------+-----+
|bucket|count|
+------+-----+
|   8.0|    2|
|  11.0|    4|
|  10.0|    2|
|   6.0|    1|
|   9.0|    1|
+------+-----+

当值位于定义的 bin 之外时，bucketizer 会抛出错误。可以将分割点定义为Double.NegativeInfinity or Double.PositiveInfinity捕获异常值。

Bucketizer旨在通过对正确的存储桶执行二分搜索来有效地处理任意分割。对于像您这样的常规垃圾箱，人们可以简单地执行以下操作：

val binned = df.withColumn("bucket", (($"value" - bin_min) / bin_width) cast "int")

where bin_min and bin_width分别是最小 bin 的左间隔和 bin 宽度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

apachespark

apachesparksql

如何将数据聚合到范围（分桶）？的相关文章

将 UPDATE 转换为 INSERT INTO ON DUPLICATE KEY UPDATE 语句

我有这个 UPDATE MySQL 语句效果很好 UPDATE table1 Inner Join table2 ON table2 id table1 gw id SET table1 field1 1 table1 field2 2
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
使用按位函数查询 BIT 字段时，MySQL 不使用索引

我的 MySQL 表中有一个 BIT 类型的字段我想使用位值存储记录的状态例如 1 status1 2 status2 4 status3 8 status4 每条记录可以同时具有多种状态对于 status1 和 status3 该值
如何查找 PostgreSQL 数据库的上次更新时间？

我正在使用一个批量更新的 postgreSQL 数据库我需要知道数据库或数据库中的表上次更新或修改的时间两者都可以我看到 postgreSQL 论坛上有人建议使用日志记录并查询日志这对我不起作用因为我无法控制客户端代码库你可
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
模式更新后 jOOQ 生成的类的运行时验证？

我用org jooq util DefaultGenerator在构建过程中生成 jOOQ 类来表示我的数据库模式当应用程序运行时架构预计会在应用程序不知情的情况下发生更改此类更改可能与已生成的代码兼容也可能不兼容如何在运行时检测
使用 MS Access 获取行的第一个实例

EDITED 我有这个查询我想SELECT表中记录的第一个实例petTable SELECT id pet ID FIRST petName First Description FROM petTable GROUP BY pet ID
获取家庭成员

假设以下家庭其构建架构是 create table PersonConn child int parent int insert into PersonConn values 1 2 insert into PersonConn valu
查询中列的顺序重要吗？

当从 MySQL 表中选择列时与表中的顺序相比选择列的顺序是否会影响性能不考虑可能覆盖列的索引例如您有一个包含行 uid name bday 的表并且有以下查询 SELECT uid name bday FROM table M
连接两个表的查询的 SQL Server“FOR XML”输出

我是 SQL Server 中 FOR XML 功能的新手我正在使用 SQL Server 2012 我有两个表 Word 和 Word Expansion 样本数据表字 WordOID Word 1 PIPE 2 WIRE 表 Wo
SQLite HAVING 比较错误

我有一个测试 SQLite 表用于存储带有值的报告数据 CREATE TABLE IF NOT EXISTS test fact daily revenue date TEXT revenue NUMERIC product TEXT I
如何在Oracle中使用Timestamp_to_scn和Scn_to_timestamp？

我的查询结果是这样的 select cast to date a start time mm dd yyyy hh mi ss pm as timestamp date of call ora rowscn from calling tab
SQL Server 用分隔符分割字符串

我有一个输入字符串 100 2 3 101 2 1 103 2 3 我想解析它并将其添加到具有 3 列的表中因此它应该是 f x col1 col2 col3 100 2 3 类似的其他数据以逗号分隔作为记录和作为列 Thanks ni
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
使用 JSON 参数的 Postgres 批量 INSERT 函数

这是一个plpgsqlpostgres 的函数9 6 它试图INSERT一行如果插入没有失败由于违反键约束那么它会运行更多命令 CREATE FUNCTION foo int text text RETURNS void AS BEG
sql server 按组排名

问题看似简单但我却无法理解这是针对 sql 服务器的 what I have in a table What I need as a output cksum id cksum id 2162514679 204 2162514679
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
当所有维度值都具有 100% 重要性时处理多对多维度

我至少会尽力保持简洁假设我们正在跟踪一段时间内的账户余额所以我们的事实表将包含诸如账户余额情况表 FK 账户ID FK 日期ID Balance 显然你有一个账户维度表 and a 日期维度表所以现在我们可以轻松地过滤帐户或日期或
MySQL 按重复项从上到下排序

我有一个lammer问题因为我不是mysql专业人士我有类似的字段 id color 1 red 2 green 3 yellow 4 green 5 green 6 red 我想按重复项进行分组最常见的重复项先进行分组所以应该这样

随机推荐

Fragment 和 Anko toast 的“接收器类型不匹配”

我正在尝试使用 Jetbrains 的 Anko 库在我的应用程序中轻松显示 Android toast 消息这是相关的代码片段 val message CharSequence Recycled holder taskEditText
从 IntentService 向 Activity 发送消息

我在同一个应用程序中有一个活动和一个intentService 该服务必须在活动结束后继续运行因此我不想绑定我已经在谷歌上搜索了几个小时但找不到一个关于如何做到这一点的好例子我可以启动该服务并向其传递额外内容但现在该服务必须使用
iPad 上的 iAd：横向 iAd 方向不正确

这仍然是一个相对较新的主题因此不确定有多少人必须在 iPad iOS4 2 1 上实现 iAd 但基本上我让 iAd 横幅以横向模式显示并且显示正确唯一的问题是当我单击测试广告时它会以纵向模式显示测试广告即设备仍处于横向
有没有办法使用 Video.js 从视频标签获取当前字幕的文本？

我想在播放视频期间获取当前字幕的文本并且实现自己的字幕块即隐藏原始字幕并以几种不同的方式使用该信息目前我使用videojs为我的球员有什么方法可以从中获取当前标题的字符串吗此代码获取当前提示并放入 span element fu
R curl::has_internet() FALSE 即使有互联网连接

使用 R 包 Eurostat 从 EuroSTAT 下载数据时出现了问题 Population data by NUTS3 pop data lt subset eurostat get eurostat demo r pjangrp3
为什么Android C2DM推送消息总是不到达？

我已经构建了一个功能正常的 C2DM 应用程序通常它运行得很好并且推送消息到达得很快然而我发现当我第一次启动应用程序或将其重新聚焦时消息经常不会到达它们肯定发送成功我收到 200 响应并且消息格式肯定是正确的稍后发送相同的
C 中的 size_t 是什么？

我很困惑size t在 C 中我知道它是由sizeof操作员但它到底是什么它是一种数据类型吗假设我有一个for loop for i 0 i lt some size i 我应该使用int i or size t i 来自维基百科
如何让自动对焦在第二个 AVCaptureSession 中工作而不重新创建会话？

当我创建第二个 AVCaptureSession 时自动对焦不适用于第一个 AVCaptureSession 要创建的第二个会话是自动对焦工作的会话而第一个创建的会话则不自动对焦我希望任一会话在另一个会话停止后启动时都能够自动对焦就
如何比较两个捕获的声音，看看哪一个声音更大？

给定从麦克风捕获的两个字节数组的数据我如何确定哪一个有更多的噪声尖峰我假设有一种算法可以应用于数据但我不知道从哪里开始说实话我需要能够确定婴儿何时哭泣以及房间内的环境噪音如果有帮助我正在使用 Microsoft Xna Fra
无法实例化子目录中定义的类

我的简化的项目布局如下 init py test py lib init py lib client py my test py简单来说就是 import lib client A client A Test and my lib cl
UIWindow 的根视图控制器在应用程序启动时不会旋转到横向

我正在开发一个基于 xib 的仅横向应用程序该应用程序可以在横向模式下正确启动然而我的主 ViewController 中的视图是纵向呈现的也就是说它旋转 90 度使图像看起来被裁剪并且不会占据整个屏幕如果我使用我的界面来呈现
grails 线程 -> hibernateException：没有 Hibernate 会话绑定到线程

我试图在服务中创建一些线程但我得到了 hibernateException no session 我已经在 stackoverflow 中看到过关于此问题的讨论其中包含抛出 RuntimeException 的解决方案就我而言是行不通
如何使用 hive 上下文有效地查询 Spark 中的 hive 表？

我有一个 1 6T Hive 表其中包含时间序列数据我在用Hive 1 2 1 and Spark 1 6 1 in scala 以下是我的代码中的查询但我总是得到Java out of memory error val sid da
如何使用 OpenCV 在 Python 中向图像添加噪声（高斯/盐和胡椒等）[重复]

这个问题在这里已经有答案了我想知道Python中是否存在一些带有OpenCV或任何其他Python图像处理库的函数可以向图像添加高斯或椒盐噪声例如在 MATLAB 中存在执行相同工作的直接函数或者如何使用 Python 和 Op
当我向 Parse 提交新帖子时应用程序崩溃

这是我的应用程序崩溃的唯一地方也是更重要的功能之一 LogCat 告诉我 java lang IllegalArgumentException 您必须使用 ParseObject create 或正确的子类创建这种类型的 ParseObj
Unity批量注册按惯例

我正在尝试在 Unity IoC 中执行与以下 Autofac 代码等效的操作 builder RegisterAssemblyTypes typeof DataRepository lt gt Assembly Where t gt t
Svelte 3 中是否存在动态道具

当我迭代动态组件时例如
成功部署后Azure Web应用程序未更新

我在 azure 上有一个托管 Web API 的 Web 应用程序我在 Visuall Studio 上更新了代码然后将更新推送到 Azure 上的 Web 应用程序它说它正在成功更新我尝试通过 git 和 ftp 发布它在云上
二叉搜索树中的有序后继者

给定 BST 中的一个节点如何找到下一个更高的密钥一般方法取决于节点中是否有父链接如果您存储父链接然后你选择如果当前节点有右子节点则为右子节点的最左子节点如果右孩子没有左孩子那么右孩子就是你的顺序继承人向上导航父祖先节点
如何将数据聚合到范围（分桶）？

我有一张像这样的桌子 id value 1 118 0 2 109 0 3 113 0 4 82 0 5 60 0 6 111 0 7 107 0 8 84 0 9 91 0 10 118 0

如何将数据聚合到范围（分桶）？

edit

如何将数据聚合到范围（分桶）？ 的相关文章

随机推荐

热门标签

如何将数据聚合到范围（分桶）？的相关文章