我可以将自定义分区器与 group by 一起使用吗？

2024-01-07

假设我知道我的数据集不平衡并且我知道键的分布。我想利用它来编写一个自定义分区器，以充分利用运算符实例。

我知道关于数据流#partitionCustom https://ci.apache.org/projects/flink/flink-docs-master/api/java/org/apache/flink/streaming/api/datastream/DataStream.html#partitionCustom-org.apache.flink.api.common.functions.Partitioner-org.apache.flink.api.java.functions.KeySelector-。但是，如果我的流被锁定，它仍然可以正常工作吗？我的工作看起来像这样：

KeyedDataStream afterCustomPartition = keyedStream.partitionCustom(new MyPartitioner(), MyPartitionKeySelector())

DataStreamUtils.reinterpretAsKeyedStream(afterCustomPartition, new MyGroupByKeySelector<>()).sum()

我想要实现的是：

根据某个键拥有一个流 keyBy ，以便仅使用该键中的元素调用reduce函数。
该组根据一些自定义分区将工作拆分到节点之间。
自定义分区根据并行运算符实例的数量返回一个数字（该数字将被修复并且不会重新缩放）。
自定义分区从 keyBy 返回不同的值。然而，keyBy(x) = keyBy(y) => partition(x) = partition(y).
Having 预聚合 https://stackoverflow.com/questions/51634189/does-flink-support-map-side-aggregations-streaming在分区之前最大限度地减少网络流量。

用例示例：

数据集：[(0, A), (0, B), (0, C), (1, D), (2, E)]
并行算子实例数量：2
按函数分组：返回该对的第一个元素
分区函数：对于键 0 返回 0，对于键 1 和 2 返回 1。优点：处理可能将键 0 和 1 发送到同一运算符实例的数据倾斜，这意味着一个运算符实例将接收 80% 的数据集。

不幸的是这是不可能的。DataStreamUtils.reinterpretAsKeyedStream()要求数据进行相同的分区，就像您调用keyBy().

造成此限制的原因是密钥组以及密钥如何映射到密钥组。密钥组是 Flink 分配密钥状态的单位。键组的数量决定了算子的最大并行度，配置为setMaxParallelism()。密钥通过内部哈希函数分配给密钥组。通过更改密钥的分区，同一密钥组的密钥将分布在多台机器上，这是行不通的。

为了调整机器的密钥分配，您需要更改密钥组的密钥分配。但是，没有公共或可访问的接口来执行此操作。因此，Flink 1.6 中不支持自定义密钥分配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

我可以将自定义分区器与 group by 一起使用吗？的相关文章

根据 Flink 的模式使用 GCS 文件

由于 Flink 支持 Hadoop 文件系统抽象并且有一个GCS连接器 https github com GoogleCloudPlatform bigdata interop 在 Google Cloud Storage 之上实现它的
如何判断 Apache Flink 运行在哪个端口？

我安装了 apache flink 转到flink 1 14 3文件夹并运行 bin start cluster sh 它似乎已成功启动集群因为它输出了以下内容 Starting cluster Starting standalonese
Apache Flink：如何从 Cassandra 读取数据流/数据集？

我尝试将 Cassandra 视为 Flink 中的数据源并使用以下链接中提供的信息从 Cassandra 读取数据以在 Flink 中进行处理 https stackoverflow com questions 43067681 re
Flink时间特性和AutoWatermarkInterval

在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印以便他们提前事件时间如果水印在指定的时间间隔内没有更改没有事件到达运行时将不会发出任何水印另一方面如果在下
Flink 中的水印和触发器有什么区别？

我读到排序运算符必须缓冲它接收到的所有元素然后当它接收到水印时它可以对时间戳低于水印的所有元素进行排序并按排序顺序发出它们这是正确因为水印表明不能有更多元素到达并与已排序元素混合 https cwiki apache org
Flink：处理数据早于应用程序水印的键控流

我正在使用带有运动源和事件时间键控窗口的 F link 该应用程序将监听实时数据流窗口事件时间窗口并处理每个键控流我有另一个用例我还需要能够支持某些关键流的旧数据的回填这些将是事件时间鉴于我正在使用水印这会成为一个问题因为
flink kafka生产者在检查点恢复时以一次模式发送重复消息

我正在写一个案例来测试 flink 两步提交下面是概述 sink kafka曾经是kafka生产者 sink stepmysql接收器是否扩展two step commit sink comparemysql接收器是否扩展two step
Python + Beam + Flink

我一直在尝试让 Apache Beam 可移植性框架与 Python 和 Apache Flink 一起使用但我似乎找不到一套完整的指令来让环境正常工作是否有任何参考资料包含使简单的 python 管道正常工作的先决条件和步骤的完整列表
Flink TaskManager 超时？

我正在运行 Flink 应用程序通过 Yarn 似乎有时任务管理器会随机超时这是错误 java util concurrent TimeoutException Heartbeat of TaskManager with id some
Apache Flink、JDBC 和 fat jar 是否存在类加载问题？

使用 Apache Flink 1 8 并尝试运行RichAsyncFunction 我得到No Suitable Driver Found初始化 Hikari 池时出错RichAsyncFunction open 在 IDE 中它运行得很
Flink 的简单 hello world 示例

我正在寻找 Apache flink 的 hello world 体验的最简单的示例假设我刚刚在一个干净的盒子上安装了 flink 那么为了让它做某事我需要做的最低限度是什么我意识到这很模糊这里有一些例子来自终端的三个 pyth
基于流的应用程序中的受控/手动错误/恢复处理

我正在开发一个基于的应用程序Apache Flink 它利用Apache Kafka用于输入和输出该应用程序可能会被移植到Apache Spark 所以我也将其添加为标签问题仍然相同我要求通过 kafka 接收的所有传入消息必须按顺序
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
尝试升级到 flink 1.3.1 时出现异常

我尝试将集群中的 flink 版本升级到 1 3 1 以及 1 3 2 但我的任务管理器中出现以下异常 2018 02 28 12 57 27 120 ERROR org apache flink streaming runtime tas
Apache Flink - “keyBy”中的异常处理

由于代码错误或缺乏验证进入 Flink 作业的数据可能会触发异常我的目标是提供一致的异常处理方式我们的团队可以在 Flink 作业中使用这种方式而不会导致生产中出现任何停机重启策略似乎不适用于此处因为简单的重启无法解决问题我
Flink中为什么DataStream不支持聚合

我是 Flink 的新手有时我想在 DataStream 上进行聚合而不需要先执行 keyBy 为什么 Flink 不支持 DataStream 上的聚合 sum min max 等谢谢你艾哈迈德 Flink 支持非 keyed
当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这
将 Apache Flink 与 Lagom 结合使用时出现 java.io.NotSerializedException

我正在 Lagom 的微服务实现中编写 Flink CEP 程序我的 FLINK CEP 程序在简单的 scala 应用程序中运行得非常好但是当我在 Lagom 服务实现中使用此代码时我收到以下异常拉戈姆服务实施 override
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
Flink 在 Kubernetes 上的部署和 Native Kubernetes 有什么不同

黑白的主要区别是什么原生 Kubernetes https ci apache org projects flink flink docs stable ops deployment native kubernetes html and 库

随机推荐

在Java中获取电池电量

我想制作一个 java 应用程序来显示我的 mac OS X 的当前电池电量我读过了获取操作系统级别的系统信息 https stackoverflow com questions 25552 using java to get os le
尽管我使用的是 @Transactional 注释，但出现“无法初始化代理 - 无会话”

我正在使用 Spring 3 1 1 RELEASE 和 Hibernate 4 1 0 Final 尽管我将相关方法调用包装在 Transactional 注释中但我收到了无法初始化代理无会话异常这是我的方法 Service t
Python如何处理内存？

我一直在看一个内存数据库 http en wikipedia org wiki In memory database 这让我开始思考 Python 如何处理不依赖于连接的 IO 甚至是数据例如哈希集合等这是某个地方的配置还是基于资
.net 中的日期差异错误

我正在使用以下代码片段 lxDate 1 1 1970 GetUnixDate CType DateDiff S lxDate pDate Int32 其中 pDate 是用户输入的日期其格式为月日年例如 12 24 2014 这
如何清晰快速地使用 DBNull.Value 参数化空字符串

我厌倦了编写以下代码 Commenting out irrelevant parts public string MiddleName public void Save SqlCommand new SqlCommand blah blah
单击页面上的任意位置时，Bootstrap 3 btn-group 会丢失活动类

我正在研究以下演示 http jsfiddle net Behseini fzdfJ 1 我正在寻找为什么每当我单击页面上的任何位置时 btn group 就会失去 Active 类我期望 btn group 只能在彼此之间切换我在这里
如果不禁用 SSL，代码将无法运行

请看一下这段代码我的 Android 应用程序访问此页面以从某个来源获取日期这url返回一个 json 数据我将其打印回来然后在我的应用程序中处理该数据并显示它现在这对我来说效果很好我仍处于测试阶段我读到禁用SSL 我在第 6
如何为多个用户配置 phpMyAdmin - 每个用户只能访问其数据库

我想将 phpMyAdmin 配置为能够接受多个不同用户帐户登录之一每个用户都会被分配一个特定的数据库并且只能访问该数据库 phpMyAdmin 的默认配置是一个超级用户例如root 可以访问服务器上的每个数据库我需要能够让人们访问
Intel tbb parallel_for：传递带参数的类成员函数？

是否可以将类成员函数带参数传递给parallel for 大致意思是 void classT A const tbb blocked range
从 BQ 获取“无效架构更新。无法添加字段”，并在配置中设置了 ALLOW_FIELD_ADDITION

以下 python 代码片段会产生标题中的错误 job config bigquery QueryJobConfig Set the destination table table ref client dataset args bq da
实时更新 UI

我必须创建一个 WPF UI 它订阅实时外汇汇率货币汇率更新并将其显示在网格中每秒大约 1000 次更新这意味着网格中的每一行都可以更新upto每秒 1000 次网格在任何时间点都至少有 50 行为此我创建了一个订阅更新事件
我可以在 Emacs 中为 yanks 保留相同的项目吗？

Something I do often in Emacs is to cut a bit of text and then replace another bit with the cut text So say I ve got the
尝试使用 EPPlus 在服务器上读取 Excel 文件，但不能通过浏览器读取

当我发布我的项目并运行它时on服务器它工作了 EPPlus 找到了所有 4 个工作表迭代它们并将我的数据上传到 SQL 但是当我通过我的浏览器或我同事的浏览器运行它时它显示 0 个工作表知道为什么会发生这种情况吗此时的代码并不多
Objective-C 的“#ifdef __IPHONE_11_0”的 Swift 等价物是什么？

我想使用 Xcode 9 将 iOS 11 代码添加到我的项目中同时保留使用仅支持 iOS 10 的 Xcode 8 编译项目的选项在 Objective C 中我可以通过使用预处理器指令来检查是否 IPHONE 11 0被定义为如
如何在Excel电子表格列中查找连续数字的特定数据

请帮助我找到电子表格列中存在的数字序列我的Excel列中有大量1和0的数据我需要找到该列中连续的1和0的序列例如我的excel列如下 0 0 1 1 0 0 1 0 1 0 0 1 1 0 1 1 1 0 0 请假设这是我的一些列数
原始数组与 ArrayList

我正在接收 XML 需要转换为原始数组或 ArrayList 内存和垃圾回收方面的性能有很大差异吗我的应用程序每秒将创建数千个这样的对象并且我需要最大限度地减少 GC 因为我需要实时性能 Thxs 原始数组效率更高因为它们不需要包装对
Javascript 中对具有属性的函数引用的混淆

在下面的 JavaScript 代码中 function foo foo val foo val no val return foo has foo val function bar bar val bar val no val retur
从模块中角度导出的组件在另一个模块中不可用

我正在 AppModule 中导出自定义组件但无法在 AppModule 中导入的另一个模块中使用它我认为导出的组件在全球范围内都是可见的我试图在 TestModule 内的组件中使用 CalendarComponent 和选择器 a
发布代码覆盖率在 Azure DevOps 中找不到覆盖率文件

我正在使用节点14 x和开玩笑26 x 有一个npm testpackage json 文件中的脚本包含以下内容 cross env NODE ENV test jest coverage forceExit 当我在本地运行它时它会生成代
我可以将自定义分区器与 group by 一起使用吗？

假设我知道我的数据集不平衡并且我知道键的分布我想利用它来编写一个自定义分区器以充分利用运算符实例我知道关于数据流 partitionCustom https ci apache org projects flink flink doc

我可以将自定义分区器与 group by 一起使用吗？

我可以将自定义分区器与 group by 一起使用吗？ 的相关文章

随机推荐

热门标签

我可以将自定义分区器与 group by 一起使用吗？的相关文章