为什么 Apache Flink 需要 Watermarks 进行事件时间处理？

2023-11-23

有人可以正确解释事件时间戳和水印吗？我从文档中理解了它，但不是那么清楚。现实生活中的例子或外行定义会有所帮助。另外，如果可能的话请给出一个示例（以及一些可以解释它的代码片段）。提前致谢

这是一个示例，说明了为什么我们需要水印以及它们的工作原理。

在此示例中，我们有一个带时间戳的事件流，这些事件的到达顺序有些混乱，如下所示。显示的数字是事件时间时间戳，指示这些事件实际发生的时间。第一个到达的事件发生在时间 4，随后是更早发生的事件（时间 2），依此类推：

··· 23 19 22 24 21 14 17 13 12 15 9 11 7 2 4 →

现在想象一下我们正在尝试创建一个流排序器。这意味着一个应用程序在流到达时处理每个事件，并发出一个包含相同事件的新流，但按时间戳排序。

一些观察结果：

(1) 我们的流排序器看到的第一个元素是 4，但我们不能立即将其作为排序流的第一个元素释放。它可能已无序到达，并且更早的事件可能尚未到达。事实上，我们对这个流的未来有一些神一样的了解，我们可以看到我们的流排序器应该至少等到 2 到达才能产生任何结果。

结论：一些缓冲和一些延迟是必要的。

(2) 如果我们做错了，我们可能会永远等待。首先，我们的应用程序看到了时间 4 的事件，然后看到了时间 2 的事件。时间戳小于 2 的事件会到达吗？或许。也许不会。我们可以永远等待，也永远看不到 1。

结论：最终我们必须勇敢地发出 2 作为排序流的开始。

(3) 我们需要某种策略，定义对于任何给定的带时间戳的事件，何时停止等待较早事件的到达。

这正是水印的作用- 它们定义何时停止等待较早的事件。

Flink 中的事件时间处理取决于水印生成器将特殊的带时间戳的元素插入流中，称为水印.

我们的流排序器什么时候应该停止等待，并推出 2 来启动排序流？当水印到达时时间戳为 2 或更大。

(4) 我们可以想象不同的策略来决定如何生成水印。

我们知道每个事件都会在一定的延迟后到达，并且这些延迟各不相同，因此某些事件比其他事件延迟得更多。一种简单的方法是假设这些延迟受到某个最大延迟的限制。 Flink 将此策略称为有界无序性水印。很容易想象更复杂的水印方法，但对于许多应用程序来说，固定延迟就足够了。

如果你想构建一个像流排序器这样的应用程序，Flink 的KeyedProcessFunction是正确的构建块。它提供对事件时间计时器（即根据水印到达而触发的回调）的访问，并具有用于管理缓冲事件所需状态的挂钩，直到轮到它们发送到下游为止。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

streamprocessing

为什么 Apache Flink 需要 Watermarks 进行事件时间处理？的相关文章

我可以将自定义分区器与 group by 一起使用吗？

假设我知道我的数据集不平衡并且我知道键的分布我想利用它来编写一个自定义分区器以充分利用运算符实例我知道关于数据流 partitionCustom https ci apache org projects flink flink doc
Flink REST API错误：请求与预期格式JarRunRequestBody不匹配

尝试使用下面的 REST API 远程运行 Flink 作业但抛出错误 curl X POST H Content Type application json data type object id urn jsonschema org
Flink 处理事件太慢

我使用 Kinesis 数据流作为源使用 elasticsearch 作为接收器在 AWS Kinesis Data 分析应用程序中运行 Flink 作业事件示例 area sessions userId 4450 date 2021
如何判断 Apache Flink 运行在哪个端口？

我安装了 apache flink 转到flink 1 14 3文件夹并运行 bin start cluster sh 它似乎已成功启动集群因为它输出了以下内容 Starting cluster Starting standalonese
Kafka - 无法建立与节点-1的连接

我正在尝试使用 apache flink 流处理 kafka 主题但我遇到了这个问题 2018 04 10 02 55 59 856 ProducerConfig values acks 1 batch size 16384 bootst
Apache Flink：设置并行度的指南？

我正在尝试获取一些简单的规则或指南来设置哪些值操作员或工作并行性在我看来它应该是一个数字例如假设我有 2 台任务管理器机器每台都有 4 个任务槽假设集群上没有运行其他作业我会设置并行度吗用于操作喜欢过滤并映射到 8 如
Apache Flink：KeyedStream 上的数据分布不均匀

我在 Flink 中有这样的 Java 代码 env setParallelism 6 Read from Kafka topic with 12 partitions DataStream
处理时间窗口不适用于 Apache Flink 中的有限数据源

我正在尝试将一个非常简单的窗口函数应用于 Apache Flink 中的有限数据流本地无集群这是例子 val env StreamExecutionEnvironment getExecutionEnvironment env fro
StreamingFileSink 未将数据提取到 s3

我创建了简单的摄取服务该服务选择本地文件并使用 StreamingFileSink 摄取到 s3 https ci apache org projects flink flink docs stable dev connectors st
Flink 中的水印和触发器有什么区别？

我读到排序运算符必须缓冲它接收到的所有元素然后当它接收到水印时它可以对时间戳低于水印的所有元素进行排序并按排序顺序发出它们这是正确因为水印表明不能有更多元素到达并与已排序元素混合 https cwiki apache org
Flink：处理数据早于应用程序水印的键控流

我正在使用带有运动源和事件时间键控窗口的 F link 该应用程序将监听实时数据流窗口事件时间窗口并处理每个键控流我有另一个用例我还需要能够支持某些关键流的旧数据的回填这些将是事件时间鉴于我正在使用水印这会成为一个问题因为
Apache Beam 计数器/指标在 Flink WebUI 中不可用

我正在使用 Flink 1 4 1 和 Beam 2 3 0 并且想知道是否可以在 Flink WebUI 或任何地方中提供可用的指标如 Dataflow WebUI 中那样我用过类似的计数器 import org apache be
在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家
Flink 检查点到 Google Cloud Storage

我正在尝试为 GCS 中的 flink 作业配置检查点如果我在本地运行测试作业没有 docker 和任何集群设置一切正常但如果我使用 docker compose 或集群设置运行它并在 flink 仪表板中使用作业部署 fat ja
Apache Flink - 如何使用 AWS Kinesis 发送和使用 POJO

我想使用 Flink 来使用来自 Kinesis 的 POJO 是否有关于如何正确发送和反序列化消息的标准 Thanks 我用以下方法解决了它 DataStream
Apache Flink 动态设置 JVM_OPT env.java.opts

是否可以设置自定义 JVM 选项env java opts提交作业时未在作业中指定conf flink conf yaml file 我问的原因是我想在 log4j 中使用一些自定义变量我也在 YARN 上运行我的工作我已经使用 CLI
将 flink 从 1.10 升级到 1.11，遇到错误“找不到执行应用程序的 ExecutorFactory”

java lang IllegalStateException No ExecutorFactory found to execute the application at org apache flink core execution D
Flink 窗口：聚合并输出到接收器

我们有一个数据流其中每个元素都是这种类型 id String type Type amount Integer 我们想要聚合这个流并输出总和amount每周一次目前的解决方案 Flink 管道示例如下所示 stream keyBy ty
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
Flink 在 Kubernetes 上的部署和 Native Kubernetes 有什么不同

黑白的主要区别是什么原生 Kubernetes https ci apache org projects flink flink docs stable ops deployment native kubernetes html and 库

随机推荐

Swift 2.0 肥皂请求与 Alamofire 发送 xml 参数

我想向此 Web 服务示例发出请求 http www holidaywebservice com HolidayService v2 HolidayService2 asmx wsdl 我需要发送一个参数 countryCode 我不知道如
使用 spring 控制器和不同的类在 jsp 中渲染数据

我想渲染数据 this is how my jsp page table look like 我如何实现这一目标请帮我这给我带来了很多困惑要定义多少个类以及哪些字段 thanks 您的数据很可能来自数据库这是一种List返回了 ja
VSCode Marketplace 扩展：ZIP 损坏：未找到中央目录记录签名末尾

我正在尝试安装从 Marketplace 下载的 VSIX 包wget在安装了 VSCode 服务器的 Linux VM 上但出现以下错误 wget nv https marketplace visualstudio com apis p
Re.sub 不适合我

我想得到re sub例如替换用值指定的模式 for lines in f pattern 2 key 0 2 re search pattern lines 这将返回找到模式的行例如这是测试返回之一这是一个测试我遇到的问题是当我执
使用 PHP 检查远程文件是否为格式良好的 XML

我有一个 PHP 驱动的网站其中包含 XML 库存提要该提要由 ASP 远程提供即 XML 提要 url 的顺序为 http remote com client asp 由于提要经常不可用我的意思是网站返回 ASP 错误我想在包含
memcpy 与 C 中的赋值——应该是 memmove？

正如指出的这个问题的答案编译器在本例中是 gcc 4 1 2 是的它很旧不我无法更改它可以在它认为合适的地方用 memcpy 替换结构体赋值我正在 valgrind 下运行一些代码并收到有关 memcpy 源目标重叠的警告
在Java中，为什么超类方法不能从子类实例访问受保护或私有方法/变量？

让我们从另一种行为开始即使您将方法变量声明为私有同一类的另一个实例也可以访问它没关系我可以忍受我将这些称为类私有而不是实例私有现在问题部分例如在运行时我希望能够检查所有字符串变量thisclass 不为 null 如果为
junit 3 中的类拆解？

我们有很多使用 JUnit 编写的集成测试3 尽管我们现在运行它们4 4 其中一些需要在类中的所有测试完成后运行的tearDown 方法以释放一些公共资源我发现这可以在 junit 4 中使用 AfterClass org junit
在 SQL 中将列转换为行[重复]

这个问题在这里已经有答案了我需要编写一个查询该查询获取行并将其转换为列这是我的表 Count fname lname id 1 abc def 20 2 pqr 20 3 abc xyz 20 4 xyz xyz 20 1 abc d
git 的耐心差异算法的实现是否正确？

Stackoverflow 上的这个问题似乎是应用耐心差异算法的良好候选者然而在测试我的潜在答案时我发现git diff patience没有达到我的预期并且在这种情况下与默认的 diff 算法没有什么不同 cat a Funct
Android 中如何检查数据库是否存在？

我正在使用 Room API 在我的 Android 应用程序中实现数据库似乎每次我加载应用程序时它都会尝试一次又一次地创建数据库有什么办法可以限制这个吗 db Room databaseBuilder context AppData
在Android中启用MultiDex支持以在Eclipse中实现65K+方法

我正在尝试在 eclipse 中构建 Multidex apk 但未能成功我尝试了以下步骤在 Android 应用程序中配置 Multidex 支持我已将位于 extras android support multidex 的 Mul
带有滚动视图的 Android 操作栏选项卡在方向更改后复制了视图

我有一个非常简单的代码我将操作栏与选项卡片段一起使用加载后它工作正常但方向改变后它会变得疯狂旧片段也可见为什么 Sorry for Hungarian texts on the image but I hope it doesn
当浏览器以角度关闭时清除本地存储

我创建了一个 Angular 5 应用程序它使用基于令牌的系统当前我将令牌存储在本地存储中我希望本地存储在浏览器关闭时保持清晰并且在浏览器刷新时不清除本地存储我没有使用sessionstorage的原因是因为在新选项卡或窗口中打开
将第一行与数据框中的列标题合并

我正在尝试清理 Excel 文件以进行进一步的研究我遇到的问题是我想合并第一行和第二行我现在拥有的代码 xl pd ExcelFile nanonose xls df xl parse Sheet1 df df drop Unname
浏览器滚动条移位

当您转到我的网站上有额外内容的页面时滚动条出现在右侧但我的内容有明显的向左移动您可以通过单击主页托管并再次返回我的网站 www ipalaces org 来注意到这一点如何解释页面上的浏览器滚动条我可以让滚动条至少始终可见吗我
调试 ASP.NET Core 时看不到值

使用 Visual Studio 2015 调试 ASP NET Core 应用程序时我无法看到变量参数和字段值例如将鼠标悬停在这些值上我也无法将它们添加到手表中我正在调试中运行我们可能已经找到了问题的解决方案或至少是解决方
如何将对象转换为其实际类型？

如果我有 void MyMethod Object obj 我怎样才能投obj它的实际类型是什么如果您知道实际类型那么只需 SomeType typed SomeType obj typed MyFunction 如果您不知道实际类型
使用 tkinter 制作简单动画

我有一个简单的代码来使用 tkinter 可视化一些数据按钮单击绑定到重绘下一个数据帧的函数但是我希望能够选择以一定的频率自动重绘我对 GUI 编程非常陌生我不需要为这段代码做很多事情所以我的大部分 tkinter 知识都来
为什么 Apache Flink 需要 Watermarks 进行事件时间处理？

有人可以正确解释事件时间戳和水印吗我从文档中理解了它但不是那么清楚现实生活中的例子或外行定义会有所帮助另外如果可能的话请给出一个示例以及一些可以解释它的代码片段提前致谢这是一个示例说明了为什么我们需要水印以及它们的工作原理

为什么 Apache Flink 需要 Watermarks 进行事件时间处理？

为什么 Apache Flink 需要 Watermarks 进行事件时间处理？ 的相关文章

随机推荐

热门标签

为什么 Apache Flink 需要 Watermarks 进行事件时间处理？的相关文章