streamprocessing

Flink - 无法从检查点恢复

我使用一个作业管理器和两个任务管理器在 kubernetes 上运行集群我通过在作业运行时杀死一个任务管理器 Pod 来测试检查点机制我在作业管理器和重新启动的任务管理器上遇到以下异常工作经理例外 java lang Exceptio

apacheflink rocksdb streamprocessing

我无法理解 kafka 流中的 groupBy groupById 和窗口的概念我的目标是聚合一段时间内例如 5 秒的流数据我的流数据看起来像 value 0 time 1533875665509 value 10 time 153

Java ApacheKafka apachekafkastreams streamprocessing

在一个大型 json 文件中我想从嵌套列表中删除一些元素但保留文档的整体结构我的示例将其输入为但真实的输入足够大以要求流式传输 keep untouched keep this this list filter this keep

json Bigdata jq streamprocessing

在实践中而非理论上小批量与实时流有什么区别从理论上讲我理解迷你批次是在给定时间范围内进行批处理的东西而实时流更像是在数据到达时执行某些操作但我最大的问题是为什么不使用带有 epsilon 时间范围例如一毫秒的迷你批次或者我想

如果 Kappa 架构直接对流进行分析而不是将数据分成两个流那么在像 Kafka 这样的消息系统中数据存储在哪里或者可以在数据库中进行重新计算吗单独的批处理层是否比使用流处理引擎重新计算进行批处理分析更快需要考虑的一个非常简单的

有人可以正确解释事件时间戳和水印吗我从文档中理解了它但不是那么清楚现实生活中的例子或外行定义会有所帮助另外如果可能的话请给出一个示例以及一些可以解释它的代码片段提前致谢这是一个示例说明了为什么我们需要水印以及它们的工作原理

apacheflink streamprocessing