apacheflink

Flink 作业在集群节点上的分布

我们有 4 个作业运行在 3 个节点上每个节点有 4 个槽位在 Flink 1 3 2 上作业均匀分布在每个节点上升级到 flink 1 5 后每个作业都在单个节点上运行如果没有剩余插槽则可以转移到另一个节点有没有办法恢复

apacheflink flinkstreaming

从代码中取消 Apache Flink 作业

我现在的情况是想从代码中停止取消 flink 作业这是在我的集成测试中我正在向我的 flink 作业提交任务并检查结果当作业异步运行时即使测试失败通过它也不会停止我想在考试结束后在车站工作我尝试了一些事情我在下面列出获

akka apacheflink

我的 Pyflink 设置有什么问题导致 Python UDF 抛出 py4j 异常？

我正在使用文档中的 flink python datastream 教程 https ci apache org projects flink flink docs master docs dev python datastream tut

apacheflink pyflink

我可以在 RichAsyncFunction 中编写同步代码吗

当我需要使用 I O 查询 DB 调用第三个 API 时我可以使用 RichAsyncFunction 但我需要通过 GG Sheet API 与 Google Sheet 进行交互 https developers google com

apacheflink flinkstreaming

Apache Flink（如何唯一标记作业）

是否可以使用唯一的名称来标记作业以便我可以在以后停止它们我真的不想 grep 并保留作业 ID 简而言之我想在部署过程中停止一项作业并部署新作业您可以在启动作业时为其命名execute name String 打电话例如 val

apacheflink flinkstreaming

Flink - 多源集成测试

我有一份 Flink 工作正在使用此处描述的方法进行集成测试 https ci apache org projects flink flink docs stable dev stream testing html integration

Java apacheflink flinkstreaming

Flink：是否有另一种方法来计算平均值和状态变量而不是使用 RichAggregateFunction？

我不确定必须使用哪个流 Flink 转换来计算某个流的平均值并在 5 秒的窗口内更新状态假设它是我的状态的整数数组如果我使用RichFlatMapFunction我可以计算平均值并更新我的数组状态但是我必须打电话 streamSou

Java apacheflink

如何使用 Flink SQL 按事件时间对流进行排序

我有一个故障DataStream

apacheflink flinkstreaming flinksql

任务管理器丢失/被杀死[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案当我尝试在独立集群中运行 flink 作业时出现以下错误 java lang Exception TaskManager was lost

apacheflink flinkstreaming

kafka flink timestamp 事件时间和水印

我正在阅读使用 Apache Flink 进行流处理一书其中指出从版本 0 10 0 开始 Kafka 支持消息时间戳当从 Kafka 0 10 或更高版本读取时如果应用程序在事件时间模式下运行消费者将自动提取消息时间戳作为事

apacheflink flinkstreaming

Flink 中是否可以实现具有多个工作线程的全局状态？

在 Flink 文档中我到处都看到状态对于映射函数和工作线程来说是独立的这在独立方法中似乎很强大但是如果 Flink 在集群中运行怎么办 Flink 能否处理所有工作人员都可以添加数据并查询数据的全局状态来自 Flink 关于状态的

apacheflink

是否可以在 apache flink CEP 中处理多个流？

我的问题是如果我们有两个原始事件流即Smoke and 温度我们想知道是否有复杂的事件即Fire通过将运算符应用于原始流已经发生了我们可以在 Flink 中做到这一点吗我问这个问题是因为到目前为止我所看到的 Flink CEP 的

apacheflink flinkcep

Apache Flink：当我修改存储的对象时，MapState 是否会自动更新？

是否有必要使用MapState put 手动更新状态还是当我修改对象时状态是否自动更新 private transient MapState

apacheflink flinkstreaming

Apache Flink 如何处理倾斜数据？

例如我有一大堆单词想统计每个单词的数量问题是这些话是歪曲的这意味着某些单词的频率会很高但大多数其他单词的频率很低在storm中我们可以使用下面的方式来解决这个问题首先对流进行随机分组在每个节点中对窗口时间内本地的单词进行计

apacheflink

使用 flink runner 在梁上进行 Tensorflow 变换

这可能看起来很愚蠢但这是我在这里发表的第一篇文章抱歉做错了什么我目前正在使用 python2 7 使用 TFX 0 11 即 tfdv tft tfserving 和tensorflow 1 11 构建一个简单的 ML 管道我目前有

machinelearning apacheflink ApacheBeam tensorflowtransform

Flink CsvTableSource 流式传输

我想使用 flink 流式传输 csv 文件并执行 sql 操作但我编写的代码只读取一次并停止它不流式传输提前致谢 StreamExecutionEnvironment env StreamExecutionEnvironment g

apacheflink flinkstreaming

如何统计Apache Flink在给定时间窗口内处理的记录数

在flink中定义一个时间窗口后如下 val lines socket timeWindowAll Time seconds 5 如何计算该特定 5 秒窗口内的记录数执行计数聚合的最有效方法是ReduceFunction 然而 reduc

apacheflink flinkstreaming

如何为 Kubernetes 中的 Flink 应用程序自定义资源提供 Vault 密钥

我想为 Kubernetes 集群中运行的 Apache Flink 作业提供来自 Hashicorp Vault 的机密这些积分将用于访问状态后端以进行检查点和保存点例如状态后端可以是 Minio S3 存储有人可以提供一个工作示

Kubernetes apacheflink vault

管理具有大量内存使用的状态 - 从存储中查询

如果这听起来很愚蠢请道歉我们正在使用 flink 进行异步 IO 调用很多时候 IO 调用会重复相同的参数集并且我们调用的大约 80 的 API 对相同的参数返回相同的响应因此我们希望避免再次拨打电话我们认为我们可以使用状态

apacheflink flinkstreaming

在实践中（而非理论上），小批量与实时流有什么区别？

在实践中而非理论上小批量与实时流有什么区别从理论上讲我理解迷你批次是在给定时间范围内进行批处理的东西而实时流更像是在数据到达时执行某些操作但我最大的问题是为什么不使用带有 epsilon 时间范围例如一毫秒的迷你批次或者我想