Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Flink 作业在集群节点上的分布
我们有 4 个作业 运行在 3 个节点上 每个节点有 4 个槽位 在 Flink 1 3 2 上 作业均匀分布在每个节点上 升级到 flink 1 5 后 每个作业都在单个节点上运行 如果没有剩余插槽 则可以转移到另一个节点 有没有办法恢复
apacheflink
flinkstreaming
从代码中取消 Apache Flink 作业
我现在的情况是想从代码中停止 取消 flink 作业 这是在我的集成测试中 我正在向我的 flink 作业提交任务并检查结果 当作业异步运行时 即使测试失败 通过 它也不会停止 我想在考试结束后在车站工作 我尝试了一些事情 我在下面列出 获
akka
apacheflink
我的 Pyflink 设置有什么问题导致 Python UDF 抛出 py4j 异常?
我正在使用文档中的 flink python datastream 教程 https ci apache org projects flink flink docs master docs dev python datastream tut
apacheflink
pyflink
我可以在 RichAsyncFunction 中编写同步代码吗
当我需要使用 I O 查询 DB 调用第三个 API 时 我可以使用 RichAsyncFunction 但我需要通过 GG Sheet API 与 Google Sheet 进行交互 https developers google com
apacheflink
flinkstreaming
Apache Flink(如何唯一标记作业)
是否可以使用唯一的名称来标记作业 以便我可以在以后停止它们 我真的不想 grep 并保留作业 ID 简而言之 我想在部署过程中停止一项作业并部署新作业 您可以在启动作业时为其命名execute name String 打电话 例如 val
apacheflink
flinkstreaming
Flink - 多源集成测试
我有一份 Flink 工作 正在使用此处描述的方法进行集成测试 https ci apache org projects flink flink docs stable dev stream testing html integration
Java
apacheflink
flinkstreaming
Flink:是否有另一种方法来计算平均值和状态变量而不是使用 RichAggregateFunction?
我不确定必须使用哪个流 Flink 转换来计算某个流的平均值并在 5 秒的窗口内更新状态 假设它是我的状态的整数数组 如果我使用RichFlatMapFunction我可以计算平均值并更新我的数组状态 但是 我必须打电话 streamSou
Java
apacheflink
如何使用 Flink SQL 按事件时间对流进行排序
我有一个故障DataStream
apacheflink
flinkstreaming
flinksql
任务管理器丢失/被杀死[关闭]
Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 当我尝试在独立集群中运行 flink 作业时 出现以下错误 java lang Exception TaskManager was lost
apacheflink
flinkstreaming
kafka flink timestamp 事件时间和水印
我正在阅读 使用 Apache Flink 进行流处理 一书 其中指出 从版本 0 10 0 开始 Kafka 支持消息时间戳 当从 Kafka 0 10 或更高版本读取时 如果应用程序在事件时间模式下运行 消费者将自动提取消息时间戳作为事
apacheflink
flinkstreaming
Flink 中是否可以实现具有多个工作线程的全局状态?
在 Flink 文档中 我到处都看到状态对于映射函数和工作线程来说是独立的 这在独立方法中似乎很强大 但是如果 Flink 在集群中运行怎么办 Flink 能否处理所有工作人员都可以添加数据并查询数据的全局状态 来自 Flink 关于状态的
apacheflink
是否可以在 apache flink CEP 中处理多个流?
我的问题是 如果我们有两个原始事件流 即Smoke and 温度我们想知道是否有复杂的事件 即Fire通过将运算符应用于原始流已经发生了 我们可以在 Flink 中做到这一点吗 我问这个问题是因为到目前为止我所看到的 Flink CEP 的
apacheflink
flinkcep
Apache Flink:当我修改存储的对象时,MapState 是否会自动更新?
是否有必要使用MapState put 手动更新状态还是当我修改对象时状态是否自动更新 private transient MapState
apacheflink
flinkstreaming
Apache Flink 如何处理倾斜数据?
例如 我有一大堆单词 想统计每个单词的数量 问题是这些话是歪曲的 这意味着某些单词的频率会很高 但大多数其他单词的频率很低 在storm中 我们可以使用下面的方式来解决这个问题 首先对流进行随机分组 在每个节点中对窗口时间内本地的单词进行计
apacheflink
使用 flink runner 在梁上进行 Tensorflow 变换
这可能看起来很愚蠢 但这是我在这里发表的第一篇文章 抱歉做错了什么 我目前正在使用 python2 7 使用 TFX 0 11 即 tfdv tft tfserving 和tensorflow 1 11 构建一个简单的 ML 管道 我目前有
machinelearning
apacheflink
ApacheBeam
tensorflowtransform
Flink CsvTableSource 流式传输
我想使用 flink 流式传输 csv 文件并执行 sql 操作 但我编写的代码只读取一次并停止 它不流式传输 提前致谢 StreamExecutionEnvironment env StreamExecutionEnvironment g
apacheflink
flinkstreaming
如何统计Apache Flink在给定时间窗口内处理的记录数
在flink中定义一个时间窗口后如下 val lines socket timeWindowAll Time seconds 5 如何计算该特定 5 秒窗口内的记录数 执行计数聚合的最有效方法是ReduceFunction 然而 reduc
apacheflink
flinkstreaming
如何为 Kubernetes 中的 Flink 应用程序自定义资源提供 Vault 密钥
我想为 Kubernetes 集群中运行的 Apache Flink 作业提供来自 Hashicorp Vault 的机密 这些积分将用于访问状态后端以进行检查点和保存点 例如 状态后端可以是 Minio S3 存储 有人可以提供一个工作示
Kubernetes
apacheflink
vault
管理具有大量内存使用的状态 - 从存储中查询
如果这听起来很愚蠢 请道歉 我们正在使用 flink 进行异步 IO 调用 很多时候 IO 调用会重复 相同的参数集 并且我们调用的大约 80 的 API 对相同的参数返回相同的响应 因此 我们希望避免再次拨打电话 我们认为我们可以使用状态
apacheflink
flinkstreaming
在实践中(而非理论上),小批量与实时流有什么区别?
在实践中 而非理论上 小批量与实时流有什么区别 从理论上讲 我理解迷你批次是在给定时间范围内进行批处理的东西 而实时流更像是在数据到达时执行某些操作 但我最大的问题是为什么不使用带有 epsilon 时间范围 例如一毫秒 的迷你批次或者我想
«
1 ...
3
4
5
6
7
8
9
»