Kubernetes 上的 Apache flink - 如果 jobmanager 崩溃则恢复作业

2023-11-27

我想在 kubernetes 上运行 flink 作业，使用（持久）状态后端，似乎崩溃的任务管理器不是问题，因为如果我理解正确的话，它们可以询问作业管理器需要从哪个检查点恢复。

崩溃的 jobmanager 似乎有点困难。对此翻页 6 页我读到动物园管理员需要能够知道作业经理需要使用哪个检查点来恢复和领导者选举。

看到 kubernetes 每当崩溃时都会重新启动 jobmanager，有没有办法让新的 jobmanager 无需设置 Zookeeper 集群即可恢复作业？

目前我们正在考虑的解决方案是：当 kubernetes 想要终止 jobmanager 时（例如，因为它想要将其移动到另一个虚拟机），然后创建一个保存点，但这仅适用于正常关闭。

Edit: http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-HA-with-Kubernetes-without-Zookeeper-td15033.html看起来很有趣但是没有后续

Flink 开箱即用，需要 ZooKeeper 集群才能从 JobManager 崩溃中恢复。然而，我认为你可以有一个轻量级的实现HighAvailabilityServices, CompletedCheckpointStore, CheckpointIDCounter and SubmittedJobGraphStore这可以让你走得很远。

假设你始终只有一个 JobManager 运行（不完全确定 K8s 是否能保证这一点）并且你有一个持久存储位置，你可以实现一个CompletedCheckpointStore它从持久存储系统检索已完成的检查点（例如读取所有存储的检查点文件）。此外，您将有一个文件，其中包含当前检查点 id 计数器CheckpointIDCounter以及所有提交的作业图表SubmittedJobGraphStore。因此基本思想是将所有内容存储在可由单个 JobManager 访问的持久卷上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Kubernetes 上的 Apache flink - 如果 jobmanager 崩溃则恢复作业的相关文章

K8s更改配置映射并更新应用程序日志级别

我想更改在 K8S 上运行的 Golang 应用程序的登录配置我在本地尝试了以下代码它按预期工作我正在使用 viper 来监视配置文件更改这是带有日志配置的配置图 apiVersion v1 kind ConfigMap data
Kubernetes Pod 中的日志未显示

我在 pod 中设置了 Kubernetes 并运行 grpc 服务我成功命中服务上的端点其中有 print 语句但我在日志文件中没有看到任何日志我之前在 Kubernetes 中运行 cron 作业时见过这种情况并且日志仅在作业
容器上的“container_memory_working_set_bytes”指标和 OOM-killer 之间有什么关系？

我试图找出并理解 OOM killer 如何在容器上工作为了弄清楚这一点我读了很多文章发现 OOM killer 会根据oom score And oom score是由oom score adj以及该进程的内存使用情况有两个指标c
如何使用网络策略停止所有外部流量并仅允许命名空间内的 Pod 间网络调用？

我正在 kubernetes 集群中设置一个命名空间以拒绝任何传出网络调用例如http company com http company com但允许在我的命名空间内进行 Pod 间通信例如http my nginx http my
oauth2-proxy 身份验证调用在 kubernetes 集群上运行缓慢，并带有 nginx 入口的身份验证注释

我们使用以下描述的方法在 K8S 集群上保护了一些服务的安全这一页 https kubernetes github io ingress nginx examples auth oauth external auth 具体来说我们有 ng
在扩大或缩小 StatefulSet 之前停止 StatefulSet 中的所有 Pod

我的团队目前正在致力于将 Discord 聊天机器人迁移到 Kubernetes 我们计划使用一个有状态集对于主要的机器人服务因为每个Shard https discord com developers docs topics gatew
Docker For Windows CE：Kubernetes：无法连接到服务器 eof

我根本找不到无法连接到服务器 eof 的解决方案希望我们能解决这个问题并在将来搜索解决此问题时对某人有所帮助我试图在屏幕截图中包含所有信息如果需要更多信息请告诉我我已尝试添加所需的信息如果您还需要或希望我尝试其他内容请告诉
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
Kubernetes 集群中的 Websocket 连接与 nginx-ingress

我正在尝试在 Kubernetes 集群中运行的服务器上建立一个简单的 Websocket 连接 Websocket 连接能够在我的本地测试计算机上建立但在使用 nginx ingress 部署到 GKE 后我无法将客户端连接到服务器
为什么不推荐多区域 Kubernetes 部署？

Kubernetes 文档说支持多区域集群但不支持多区域集群同时 Kubernetes 都支持failure domain zone and failure domain region 让我的 Kubernetes 集群同时成为多专区和
Flink 在 Kubernetes 上的部署和 Native Kubernetes 有什么不同

黑白的主要区别是什么原生 Kubernetes https ci apache org projects flink flink docs stable ops deployment native kubernetes html and 库
列出命名空间中的所有资源

我想查看命名空间中的所有资源 Doing kubectl get all尽管有名称但不会列出服务和入口等内容如果我知道类型我可以明确要求该特定类型但似乎也没有用于列出所有可能类型的命令尤其kubectl get例如不列出自定义类
Azure Kubernetes 服务 (AKS) 使用应用程序网关入口控制器 (AGIC)：如何在 ASP.Net Core 6.0 中实现 HSTS 标头？

一个行动项目来自安全扫描是为了实施HSTSASP Net Core 6 0 WebAPI 中的标头使用应用程序网关入口控制器在 AKS 上部署 WebAPI 应用程序 SSL 终止发生在应用程序网关处应用程序网关入口控制器和 POD 使
如何在 GKE 上为 Kubernetes Ingress 强制使用 SSL

有没有办法强制对入口负载均衡器上的传入连接进行 SSL 升级或者如果这是不可能的我可以禁用端口 80吗我还没有找到一个好的文档页面来概述 YAML 文件中的此类选项预先非常感谢 https github com kubernete
Google Cloud Kubernetes 访问私有 Docker Hub 托管映像

是否可以将私有镜像从 Docker Hub 拉取到 Google Cloud Kubernetes 集群是否建议这样做或者我是否需要将我的私有映像也推送到 Google Cloud 我阅读了文档但没有发现任何内容可以清楚地解释这一点
如何从 Pod 中的容器内部获知 Pod 自己的 IP 地址？

Kubernetes为每个容器分配一个IP地址那么如何从Pod中的容器获取IP地址呢我无法从文档中找到方法编辑我将在 Kubernetes 中运行 Aerospike 集群并且配置文件需要有自己的IP地址我正在尝试使用 conf
如何使用 kubeadm 升级来更改 kubeadm-config 中的某些功能

我想在现有的 kubernetes 集群 v1 10 上安装 kube prometheus 在此之前文档说我需要将控制器调度器的IP地址从127 0 0 1 to 0 0 0 0 并且还推荐使用kubeadm 配置升级 https k
将conf文件嵌入到helm图表中

我是新掌舵者我正在构建一个包含大量conf文件的splunk helm图表我目前在 configmap 中使用类似的东西 apiVersion v1 kind ConfigMap metadata name splunk master
Ingress 未在 GKE 和 GCE 上获取地址

创建入口时不会生成地址并且从 GKE 仪表板查看时它始终位于Creating ingress地位描述入口没有显示任何事件我在 GKE 仪表板上看不到任何线索有没有人有类似的问题或关于如何调试的任何建议我的部署 yaml api
如何在不手动修改文件的情况下编辑部署？

我已经为我的应用程序定义了一个部署 apiVersion extensions v1beta1 kind Deployment metadata name myapp deployment spec replicas 2 template

随机推荐

Spring-boot tomcat 只能提供少于 10,000 个连接？

我正在使用 spring boot 测试服务器然而我在测试过程中遇到了一些问题我的测试是随着 Web 套接字会话客户端数量的增加服务器使用多少内存 1 000 个客户端少于 9000 个会话进行测试没有问题但是当我尝试
如何使用spring的MockMultipartHttpServletRequest？得到“未找到多部分边界”

显然我没有正确使用这个测试装置我的 servlet 在 tomcat 中工作得很好但是当我尝试使用这个模拟时找不到多部分边界请求被拒绝因为未找到多部分边界有一个答案here显示了如何使用文本文件来使用它但该答案显式设置了边界字
从 python 中的文件中读取逗号分隔的元组

我正在尝试从一个文件中读取多个用逗号分隔的元组示例输入文件如下所示 0 0 0 2 0 4 1 1 0 2 1 1 1 3 1 1 1 3 1 1 1 3 1 5 2 0 2 2 3 3 2 4 3 5 4 4 5 3 6 4 5 5 7
使用 ORMLite 和输出参数的 ServiceStack MARS（多个活动结果集）

ServiceStack ORMLite 很棒我通常会避开 ORM 心态更喜欢构建数据库因为构建数据库而不是 1 1 类模型更有意义也就是说有几件事我似乎遇到了困难我确信这只是我的无知 First 有没有办法使用 ORMLite
使用 itms-services URL 的 iOS8 应用程序无线 (OTA) 安装失败

对于所有早期版本的 iOS 我都使用 itms services URL 无线安装测试 iOS 应用程序 OTA 现在我的所有 iOS8 设备在尝试使用这种方法安装应用程序时都会失败示例网址 itms services action d
有没有像 Django 的 XAMPP 这样的多合一软件包？

与 XAMPP 一样您只需安装它并开始开发因为 PHP MySQL Apache 等都在那里 Django 有类似的东西吗附我的意思只是为了在本地计算机上进行开发而不是为了部署我见过的最接近的是Bitnami 的 DjangoSt
VB.Net调用New而不赋值

In C 我可以做这个 new SomeObjectType abc 10 换句话说我可以调用 new 而无需将创建的实例分配给任何变量然而在VB Net看来我不能做同样的事情 New SomeObjectType abc 10 sy
如何将车把中的字符串解析为html [重复]

这个问题在这里已经有答案了我正在尝试将车把中的字符串解析为 html 例子在 js file let url http google com let textref a href url Click here a in hbs file
如何从 R 中的命名数值向量中检索简单的数值？

我正在使用 R 来计算一些基本的统计结果我正在使用 quantile 函数来计算数据框列上的分位数如下所示 gt quantile foobars 1 0 25 50 75 100 189000 194975 219500 239950
如何防止页面在表单提交后重新加载 - JQuery

我正在为我的应用程序开发课程开发一个网站但我遇到了最奇怪的问题我正在使用一些 JQuery 将表单数据发送到名为 process php 的 php 页面然后将其上传到我的数据库奇怪的错误是页面在提交表单后重新加载而我或我的一生
在 ggplot2 中向等值线图添加点

我正在查看 Hadley Wickham 的以下示例ggplot2 library ggplot2 library maps states lt map data state arrests lt USArrests names arres
给定一个任意的 javascript 对象，我如何找到它的方法？

我知道这在 python 中是可能的但是我可以获得 javascript 对象的方法列表吗您可以循环对象中的属性并测试它们的类型 for var prop in whatever if typeof whatever prop func
在文件夹迭代上实施 RAII

我编写此代码是为了递归地循环遍历文件夹树并列出文件及其大小以字节为单位由于我使用的是 winapi 并且有一个Handle应该打开和关闭我应该在此代码上实现 RAII 问题是在线论坛中给出的示例更不用说我不是以英语为母语的人并且包
数据库表的位置 - MySQL - Windows XP

All 这是我第一次使用 MySQL 因此列出了所有步骤这实际上是 MySQL 的重新安装因为我的第一次尝试失败了我已在我的计算机上安装了最新版本的 MySQL Community Server 安装文件夹是C Program Fil
如何在Java程序中使用Sqoop？

我知道如何通过命令行使用 sqoop 但不知道如何使用java程序调用sqoop命令谁能提供一些代码视图吗您可以通过在类路径中包含 sqoop jar 并调用Sqoop runTool 方法您必须以编程方式创建 sqoop 所需的参数
tan 45 给我 0.9999

为什么tan 45 0 7853981633974483 弧度给我0 9999 下面的代码有什么问题 System out println Math tan Math toRadians 45 0 我不认为这里有任何错字那么这里的解决方
PHP MySQL连接持久化

我读过很多关于 PHP 和 MySQL 之间的持久数据库连接 mysql connect 与 mysql pconnect 的内容与 PDO 和 MySQLi 相同这绝对是我对这一点缺乏了解但是数据库连接如何在网页之间保持持久呢在此
如何使用 AngularJS 对多个对象应用过滤器？

我的用户对象定义如下 scope users id 1 name Adam friends name John age 21 sex M name Brad age 32 sex M 然后我有以下代码 div div user name f
从缓冲区读取时省略换行符

我编写了以下代码 public class WriteToCharBuffer public static void main String args String text This is the data to write in buf
Kubernetes 上的 Apache flink - 如果 jobmanager 崩溃则恢复作业

我想在 kubernetes 上运行 flink 作业使用持久状态后端似乎崩溃的任务管理器不是问题因为如果我理解正确的话它们可以询问作业管理器需要从哪个检查点恢复崩溃的 jobmanager 似乎有点困难对此翻页 6 页我读

Kubernetes 上的 Apache flink - 如果 jobmanager 崩溃则恢复作业

Kubernetes 上的 Apache flink - 如果 jobmanager 崩溃则恢复作业 的相关文章

随机推荐

热门标签

Kubernetes 上的 Apache flink - 如果 jobmanager 崩溃则恢复作业的相关文章