k8s pod 抢占后陷入失败/关闭状态 (gke v1.20)

2024-01-11

TL;DR - gke 1.20 可抢占节点导致 Pod 僵尸化并导致失败/关闭

我们已经使用 GKE 几年了，集群中包含稳定节点池和可抢占节点池。最近，自 gke v1.20 以来，我们开始看到抢占的 Pod 进入奇怪的僵尸状态，它们被描述为：

状态：失败

原因：关机

消息：节点正在关闭，正在驱逐 Pod

当这种情况开始发生时，我们确信这与我们的 Pod 未能在抢占时正确处理 SIGTERM 有关。我们决定通过将服务软件简化为一个大部分处于睡眠状态的简单服务来消除其问题根源：

/* eslint-disable no-console */
let exitNow = false

process.on( 'SIGINT', () => {
  console.log( 'INT shutting down gracefully' )
  exitNow = true
} )

process.on( 'SIGTERM', () => {
  console.log( 'TERM shutting down gracefully' )
  exitNow = true
} )

const sleep = ( seconds ) => {
  return new Promise( ( resolve ) => {
    setTimeout( resolve, seconds * 1000 )
  } )
}

const Main = async ( cycles = 120, delaySec = 5 ) => {
  console.log( `Starting ${cycles}, ${delaySec} second cycles` )

  for ( let i = 1; i <= cycles && !exitNow; i++ ) {
    console.log( `---> ${i} of ${cycles}` )
    await sleep( delaySec ) // eslint-disable-line
  }

  console.log( '*** Cycle Complete - exiting' )
  process.exit( 0 )
}

Main()

此代码使用 tini init 构建到 docker 映像中，以生成在 nodejs 下运行的 pod 进程（fermium-alpine 映像）。无论我们如何调整信号处理，吊舱似乎永远不会真正完全关闭，即使日志表明它们是这样的。

另一个奇怪的地方是，根据 Kubernetes Pod 日志，我们看到 Pod 终止开始，然后被取消：

2021-08-06 17:00:08.000 EDT 停止容器 preempt-pod

2021-08-06 17:02:41.000 EDT 取消删除 Pod preempt-pod

我们还尝试添加 preStop 15 秒延迟，只是为了看看是否有任何效果，但我们尝试的任何操作似乎都不重要 - 豆荚变成了僵尸。新副本在池中可用的其他节点上启动，因此它始终保持系统上成功运行的 Pod 的最小数量。

我们还使用 sim 维护事件来测试抢占周期：

gcloud 计算实例模拟维护事件节点 ID

在浏览了各种帖子后，我最终决定每 9 分钟运行一次 cronjob，以避免 pod 处于关闭状态超过 10 分钟后触发 AlertManager。对我来说，这仍然感觉像是一种 hack，但它确实有效，并且它迫使我深入研究 k8s cronjob 和 RBAC。

这篇文章让我走上了这条道路：如何删除 Kubernetes“关闭”pod https://stackoverflow.com/questions/68344231/how-to-remove-kubernetes-shutdown-pods

以及由此产生的 cronjob 规范：

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: pod-accessor-role
  namespace: default
rules:
- apiGroups: [""] # "" indicates the core API group
  resources: ["pods"]
  verbs: ["get", "delete", "watch", "list"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: pod-access
  namespace: default
subjects:
- kind: ServiceAccount
  name: cronjob-sa
  namespace: default
roleRef:
  kind: Role
  name: pod-accessor-role
  apiGroup: ""
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: cronjob-sa
  namespace: default
---
apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: cron-zombie-killer
  namespace: default
spec:
  schedule: "*/9 * * * *"
  successfulJobsHistoryLimit: 1
  jobTemplate:
    spec:
      template:
        metadata:
          name: cron-zombie-killer
          namespace: default
        spec:
          serviceAccountName: cronjob-sa
          restartPolicy: Never
          containers:
          - name: cron-zombie-killer
            imagePullPolicy: IfNotPresent
            image: bitnami/kubectl
            command:
              - "/bin/sh"
            args:
              - "-c"
              - "kubectl get pods -n default --field-selector='status.phase==Failed' -o name | xargs kubectl delete -n default 2> /dev/null"
status: {}

请注意，将 stderr 重定向到 /dev/null 只是为了避免当 kubectl get 找不到任何处于失败状态的 pod 时 kubectl delete 的错误输出。

Update添加了角色中缺少的“删除”动词，并添加了缺少的 RoleBinding

Update添加了 imagePullPolicy

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

k8s pod 抢占后陷入失败/关闭状态 (gke v1.20) 的相关文章

JavaScript TypeError：无法读取未定义的属性“startsWith” - 不和谐机器人

在开始这个问题时我必须说我对 javascript 知之甚少我在 Java 中练习过只是想制作一个有点简单的 Discord 机器人它会随机说出消息我将各种教程中的 2 段代码组合在一起目前有 var Discord req
setInterval 可以随时间漂移吗？

我有 2 个 Node js 网络服务器我在网络服务器内缓存数据我根据系统时间同步缓存加载清除我已经完成了所有主机的时间同步现在我使用以下代码每 15 分钟清除一次缓存 millisTillNexthour Calculate m
Google Cloud Kubernetes 访问私有 Docker Hub 托管映像

是否可以将私有镜像从 Docker Hub 拉取到 Google Cloud Kubernetes 集群是否建议这样做或者我是否需要将我的私有映像也推送到 Google Cloud 我阅读了文档但没有发现任何内容可以清楚地解释这一点
为什么我从 findAll Sequelize 得到未定义的电子邮件数据结果？

请帮忙如何显示来自 Sequelize findAll 查询的电子邮件因为我从源代码中得到 Undefine 有人可以帮助我吗这是我的代码 testdata get req res gt User findAll then data
Node + Express .post 路由抛出错误。预期回调，获得对象

我目前正在开发一个使用 Express Node 的应用程序我最近添加了一个新的 post路线到app js文件使用以下语法 app post api posts saveComment posts saveComment posts上
Node.js 有水豚吗？

有谁知道 Node js 是否有类似 capybara 的东西怎么样Zombie http zombie labnotes org 僵尸 js 使用 Node js 进行极其快速的无头全栈测试 The Bite 如果你要编写一个速度极快的
具有独立 Node.js 服务器的虚拟主机

目前有没有一种方法可以使用node js服务器进行虚拟托管即在一个IP下托管多个域当然你可以使用bouncy https github com substack bouncy or 节点 http 代理 https github co
如何在 PyV8 中加载 Nodejs 模块？

如何在 PyV8 中加载 Nodejs 模块我读过所有关于 jsdom 在与 Nodejs 一起运行时有多么出色的内容如果我在 Python 应用程序中运行 v8 使用 python 获取 Web 资源然后将生成的 html 字符串提
我应该如何在http post请求的请求负载中传递json数据

我想知道如何在有效负载中传递 json 请求例如 name test value test var post data var post options host this host path path method POST heade
使用端口 80 的 AWS Elastic Beanstalk 上的 WebSocket 问题

我正在将一个 node js 应用程序从 Heroku 迁移到在端口 80 上使用 WebSocket 的 AWS Elastic Beanstalk WebSocket 在 AWS Elastic Beanstalk 上返回 301 错误
有人在node/socket.io 中成功实现了动态命名空间吗？

含义用户对应用程序进行身份验证 gt 应用程序设置socket io连接的命名空间 http www socketioserver com NAMESPACE 并且节点服务器相应地响应无需针对特定名称空间进行硬编码到那个特定的命名空间
socket.io 作为客户端

有什么方法可以将socketio作为客户端运行不是浏览器而是nodejs脚本我需要将数据从服务器广播到一些客户端浏览器和另一台linux机器仅运行nodejs来获取变量没有浏览器欢迎任何想法 Regards github上有
Kubernetes 的调度器是如何工作的？

Kubernetes 的调度器是如何工作的我的意思是说Kubernetes的调度器看起来很简单我最初的想法是这个调度器只是一个简单的准入控制系统而不是真正的调度器是这样正确的吗我找到了一个简短的描述但信息并不丰富 kuberne
如何使用 Karma 测试 NodeJS 后端代码（testaulous）

如何设置 Karma 来运行我的后端单元测试用 Mocha 编写如果我将后端测试脚本添加到files 它未能说明require未定义你不知道 Karma 仅用于测试基于浏览器的代码如果您的项目在后端有 mocha 测试在前端有 k
JITSU 无法安装 OSX [节点 0.8.17 和 NPM 1.2.0] WTF

我在通过 NPM 安装 jitsu 时遇到问题我在 mac osx 10 6 8 上安装了节点 0 8 17 和 NPM 1 2 0 当我跑步时 sudo npm install jitsu g 首先它警告未找到自述文件 npm WARN
使用 Node.js 构建网站的最佳实践

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动我想知道如何使用 Node js 从头开始开发一个网站我明白我怎么能possibly
如何使用 Playwright 使用选择器查找框架 (iframe)

我有一个小问题无法找到使用 Microsoft Playwright 框架的答案根据您可以使用以下代码获取 iframe const frame page frame frame login 但是如何使用选择器来查找 iframe 并与
使用 AWS CDK 为 lambda 指定自定义角色

我意识到它很新但我没有看到任何语言的任何示例说明如何为使用 AWS CDK 创建的 lambda 指定角色我正在尝试这样做 const cdk require aws cdk cdk const lambda require aws
如何在Sequelize中设置查询超时？

我想看看如何在 Sequelize 中设置查询的超时时间我查看了 Sequelize 文档以获取一些信息但我找不到我要找的东西我发现的最接近的是 pools acquire 选项但我不想设置传入连接的超时而是设置正在进行的查询的超
"message": "ENOENT: 没有这样的文件或目录，打开 'E:\\astrology\\utils\\uploads\\1600798534862qf.png'"

正如标题所示我得到error message ENOENT no such file or directory open E astrology utils uploads 1600798534862qf png 在我的项目中即使在通过

随机推荐

Rails 在新控制器中结合 RESTful 方法

我有一个 Rails 应用程序其中users create projects 目前这些是嵌套的并作为单独的操作完成 Auser寄存器然后从project仪表板创建一个新的project 为了提高转化率以及跟踪来自 adwords
PySpark - 将单个整数列表与列表列进行比较

我正在尝试检查 Spark 数据帧带有列表的列中的哪些条目包含给定列表中最大数量的值我想出的最好的方法是迭代数据框rdd foreach 并使用 python 比较给定列表与每个条目set1 intersection set2 我的问
??空合并运算符 --> 合并是什么意思？

我很想撒谎说英语是我的第二语言但事实是我只是不知道合并是什么意思我知道什么在 C 中是 does 但这个名字对我来说没有意义我查了一下这个词我知道它是加入的同义词空连接运算符仍然没有意义有人可以启发我吗我很想撒谎说
如何使用UIAppearance外观WhenContainedIn：

我注意到在 iOS5 中我们可以通过以下方式自定义 UIKit 控件UIAppearance我开始使用它我想用appearanceWhenContainedIn 定制UINavigationBar s tintColor在不同的班级例如
使用 puppeteer 和 MutationObserver 检测 DOM 更改

我想检测某些加载页面上的 DOM 更改例如本地新闻页面上添加的新文章并在检测后执行某些操作发送电子邮件在此示例中我尝试检测子节点是否已从父节点目标 div 节点添加或删除并在检测后在控制台中输出某些内容我需要实现暴露功能
在python中读取大csv文件的行

我有一个非常大的 csv 文件无法完全加载到内存中所以我想一块一块地读取它将其转换为numpy数组然后再做一些处理我已经检查过了在Python中读取大文件的惰性方法 https stackoverflow com questio
如何在谷歌应用程序引擎（Python）中使用numpy

根据官方文档 numpy 作为谷歌应用程序引擎中的库支持here https developers google com appengine docs python tools libraries27 经过几次尝试后我无法导入它有人可以分
如何使用 Matplotlib 在对数刻度上显示次要刻度标签

有谁知道如何使用 Python Matplotlib 以对数刻度显示次要刻度的标签您可以使用plt tick params axis y which minor 设置小刻度并使用matplotlib ticker FormatStrFor
JSON 服务在失败/错误时应返回什么

我正在用 C ashx 文件编写 JSON 服务成功请求服务后我会返回一些 JSON 数据如果请求失败要么是因为抛出了异常例如数据库超时要么是因为请求在某种程度上是错误的例如作为参数给出了数据库中不存在的 ID 服务应该如何
将 Swagger Java 对象转换为 JSON/YAML

我需要阅读修改并重新生成 JSON YAML swagger 文件文档我已经使用 Swagger Parser 反序列化了一个 JSON 文件并且有一个 Swagger Java 对象其中原始 JSON 数据已正确映射现在我需要
Dynamics CRM 视图中的串联/计算列

我是 MS Dynamics 的新手我想知道是否有一种方法可以将列添加到视图中该视图是其他一些列的串联例如 Firstname Lastname As Fullname 似乎没有一个明显的优雅的解决方案我看到的所有建议都建议使用
如何替换默认的 SortArgumentResolver

我需要添加private static final Sort sortById new Sort Sort Direction DESC ID 每一个Pageable 我想最好的方法是创建装饰器适配器SortArgumentResolv
sqrt(float) 有标准返回类型吗？

我注意到 appleclang v14 0 0 在将浮点输入传递给时似乎返回单精度浮点cmath s sqrt 当切换到 gcc clang 时我很惊讶地得到了不同的结果这是我的最小可重现示例 include
Hibernate 与连接表的一对多关系，并在连接表中添加列

我正在寻找一种在两个表之间建立 OneToMany 关系并在连接表中具有额外属性的方法但我找不到太多有用的示例抱歉如果这听起来很蹩脚但有人能给我建议一个好方法吗如果连接表中有其他列则它不再是连接表并且您需要一种方法来获取和设置
将对象数组及其属性转换为数组

我尝试了几种地图功能但找不到合适的方法来获得我想要的东西案例如下 Object Results Array 3 Results Array 3 0 2 0 Object id null name Rick upper 0 67 1 Ob
为什么关闭窗口时没有触发componentWillUnmount？

有人会认为componentWillUnmount https reactjs org docs react component html componentwillunmountin React 会在关闭应用程序时触发根据文档 comp
Firebase、Swift：返回类型上的可空性说明符冲突，“nullable”与现有说明符“nonnull”冲突

警告已进入火力地堡 3 6 0 Xcode 8 斯威夫特 3 这些是 Firebase 类 class FIROptions class FIRAuthCredential class FIRUserProfileChangeRequest
取消鼠标投影以获得 3D 世界坐标 Libgdx

我的问题如何让 3D 模型随着鼠标光标移动并将模型的 y 位置保持在 0 使用 Libgdx 我尝试过的我正在尝试让 3D 模型跟随我的光标目前我只是让模型随着鼠标的 x 和 y 坐标移动并添加乘数和相机位置等因素这不是很好
HTML5 电话号码验证与模式

我正在使用 HTML5 表单验证来验证来自印度的电话号码印度的电话号码长度为 10 位以 7 8 或 9 开头例如 7878787878 9898989898 8678678878 这些电话号码有效但是 1212121212 343
k8s pod 抢占后陷入失败/关闭状态 (gke v1.20)

TL DR gke 1 20 可抢占节点导致 Pod 僵尸化并导致失败关闭我们已经使用 GKE 几年了集群中包含稳定节点池和可抢占节点池最近自 gke v1 20 以来我们开始看到抢占的 Pod 进入奇怪的僵尸状态它们被描述为

k8s pod 抢占后陷入失败/关闭状态 (gke v1.20)

k8s pod 抢占后陷入失败/关闭状态 (gke v1.20) 的相关文章

随机推荐

热门标签