深入剖析Kubernetes之容器网络(一)

2023-11-11

文章目录

单机容器网络

一个 Network Namespace 的网络栈包括：网卡（Network Interface）、回环设备（Loopback Device）、路由表（Routing Table）和 iptables 规则。对于一个进程来说，这些要素，其实就构成了它发起和响应网络请求的基本环境。
在大多数情况下，我们都希望容器进程能使用自己 Network Namespace 里的网络栈，即：拥有属于自己的 IP 地址和端口。

被隔离的容器进程，该如何跟其他 Network Namespace 里的容器进程进行交互呢？

为了实现上述目的，Docker 项目会默认在宿主机上创建一个名叫 docker0 的网桥，凡是连接在 docker0 网桥上的容器，就可以通过它来进行通信。
需要使用一种名叫Veth Pair的虚拟设备把这些容器“连接”到 docker0 网桥上。Veth Pair 设备的特点是：它被创建出来后，总是以两张虚拟网卡（Veth Peer）的形式成对出现的。并且，从其中一个“网卡”发出的数据包，可以直接出现在与它对应的另一张“网卡”上，哪怕这两个“网卡”在不同的 Network Namespace 里。这就使得 Veth Pair 常常被用作连接不同 Network Namespace 的“网线”。
流程示意图，如下所示：
在默认情况下，被限制在 Network Namespace 里的容器进程，实际上是通过 Veth Pair 设备 + 宿主机网桥的方式，实现了跟同其他容器的数据交换。

当在一台宿主机上，访问该宿主机上的容器的 IP 地址时，这个请求的数据包，也是先根据路由规则到达 docker0 网桥，然后被转发到对应的 Veth Pair 设备，最后出现在容器里。这个过程的示意图，如下所示：
当一个容器试图连接到另外一个宿主机时，比如：ping 10.168.0.3，它发出的请求数据包，首先经过 docker0 网桥出现在宿主机上。然后根据宿主机的路由表里的直连路由规则（10.168.0.0/24 via eth0)），对 10.168.0.3 的访问请求就会交给宿主机的 eth0 处理。接下来，这个数据包就会经宿主机的 eth0 网卡转发到宿主机网络上，最终到达 10.168.0.3 对应的宿主机上。当然，这个过程的实现要求这两台宿主机本身是连通的。这个过程的示意图，如下所示：

当你遇到容器连不通“外网”的时候，应该先试试 docker0 网桥能不能 ping 通，然后查看一下跟 docker0 和 Veth Pair 设备相关的 iptables 规则是不是有异常，往往就能够找到问题的答案了。

容器跨主机网络

在 Docker 的默认配置下，不同宿主机上的容器通过 IP 地址进行互相访问是根本做不到的。正是为了解决这个容器“跨主通信”的问题，才出现了那么多的容器网络方案。
这些网络方案的工作原理到底是什么？要理解容器“跨主通信”的原理，就一定要先从 Flannel 这个项目说起。
- Flannel 项目是 CoreOS 公司主推的容器网络方案。事实上，Flannel 项目本身只是一个框架，真正为我们提供容器网络功能的，是 Flannel 的后端实现。目前，Flannel 支持三种后端实现，分别是：
  - VXLAN；
  - host-gw；
  - UDP
- 这三种不同的后端实现，正代表了三种容器跨主网络的主流实现方法。
例子中，有两台宿主机。
- 宿主机 Node 1 上有一个容器 container-1，它的 IP 地址是 100.96.1.2，对应的 docker0 网桥的地址是：100.96.1.1/24。
- 宿主机 Node 2 上有一个容器 container-2，它的 IP 地址是 100.96.2.3，对应的 docker0 网桥的地址是：100.96.2.1/24。
现在的任务，就是让 container-1 访问 container-2。

Flannel UDP 模式的跨主通信的基本原理
在这里插入图片描述

Flannel UDP 模式提供的其实是一个三层的 Overlay 网络，即：它首先对发出端的 IP 包进行 UDP 封装，然后在接收端进行解封装拿到原始的 IP 包，进而把这个 IP 包转发给目标容器。这就好比，Flannel 在不同宿主机上的两个容器之间打通了一条“隧道”，使得这两个容器可以直接使用 IP 地址进行通信，而无需关心容器和宿主机的分布情况。
相比于两台宿主机之间的直接通信，基于 Flannel UDP 模式的容器通信多了一个额外的步骤，即 flanneld 的处理过程。而这个过程，由于使用到了 flannel0 这个 TUN 设备，仅在发出 IP 包的过程中，就需要经过三次用户态与内核态之间的数据拷贝，如下所示：
第一次：用户态的容器进程发出的 IP 包经过 docker0 网桥进入内核态；
第二次：IP 包根据路由表进入 TUN（flannel0）设备，从而回到用户态的 flanneld 进程；
第三次：flanneld 进行 UDP 封包之后重新进入内核态，将 UDP 包通过宿主机的 eth0 发出去。
Flannel 进行 UDP 封装（Encapsulation）和解封装（Decapsulation）的过程，也都是在用户态完成的。在 Linux 操作系统中，上述这些上下文切换和用户态操作的代价其实是比较高的，这也正是造成 Flannel UDP 模式性能不好的主要原因。

在进行系统级编程的时候，有一个非常重要的优化原则，就是要减少用户态到内核态的切换次数，并且把核心的处理逻辑都放在内核态进行。

Flannel VXLAN 模式的跨主通信的基本原理

VXLAN，即 Virtual Extensible LAN（虚拟可扩展局域网），是 Linux 内核本身就支持的一种网络虚似化技术。所以说，VXLAN 可以完全在内核态实现上述封装和解封装的工作，从而通过与前面相似的“隧道”机制，构建出覆盖网络（Overlay Network）。

VXLAN 的覆盖网络的设计思想是：在现有的三层网络之上，“覆盖”一层虚拟的、由内核 VXLAN 模块负责维护的二层网络，使得连接在这个 VXLAN 二层网络上的“主机”（虚拟机或者容器都可以）之间，可以像在同一个局域网（LAN）里那样自由通信。当然，实际上，这些“主机”可能分布在不同的宿主机上，甚至是分布在不同的物理机房里。
为了能够在二层网络上打通“隧道”，VXLAN 会在宿主机上设置一个特殊的网络设备作为“隧道”的两端。这个设备就叫作 VTEP，即：VXLAN Tunnel End Point（虚拟隧道端点）。
VTEP 设备的作用，其实跟 flanneld 进程非常相似。只不过，它进行封装和解封装的对象，是二层数据帧（Ethernet frame）；而且这个工作的执行流程，全部是在内核里完成的（因为 VXLAN 本身就是 Linux 内核中的一个模块）。
基于 VTEP 设备进行“隧道”通信的流程，如下所示：
图中每台宿主机上名叫 flannel.1 的设备，就是 VXLAN 所需的 VTEP 设备，它既有 IP 地址，也有 MAC 地址。

容器跨主机网络的两种实现方法：UDP 和 VXLAN。有一个共性，那就是用户的容器都连接在 docker0 网桥上。而网络插件则在宿主机上创建了一个特殊的设备（UDP 模式创建的是 TUN 设备，VXLAN 模式创建的则是 VTEP 设备），docker0 与这个设备之间，通过 IP 转发（路由表）进行协作。网络插件真正要做的事情，则是通过某种方法，把不同宿主机上的特殊设备连通，从而达到容器跨主机通信的目的。

Kubernetes网络模型与CNI网络插件

Kubernetes 通过一个叫作 CNI 的接口，维护了一个单独的网桥来代替 docker0。这个网桥的名字就叫作：CNI 网桥，它在宿主机上的设备名称默认是：cni0。CNI 网桥只是接管所有 CNI 插件负责的、即 Kubernetes 创建的容器（Pod）。
CNI 的设计思想，就是：Kubernetes 在启动 Infra 容器之后，就可以直接调用 CNI 网络插件，为这个 Infra 容器的 Network Namespace，配置符合预期的网络栈。
CNI 插件所需的基础可执行文件，可以在宿主机的 /opt/cni/bin 目录下看到，如下所示

ls -al /opt/cni/bin/

在这里插入图片描述

CNI 的基础可执行文件，按照功能可以分为三类：
- 第一类，叫作 Main 插件，它是用来创建具体网络设备的二进制文件。比如，bridge（网桥设备）、ipvlan、loopback（lo 设备）、macvlan、ptp（Veth Pair 设备），以及 vlan。Flannel、Weave 等项目，都属于“网桥”类型的 CNI 插件。所以在具体的实现中，它们往往会调用 bridge 这个二进制文件。
- 第二类，叫作 IPAM（IP Address Management）插件，它是负责分配 IP 地址的二进制文件。比如，dhcp，这个文件会向 DHCP 服务器发起请求；host-local，则会使用预先配置的 IP 地址段来进行分配。
- 第三类，是由 CNI 社区维护的内置 CNI 插件。比如：flannel，就是专门为 Flannel 项目提供的 CNI 插件；tuning，是一个通过 sysctl 调整网络设备参数的二进制文件；portmap，是一个通过 iptables 配置端口映射的二进制文件；bandwidth，是一个使用 Token Bucket Filter (TBF) 来进行限流的二进制文件。

CNI 插件的工作原理

当 kubelet 组件需要创建 Pod 的时候，它第一个创建的一定是 Infra 容器。所以在这一步，dockershim 就会先调用 Docker API 创建并启动 Infra 容器，紧接着执行一个叫作 SetUpPod 的方法。这个方法的作用就是：为 CNI 插件准备参数，然后调用 CNI 插件为 Infra 容器配置网络。
这里要调用的 CNI 插件，就是 /opt/cni/bin/flannel；而调用它所需要的参数，分为两部分。
- 第一部分，是由 dockershim 设置的一组 CNI 环境变量。其中，最重要的环境变量参数叫作：CNI_COMMAND。它的取值只有两种：ADD 和 DEL。这个 ADD 和 DEL 操作，就是 CNI 插件唯一需要实现的两个方法。其中 ADD 操作的含义是：把容器添加到 CNI 网络里；DEL 操作的含义则是：把容器从 CNI 网络里移除掉。而对于网桥类型的 CNI 插件来说，这两个操作意味着把容器以 Veth Pair 的方式“插”到 CNI 网桥上，或者从网桥上“拔”掉。
- 第二部分，则是 dockershim 从 CNI 配置文件里加载到的、默认插件的配置信息。这个配置信息在 CNI 中被叫作 Network Configuration。dockershim 会把 Network Configuration 以 JSON 数据的格式，通过标准输入（stdin）的方式传递给 Flannel CNI 插件。

Kubernetes 网络模型

所有容器都可以直接使用 IP 地址与其他容器通信，而无需使用 NAT。
所有宿主机都可以直接使用 IP 地址与所有容器通信，而无需使用 NAT。反之亦然。
容器自己“看到”的自己的 IP 地址，和别人（宿主机或者容器）看到的地址是完全一样的。

你知道的越多，你不知道的越多。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

云原生

Kubernetes

网络

容器

PaaS

深入剖析Kubernetes之容器网络(一) 的相关文章

如何在没有部署 K8S 的情况下重启 pod？

我部署了一个弹性搜索 https www elastic co elasticsearch使用此命令在 K8S 上集群helm install elasticsearch elastic elasticsearch 我可以看到 Pod 正在
Concourse CI 找不到 kubernetes 秘密

当运行程序尝试检索资源时我收到以下错误 checking failed Expected to find variables git 我的资源看起来类似于 name resource repo type git source uri ht
从我的应用程序 Helm 图表配置第三方 Helm 图表

我似乎在任何地方都找不到任何关于此的明确信息但是 Helm 图表中是否有可能需要第三方例如stable jenkins 并指定配置值我看到的所有示例都是为了运行helm install直接命令但我希望能够将其配置为我的应用程序的一部
Kubernetes - 滚动更新杀死旧的 Pod，而不启动新的 Pod

我目前正在使用 Deployments 来管理 K8S 集群中的 pod 我的一些部署需要 2 个 pod 副本一些需要 3 个 pod 副本还有一些只需要 1 个 pod 副本我遇到的问题是只有一个 pod 副本我的 YAML 文
如何测试 ClusterIssuer 求解器？

我正在尝试使用 DigitalOcean 上的 LetsEncrypt 部署带有 SSL 证书的 Kubernetes 集群我跟着这些说明 https www digitalocean com community tutorials ho
如何在 pod 之间或 kubernetes 集群中的节点之间复制文件？

在 kubernetes 集群中可以这样做吗我发现的所有示例都是从本地磁盘复制到 Pod 反之亦然或者是从一个节点复制到另一个节点的唯一选项例如通过 SSH SCP 或使用其他实用程序无法进行集群到集群的复制你需要使用kubect
K8s更改配置映射并更新应用程序日志级别

我想更改在 K8S 上运行的 Golang 应用程序的登录配置我在本地尝试了以下代码它按预期工作我正在使用 viper 来监视配置文件更改这是带有日志配置的配置图 apiVersion v1 kind ConfigMap data
Azure AKS 应用程序网关 502 错误网关

我一直在关注这里的教程 MS Azure https learn microsoft com en us azure application gateway tutorial ingress controller add on new co
容器上的“container_memory_working_set_bytes”指标和 OOM-killer 之间有什么关系？

我试图找出并理解 OOM killer 如何在容器上工作为了弄清楚这一点我读了很多文章发现 OOM killer 会根据oom score And oom score是由oom score adj以及该进程的内存使用情况有两个指标c
k8s CronJob 在 pod 列表上循环

我想在特定命名空间中的 pod 上运行循环但诀窍是在 cronJob 中执行此操作是否可以内联 kubectl get pods n foo 这里的技巧是在你获得 Pod 列表后我需要循环并在 15 秒的超时时间内将每个 Pod 删除
在扩大或缩小 StatefulSet 之前停止 StatefulSet 中的所有 Pod

我的团队目前正在致力于将 Discord 聊天机器人迁移到 Kubernetes 我们计划使用一个有状态集对于主要的机器人服务因为每个Shard https discord com developers docs topics gatew
Kubernetes 集群中的 Websocket 连接与 nginx-ingress

我正在尝试在 Kubernetes 集群中运行的服务器上建立一个简单的 Websocket 连接 Websocket 连接能够在我的本地测试计算机上建立但在使用 nginx ingress 部署到 GKE 后我无法将客户端连接到服务器
Istio：RequestAuthentication jwksUri 无法解析内部服务名称

Notice 其根本原因与Istio 当我启用 JWT RequestAuthentication 时运行状况检查 sidecar 失败 https stackoverflow com questions 66446178 istio h
Kubernetes：没有定义端口的服务

我想确认我们是否可以在 pod 中没有容器端口的情况下公开服务在下面的示例中 pod 没有容器端口但服务已定义端口 apiVersion v1 metadata name mypod namespace ggckad s8 labels
Kubernetes 水平 Pod 自动缩放初始延迟？

Kubernetes 水平 Pod 自动缩放中是否有配置来指定在放大缩小之前运行或创建 Pod 的最小延迟例如 I am looking for a flag like this horizontal pod autoscale ini
如何在 Apache Airflow 中混合使用 Celery Executor 和 Kubernetes Executor？

我有多个使用 Celery Executor 的 dag 但我希望使用 Kubernetes Executor 运行一个特定的 dag 我无法推断出一种良好且可靠的方法来实现这一目标我有一个airflow cfg我在其中声明了Celery
Kubernetes Python 客户端连接问题

我已经设置了官方 Kubernetes Python 客户端 https github com kubernetes client python https github com kubernetes client python 我正在运行
kubernetes master 的 x509 证书无效

我正在尝试从我的工作站访问我的 k8s master 我可以从 LAN 很好地访问主站但不能从我的工作站访问错误信息是 kubectl context employee context get pods Unable to connec
kubernetes 上的 gitlab-ci 缓存与 minio-service 不再工作

我正在运行 gitlab 10 4 3 和 gitlab runner 10 4 0 作为 kubernetes 部署带有 kubernetes runner 和一个用于缓存的 minio server 我是按照安装的gitlab 文档
在 Kubernetes 中什么是删除集合？

列出 K8s 中的所有 API 资源时您会得到 kubectl api resources owide NAME SHORTNAMES APIGROUP NAMESPACED KIND VERBS bindings true Bindin

随机推荐

信息安全专业好不好?

信息安全在我国起步比较晚国外都已经很普遍了所以如果现在学习信息安全还可以抓到一波红利就像很多年前的JAVA一样而且现在国家很重视安全很多有利政策总之安全这块还是可以尽早加入有前途初入计算机行业的人或者大学计算机相关专业毕业生
dc-7 靶机渗透学习

信息收集扫描当前网段 nmap sP 192 168 202 0 24 查看开启的端口服务 nmap A p v 192 168 202 146 访问靶机的80端口通过Wappalyzer识别出是Drupal 8 先看一下靶机的说明不
生成6位随机数字字符串的方式

生成6位随机数字字符串的方式方法一方法二今天在工作中使用到了随机生成6位数字字符串的方式方法一一种比较low的使用方法使用字符串进行拼接循环6次话不多说上代码内联代码片方法一字符串拼接随机生成6位随机数 String
联邦学习的过程

联邦学习的过程分为自治和联合两部分自治的部分首先两个或两个以上的的参与方们在各自终端安装初始化的模型每个参与方拥有相同的模型之后参与方们可以使用当地的数据训练模型由于参与方们拥有不同的数据最终终端所训练的模型也拥有不同的模型参
private static final long serialVersionUID = 1L 的作用

1 这句话的意思是定义程序序列化ID 2 什么是序列化 Serializable Java的一个接口用来完成java的序列化和反序列化操作的任何类型只要实现了Serializable接口就可以被保存到文件中或者作为数据流通过网络发送
小程序视频播放组件《video》

今天花了不少时间实现了在同一个页面上实现多个视频播放的功能显示在同一个页面可以上下拉动效果如下图显示具体代码如下 video wxml
Spring Boot项目中集成Apollo

要在Spring Boot项目中集成Apollo 你可以按照以下步骤进行操作步骤1 添加Apollo依赖在你的Spring Boot项目的pom xml文件中添加Apollo依赖
基于SpringBoot的校园疫情防控系统设计与实现

1 概述校园疫情防控系统的开发运用java技术 springboot框架 MIS的总体思想以及Mysql等技术的支持下共同完成了该系统的开发实现了校园疫情防控管理的信息化使用户体验到校园疫情防控管理管理员管理操作将更加方便实现目
K8S-5--云原生基础/k8s基础及组件/二进制部署k8s集群

一云原生基础 CNCF 云原生容器生态系统概要 http dockone io article 3006 13年 docker项目正式发布 14年 kubernetes项目正式发布 15年 Google Redhat微软牵头成立CNCF
Linux route详解

route命令用于显示和操作IP路由表要实现两个不同的子网之间的通信需要一台连接两个网络的路由器或者同时位于两个网络的网关来实现在Linux系统中设置路由通常是为了解决以下问题该Linux系统在一个局域网中局域网中有一个网关
当用户在浏览器上输入url后发生了什么

进行DNS域名解析进行tcp连接发起三次握手发送一个http请求服务器处理相关的请求并且返回对应的结果关闭tcp连接浏览器将浏览器处理后的结果进行解析浏览器将解析后的资源进行请求并且渲染页面
【翻译】为什么你现在比以往更需要混沌工程？

大约一年前像餐馆和杂货店这样的实体店正争先恐后地设置送货和路边取货他们中的很多人都在生产中使用混乱工程在推出新功能和服务之前迅速寻找失败的原因教育平台也是如此在短短一周的时间里从好的变成了绝对必要企业混沌工程平台 Gre
Android UI设计屏幕底部的菜单栏动画切换Activity

最终效果如下图点击菜单会切换Activity 有动画效果从早上起床就研究这个东西因为之前一直都直接用系统提供的几个控件从来没搞过图片背景嵌套布局什么的今天是第一次没什么经验花了一个上午才搞定简单介绍一下思路使用Linea
std::enable_shared_from_this的原理及意义

原文 https www cnblogs com lehoho p 9372195 html 和 https www jianshu com p 4444923d79bd enable shared from this是一个模板类定义于头
【实战练习】汽油辛烷值优化建模（二）（问题一的详细讲解）

1 问题回顾问题1为数据处理需参考近4年的工业数据见附件一 325个数据样本数据 xlsx 的预处理结果依样本确定方法附件二对285号和313号数据样本进行预处理原始数据见附件三 285号和313号样本原始数据 xlsx 并
Python3学习笔记（一）基本数据类型（1）

首先 Python3的变量不需要声明曾经说的C语言的变量需要提前声明的好处现在也不是什么好处了但是变量必须被赋值赋值之后变量才会被创建变量没有类型直接写出来她的名字里面装的什么内容就好了自然而然她就会有一个数据类型由这里面
Java创建多线程的五种写法

目录一 lambda表达式强烈推荐最简单基础格式举例运行结果二继承 Thread 重写 run 基础格式举例运行结果三实现 Runnable 重写 run 基础格式举例运行结果四使用匿名内部类继承 Thre
【华为OD机试python】不开心的小朋友【2023 B卷

华为OD机试真题点这里华为OD机试真题考点分类点这里题目描述游乐场里增加了一批摇摇车非常受小朋友欢迎但是每辆摇摇车同时只能有一个小朋友使用如果没有空余的摇摇车需要排队等候或者直接离开最后没有玩上的小朋友会非常不开心
C++实验03(03)组合类：Triangle类与Point类

题目描述定义一个平面坐标系下的点类Point 有整型数据成员x y坐标值成员函数包括 1 带默认值的构造函数默认值均为0 2 拷贝构造函数 3 置x y坐标值 4 取x y的坐标值参数为两个整型量的引用分别用于获取x y坐标值 5
深入剖析Kubernetes之容器网络(一)

文章目录单机容器网络容器跨主机网络 Kubernetes网络模型与CNI网络插件单机容器网络一个 Network Namespace 的网络栈包括网卡 Network Interface 回环设备 Loopback Device