Cgroups & Namespaces：Pod 如何将多个容器"缝合"成一个调度单元？-天翼云开发者社区

一、Namespaces：给每个容器一副"独立眼镜"

要理解 Pod 的缝合之术，首先得明白 Namespaces 是什么。

Linux 内核提供了多种 Namespace 类型——PID、NET、IPC、UTS、Mount、User——它们的本质，是为进程创造一副"独立眼镜"。戴上这副眼镜后，进程只能看到被 Namespace 限定的那一小片天地，对其他 Namespace 里的资源浑然不知。

举个例子：在一个容器中运行的进程，其 PID 可能是 1，但在宿主机上看，它可能是 PID 38472。这不是魔法，而是 PID Namespace 在"障眼法"。同理，NET Namespace 让容器拥有独立的网络栈、IP 地址和路由表；Mount Namespace 让容器看到独立的文件系统挂载点；UTS Namespace 让容器拥有自己的主机名。

关键在于：Namespaces 之间是正交的。你可以只启用 PID Namespace 而不启用 NET Namespace，也可以同时启用全部六种。Docker 等容器运行时在创建容器时，本质上就是通过 clone() 系统调用，在参数中指定 CLONE_NEWPID、CLONE_NEWNET 等标志，为新进程戴上一组特定的"眼镜"。

这就是隔离的基础——每个容器都是一个被 Namespaces 精心包裹的独立世界，彼此之间无法窥探，更无法干扰。

二、Cgroups：给每个容器套上"资源枷锁"

如果说 Namespaces 解决的是"看不见"的问题，那么 Cgroups 解决的就是"用不了"的问题。

Cgroups（Control Groups）是 Linux 内核提供的资源管控机制，它通过虚拟文件系统 /sys/fs/cgroup/ 暴露操作接口。每个 Cgroup 对应一个目录，目录下的文件用于设置和查看资源限制。

最经典的应用就是 CPU 限制。通过 cpu.cfs_period_us 和 cpu.cfs_quota_us 两个参数，可以精确控制容器在每个调度周期内能使用多少 CPU 时间。比如，将周期设为 100000 微秒（即 100 毫秒），配额设为 50000 微秒（即 50 毫秒），那么容器在每 100 毫秒内最多只能跑 50 毫秒——相当于被限制在半个 CPU 的用量。

内存限制同样直截了当：通过 memory.limit_in_bytes 设置内存上限，一旦容器触碰红线，内核会直接触发 OOM Kill，防止单个容器拖垮整台机器。

Cgroups 的设计哲学简单粗暴：先分组，再限制。所有属于同一个 Cgroup 的进程，共享同一套资源配额。这为 Pod 的资源管控奠定了坚实基础。

三、Pod 的"缝合"架构：三层容器各司其职

明白了 Namespaces 和 Cgroups 的原理，我们终于可以揭开 Pod 的"缝合"秘密了。

Pod 不是简单地把几个容器塞在一起，它有一套精密的三层架构：

第一层：Infra 容器（Pause 容器）——"缝合之基"

每个 Pod 在创建时，Kubelet 会首先启动一个极小的 Infra 容器（也叫 Pause 容器）。这个容器的唯一使命，就是创建并持有 Network Namespace。

随后，Pod 中定义的所有业务容器在创建时，不会建立自己的网络命名空间，而是直接加入 Infra 容器已创建好的 Network Namespace。这就像焊接中的"打底焊"——先铺好一层牢固的基础，后续的容器才能在这层基础上"焊接"上去。

效果是什么？Pod 内所有容器共享同一个 IP 地址、同一个端口空间，彼此之间通过 localhost 直接通信，端口冲突被天然规避。从集群外部看，Pod 就是一个整体，一个 IP，一组端口。

第二层：Init 容器——"缝合之序"

在业务容器启动之前，Pod 可以定义一个或多个 Init 容器。它们按顺序执行，前一个成功后才会启动下一个，全部成功后业务容器才会开始运行。

Init 容器的价值在于"准备工作"：检查依赖服务是否就绪、从远程拉取配置文件、等待数据库迁移完成……它们是应用容器启动前的"预检工序"，确保主容器启动时一切就绪。一旦某个 Init 容器失败，Kubelet 会根据重启策略决定是反复重试还是直接停止。

第三层：应用容器——"缝合之果"

当 Infra 容器和 Init 容器都就位后，真正的业务容器才会并行启动。这些容器共享 Infra 容器的网络命名空间，共享通过 Volume 挂载的存储，在同一个 Cgroup 管控下运行——CPU 配额、内存上限、磁盘 I/O 限制，统统由 Cgroups 统一约束。

这三层容器，通过 Namespaces 实现视图隔离与共享，通过 Cgroups 实现资源限制与计量，最终被"缝合"成一个不可分割的调度单元。

四、共享的艺术：网络与存储的"缝合线"

Pod 的缝合之术不仅体现在容器之间的关系上，更体现在资源共享的设计上。

网络共享的核心在于 Infra 容器。由于所有业务容器都加入了同一个 Network Namespace，它们天然共享 IP 和端口。这意味着容器 A 的服务可以直接通过 localhost:8080 访问容器 B 的服务，无需任何额外的网络配置。这种设计让多容器 Pod 内部的通信效率极高，延迟极低。

存储共享则通过 Volume 实现。Pod 可以在规格层面定义一个或多个 Volume，所有容器通过 volumeMounts 挂载到各自的文件系统路径。底层指向的是同一个存储卷，数据实时同步。一个容器写入的日志，另一个容器可以立刻读取——这在日志采集、数据处理等场景中尤为实用。

更妙的是，这些 Volume 可以配置为 emptyDir（随 Pod 生命周期存在）或持久化存储（如分布式存储后端），确保容器重启后数据不丢失。

五、调度的智慧：Pod 为何必须是最小单元？

理解了 Pod 的内部缝合机制，再来看调度层面，一切就豁然开朗了。

Kubernetes 调度器的核心任务，是为每个待调度的 Pod 找到最合适的节点。调度过程分为三个阶段：过滤（Filtering）→ 打分（Scoring）→ 绑定（Binding）。

在过滤阶段，调度器会检查节点的 CPU、内存是否满足 Pod 的资源请求（requests），检查节点是否符合 Pod 的亲和性规则、污点容忍策略等。在打分阶段，调度器根据资源利用率、网络拓扑等因素为候选节点打分。最终，得分最高的节点胜出，Pod 被绑定其上。

为什么 Pod 必须是最小调度单元，而不是单个容器？原因很简单：Pod 内的容器必须始终运行在同一个节点上。如果拆开调度，容器 A 被调到节点 X，容器 B 被调到节点 Y，它们之间的 localhost 通信就彻底断裂了，共享存储也无从谈起。

正因如此，Kubernetes 将资源请求和限制（requests & limits）定义在 Pod 层面。CPU 请求以"毫核"为单位（如 250m 表示 0.25 个 CPU），内存请求以二进制单位表示（如 128Mi）。调度器依据这些请求值进行节点匹配——请求值过低会导致资源争用，过高则造成浪费。合理的资源配置，是调度效率的关键。

此外，调度器还支持优先级类（PriorityClass）、亲和性与反亲和性、节点污点与容忍等高级策略。比如，核心业务 Pod 可以被标记为高优先级，在资源紧张时优先调度；关键服务可以通过反亲和性策略分散到不同节点，避免单点故障。

六、实践中的缝合之道

在实际开发中，要用好 Pod 的缝合之术，有几条铁律值得铭记：

第一，一个容器只干一件事。 不要把所有进程塞进一个容器，这违背了容器设计的初衷。用多容器 Pod 来组合复杂应用，让每个容器职责单一。

第二，合理设置资源请求与限制。 永远为 Pod 声明 requests 和 limits，这不仅是调度的需要，更是防止单个容器耗尽节点资源的安全阀。

第三，善用 Init 容器做初始化。 数据库迁移、配置拉取、依赖检查——这些一次性任务交给 Init 容器，让业务容器专注于核心逻辑。

第四，利用亲和性策略优化通信。 频繁交互的微服务，用节点亲和性调度到同一可用区，降低网络延迟；无状态服务用容器数量均衡策略，让每个节点的容器数保持均匀。

结语

Namespaces 是"隔离之术"，让每个容器拥有独立的世界；Cgroups 是"约束之术"，让每个容器的资源使用有据可循。而 Pod，正是将这两大技术融为一体的"缝合大师"——它用 Infra 容器打底，用 Init 容器预处理，用应用容器承载业务，用共享网络和存储将一切"焊接"成一个坚不可摧的调度单元。

这门"缝合之术"不需要焊条电弧，不需要埋弧暗焊，它凭借的是 Linux 内核最底层的智慧。作为开发工程师，深刻理解这套机制，才能在云原生的世界里游刃有余，构建出真正稳健、高效的分布式系统。

一、Namespaces：给每个容器一副"独立眼镜"

要理解 Pod 的缝合之术，首先得明白 Namespaces 是什么。

这就是隔离的基础——每个容器都是一个被 Namespaces 精心包裹的独立世界，彼此之间无法窥探，更无法干扰。

二、Cgroups：给每个容器套上"资源枷锁"

如果说 Namespaces 解决的是"看不见"的问题，那么 Cgroups 解决的就是"用不了"的问题。

内存限制同样直截了当：通过 memory.limit_in_bytes 设置内存上限，一旦容器触碰红线，内核会直接触发 OOM Kill，防止单个容器拖垮整台机器。

Cgroups 的设计哲学简单粗暴：先分组，再限制。所有属于同一个 Cgroup 的进程，共享同一套资源配额。这为 Pod 的资源管控奠定了坚实基础。

三、Pod 的"缝合"架构：三层容器各司其职

明白了 Namespaces 和 Cgroups 的原理，我们终于可以揭开 Pod 的"缝合"秘密了。

Pod 不是简单地把几个容器塞在一起，它有一套精密的三层架构：

第一层：Infra 容器（Pause 容器）——"缝合之基"

每个 Pod 在创建时，Kubelet 会首先启动一个极小的 Infra 容器（也叫 Pause 容器）。这个容器的唯一使命，就是创建并持有 Network Namespace。

第二层：Init 容器——"缝合之序"

在业务容器启动之前，Pod 可以定义一个或多个 Init 容器。它们按顺序执行，前一个成功后才会启动下一个，全部成功后业务容器才会开始运行。

第三层：应用容器——"缝合之果"

这三层容器，通过 Namespaces 实现视图隔离与共享，通过 Cgroups 实现资源限制与计量，最终被"缝合"成一个不可分割的调度单元。

四、共享的艺术：网络与存储的"缝合线"

Pod 的缝合之术不仅体现在容器之间的关系上，更体现在资源共享的设计上。

更妙的是，这些 Volume 可以配置为 emptyDir（随 Pod 生命周期存在）或持久化存储（如分布式存储后端），确保容器重启后数据不丢失。

五、调度的智慧：Pod 为何必须是最小单元？

理解了 Pod 的内部缝合机制，再来看调度层面，一切就豁然开朗了。

六、实践中的缝合之道

在实际开发中，要用好 Pod 的缝合之术，有几条铁律值得铭记：

第一，一个容器只干一件事。 不要把所有进程塞进一个容器，这违背了容器设计的初衷。用多容器 Pod 来组合复杂应用，让每个容器职责单一。

第二，合理设置资源请求与限制。 永远为 Pod 声明 requests 和 limits，这不仅是调度的需要，更是防止单个容器耗尽节点资源的安全阀。

第三，善用 Init 容器做初始化。 数据库迁移、配置拉取、依赖检查——这些一次性任务交给 Init 容器，让业务容器专注于核心逻辑。

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

Cgroups & Namespaces：Pod 如何将多个容器"缝合"成一个调度单元？

一、Namespaces：给每个容器一副"独立眼镜"

二、Cgroups：给每个容器套上"资源枷锁"

三、Pod 的"缝合"架构：三层容器各司其职

第一层：Infra 容器（Pause 容器）——"缝合之基"

第二层：Init 容器——"缝合之序"

第三层：应用容器——"缝合之果"

四、共享的艺术：网络与存储的"缝合线"

五、调度的智慧：Pod 为何必须是最小单元？

六、实践中的缝合之道

结语

Cgroups & Namespaces：Pod 如何将多个容器"缝合"成一个调度单元？

一、Namespaces：给每个容器一副"独立眼镜"

二、Cgroups：给每个容器套上"资源枷锁"

三、Pod 的"缝合"架构：三层容器各司其职

第一层：Infra 容器（Pause 容器）——"缝合之基"

第二层：Init 容器——"缝合之序"

第三层：应用容器——"缝合之果"

四、共享的艺术：网络与存储的"缝合线"

五、调度的智慧：Pod 为何必须是最小单元？

六、实践中的缝合之道

结语

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

Cgroups & Namespaces：Pod 如何将多个容器"缝合"成一个调度单元？

一、Namespaces：给每个容器一副"独立眼镜"

二、Cgroups：给每个容器套上"资源枷锁"

三、Pod 的"缝合"架构：三层容器各司其职

第一层：Infra 容器（Pause 容器）——"缝合之基"

第二层：Init 容器——"缝合之序"

第三层：应用容器——"缝合之果"

四、共享的艺术：网络与存储的"缝合线"

五、调度的智慧：Pod 为何必须是最小单元？

六、实践中的缝合之道

结语

Cgroups & Namespaces：Pod 如何将多个容器"缝合"成一个调度单元？

一、Namespaces：给每个容器一副"独立眼镜"

二、Cgroups：给每个容器套上"资源枷锁"

三、Pod 的"缝合"架构：三层容器各司其职

第一层：Infra 容器（Pause 容器）——"缝合之基"

第二层：Init 容器——"缝合之序"

第三层：应用容器——"缝合之果"

四、共享的艺术：网络与存储的"缝合线"

五、调度的智慧：Pod 为何必须是最小单元？

六、实践中的缝合之道

结语