企业级流量入口基石：LVS与Keepalived的高可用负载均衡架构深度解析-天翼云开发者社区

一、 LVS：内核级负载均衡引擎的深度剖析

LVS是Linux内核中的一部分，它工作在网络的第四层（传输层），通过修改数据包的目标地址或端口，将流量分发到后端的真实服务器集群上。与工作在第七层（应用层）的反向代理不同，LVS不解析应用层协议（如HTTP请求头、报文体），仅根据IP地址和端口进行转发。这种机制使得LVS的处理逻辑极简，极大地降低了上下文切换和内存拷贝的开销，从而能够轻松处理每秒数十万甚至百万级的并发连接。

1. LVS的核心组件与工作模型

LVS的体系结构主要由两部分组成：工作在用户空间的ipvsadm工具和工作在内核空间的IPVS模块。ipvsadm负责向内核写入规则，定义虚拟服务与真实服务器之间的映射关系；而IPVS模块则嵌入在Linux内核的Netfilter框架中，实时监听网络流量。当数据包到达内核网络栈时，IPVS模块会根据预设的规则截获数据包，并进行相应的处理。这种内核级的设计是LVS高性能的根本保证，它避免了数据在用户空间与内核空间之间的频繁往返。

2. LVS的三种工作模式深度解析

LVS提供了三种主要的工作模式，每种模式在性能、网络拓扑和实现复杂度上各有千秋，适用于不同的业务场景。

NAT模式（网络地址转换）

这是最早也是最易于理解的模式。在NAT模式下，Director（调度器）不仅是负载均衡器，还充当了网关的角色。客户端请求到达Director时，Director修改数据包的目标IP地址为选定的Real Server（真实服务器）的IP地址，并将请求转发给服务器。当服务器处理完请求后，响应数据包必须返回给Director，再由Director修改源IP地址为虚拟IP（VIP），最终发送回客户端。

这种模式的优点是配置简单，Real Server无需做特殊配置，只需将网关指向Director即可。然而，其缺点也显而易见：所有的请求和响应都必须经过Director。在互联网应用中，通常响应数据包的大小远大于请求包，这意味着Director极易成为网络瓶颈。因此，NAT模式适用于服务器数量较少、流量规模可控的场景。

DR模式（直接路由）

DR模式是LVS性能最高的工作模式，也是目前大型互联网架构中最主流的选择。其核心思想是“请求走Director，响应直接回客户端”。

在DR模式下，Director和所有的Real Server都必须在物理上通过非屏蔽双绞线连接到同一个物理网段（即同一局域网），并且都必须配置同一个虚拟IP地址（VIP）。为了防止IP地址冲突，Real Server上的VIP必须配置在非ARP网卡（如Lo回环接口）上，并配置内核参数抑制ARP响应。

当请求到达Director时，Director根据负载均衡算法选择一台Real Server，并将数据包的目标MAC地址修改为该Real Server的MAC地址，源MAC地址修改为Director的MAC地址。由于是二层转发，IP地址并未改变，Real Server收到数据包后，发现目标IP是自己的VIP（配置在Lo接口上），于是接收并处理。处理完成后，Real Server直接根据路由表将响应包发送给客户端，完全绕过了Director。

DR模式的优势在于Director仅处理入站请求，出站流量直接走服务器网卡，极大地释放了Director的压力，使得Director能够调度海量的服务器集群。但其局限性在于要求Director和Real Server必须在同一广播域，无法跨网段部署。

TUN模式（IP隧道）

TUN模式是为了解决DR模式无法跨网段的问题而设计的。它通过IP隧道技术，将原本的数据包封装在一个新的IP数据包中。Director收到请求后，选择一台Real Server，将原始数据包封装在新的IP包里，新IP包的源地址是Director的DIP，目标地址是Real Server的RIP。Real Server收到数据包后，解开封装得到原始数据包进行处理。与DR模式一样，响应包也是直接由Real Server发送给客户端。

TUN模式支持跨网段部署，极大地提高了架构的灵活性，适用于异地多活或跨数据中心调度的场景。但其缺点是服务器需要支持IP隧道协议，且数据包封装解封装会带来一定的性能损耗。

3. LVS的十种调度算法

LVS的强大不仅在于转发模式，还在于其丰富的调度算法。这些算法决定了流量如何在后端服务器之间分配，直接影响服务的质量。

主要算法包括轮询调度、加权轮询调度、最少链接调度、加权最少链接调度、基于局部性的最少链接、带复制的基于局部性最少链接、目标地址散列调度、源地址散列调度等。

其中，加权轮询算法根据服务器的硬件配置和处理能力分配权重，性能强的服务器权重高，分配的请求多，是最常用的静态算法。而加权最少链接算法则是一种动态算法，它根据当前服务器的活跃连接数来分配请求，能够更智能地平衡负载，避免某台服务器过载。对于需要会话保持的场景，源地址散列算法可以将来自同一IP地址的请求始终定向到同一台服务器，保证会话的连续性。

二、 Keepalived：高可用架构的守护神

虽然LVS解决了高性能负载均衡的问题，但如果作为流量入口的Director发生故障，整个后端集群将变得不可访问，这就是所谓的“单点故障”。Keepalived正是为了解决这一问题而生，它通过VRRP（虚拟路由冗余协议）实现了Director的双机热备。

1. VRRP协议原理

VRRP是一种用于实现路由器冗余的协议。在Keepalived的实现中，两台或多台物理服务器组成一个VRRP路由组，其中一台处于活动状态，负责转发流量，称为MASTER；其他服务器处于备份状态，称为BACKUP。

每个VRRP组都有一个唯一的虚拟路由器ID（VRID），以及一个虚拟IP地址（VIP）。MASTER服务器拥有VIP，并周期性地向网络中发送VRRP通告报文（组播），报文中包含了优先级信息。BACKUP服务器监听这些报文，如果在设定的时间内（通常为3个通告周期）没有收到MASTER的报文，或者收到的报文优先级低于自己，BACKUP服务器将认为MASTER失效，随即切换为MASTER状态，并抢占VIP，接管流量。

Keepalived通过配置优先级来决定初始状态。优先级范围是0-255，数值越大优先级越高。当两台服务器都正常时，优先级高的为MASTER；当MASTER故障恢复后，根据配置可以选择抢占模式或非抢占模式。抢占模式下，恢复的服务器会重新夺回MASTER身份；非抢占模式下，它将保持BACKUP状态，避免频繁切换带来的网络抖动。

2. Keepalived的健康检查机制

Keepalived不仅仅是一个VRRP的实现，它还具备强大的健康检查功能。这一点对于LVS至关重要。LVS本身只负责转发，不知道后端Real Server是否存活。如果Real Server宕机，LVS依然会将流量转发过去，导致服务不可用。

Keepalived通过配置文件定义Real Server的检查机制。它支持多种检查方式：

TCP_CHECK：通过建立TCP连接来判断服务是否存活。如果连接建立成功，认为服务器正常；如果连接超时或拒绝，认为服务器故障，Keepalived会将该服务器从IPVS规则中移除。
HTTP_GET：发送HTTP请求，检查返回的状态码和内容。如果返回状态码是200 OK且内容匹配，则正常。这种方式适用于Web服务的精细化健康检查。
SSL_GET：与HTTP_GET类似，但支持HTTPS协议。
MISC_CHECK：通过调用自定义脚本或程序来进行检查，灵活性极高，可用于检查数据库、缓存等复杂服务。

当Real Server故障恢复后，Keepalived会重新检测到服务正常，并将其重新加入IPVS规则中，实现故障的自动恢复。

三、 LVS与Keepalived的协同架构设计

将LVS的高性能转发与Keepalived的高可用保障结合，便构成了企业级标准的负载均衡架构。在这种架构中，Keepalived作为管理守护进程运行在Director服务器上。

1. 架构拓扑与数据流向

典型的架构由两台Director服务器（主备模式）和一组Real Server集群组成。两台Director服务器上均运行Keepalived服务，且配置了LVS规则（通过Keepalived配置文件自动生成，无需手动执行ipvsadm）。

在正常情况下，主Director拥有VIP，Keepalived管理着IPVS规则。客户端请求首先到达VIP，内核空间的IPVS模块根据Keepalived配置的模式（如DR模式）和算法，修改数据包并转发给后端的Real Server。Keepalived进程持续检测后端服务器的健康状态，动态调整IPVS规则。同时，Keepalived主节点周期性发送VRRP心跳包给备节点。

当主Director发生故障（如断电、网卡损坏、Keepalived进程崩溃）时，备节点在超时时间内未收到心跳包，判定主节点失效，立即切换为MASTER状态，并将VIP配置在自己的网卡上。同时，备节点激活自己的IPVS规则。由于VIP的漂移，客户端的请求将被新的Director接管，整个过程对用户透明，通常在秒级完成。

2. 防火墙标记与持久化连接

在实际工程中，一个Web应用往往包含多个端口（如HTTP的80端口和HTTPS的443端口）。为了保证同一用户的请求在这两个端口间保持会话一致性（例如，用户登录后跳转到HTTPS页面），LVS提供了防火墙标记功能。Keepalived可以配置将不同端口的请求打上相同的防火墙标记，然后LVS根据这个标记进行调度，确保带有相同标记的请求始终被分发到同一台Real Server，实现了端口间的会话保持。

四、工程实践中的关键挑战与解决方案

尽管LVS+Keepalived架构已经非常成熟，但在实际生产环境中，开发运维人员仍需面对诸多挑战。

1. ARP抑制与网络配置陷阱

在DR模式下，最常见的问题就是ARP冲突。因为Real Server配置了VIP，如果未正确配置内核参数，局域网内的其他设备可能会收到来自Real Server的ARP响应，导致流量绕过Director直接发送给Real Server，破坏负载均衡逻辑。

解决方案是在Real Server上严格配置ARP参数。具体涉及内核参数arp_ignore和arp_announce。arp_ignore定义了对目标地址为本地IP的ARP请求的响应方式，通常设置为1，表示只响应目标IP在接收网卡上的请求。arp_announce定义了发送ARP请求时如何选择源IP，通常设置为2，表示忽略IP包的源IP，选择与目标IP在同一网段的IP作为源IP。这两个参数的正确配置是DR模式稳定运行的前提。

2. 脑裂问题的深度防御

“脑裂”是指在高可用系统中，主备节点同时认为自己是MASTER，同时持有VIP的情况。这通常发生在网络通信故障（如心跳线断开）但主节点仍正常运行时。脑裂会导致网络冲突、数据不一致甚至服务雪崩。

为了防止脑裂，除了依赖VRRP协议自身的机制外，工程师通常会引入第三方仲裁机制。例如，利用脚本检测主备节点之间的连通性，或者连接到共享存储（如磁盘阵列）进行锁竞争。更通用的做法是配置冗余的心跳链路，物理上隔离心跳网络与业务网络，降低误判概率。此外，Keepalived还支持通过追踪脚本检测自身的服务状态，如果关键服务挂掉但系统未重启，可以主动降低优先级，主动让出MASTER身份。

3. 性能调优与内核优化

面对百万级的并发连接，默认的Linux内核参数往往无法满足需求。作为开发工程师，必须精通内核参数调优。

首先是文件描述符限制。LVS作为网络服务，每个连接都会占用文件句柄，需要增大系统允许打开的最大文件数。其次是TCP协议栈的优化。例如，开启TCP SYN Cookies防御SYN Flood攻击；调整TCP连接的超时时间，加速TIME_WAIT状态的回收，防止大量僵死连接占满内核表。最后是网卡中断亲和性的配置。在多核CPU服务器上，将网卡中断分散绑定到不同的CPU核心上，避免单一核心处理中断过载，充分发挥多核性能。

4. 与应用层负载均衡的协同

虽然LVS性能极高，但它无法处理基于域名、URL或Cookie的复杂路由策略。在现代微服务架构中，通常采用“LVS+应用层负载均衡”的双层架构。

外层部署LVS+Keepalived，负责四层流量分发和入口高可用，将流量分发到内层的应用层负载均衡器集群。应用层负载均衡器负责七层解析、SSL卸载、路由重写等复杂逻辑，再将流量分发到具体的微服务实例。这种分层架构完美结合了LVS的高吞吐能力和应用层负载均衡的灵活性，是大型互联网架构的标准范式。

五、总结

LVS与Keepalived的组合，是计算机工程领域“简单即美”哲学的完美体现。LVS通过内核级的Netfilter钩子，以极低的资源消耗实现了惊人的转发性能；Keepalived则通过标准的VRRP协议，以轻量级的机制解决了复杂的单点故障问题。两者相辅相成，共同构筑了坚不可摧的网络流量入口。

对于开发工程师而言，深入理解这套架构，不仅意味着掌握了处理高并发流量的核心技术，更意味着建立了一种从内核底层到应用上层、从性能优化到容灾设计的全局视野。随着云原生技术的普及，虽然服务网格等新技术层出不穷，但LVS+Keepalived作为基础设施层的基石，其设计思想与核心价值依然在各类软负载均衡器中延续。精通这一经典架构，是迈向高级架构师之路的重要里程碑。在未来的技术演进中，这种对底层原理的深刻洞察，将是我们应对一切复杂场景的最有力武器。

一、 LVS：内核级负载均衡引擎的深度剖析

1. LVS的核心组件与工作模型

2. LVS的三种工作模式深度解析

LVS提供了三种主要的工作模式，每种模式在性能、网络拓扑和实现复杂度上各有千秋，适用于不同的业务场景。

NAT模式（网络地址转换）

DR模式（直接路由）

DR模式是LVS性能最高的工作模式，也是目前大型互联网架构中最主流的选择。其核心思想是“请求走Director，响应直接回客户端”。

TUN模式（IP隧道）

3. LVS的十种调度算法

LVS的强大不仅在于转发模式，还在于其丰富的调度算法。这些算法决定了流量如何在后端服务器之间分配，直接影响服务的质量。

二、 Keepalived：高可用架构的守护神

1. VRRP协议原理

2. Keepalived的健康检查机制

Keepalived通过配置文件定义Real Server的检查机制。它支持多种检查方式：

TCP_CHECK：通过建立TCP连接来判断服务是否存活。如果连接建立成功，认为服务器正常；如果连接超时或拒绝，认为服务器故障，Keepalived会将该服务器从IPVS规则中移除。
HTTP_GET：发送HTTP请求，检查返回的状态码和内容。如果返回状态码是200 OK且内容匹配，则正常。这种方式适用于Web服务的精细化健康检查。
SSL_GET：与HTTP_GET类似，但支持HTTPS协议。
MISC_CHECK：通过调用自定义脚本或程序来进行检查，灵活性极高，可用于检查数据库、缓存等复杂服务。

当Real Server故障恢复后，Keepalived会重新检测到服务正常，并将其重新加入IPVS规则中，实现故障的自动恢复。

三、 LVS与Keepalived的协同架构设计

1. 架构拓扑与数据流向

2. 防火墙标记与持久化连接

四、工程实践中的关键挑战与解决方案

尽管LVS+Keepalived架构已经非常成熟，但在实际生产环境中，开发运维人员仍需面对诸多挑战。

1. ARP抑制与网络配置陷阱

2. 脑裂问题的深度防御

3. 性能调优与内核优化

面对百万级的并发连接，默认的Linux内核参数往往无法满足需求。作为开发工程师，必须精通内核参数调优。

4. 与应用层负载均衡的协同

虽然LVS性能极高，但它无法处理基于域名、URL或Cookie的复杂路由策略。在现代微服务架构中，通常采用“LVS+应用层负载均衡”的双层架构。

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

企业级流量入口基石：LVS与Keepalived的高可用负载均衡架构深度解析

一、 LVS：内核级负载均衡引擎的深度剖析

1. LVS的核心组件与工作模型

2. LVS的三种工作模式深度解析

3. LVS的十种调度算法

二、 Keepalived：高可用架构的守护神

1. VRRP协议原理

2. Keepalived的健康检查机制

三、 LVS与Keepalived的协同架构设计

1. 架构拓扑与数据流向

2. 防火墙标记与持久化连接

四、 工程实践中的关键挑战与解决方案

1. ARP抑制与网络配置陷阱

2. 脑裂问题的深度防御

3. 性能调优与内核优化

4. 与应用层负载均衡的协同

五、 总结

企业级流量入口基石：LVS与Keepalived的高可用负载均衡架构深度解析

一、 LVS：内核级负载均衡引擎的深度剖析

1. LVS的核心组件与工作模型

2. LVS的三种工作模式深度解析

3. LVS的十种调度算法

二、 Keepalived：高可用架构的守护神

1. VRRP协议原理

2. Keepalived的健康检查机制

三、 LVS与Keepalived的协同架构设计

1. 架构拓扑与数据流向

2. 防火墙标记与持久化连接

四、 工程实践中的关键挑战与解决方案

1. ARP抑制与网络配置陷阱

2. 脑裂问题的深度防御

3. 性能调优与内核优化

4. 与应用层负载均衡的协同

五、 总结

四、工程实践中的关键挑战与解决方案

五、总结

四、工程实践中的关键挑战与解决方案

五、总结