服务器内存碎片整理：基于 kernel.numa_balancing 参数的深度调优策略-天翼云开发者社区

一、内存碎片化的根源与影响

1.1 内存碎片的双重形态

内存碎片化是操作系统长期运行后的普遍现象，主要分为外部碎片和内部碎片两种类型：

外部碎片：当系统频繁分配和释放不同大小的内存块时，空闲内存会被分割成大量不连续的小块。虽然总空闲内存充足，但无法满足大块连续内存的分配请求。例如，在数据库服务中，若内存中存在大量分散的空闲区域，可能导致无法为新的数据页分配连续空间，进而触发频繁的磁盘 I/O 操作。
内部碎片：由于内存分配单位（如页）的固定大小，实际分配的内存可能大于应用请求的内存量。例如，在 4KB 页大小的系统中，若应用请求 1KB 内存，系统仍会分配整个 4KB 页，剩余 3KB 无法被其他进程使用，从而形成内部碎片。

1.2 NUMA 架构下的碎片化加剧

在 NUMA 架构中，每个处理器节点拥有独立的本地内存，跨节点访问需要通过互连总线进行，延迟显著高于本地访问。这种非均匀性使得内存碎片化的影响更为复杂：

跨节点碎片：当进程在多个 NUMA 节点上分配内存时，碎片可能分散在不同节点的本地内存中。这不仅增加了内存分配的难度，还可能导致频繁的跨节点访问，进一步降低性能。
动态迁移开销：若内核尝试通过迁移内存页来优化访问模式，碎片化的内存布局可能增加迁移操作的复杂性和开销。例如，在迁移一个分散在多个节点上的内存页时，需要协调多个节点的资源，可能导致短暂的系统中断或性能波动。

1.3 性能下降的连锁反应

内存碎片化对系统性能的影响是多方面的：

分配延迟增加：当系统需要分配大块连续内存时，若存在大量外部碎片，内核可能需要多次扫描内存空间，甚至触发内存压缩或交换操作，导致分配延迟显著增加。
缓存利用率降低：碎片化的内存布局可能使得缓存行无法有效利用，增加缓存未命中的概率，进而降低处理器的工作效率。
系统吞吐量下降：在多进程或多线程环境中，内存碎片化可能导致资源竞争加剧，进程频繁阻塞等待内存分配，从而降低系统整体吞吐量。

二、kernel.numa_balancing 参数的工作原理

2.1 自动平衡机制的设计目标

kernel.numa_balancing 是 Linux 内核引入的一项自动优化机制，旨在通过动态迁移内存页和调整进程调度策略，减少 NUMA 架构下的跨节点内存访问。其核心设计目标包括：

最小化远程访问：通过检测进程的内存访问模式，将频繁访问的远程内存页迁移到进程当前运行的本地节点，从而减少跨节点访问的延迟。
优化进程调度：尽可能将进程调度到其内存页所在的 NUMA 节点上运行，提高缓存利用率和内存访问效率。
自适应调整：根据系统负载和内存访问模式的变化，动态调整迁移策略和扫描频率，以平衡性能优化与系统开销。

2.2 关键组件与工作流程

numa_balancing 机制主要由以下几个关键组件构成：

扫描器（Scanner）：周期性地检测任务的内存访问模式，识别哪些内存页被频繁访问，以及这些页当前所在的 NUMA 节点。扫描器通过遍历任务的虚拟地址空间，统计每个页面的访问频率和节点信息。
迁移器（Migrator）：根据扫描器的检测结果，将频繁访问的远程内存页迁移到进程当前运行的本地节点。迁移操作涉及内存页的复制、页表的更新以及 TLB（转译后备缓冲器）的刷新。
成本模型（Cost Model）：在决定是否迁移内存页时，成本模型会权衡迁移的收益与开销。例如，若迁移操作需要消耗大量 CPU 资源或可能导致短暂的系统中断，而迁移后的性能提升有限，则可能选择不迁移。

2.3 参数配置与行为控制

kernel.numa_balancing 参数是一个布尔值，取值为 0 或 1：

0（关闭）：禁用 numa_balancing 机制，内核不会自动执行内存迁移和进程调度优化。适用于已经通过其他方式（如 numactl 工具）手动优化了 NUMA 亲和性的场景，或对延迟极其敏感的应用。
1（开启）：启用 numa_balancing 机制，内核将根据内存访问模式自动调整内存布局和进程调度策略。适用于多 NUMA 节点系统且内存访问模式动态变化的场景，如数据库、虚拟化平台和高性能计算应用。

除了 kernel.numa_balancing 参数外，内核还提供了一系列相关参数用于精细控制 numa_balancing 的行为：

scan_delay_ms：首次扫描延迟时间（毫秒），控制内核在进程创建后多久开始执行第一次内存扫描。
scan_period_min_ms：最小扫描周期（毫秒），限制内核扫描任务内存的最快频率，防止扫描操作过度消耗系统资源。
scan_period_max_ms：最大扫描周期（毫秒），限制内核扫描任务内存的最慢频率，确保在内存访问模式发生变化时能够及时响应。
scan_size_mb：每次扫描的内存量（MB），控制内核每次扫描任务内存时检查的页面数量。

三、kernel.numa_balancing 参数的调优策略

3.1 调优前的基准测试与监控

在进行 numa_balancing 参数调优之前，必须建立性能基准并部署监控工具，以便量化评估调优效果：

性能基准测试：使用 sysbench、fio 或专业基准测试工具，模拟实际工作负载对服务器进行压力测试，记录关键性能指标（如 IOPS、延迟、吞吐量等）。
监控工具部署：利用 numastat、perf、sar 等工具实时监控内存访问模式、跨节点访问比例、系统 CPU 使用率等指标。例如，通过 numastat 命令可以查看各 NUMA 节点的内存分配情况，包括本地访问（numa_hit）、远程访问（numa_miss）和外来访问（numa_foreign）等统计信息。

3.2 参数调优的核心原则

numa_balancing 参数的调优需遵循以下核心原则：

场景化配置：根据服务器的实际工作负载类型（如数据库、虚拟化、高性能计算等）和内存访问模式（静态或动态），选择合适的参数配置。例如，对于内存访问模式相对稳定的数据库服务，可以关闭 numa_balancing 以避免不必要的内存迁移开销；而对于内存访问模式动态变化的高性能计算应用，则可以开启 numa_balancing 并调整扫描参数以优化性能。
渐进式调整：参数调优应采用渐进式策略，每次只调整一个参数并观察性能变化，避免一次性调整多个参数导致难以定位问题。例如，可以先调整 scan_delay_ms 参数，观察其对内存扫描启动时间的影响，再逐步调整其他参数。
平衡性能与开销：在优化性能的同时，需充分考虑 numa_balancing 机制带来的系统开销。例如，增加扫描频率（减小 scan_period_min_ms）可以提高内存迁移的及时性，但也可能增加 CPU 使用率和内存带宽消耗。

3.3 具体调优策略与实践

3.3.1 高并发数据库场景

在高并发数据库场景中，跨节点内存访问可能导致 QPS（每秒查询量）显著下降。针对此类场景，可采取以下调优策略：

启用激进扫描策略：通过调整 scan_delay_ms、scan_period_min_ms 和 scan_size_mb 参数，缩短扫描周期并增加每次扫描的内存量，使内核能够更快地检测到内存访问模式的变化并执行迁移操作。例如，将 scan_delay_ms 设置为 100 毫秒，scan_period_min_ms 设置为 2000 毫秒，scan_size_mb 设置为 512 MB，以加快内存迁移的收敛速度。
绑定 CPU 核心：使用 taskset 或 numactl 工具将数据库进程绑定到特定的 CPU 核心上，减少线程迁移导致的跨节点内存访问。同时，结合 --membind 参数将进程的内存分配限制在本地节点，进一步降低远程访问比例。
监控与调优循环：通过 numastat 命令持续监控各 NUMA 节点的内存访问情况，若发现跨节点访问比例（numa_miss）持续较高，则进一步调整扫描参数或优化 CPU 绑定策略。

3.3.2 计算密集型任务场景

对于计算密集型任务（如科学计算、机器学习训练等），内存访问模式通常较为稳定，且对延迟极其敏感。针对此类场景，可采取以下调优策略：

完全禁用 numa_balancing：由于计算密集型任务的内存访问模式相对固定，内核自动迁移内存页可能引入不必要的开销和性能波动。因此，建议将 kernel.numa_balancing 设置为 0，完全禁用自动平衡机制。
手动预分配内存：通过应用程序或脚本手动预分配内存，并确保内存分配均匀分布在所有 NUMA 节点上。例如，使用 numactl --interleave=all 命令启动应用程序，使内核在所有节点上轮询分配内存，避免局部热点。
优化缓存利用率：通过调整处理器缓存策略（如设置缓存行对齐、优化数据布局等），提高缓存命中率，减少内存访问延迟。同时，避免频繁的内存分配和释放操作，以降低内部碎片化的影响。

3.3.3 混合负载场景

在混合负载场景中，服务器可能同时运行多种类型的应用（如前端 Web 服务、后端数据库服务和批处理任务）。针对此类场景，可采取以下调优策略：

差异化策略配置：根据不同应用的特点和性能需求，为其配置差异化的 NUMA 优化策略。例如，为前端 Web 服务配置交错分配策略（--interleave=all），以提高内存带宽利用率；为后端数据库服务配置本地优先分配策略（--preferred=0），以减少跨节点访问延迟。
资源隔离与限制：通过 cgroups 或 numactl 工具为不同应用分配独立的 CPU 和内存资源，避免资源竞争导致的性能下降。例如，为每个应用创建一个独立的 cgroup，并设置 CPU 和内存的使用限额，确保其不会过度占用系统资源。
动态调整与优化：根据系统负载的变化和应用的性能需求，动态调整 numa_balancing 参数和其他相关配置。例如，在系统负载较低时，可以增加扫描频率以优化内存布局；在系统负载较高时，则减少扫描频率以降低系统开销。

四、调优效果的评估与持续优化

4.1 性能指标评估

在完成 numa_balancing 参数调优后，需通过基准测试和监控工具评估调优效果。关键性能指标包括：

IOPS 与吞吐量：对于数据库和存储类应用，IOPS 和吞吐量是衡量性能的重要指标。若调优后 IOPS 显著提升且吞吐量增加，则说明调优策略有效。
延迟指标：包括平均延迟、最大延迟和 99% 尾延迟等。对于延迟敏感型应用（如金融交易系统、实时通信服务等），需重点关注延迟指标的变化。若调优后延迟显著降低且稳定性提高，则说明调优策略成功。
系统资源利用率：包括 CPU 使用率、内存带宽利用率和磁盘 I/O 利用率等。若调优后系统资源利用率更加均衡且未出现瓶颈，则说明调优策略合理。

4.2 持续优化与迭代

内存管理和 NUMA 优化是一个持续的过程，需根据系统负载的变化、应用的更新和硬件的升级不断调整优化策略。建议建立定期性能分析机制，通过收集 numa_miss、numa_foreign 等关键指标数据，评估当前配置的优化效果，并根据评估结果进行迭代优化。例如，若发现某 NUMA 节点的远程访问比例持续较高，则可进一步调整该节点上应用的内存分配策略或优化 CPU 绑定设置。

五、结论与展望

kernel.numa_balancing 参数作为 Linux 内核提供的自动 NUMA 优化机制，在内存碎片整理和性能提升方面发挥着重要作用。通过深入理解其工作原理、调优策略和实际场景中的优化实践，开发工程师可以有效地解决 NUMA 架构下的内存碎片化问题，提高服务器的整体性能。未来，随着处理器架构的演进（如 CXL 内存扩展、持久内存等）和智能运维技术的发展，内存管理策略将面临新的挑战和机遇。通过引入机器学习算法预测内存访问模式、实现自适应策略调整等创新方法，有望进一步提升内存管理的效率和灵活性，为高性能计算和大数据处理等领域提供更强大的支持。

一、内存碎片化的根源与影响

1.1 内存碎片的双重形态

内存碎片化是操作系统长期运行后的普遍现象，主要分为外部碎片和内部碎片两种类型：

外部碎片：当系统频繁分配和释放不同大小的内存块时，空闲内存会被分割成大量不连续的小块。虽然总空闲内存充足，但无法满足大块连续内存的分配请求。例如，在数据库服务中，若内存中存在大量分散的空闲区域，可能导致无法为新的数据页分配连续空间，进而触发频繁的磁盘 I/O 操作。
内部碎片：由于内存分配单位（如页）的固定大小，实际分配的内存可能大于应用请求的内存量。例如，在 4KB 页大小的系统中，若应用请求 1KB 内存，系统仍会分配整个 4KB 页，剩余 3KB 无法被其他进程使用，从而形成内部碎片。

1.2 NUMA 架构下的碎片化加剧

跨节点碎片：当进程在多个 NUMA 节点上分配内存时，碎片可能分散在不同节点的本地内存中。这不仅增加了内存分配的难度，还可能导致频繁的跨节点访问，进一步降低性能。
动态迁移开销：若内核尝试通过迁移内存页来优化访问模式，碎片化的内存布局可能增加迁移操作的复杂性和开销。例如，在迁移一个分散在多个节点上的内存页时，需要协调多个节点的资源，可能导致短暂的系统中断或性能波动。

1.3 性能下降的连锁反应

内存碎片化对系统性能的影响是多方面的：

分配延迟增加：当系统需要分配大块连续内存时，若存在大量外部碎片，内核可能需要多次扫描内存空间，甚至触发内存压缩或交换操作，导致分配延迟显著增加。
缓存利用率降低：碎片化的内存布局可能使得缓存行无法有效利用，增加缓存未命中的概率，进而降低处理器的工作效率。
系统吞吐量下降：在多进程或多线程环境中，内存碎片化可能导致资源竞争加剧，进程频繁阻塞等待内存分配，从而降低系统整体吞吐量。

二、kernel.numa_balancing 参数的工作原理

2.1 自动平衡机制的设计目标

最小化远程访问：通过检测进程的内存访问模式，将频繁访问的远程内存页迁移到进程当前运行的本地节点，从而减少跨节点访问的延迟。
优化进程调度：尽可能将进程调度到其内存页所在的 NUMA 节点上运行，提高缓存利用率和内存访问效率。
自适应调整：根据系统负载和内存访问模式的变化，动态调整迁移策略和扫描频率，以平衡性能优化与系统开销。

2.2 关键组件与工作流程

numa_balancing 机制主要由以下几个关键组件构成：

扫描器（Scanner）：周期性地检测任务的内存访问模式，识别哪些内存页被频繁访问，以及这些页当前所在的 NUMA 节点。扫描器通过遍历任务的虚拟地址空间，统计每个页面的访问频率和节点信息。
迁移器（Migrator）：根据扫描器的检测结果，将频繁访问的远程内存页迁移到进程当前运行的本地节点。迁移操作涉及内存页的复制、页表的更新以及 TLB（转译后备缓冲器）的刷新。
成本模型（Cost Model）：在决定是否迁移内存页时，成本模型会权衡迁移的收益与开销。例如，若迁移操作需要消耗大量 CPU 资源或可能导致短暂的系统中断，而迁移后的性能提升有限，则可能选择不迁移。

2.3 参数配置与行为控制

kernel.numa_balancing 参数是一个布尔值，取值为 0 或 1：

0（关闭）：禁用 numa_balancing 机制，内核不会自动执行内存迁移和进程调度优化。适用于已经通过其他方式（如 numactl 工具）手动优化了 NUMA 亲和性的场景，或对延迟极其敏感的应用。
1（开启）：启用 numa_balancing 机制，内核将根据内存访问模式自动调整内存布局和进程调度策略。适用于多 NUMA 节点系统且内存访问模式动态变化的场景，如数据库、虚拟化平台和高性能计算应用。

除了 kernel.numa_balancing 参数外，内核还提供了一系列相关参数用于精细控制 numa_balancing 的行为：

scan_delay_ms：首次扫描延迟时间（毫秒），控制内核在进程创建后多久开始执行第一次内存扫描。
scan_period_min_ms：最小扫描周期（毫秒），限制内核扫描任务内存的最快频率，防止扫描操作过度消耗系统资源。
scan_period_max_ms：最大扫描周期（毫秒），限制内核扫描任务内存的最慢频率，确保在内存访问模式发生变化时能够及时响应。
scan_size_mb：每次扫描的内存量（MB），控制内核每次扫描任务内存时检查的页面数量。

三、kernel.numa_balancing 参数的调优策略

3.1 调优前的基准测试与监控

在进行 numa_balancing 参数调优之前，必须建立性能基准并部署监控工具，以便量化评估调优效果：

性能基准测试：使用 sysbench、fio 或专业基准测试工具，模拟实际工作负载对服务器进行压力测试，记录关键性能指标（如 IOPS、延迟、吞吐量等）。
监控工具部署：利用 numastat、perf、sar 等工具实时监控内存访问模式、跨节点访问比例、系统 CPU 使用率等指标。例如，通过 numastat 命令可以查看各 NUMA 节点的内存分配情况，包括本地访问（numa_hit）、远程访问（numa_miss）和外来访问（numa_foreign）等统计信息。

3.2 参数调优的核心原则

numa_balancing 参数的调优需遵循以下核心原则：

场景化配置：根据服务器的实际工作负载类型（如数据库、虚拟化、高性能计算等）和内存访问模式（静态或动态），选择合适的参数配置。例如，对于内存访问模式相对稳定的数据库服务，可以关闭 numa_balancing 以避免不必要的内存迁移开销；而对于内存访问模式动态变化的高性能计算应用，则可以开启 numa_balancing 并调整扫描参数以优化性能。
渐进式调整：参数调优应采用渐进式策略，每次只调整一个参数并观察性能变化，避免一次性调整多个参数导致难以定位问题。例如，可以先调整 scan_delay_ms 参数，观察其对内存扫描启动时间的影响，再逐步调整其他参数。
平衡性能与开销：在优化性能的同时，需充分考虑 numa_balancing 机制带来的系统开销。例如，增加扫描频率（减小 scan_period_min_ms）可以提高内存迁移的及时性，但也可能增加 CPU 使用率和内存带宽消耗。

3.3 具体调优策略与实践

3.3.1 高并发数据库场景

在高并发数据库场景中，跨节点内存访问可能导致 QPS（每秒查询量）显著下降。针对此类场景，可采取以下调优策略：

启用激进扫描策略：通过调整 scan_delay_ms、scan_period_min_ms 和 scan_size_mb 参数，缩短扫描周期并增加每次扫描的内存量，使内核能够更快地检测到内存访问模式的变化并执行迁移操作。例如，将 scan_delay_ms 设置为 100 毫秒，scan_period_min_ms 设置为 2000 毫秒，scan_size_mb 设置为 512 MB，以加快内存迁移的收敛速度。
绑定 CPU 核心：使用 taskset 或 numactl 工具将数据库进程绑定到特定的 CPU 核心上，减少线程迁移导致的跨节点内存访问。同时，结合 --membind 参数将进程的内存分配限制在本地节点，进一步降低远程访问比例。
监控与调优循环：通过 numastat 命令持续监控各 NUMA 节点的内存访问情况，若发现跨节点访问比例（numa_miss）持续较高，则进一步调整扫描参数或优化 CPU 绑定策略。

3.3.2 计算密集型任务场景

对于计算密集型任务（如科学计算、机器学习训练等），内存访问模式通常较为稳定，且对延迟极其敏感。针对此类场景，可采取以下调优策略：

完全禁用 numa_balancing：由于计算密集型任务的内存访问模式相对固定，内核自动迁移内存页可能引入不必要的开销和性能波动。因此，建议将 kernel.numa_balancing 设置为 0，完全禁用自动平衡机制。
手动预分配内存：通过应用程序或脚本手动预分配内存，并确保内存分配均匀分布在所有 NUMA 节点上。例如，使用 numactl --interleave=all 命令启动应用程序，使内核在所有节点上轮询分配内存，避免局部热点。
优化缓存利用率：通过调整处理器缓存策略（如设置缓存行对齐、优化数据布局等），提高缓存命中率，减少内存访问延迟。同时，避免频繁的内存分配和释放操作，以降低内部碎片化的影响。

3.3.3 混合负载场景

在混合负载场景中，服务器可能同时运行多种类型的应用（如前端 Web 服务、后端数据库服务和批处理任务）。针对此类场景，可采取以下调优策略：

差异化策略配置：根据不同应用的特点和性能需求，为其配置差异化的 NUMA 优化策略。例如，为前端 Web 服务配置交错分配策略（--interleave=all），以提高内存带宽利用率；为后端数据库服务配置本地优先分配策略（--preferred=0），以减少跨节点访问延迟。
资源隔离与限制：通过 cgroups 或 numactl 工具为不同应用分配独立的 CPU 和内存资源，避免资源竞争导致的性能下降。例如，为每个应用创建一个独立的 cgroup，并设置 CPU 和内存的使用限额，确保其不会过度占用系统资源。
动态调整与优化：根据系统负载的变化和应用的性能需求，动态调整 numa_balancing 参数和其他相关配置。例如，在系统负载较低时，可以增加扫描频率以优化内存布局；在系统负载较高时，则减少扫描频率以降低系统开销。

四、调优效果的评估与持续优化

4.1 性能指标评估

在完成 numa_balancing 参数调优后，需通过基准测试和监控工具评估调优效果。关键性能指标包括：

IOPS 与吞吐量：对于数据库和存储类应用，IOPS 和吞吐量是衡量性能的重要指标。若调优后 IOPS 显著提升且吞吐量增加，则说明调优策略有效。
延迟指标：包括平均延迟、最大延迟和 99% 尾延迟等。对于延迟敏感型应用（如金融交易系统、实时通信服务等），需重点关注延迟指标的变化。若调优后延迟显著降低且稳定性提高，则说明调优策略成功。
系统资源利用率：包括 CPU 使用率、内存带宽利用率和磁盘 I/O 利用率等。若调优后系统资源利用率更加均衡且未出现瓶颈，则说明调优策略合理。

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

服务器内存碎片整理：基于 kernel.numa_balancing 参数的深度调优策略

一、内存碎片化的根源与影响

1.1 内存碎片的双重形态

1.2 NUMA 架构下的碎片化加剧

1.3 性能下降的连锁反应

二、kernel.numa_balancing 参数的工作原理

2.1 自动平衡机制的设计目标

2.2 关键组件与工作流程

2.3 参数配置与行为控制

三、kernel.numa_balancing 参数的调优策略

3.1 调优前的基准测试与监控

3.2 参数调优的核心原则

3.3 具体调优策略与实践

3.3.1 高并发数据库场景

3.3.2 计算密集型任务场景

3.3.3 混合负载场景

四、调优效果的评估与持续优化

4.1 性能指标评估

4.2 持续优化与迭代

五、结论与展望

服务器内存碎片整理：基于 kernel.numa_balancing 参数的深度调优策略

一、内存碎片化的根源与影响

1.1 内存碎片的双重形态

1.2 NUMA 架构下的碎片化加剧

1.3 性能下降的连锁反应

二、kernel.numa_balancing 参数的工作原理

2.1 自动平衡机制的设计目标

2.2 关键组件与工作流程

2.3 参数配置与行为控制

三、kernel.numa_balancing 参数的调优策略

3.1 调优前的基准测试与监控

3.2 参数调优的核心原则

3.3 具体调优策略与实践

3.3.1 高并发数据库场景

3.3.2 计算密集型任务场景

3.3.3 混合负载场景

四、调优效果的评估与持续优化

4.1 性能指标评估

4.2 持续优化与迭代

五、结论与展望