- 该方法探讨了GSO(Generic Segmentation Offload,通用分段卸载)的硬件实现机制及其在现代网络环境中的优化效果。与传统的TCP分段卸载(TSO)和UDP分片卸载(UFO)相比,GSO支持多协议(如TCPv4、UDPv4、VxLAN等),并通过动态分片策略适应不同MTU场景,实现了更通用的硬件加速。此外,硬件GSO与虚拟化技术(如OVS-DPDK)的协同优化进一步提升了虚拟机间通信效率,成为云计算和边缘计算中网络性能优化的关键技术。本方案采用硬件实现GSO功能完成支持多种协议(TCP、UDP、VxLAN、GRE等)的报文分片,通过推迟分片到网络栈最后阶段或卸载到网卡硬件,大幅减少CPU处理开销。减少数据包数量意味着减少协议栈处理次数,提高整体网络吞吐量。穆****飞2025-12-1110
- 拼包切包操作在智能网卡中必不可少,可以绕过CPU和内核进而降低延迟。然而拼切包在FPGA中的外围实现结构会影响到最终的效果,包括资源利用率和维护难度。 本文探讨了FPGA在RDMA(远程直接内存访问)场景下实现数据拼包(聚合非连续内存块)与切包(按PMTU分片)的三种外围硬件架构方案: Ping-Pang RAM方案:通过双RAM交替缓存数据,逻辑简单但资源利用率低,适合报文长度固定的场景。 单RAM方案:合并RAM空间并动态管理地址,优化资源占用,但读写控制逻辑复杂,调试难度高。 FIFO同步方案:利用FIFO同步边带信息与数据流,显著降低逻辑复杂度,提升可维护性,适合高动态数据场景。c****q2025-12-0420
- LRU算法,全称是 Least Recently Used(最近最少使用),是一种常见的缓存淘汰策略,广泛应用于操作系统的内存页面置换、数据库缓存、Web 缓存、CPU 缓存等场景。当前文章举例说明怎么使用verilog实现LRU算法。l****m2025-09-2600
- 在FPGA设计领域,一个经典的“跷跷板”难题困扰了工程师数十年:追求更高的性能(速度),通常意味着消耗更多的逻辑资源(面积);而致力于缩小设计规模(面积),又往往不得不以降低运行频率(速度)为代价。这个“鱼与熊掌不可兼得”的局面,曾是每个FPGA工程师进行设计决策时的核心权衡。 然而,随着应用场景的复杂化和FPGA自身架构的演进,这种非此即彼的旧思路正在被打破。新一代的设计方法论、工具链和架构创新,正赋予我们前所未有的能力,去追求一个更理想的目标:在有限的芯片面积内,榨取极致的性能。 换句话说,“速度”和“面积”不再是二选一,而是可以协同优化的统一体。彭薛葵2025-09-2690
- 一体机、多模态大模型、嵌入式、软硬一体、边缘网关、边缘计算许****胜2025-09-16120
- 本文详细介绍了Intel FPGA SoC中HPS地址映射的工作机制,包括地址空间结构、HPS与FPGA通信接口、Platform Designer设计中的地址配置以及调试方法,为SoC系统开发提供实用指导。Du_carry2025-07-01220
- 介绍紫光同创DDR IP接口以及不同接口的转换逻辑。Du_carry2025-06-27210
- 本文介绍了TCAM的实现原理和优化方案,可以应用于芯片设计、FPGA实现等,在网络设备领域有重要作用。乱序不丢包2025-06-23490
- nohup UVM 测试用例 自动化回归脚本皮纳特没烦恼2025-06-0640
- UVM验证中使用verdi快速定位问题的实例分享c****c2025-05-26330
- 本文主要介绍HPS(硬核处理器系统)在SoC FPGA中的核心架构、与FPGA协同机制,及其在工业控制、网络加速等场景的应用与开发流程。Du_carry2025-03-25460
- 本文介绍一种在大规模逻辑设计中的寄存器分级设计方法,可用于FPGA设计和芯片设计。乱序不丢包2025-03-07210
- PPR,即Post Package Repair,封装后修复技术,是一种对封装后内存颗粒的故障进行修复的技术。为什么强调封装后呢?是因为更早期的时候这种技术是用于封装前的内存故障修复,即在wafer上对还未切割、封装的内存芯片进行修复。CyrusYoung2024-12-162990
- Spyglass tcl皮纳特没烦恼2024-12-043920
- 服务器CPU(中央处理器)是服务器硬件的核心组件之一,它在服务器的运行中扮演着至关重要的角色。它的作用包括但不仅限于数据处理、任务调度、控制协调、多任务处理、缓存管理、虚拟化支持、安全功能及性能监控等。刘****明2024-11-28710
- UVM中一种创建base sequence的方法介绍c****c2024-10-28190
- 收包模式及模式协商c****m2024-10-111290
- 在自回归(Auto-regressive)语言模型的推理过程中,随着新词汇的不断生成,输入序列的长度持续增加,这对计算效率提出了严峻挑战。FlashAttention算子,作为一种高效的注意力机制实现,尤其在增量推理场景下展现出其独特优势。在此场景下,FlashAttention的query维度(S轴)被固定为1,而key和value则通过KV Cache机制,将先前推理过程中的状态信息累积并叠加,以适应每个Batch可能不同的实际长度。值得注意的是,尽管输入数据经过padding处理以维持固定长度,但FlashAttention能够灵活应对这种变化。此外,在全量推理场景中,尽管query的S轴大小不再固定,但FlashAttention的推理流程与增量推理保持一致,确保了算法的通用性和高效性。wanyw2024-09-181670
- UVM field automation机制的使用,让object类中的变量使用更加便捷。但对于某些协议,总线分时复用多种报文类型,也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。余泊江2024-09-04250
- 凭借着更高的可靠性、更好的环境耐受性、更快的生产效率,国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。悟****空2024-08-221660
- 本文将介绍Vunit平台的特点和运作方式,并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具,它具有许多强大的功能,可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化,自动化的测试平台,从而提高FPGA设计代码的质量和效率。夏蒙2024-07-261012
- 这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core,有助于理解BF3的架构和支持的功能。c****62024-06-212970
- 服务器中的导热材料的介绍石金帅2024-05-07190
- 智能网卡存储业务验证过程中,从host侧发送到soc侧的IO读写存储报文,在soc侧需要对IO读写报文进行解析并响应,如果是blk write命令,需要回复blk cpl完成响应,如果是blk read命令,需要返回读数据与blk cpl响应。黄****超2024-04-25271
- 现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速,或者使用FPGA集群实现模型的分布式推理,但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化,通用性不够,同时资源消耗大,很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元,构建常用的算子,比如卷积算子、浮点累加器算子等等,可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术,实现vf级的算子动态调度,进一步增加资源的灵活度。彭薛葵2024-03-21761
- 本文介绍了DSA SVM功能的实现以及需要的硬件支持。l****n2023-12-262294
- 当前,在云计算、数字经济等需求带动下,信息呈爆炸式增长,导致数据量也成倍增长,硬盘容量持续飙升,单盘容量已可达到TB级别,半导体存储登上了历史的舞台。和传统磁盘存储介质相比,半导体存储介质具有天然的优势,无论在可靠性、性能、功耗等方面都远远超越传统机械磁盘。乘风2023-12-051660
共 40 条
- 1
- 2
页
- 该方法探讨了GSO(Generic Segmentation Offload,通用分段卸载)的硬件实现机制及其在现代网络环境中的优化效果。与传统的TCP分段卸载(TSO)和UDP分片卸载(UFO)相比,GSO支持多协议(如TCPv4、UDPv4、VxLAN等),并通过动态分片策略适应不同MTU场景,实现了更通用的硬件加速。此外,硬件GSO与虚拟化技术(如OVS-DPDK)的协同优化进一步提升了虚拟机间通信效率,成为云计算和边缘计算中网络性能优化的关键技术。本方案采用硬件实现GSO功能完成支持多种协议(TCP、UDP、VxLAN、GRE等)的报文分片,通过推迟分片到网络栈最后阶段或卸载到网卡硬件,大幅减少CPU处理开销。减少数据包数量意味着减少协议栈处理次数,提高整体网络吞吐量。
- 拼包切包操作在智能网卡中必不可少,可以绕过CPU和内核进而降低延迟。然而拼切包在FPGA中的外围实现结构会影响到最终的效果,包括资源利用率和维护难度。 本文探讨了FPGA在RDMA(远程直接内存访问)场景下实现数据拼包(聚合非连续内存块)与切包(按PMTU分片)的三种外围硬件架构方案: Ping-Pang RAM方案:通过双RAM交替缓存数据,逻辑简单但资源利用率低,适合报文长度固定的场景。 单RAM方案:合并RAM空间并动态管理地址,优化资源占用,但读写控制逻辑复杂,调试难度高。 FIFO同步方案:利用FIFO同步边带信息与数据流,显著降低逻辑复杂度,提升可维护性,适合高动态数据场景。
- LRU算法,全称是 Least Recently Used(最近最少使用),是一种常见的缓存淘汰策略,广泛应用于操作系统的内存页面置换、数据库缓存、Web 缓存、CPU 缓存等场景。当前文章举例说明怎么使用verilog实现LRU算法。
- 在FPGA设计领域,一个经典的“跷跷板”难题困扰了工程师数十年:追求更高的性能(速度),通常意味着消耗更多的逻辑资源(面积);而致力于缩小设计规模(面积),又往往不得不以降低运行频率(速度)为代价。这个“鱼与熊掌不可兼得”的局面,曾是每个FPGA工程师进行设计决策时的核心权衡。 然而,随着应用场景的复杂化和FPGA自身架构的演进,这种非此即彼的旧思路正在被打破。新一代的设计方法论、工具链和架构创新,正赋予我们前所未有的能力,去追求一个更理想的目标:在有限的芯片面积内,榨取极致的性能。 换句话说,“速度”和“面积”不再是二选一,而是可以协同优化的统一体。
- 一体机、多模态大模型、嵌入式、软硬一体、边缘网关、边缘计算
- 本文详细介绍了Intel FPGA SoC中HPS地址映射的工作机制,包括地址空间结构、HPS与FPGA通信接口、Platform Designer设计中的地址配置以及调试方法,为SoC系统开发提供实用指导。
- 介绍紫光同创DDR IP接口以及不同接口的转换逻辑。
- 本文介绍了TCAM的实现原理和优化方案,可以应用于芯片设计、FPGA实现等,在网络设备领域有重要作用。
- nohup UVM 测试用例 自动化回归脚本
- UVM验证中使用verdi快速定位问题的实例分享
- 本文主要介绍HPS(硬核处理器系统)在SoC FPGA中的核心架构、与FPGA协同机制,及其在工业控制、网络加速等场景的应用与开发流程。
- 本文介绍一种在大规模逻辑设计中的寄存器分级设计方法,可用于FPGA设计和芯片设计。
- Wi-Fi 6(原称:IEEE 802.11.ax)即第六代无线网络技术,是Wi-Fi标准的名称。 是Wi-Fi联盟创建于IEEE 802.11标准的无线局域网技术。 Wi-Fi 6将允许与多达8个设备通信,最高速率可达9.6Gbps。
- PPR,即Post Package Repair,封装后修复技术,是一种对封装后内存颗粒的故障进行修复的技术。为什么强调封装后呢?是因为更早期的时候这种技术是用于封装前的内存故障修复,即在wafer上对还未切割、封装的内存芯片进行修复。
- 本文简单介绍了RISC-V指令集的定义,起源以及发展现状
- Spyglass tcl
- 服务器CPU(中央处理器)是服务器硬件的核心组件之一,它在服务器的运行中扮演着至关重要的角色。它的作用包括但不仅限于数据处理、任务调度、控制协调、多任务处理、缓存管理、虚拟化支持、安全功能及性能监控等。
- UVM中一种创建base sequence的方法介绍
- 简单介绍PCIE的信用作用与分类
- 收包模式及模式协商
- 在自回归(Auto-regressive)语言模型的推理过程中,随着新词汇的不断生成,输入序列的长度持续增加,这对计算效率提出了严峻挑战。FlashAttention算子,作为一种高效的注意力机制实现,尤其在增量推理场景下展现出其独特优势。在此场景下,FlashAttention的query维度(S轴)被固定为1,而key和value则通过KV Cache机制,将先前推理过程中的状态信息累积并叠加,以适应每个Batch可能不同的实际长度。值得注意的是,尽管输入数据经过padding处理以维持固定长度,但FlashAttention能够灵活应对这种变化。此外,在全量推理场景中,尽管query的S轴大小不再固定,但FlashAttention的推理流程与增量推理保持一致,确保了算法的通用性和高效性。
- UVM field automation机制的使用,让object类中的变量使用更加便捷。但对于某些协议,总线分时复用多种报文类型,也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。
- 凭借着更高的可靠性、更好的环境耐受性、更快的生产效率,国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。
- 本文将介绍Vunit平台的特点和运作方式,并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具,它具有许多强大的功能,可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化,自动化的测试平台,从而提高FPGA设计代码的质量和效率。
- 这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core,有助于理解BF3的架构和支持的功能。
- 服务器中的导热材料的介绍
- 智能网卡存储业务验证过程中,从host侧发送到soc侧的IO读写存储报文,在soc侧需要对IO读写报文进行解析并响应,如果是blk write命令,需要回复blk cpl完成响应,如果是blk read命令,需要返回读数据与blk cpl响应。
- 现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速,或者使用FPGA集群实现模型的分布式推理,但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化,通用性不够,同时资源消耗大,很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元,构建常用的算子,比如卷积算子、浮点累加器算子等等,可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术,实现vf级的算子动态调度,进一步增加资源的灵活度。
- 本文介绍了DSA SVM功能的实现以及需要的硬件支持。
- 当前,在云计算、数字经济等需求带动下,信息呈爆炸式增长,导致数据量也成倍增长,硬盘容量持续飙升,单盘容量已可达到TB级别,半导体存储登上了历史的舞台。和传统磁盘存储介质相比,半导体存储介质具有天然的优势,无论在可靠性、性能、功耗等方面都远远超越传统机械磁盘。
点击加载更多