芯片-专栏文章 -天翼云开发者社区

#芯片

关注该标签

专栏文章 42

视频 0

问答 0

RDMA中的NAK机制设计揭秘
本文对RDMA中的NAK机制进行了说明，能够帮助理解RDMA中的异常处理行为。
乱序不丢包
2026-04-07
28
0
配置通道的跨异步时钟设计
本文针对大规模逻辑设计，提出了三种配置通道的跨异步时钟设计方案，并进行对比，提出设计建议。可供架构设计人员和逻辑设计人员思考讨论。
乱序不丢包
2025-12-15
9
0
一种基于报文切片提升网络性能的硬件方法实现
该方法探讨了GSO（Generic Segmentation Offload，通用分段卸载）的硬件实现机制及其在现代网络环境中的优化效果。与传统的TCP分段卸载（TSO）和UDP分片卸载（UFO）相比，GSO支持多协议（如TCPv4、UDPv4、VxLAN等），并通过动态分片策略适应不同MTU场景，实现了更通用的硬件加速。此外，硬件GSO与虚拟化技术（如OVS-DPDK）的协同优化进一步提升了虚拟机间通信效率，成为云计算和边缘计算中网络性能优化的关键技术。本方案采用硬件实现GSO功能完成支持多种协议(TCP、UDP、VxLAN、GRE等)的报文分片，通过推迟分片到网络栈最后阶段或卸载到网卡硬件，大幅减少CPU处理开销。减少数据包数量意味着减少协议栈处理次数，提高整体网络吞吐量。
穆****飞
2025-12-11
6
0
关于FPGA中拼切包的几种外围实现结构的探讨
拼包切包操作在智能网卡中必不可少，可以绕过CPU和内核进而降低延迟。然而拼切包在FPGA中的外围实现结构会影响到最终的效果，包括资源利用率和维护难度。本文探讨了FPGA在RDMA（远程直接内存访问）场景下实现数据拼包（聚合非连续内存块）与切包（按PMTU分片）的三种外围硬件架构方案： Ping-Pang RAM方案：通过双RAM交替缓存数据，逻辑简单但资源利用率低，适合报文长度固定的场景。单RAM方案：合并RAM空间并动态管理地址，优化资源占用，但读写控制逻辑复杂，调试难度高。 FIFO同步方案：利用FIFO同步边带信息与数据流，显著降低逻辑复杂度，提升可维护性，适合高动态数据场景。
c****q
2025-12-04
7
0
使用verilog实现LRU算法说明
LRU算法，全称是 Least Recently Used（最近最少使用），是一种常见的缓存淘汰策略，广泛应用于操作系统的内存页面置换、数据库缓存、Web 缓存、CPU 缓存等场景。当前文章举例说明怎么使用verilog实现LRU算法。
l****m
2025-09-26
7
0
FPGA设计新思路：告别取舍，“速度”与“面积”一把抓
在FPGA设计领域，一个经典的“跷跷板”难题困扰了工程师数十年：追求更高的性能（速度），通常意味着消耗更多的逻辑资源（面积）；而致力于缩小设计规模（面积），又往往不得不以降低运行频率（速度）为代价。这个“鱼与熊掌不可兼得”的局面，曾是每个FPGA工程师进行设计决策时的核心权衡。然而，随着应用场景的复杂化和FPGA自身架构的演进，这种非此即彼的旧思路正在被打破。新一代的设计方法论、工具链和架构创新，正赋予我们前所未有的能力，去追求一个更理想的目标：在有限的芯片面积内，榨取极致的性能。换句话说，“速度”和“面积”不再是二选一，而是可以协同优化的统一体。
彭薛葵
2025-09-26
17
0
新一代AI一体机的展望
一体机、多模态大模型、嵌入式、软硬一体、边缘网关、边缘计算
许****胜
2025-09-16
31
0
HPS地址映射详解：Intel FPGA SoC系统设计关键技术
本文详细介绍了Intel FPGA SoC中HPS地址映射的工作机制，包括地址空间结构、HPS与FPGA通信接口、Platform Designer设计中的地址配置以及调试方法，为SoC系统开发提供实用指导。
Du_carry
2025-07-01
40
0
标准AXI4与紫光DDR IP Simplified AXI4接口转换详解
介绍紫光同创DDR IP接口以及不同接口的转换逻辑。
Du_carry
2025-06-27
33
0
TCAM在芯片中的设计与优化
本文介绍了TCAM的实现原理和优化方案，可以应用于芯片设计、FPGA实现等，在网络设备领域有重要作用。
乱序不丢包
2025-06-23
72
0
一种基于nohup的测试用例自动化回归脚本
nohup UVM 测试用例自动化回归脚本
皮纳特没烦恼
2025-06-06
4
0
UVM验证中利用verdi定位硬件问题实战
UVM验证中使用verdi快速定位问题的实例分享
c****c
2025-05-26
56
0
HPS（硬核处理器系统）开发1——概述
本文主要介绍HPS（硬核处理器系统）在SoC FPGA中的核心架构、与FPGA协同机制，及其在工业控制、网络加速等场景的应用与开发流程。
Du_carry
2025-03-25
93
0
大规模逻辑设计中的寄存器分级设计
本文介绍一种在大规模逻辑设计中的寄存器分级设计方法，可用于FPGA设计和芯片设计。
乱序不丢包
2025-03-07
25
0
第六代WiFi技术
Wi-Fi 6（原称：IEEE 802.11.ax）即第六代无线网络技术，是Wi-Fi标准的名称。是Wi-Fi联盟创建于IEEE 802.11标准的无线局域网技术。 Wi-Fi 6将允许与多达8个设备通信，最高速率可达9.6Gbps。
乘风
2024-12-16
51
0
浅谈内存PPR技术
PPR，即Post Package Repair，封装后修复技术，是一种对封装后内存颗粒的故障进行修复的技术。为什么强调封装后呢？是因为更早期的时候这种技术是用于封装前的内存故障修复，即在wafer上对还未切割、封装的内存芯片进行修复。
CyrusYoung
2024-12-16
331
0
RISC-V简介
本文简单介绍了RISC-V指令集的定义，起源以及发展现状
c****c
2024-12-11
132
1
Spyglass自动化脚本开发指南
Spyglass tcl
皮纳特没烦恼
2024-12-04
483
0
Server系列 -- 服务器大脑CPU
服务器CPU（中央处理器）是服务器硬件的核心组件之一，它在服务器的运行中扮演着至关重要的角色。它的作用包括但不仅限于数据处理、任务调度、控制协调、多任务处理、缓存管理、虚拟化支持、安全功能及性能监控等。
刘****明
2024-11-28
84
0
UVM验证中一种创建base sequence方法
UVM中一种创建base sequence的方法介绍
c****c
2024-10-28
29
0
PCIE信用简介
简单介绍PCIE的信用作用与分类
o**s**n
2024-10-11
83
0
virtio-net收包模式及协商过程介绍
收包模式及模式协商
c****m
2024-10-11
140
0
IncreFlashAttention源码分析
在自回归（Auto-regressive）语言模型的推理过程中，随着新词汇的不断生成，输入序列的长度持续增加，这对计算效率提出了严峻挑战。FlashAttention算子，作为一种高效的注意力机制实现，尤其在增量推理场景下展现出其独特优势。在此场景下，FlashAttention的query维度（S轴）被固定为1，而key和value则通过KV Cache机制，将先前推理过程中的状态信息累积并叠加，以适应每个Batch可能不同的实际长度。值得注意的是，尽管输入数据经过padding处理以维持固定长度，但FlashAttention能够灵活应对这种变化。此外，在全量推理场景中，尽管query的S轴大小不再固定，但FlashAttention的推理流程与增量推理保持一致，确保了算法的通用性和高效性。
wanyw
2024-09-18
177
0
field automation机制与if条件
UVM field automation机制的使用，让object类中的变量使用更加便捷。但对于某些协议，总线分时复用多种报文类型，也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。
余泊江
2024-09-04
31
0
国产内置晶振的实时时钟芯片介绍
凭借着更高的可靠性、更好的环境耐受性、更快的生产效率，国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。
悟****空
2024-08-22
171
0
一种基于Vunit框架的自动化测试平台
本文将介绍Vunit平台的特点和运作方式，并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具，它具有许多强大的功能，可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化，自动化的测试平台，从而提高FPGA设计代码的质量和效率。
夏蒙
2024-07-26
106
2
NVDIA BF3 DOCA Core
这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core，有助于理解BF3的架构和支持的功能。
c****6
2024-06-21
306
0
服务器等电子产品导热材料种类及介绍
服务器中的导热材料的介绍
石金帅
2024-05-07
22
0
UVM验证平台实现存储IO报文自动响应的一种方式
智能网卡存储业务验证过程中，从host侧发送到soc侧的IO读写存储报文，在soc侧需要对IO读写报文进行解析并响应，如果是blk write命令，需要回复blk cpl完成响应，如果是blk read命令，需要返回读数据与blk cpl响应。
黄****超
2024-04-25
31
1
一种FPGA在“云”中的算力调度平台实现方法
现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速，或者使用FPGA集群实现模型的分布式推理，但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化，通用性不够，同时资源消耗大，很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元，构建常用的算子，比如卷积算子、浮点累加器算子等等，可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术，实现vf级的算子动态调度，进一步增加资源的灵活度。
彭薛葵
2024-03-21
80
1

共 42 条前往

页

RDMA中的NAK机制设计揭秘
本文对RDMA中的NAK机制进行了说明，能够帮助理解RDMA中的异常处理行为。
配置通道的跨异步时钟设计
本文针对大规模逻辑设计，提出了三种配置通道的跨异步时钟设计方案，并进行对比，提出设计建议。可供架构设计人员和逻辑设计人员思考讨论。
一种基于报文切片提升网络性能的硬件方法实现
该方法探讨了GSO（Generic Segmentation Offload，通用分段卸载）的硬件实现机制及其在现代网络环境中的优化效果。与传统的TCP分段卸载（TSO）和UDP分片卸载（UFO）相比，GSO支持多协议（如TCPv4、UDPv4、VxLAN等），并通过动态分片策略适应不同MTU场景，实现了更通用的硬件加速。此外，硬件GSO与虚拟化技术（如OVS-DPDK）的协同优化进一步提升了虚拟机间通信效率，成为云计算和边缘计算中网络性能优化的关键技术。本方案采用硬件实现GSO功能完成支持多种协议(TCP、UDP、VxLAN、GRE等)的报文分片，通过推迟分片到网络栈最后阶段或卸载到网卡硬件，大幅减少CPU处理开销。减少数据包数量意味着减少协议栈处理次数，提高整体网络吞吐量。
关于FPGA中拼切包的几种外围实现结构的探讨
拼包切包操作在智能网卡中必不可少，可以绕过CPU和内核进而降低延迟。然而拼切包在FPGA中的外围实现结构会影响到最终的效果，包括资源利用率和维护难度。本文探讨了FPGA在RDMA（远程直接内存访问）场景下实现数据拼包（聚合非连续内存块）与切包（按PMTU分片）的三种外围硬件架构方案： Ping-Pang RAM方案：通过双RAM交替缓存数据，逻辑简单但资源利用率低，适合报文长度固定的场景。单RAM方案：合并RAM空间并动态管理地址，优化资源占用，但读写控制逻辑复杂，调试难度高。 FIFO同步方案：利用FIFO同步边带信息与数据流，显著降低逻辑复杂度，提升可维护性，适合高动态数据场景。
使用verilog实现LRU算法说明
LRU算法，全称是 Least Recently Used（最近最少使用），是一种常见的缓存淘汰策略，广泛应用于操作系统的内存页面置换、数据库缓存、Web 缓存、CPU 缓存等场景。当前文章举例说明怎么使用verilog实现LRU算法。
FPGA设计新思路：告别取舍，“速度”与“面积”一把抓
在FPGA设计领域，一个经典的“跷跷板”难题困扰了工程师数十年：追求更高的性能（速度），通常意味着消耗更多的逻辑资源（面积）；而致力于缩小设计规模（面积），又往往不得不以降低运行频率（速度）为代价。这个“鱼与熊掌不可兼得”的局面，曾是每个FPGA工程师进行设计决策时的核心权衡。然而，随着应用场景的复杂化和FPGA自身架构的演进，这种非此即彼的旧思路正在被打破。新一代的设计方法论、工具链和架构创新，正赋予我们前所未有的能力，去追求一个更理想的目标：在有限的芯片面积内，榨取极致的性能。换句话说，“速度”和“面积”不再是二选一，而是可以协同优化的统一体。
新一代AI一体机的展望
一体机、多模态大模型、嵌入式、软硬一体、边缘网关、边缘计算
HPS地址映射详解：Intel FPGA SoC系统设计关键技术
本文详细介绍了Intel FPGA SoC中HPS地址映射的工作机制，包括地址空间结构、HPS与FPGA通信接口、Platform Designer设计中的地址配置以及调试方法，为SoC系统开发提供实用指导。
标准AXI4与紫光DDR IP Simplified AXI4接口转换详解
介绍紫光同创DDR IP接口以及不同接口的转换逻辑。
TCAM在芯片中的设计与优化
本文介绍了TCAM的实现原理和优化方案，可以应用于芯片设计、FPGA实现等，在网络设备领域有重要作用。
一种基于nohup的测试用例自动化回归脚本
nohup UVM 测试用例自动化回归脚本
UVM验证中利用verdi定位硬件问题实战
UVM验证中使用verdi快速定位问题的实例分享
HPS（硬核处理器系统）开发1——概述
本文主要介绍HPS（硬核处理器系统）在SoC FPGA中的核心架构、与FPGA协同机制，及其在工业控制、网络加速等场景的应用与开发流程。
大规模逻辑设计中的寄存器分级设计
本文介绍一种在大规模逻辑设计中的寄存器分级设计方法，可用于FPGA设计和芯片设计。
第六代WiFi技术
Wi-Fi 6（原称：IEEE 802.11.ax）即第六代无线网络技术，是Wi-Fi标准的名称。是Wi-Fi联盟创建于IEEE 802.11标准的无线局域网技术。 Wi-Fi 6将允许与多达8个设备通信，最高速率可达9.6Gbps。
浅谈内存PPR技术
PPR，即Post Package Repair，封装后修复技术，是一种对封装后内存颗粒的故障进行修复的技术。为什么强调封装后呢？是因为更早期的时候这种技术是用于封装前的内存故障修复，即在wafer上对还未切割、封装的内存芯片进行修复。
RISC-V简介
本文简单介绍了RISC-V指令集的定义，起源以及发展现状
Spyglass自动化脚本开发指南
Spyglass tcl
Server系列 -- 服务器大脑CPU
服务器CPU（中央处理器）是服务器硬件的核心组件之一，它在服务器的运行中扮演着至关重要的角色。它的作用包括但不仅限于数据处理、任务调度、控制协调、多任务处理、缓存管理、虚拟化支持、安全功能及性能监控等。
UVM验证中一种创建base sequence方法
UVM中一种创建base sequence的方法介绍
PCIE信用简介
简单介绍PCIE的信用作用与分类
virtio-net收包模式及协商过程介绍
收包模式及模式协商
IncreFlashAttention源码分析
在自回归（Auto-regressive）语言模型的推理过程中，随着新词汇的不断生成，输入序列的长度持续增加，这对计算效率提出了严峻挑战。FlashAttention算子，作为一种高效的注意力机制实现，尤其在增量推理场景下展现出其独特优势。在此场景下，FlashAttention的query维度（S轴）被固定为1，而key和value则通过KV Cache机制，将先前推理过程中的状态信息累积并叠加，以适应每个Batch可能不同的实际长度。值得注意的是，尽管输入数据经过padding处理以维持固定长度，但FlashAttention能够灵活应对这种变化。此外，在全量推理场景中，尽管query的S轴大小不再固定，但FlashAttention的推理流程与增量推理保持一致，确保了算法的通用性和高效性。
field automation机制与if条件
UVM field automation机制的使用，让object类中的变量使用更加便捷。但对于某些协议，总线分时复用多种报文类型，也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。
国产内置晶振的实时时钟芯片介绍
凭借着更高的可靠性、更好的环境耐受性、更快的生产效率，国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。
一种基于Vunit框架的自动化测试平台
本文将介绍Vunit平台的特点和运作方式，并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具，它具有许多强大的功能，可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化，自动化的测试平台，从而提高FPGA设计代码的质量和效率。
NVDIA BF3 DOCA Core
这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core，有助于理解BF3的架构和支持的功能。
服务器等电子产品导热材料种类及介绍
服务器中的导热材料的介绍
UVM验证平台实现存储IO报文自动响应的一种方式
智能网卡存储业务验证过程中，从host侧发送到soc侧的IO读写存储报文，在soc侧需要对IO读写报文进行解析并响应，如果是blk write命令，需要回复blk cpl完成响应，如果是blk read命令，需要返回读数据与blk cpl响应。
一种FPGA在“云”中的算力调度平台实现方法
现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速，或者使用FPGA集群实现模型的分布式推理，但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化，通用性不够，同时资源消耗大，很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元，构建常用的算子，比如卷积算子、浮点累加器算子等等，可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术，实现vf级的算子动态调度，进一步增加资源的灵活度。

点击加载更多

#芯片

关注该标签

专栏文章 42

视频 0

问答 0

RDMA中的NAK机制设计揭秘
本文对RDMA中的NAK机制进行了说明，能够帮助理解RDMA中的异常处理行为。
乱序不丢包
2026-04-07
28
0
配置通道的跨异步时钟设计
本文针对大规模逻辑设计，提出了三种配置通道的跨异步时钟设计方案，并进行对比，提出设计建议。可供架构设计人员和逻辑设计人员思考讨论。
乱序不丢包
2025-12-15
9
0
一种基于报文切片提升网络性能的硬件方法实现
该方法探讨了GSO（Generic Segmentation Offload，通用分段卸载）的硬件实现机制及其在现代网络环境中的优化效果。与传统的TCP分段卸载（TSO）和UDP分片卸载（UFO）相比，GSO支持多协议（如TCPv4、UDPv4、VxLAN等），并通过动态分片策略适应不同MTU场景，实现了更通用的硬件加速。此外，硬件GSO与虚拟化技术（如OVS-DPDK）的协同优化进一步提升了虚拟机间通信效率，成为云计算和边缘计算中网络性能优化的关键技术。本方案采用硬件实现GSO功能完成支持多种协议(TCP、UDP、VxLAN、GRE等)的报文分片，通过推迟分片到网络栈最后阶段或卸载到网卡硬件，大幅减少CPU处理开销。减少数据包数量意味着减少协议栈处理次数，提高整体网络吞吐量。
穆****飞
2025-12-11
6
0
关于FPGA中拼切包的几种外围实现结构的探讨
拼包切包操作在智能网卡中必不可少，可以绕过CPU和内核进而降低延迟。然而拼切包在FPGA中的外围实现结构会影响到最终的效果，包括资源利用率和维护难度。本文探讨了FPGA在RDMA（远程直接内存访问）场景下实现数据拼包（聚合非连续内存块）与切包（按PMTU分片）的三种外围硬件架构方案： Ping-Pang RAM方案：通过双RAM交替缓存数据，逻辑简单但资源利用率低，适合报文长度固定的场景。单RAM方案：合并RAM空间并动态管理地址，优化资源占用，但读写控制逻辑复杂，调试难度高。 FIFO同步方案：利用FIFO同步边带信息与数据流，显著降低逻辑复杂度，提升可维护性，适合高动态数据场景。
c****q
2025-12-04
7
0
使用verilog实现LRU算法说明
LRU算法，全称是 Least Recently Used（最近最少使用），是一种常见的缓存淘汰策略，广泛应用于操作系统的内存页面置换、数据库缓存、Web 缓存、CPU 缓存等场景。当前文章举例说明怎么使用verilog实现LRU算法。
l****m
2025-09-26
7
0
FPGA设计新思路：告别取舍，“速度”与“面积”一把抓
在FPGA设计领域，一个经典的“跷跷板”难题困扰了工程师数十年：追求更高的性能（速度），通常意味着消耗更多的逻辑资源（面积）；而致力于缩小设计规模（面积），又往往不得不以降低运行频率（速度）为代价。这个“鱼与熊掌不可兼得”的局面，曾是每个FPGA工程师进行设计决策时的核心权衡。然而，随着应用场景的复杂化和FPGA自身架构的演进，这种非此即彼的旧思路正在被打破。新一代的设计方法论、工具链和架构创新，正赋予我们前所未有的能力，去追求一个更理想的目标：在有限的芯片面积内，榨取极致的性能。换句话说，“速度”和“面积”不再是二选一，而是可以协同优化的统一体。
彭薛葵
2025-09-26
17
0
新一代AI一体机的展望
一体机、多模态大模型、嵌入式、软硬一体、边缘网关、边缘计算
许****胜
2025-09-16
31
0
HPS地址映射详解：Intel FPGA SoC系统设计关键技术
本文详细介绍了Intel FPGA SoC中HPS地址映射的工作机制，包括地址空间结构、HPS与FPGA通信接口、Platform Designer设计中的地址配置以及调试方法，为SoC系统开发提供实用指导。
Du_carry
2025-07-01
40
0
标准AXI4与紫光DDR IP Simplified AXI4接口转换详解
介绍紫光同创DDR IP接口以及不同接口的转换逻辑。
Du_carry
2025-06-27
33
0
TCAM在芯片中的设计与优化
本文介绍了TCAM的实现原理和优化方案，可以应用于芯片设计、FPGA实现等，在网络设备领域有重要作用。
乱序不丢包
2025-06-23
72
0
一种基于nohup的测试用例自动化回归脚本
nohup UVM 测试用例自动化回归脚本
皮纳特没烦恼
2025-06-06
4
0
UVM验证中利用verdi定位硬件问题实战
UVM验证中使用verdi快速定位问题的实例分享
c****c
2025-05-26
56
0
HPS（硬核处理器系统）开发1——概述
本文主要介绍HPS（硬核处理器系统）在SoC FPGA中的核心架构、与FPGA协同机制，及其在工业控制、网络加速等场景的应用与开发流程。
Du_carry
2025-03-25
93
0
大规模逻辑设计中的寄存器分级设计
本文介绍一种在大规模逻辑设计中的寄存器分级设计方法，可用于FPGA设计和芯片设计。
乱序不丢包
2025-03-07
25
0
第六代WiFi技术
Wi-Fi 6（原称：IEEE 802.11.ax）即第六代无线网络技术，是Wi-Fi标准的名称。是Wi-Fi联盟创建于IEEE 802.11标准的无线局域网技术。 Wi-Fi 6将允许与多达8个设备通信，最高速率可达9.6Gbps。
乘风
2024-12-16
51
0
浅谈内存PPR技术
PPR，即Post Package Repair，封装后修复技术，是一种对封装后内存颗粒的故障进行修复的技术。为什么强调封装后呢？是因为更早期的时候这种技术是用于封装前的内存故障修复，即在wafer上对还未切割、封装的内存芯片进行修复。
CyrusYoung
2024-12-16
331
0
RISC-V简介
本文简单介绍了RISC-V指令集的定义，起源以及发展现状
c****c
2024-12-11
132
1
Spyglass自动化脚本开发指南
Spyglass tcl
皮纳特没烦恼
2024-12-04
483
0
Server系列 -- 服务器大脑CPU
服务器CPU（中央处理器）是服务器硬件的核心组件之一，它在服务器的运行中扮演着至关重要的角色。它的作用包括但不仅限于数据处理、任务调度、控制协调、多任务处理、缓存管理、虚拟化支持、安全功能及性能监控等。
刘****明
2024-11-28
84
0
UVM验证中一种创建base sequence方法
UVM中一种创建base sequence的方法介绍
c****c
2024-10-28
29
0
PCIE信用简介
简单介绍PCIE的信用作用与分类
o**s**n
2024-10-11
83
0
virtio-net收包模式及协商过程介绍
收包模式及模式协商
c****m
2024-10-11
140
0
IncreFlashAttention源码分析
在自回归（Auto-regressive）语言模型的推理过程中，随着新词汇的不断生成，输入序列的长度持续增加，这对计算效率提出了严峻挑战。FlashAttention算子，作为一种高效的注意力机制实现，尤其在增量推理场景下展现出其独特优势。在此场景下，FlashAttention的query维度（S轴）被固定为1，而key和value则通过KV Cache机制，将先前推理过程中的状态信息累积并叠加，以适应每个Batch可能不同的实际长度。值得注意的是，尽管输入数据经过padding处理以维持固定长度，但FlashAttention能够灵活应对这种变化。此外，在全量推理场景中，尽管query的S轴大小不再固定，但FlashAttention的推理流程与增量推理保持一致，确保了算法的通用性和高效性。
wanyw
2024-09-18
177
0
field automation机制与if条件
UVM field automation机制的使用，让object类中的变量使用更加便捷。但对于某些协议，总线分时复用多种报文类型，也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。
余泊江
2024-09-04
31
0
国产内置晶振的实时时钟芯片介绍
凭借着更高的可靠性、更好的环境耐受性、更快的生产效率，国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。
悟****空
2024-08-22
171
0
一种基于Vunit框架的自动化测试平台
本文将介绍Vunit平台的特点和运作方式，并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具，它具有许多强大的功能，可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化，自动化的测试平台，从而提高FPGA设计代码的质量和效率。
夏蒙
2024-07-26
106
2
NVDIA BF3 DOCA Core
这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core，有助于理解BF3的架构和支持的功能。
c****6
2024-06-21
306
0
服务器等电子产品导热材料种类及介绍
服务器中的导热材料的介绍
石金帅
2024-05-07
22
0
UVM验证平台实现存储IO报文自动响应的一种方式
智能网卡存储业务验证过程中，从host侧发送到soc侧的IO读写存储报文，在soc侧需要对IO读写报文进行解析并响应，如果是blk write命令，需要回复blk cpl完成响应，如果是blk read命令，需要返回读数据与blk cpl响应。
黄****超
2024-04-25
31
1
一种FPGA在“云”中的算力调度平台实现方法
现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速，或者使用FPGA集群实现模型的分布式推理，但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化，通用性不够，同时资源消耗大，很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元，构建常用的算子，比如卷积算子、浮点累加器算子等等，可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术，实现vf级的算子动态调度，进一步增加资源的灵活度。
彭薛葵
2024-03-21
80
1

共 42 条前往

页

RDMA中的NAK机制设计揭秘
本文对RDMA中的NAK机制进行了说明，能够帮助理解RDMA中的异常处理行为。
配置通道的跨异步时钟设计
本文针对大规模逻辑设计，提出了三种配置通道的跨异步时钟设计方案，并进行对比，提出设计建议。可供架构设计人员和逻辑设计人员思考讨论。
一种基于报文切片提升网络性能的硬件方法实现
该方法探讨了GSO（Generic Segmentation Offload，通用分段卸载）的硬件实现机制及其在现代网络环境中的优化效果。与传统的TCP分段卸载（TSO）和UDP分片卸载（UFO）相比，GSO支持多协议（如TCPv4、UDPv4、VxLAN等），并通过动态分片策略适应不同MTU场景，实现了更通用的硬件加速。此外，硬件GSO与虚拟化技术（如OVS-DPDK）的协同优化进一步提升了虚拟机间通信效率，成为云计算和边缘计算中网络性能优化的关键技术。本方案采用硬件实现GSO功能完成支持多种协议(TCP、UDP、VxLAN、GRE等)的报文分片，通过推迟分片到网络栈最后阶段或卸载到网卡硬件，大幅减少CPU处理开销。减少数据包数量意味着减少协议栈处理次数，提高整体网络吞吐量。
关于FPGA中拼切包的几种外围实现结构的探讨
拼包切包操作在智能网卡中必不可少，可以绕过CPU和内核进而降低延迟。然而拼切包在FPGA中的外围实现结构会影响到最终的效果，包括资源利用率和维护难度。本文探讨了FPGA在RDMA（远程直接内存访问）场景下实现数据拼包（聚合非连续内存块）与切包（按PMTU分片）的三种外围硬件架构方案： Ping-Pang RAM方案：通过双RAM交替缓存数据，逻辑简单但资源利用率低，适合报文长度固定的场景。单RAM方案：合并RAM空间并动态管理地址，优化资源占用，但读写控制逻辑复杂，调试难度高。 FIFO同步方案：利用FIFO同步边带信息与数据流，显著降低逻辑复杂度，提升可维护性，适合高动态数据场景。
使用verilog实现LRU算法说明
LRU算法，全称是 Least Recently Used（最近最少使用），是一种常见的缓存淘汰策略，广泛应用于操作系统的内存页面置换、数据库缓存、Web 缓存、CPU 缓存等场景。当前文章举例说明怎么使用verilog实现LRU算法。
FPGA设计新思路：告别取舍，“速度”与“面积”一把抓
在FPGA设计领域，一个经典的“跷跷板”难题困扰了工程师数十年：追求更高的性能（速度），通常意味着消耗更多的逻辑资源（面积）；而致力于缩小设计规模（面积），又往往不得不以降低运行频率（速度）为代价。这个“鱼与熊掌不可兼得”的局面，曾是每个FPGA工程师进行设计决策时的核心权衡。然而，随着应用场景的复杂化和FPGA自身架构的演进，这种非此即彼的旧思路正在被打破。新一代的设计方法论、工具链和架构创新，正赋予我们前所未有的能力，去追求一个更理想的目标：在有限的芯片面积内，榨取极致的性能。换句话说，“速度”和“面积”不再是二选一，而是可以协同优化的统一体。
新一代AI一体机的展望
一体机、多模态大模型、嵌入式、软硬一体、边缘网关、边缘计算
HPS地址映射详解：Intel FPGA SoC系统设计关键技术
本文详细介绍了Intel FPGA SoC中HPS地址映射的工作机制，包括地址空间结构、HPS与FPGA通信接口、Platform Designer设计中的地址配置以及调试方法，为SoC系统开发提供实用指导。
标准AXI4与紫光DDR IP Simplified AXI4接口转换详解
介绍紫光同创DDR IP接口以及不同接口的转换逻辑。
TCAM在芯片中的设计与优化
本文介绍了TCAM的实现原理和优化方案，可以应用于芯片设计、FPGA实现等，在网络设备领域有重要作用。
一种基于nohup的测试用例自动化回归脚本
nohup UVM 测试用例自动化回归脚本
UVM验证中利用verdi定位硬件问题实战
UVM验证中使用verdi快速定位问题的实例分享
HPS（硬核处理器系统）开发1——概述
本文主要介绍HPS（硬核处理器系统）在SoC FPGA中的核心架构、与FPGA协同机制，及其在工业控制、网络加速等场景的应用与开发流程。
大规模逻辑设计中的寄存器分级设计
本文介绍一种在大规模逻辑设计中的寄存器分级设计方法，可用于FPGA设计和芯片设计。
第六代WiFi技术
Wi-Fi 6（原称：IEEE 802.11.ax）即第六代无线网络技术，是Wi-Fi标准的名称。是Wi-Fi联盟创建于IEEE 802.11标准的无线局域网技术。 Wi-Fi 6将允许与多达8个设备通信，最高速率可达9.6Gbps。
浅谈内存PPR技术
PPR，即Post Package Repair，封装后修复技术，是一种对封装后内存颗粒的故障进行修复的技术。为什么强调封装后呢？是因为更早期的时候这种技术是用于封装前的内存故障修复，即在wafer上对还未切割、封装的内存芯片进行修复。
RISC-V简介
本文简单介绍了RISC-V指令集的定义，起源以及发展现状
Spyglass自动化脚本开发指南
Spyglass tcl
Server系列 -- 服务器大脑CPU
服务器CPU（中央处理器）是服务器硬件的核心组件之一，它在服务器的运行中扮演着至关重要的角色。它的作用包括但不仅限于数据处理、任务调度、控制协调、多任务处理、缓存管理、虚拟化支持、安全功能及性能监控等。
UVM验证中一种创建base sequence方法
UVM中一种创建base sequence的方法介绍
PCIE信用简介
简单介绍PCIE的信用作用与分类
virtio-net收包模式及协商过程介绍
收包模式及模式协商
IncreFlashAttention源码分析
在自回归（Auto-regressive）语言模型的推理过程中，随着新词汇的不断生成，输入序列的长度持续增加，这对计算效率提出了严峻挑战。FlashAttention算子，作为一种高效的注意力机制实现，尤其在增量推理场景下展现出其独特优势。在此场景下，FlashAttention的query维度（S轴）被固定为1，而key和value则通过KV Cache机制，将先前推理过程中的状态信息累积并叠加，以适应每个Batch可能不同的实际长度。值得注意的是，尽管输入数据经过padding处理以维持固定长度，但FlashAttention能够灵活应对这种变化。此外，在全量推理场景中，尽管query的S轴大小不再固定，但FlashAttention的推理流程与增量推理保持一致，确保了算法的通用性和高效性。
field automation机制与if条件
UVM field automation机制的使用，让object类中的变量使用更加便捷。但对于某些协议，总线分时复用多种报文类型，也就对应着不同的object类变量。可以使用if条件更准确的进行field automation注册。
国产内置晶振的实时时钟芯片介绍
凭借着更高的可靠性、更好的环境耐受性、更快的生产效率，国产SD8564 RTC芯片将是边缘设备、服务器等设备的新选择。
一种基于Vunit框架的自动化测试平台
本文将介绍Vunit平台的特点和运作方式，并在Vunit框架的基础上编写一个小型自动化Verilog/System Verilog HDL模块测试平台。Vunit是一种用于硬件验证的开源工具，它具有许多强大的功能，可以帮助工程师更轻松地进行FPGA设计的模块验证工作。通过深入了解Vunit的特点和运作方式开发轻量化，自动化的测试平台，从而提高FPGA设计代码的质量和效率。
NVDIA BF3 DOCA Core
这篇文章详细介绍了NVDIA BlueFiled3 DOCA Core，有助于理解BF3的架构和支持的功能。
服务器等电子产品导热材料种类及介绍
服务器中的导热材料的介绍
UVM验证平台实现存储IO报文自动响应的一种方式
智能网卡存储业务验证过程中，从host侧发送到soc侧的IO读写存储报文，在soc侧需要对IO读写报文进行解析并响应，如果是blk write命令，需要回复blk cpl完成响应，如果是blk read命令，需要返回读数据与blk cpl响应。
一种FPGA在“云”中的算力调度平台实现方法
现有FPGA的AI加速技术往往使用单卡方案实现某个模型的加速，或者使用FPGA集群实现模型的分布式推理，但是没有更细力度的加速方案。单卡和集群的方案容易造成功能固化，通用性不够，同时资源消耗大，很难实现资源共享。本文考虑到AI中常用算法中的基本计算单元，构建常用的算子，比如卷积算子、浮点累加器算子等等，可以实现更细粒度的功能整合。同时由于基于PCIe SR-IOV技术，实现vf级的算子动态调度，进一步增加资源的灵活度。

点击加载更多

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云