searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享

安培AmpereOne-3展望

2024-04-30 05:51:46
4
0

    第一批双核处理器于 2001 年进入数据中心,大约四年后,芯片时钟速度的缩放或多或少停止了,这是芯片架构师在架构增强方面的最后一次免费搭车。当时摩尔定律仍然很强大,但显然已进入中年,因为每个制造节点的晶体管成本不断变得越来越小,但速度正在下降。在 10 纳米屏障附近,每个晶体管的成本开始上升而不是下降,并且在可预见的未来,这种情况将持续下去,直到我们找到 CMOS 芯片蚀刻的替代方案。这可能意味着只要我们任何一个达到一定年龄的人都会关心。

   因此,我们希望计算引擎上有越来越多的核心,充满小芯片的插槽正在成为主板,就像一个黑洞将周围的组件吸进去,因为任何可以将信号保持在插槽内的东西都会增加计算量和经济性即使转向小芯片对功耗和散热造成各种破坏,也能提高效率。互连在插座功率预算中所占的份额越来越大,但转向小芯片可以提高产量,从而降低制造成本,并提供我们认为行业所需的灵活性。为什么您的计算引擎插槽只能配备来自一家芯片制造商的组件?你的主板从来没有这样做过。

   正是在这样的背景下,以及为人工智能推理和其他更传统的工作负载创建更好的计算引擎的愿望,AmpereComputing 暗示未来将推出 AmpereOne 计算引擎。

    推出192核心“Siryn”AmpereOne-1芯片,该芯片基于台积电5纳米工艺蚀刻的A1核心,是安培计算首款自主研发的Arm核心2023 年 5 月。这是真正的 Ampere 计算代号,但我们将其称为 AmpereOne-1,因此我们可以将其与后续的 AmpereOne 芯片区分开来。不管怎样,这个 192 核 Siryn 芯片有 8 个 DDR5 内存通道,与Amazon Web Services 的Gravition3 Arm 服务器 CPU 设计一样,AmpereOne-1 设计将所有计算核心放在一个单片芯片上,然后将内存控制器和 I 封装起来。 /O 外部控制器小芯片。 AmpereOne-1 的 SKU 具有 136、144、160、176 和 192 个活动核心,功耗范围为 200 瓦到 350 瓦;核心运行频率为 3 GHz。

Wittich 在我们的电话会议上提醒我们,这次电话会议表面上是关于 CPU 上的人工智能推理,更新后的 AmpereOne 芯片将于今年晚些时候推出,具有 12 个内存通道。在我们的路线图中,这被称为“Polaris”芯片 - 这是我们的代号 - 它使用 A2 内核,比 A1 内核具有更高的性能和更多功能。

AmpereOne-2(我们也这么称呼它)的 DDR5 内存控制器数量将增加 33%,并且根据支持的内存速度和容量,容量将增加约三分之一,甚至可能增加 40% 甚至 50%带宽。 AmpereOne-1 具有运行频率为 4.8 GHz 的 DDR5 内存,但您可以获得运行频率高达 6 GHz 或 7.8 GHz 的 DIMM。如果您不介意热量,那么当有十几个内存控制器在 7.8 GHz 下运行时,这款采用 TSMC 增强型 5 纳米工艺蚀刻的 AmpereOne-2 芯片的带宽可能会增加 2.25 倍。我们认为 AmpereComputing 将采用 6.4GHz DDR5 内存,并将每个插槽的带宽加倍,这将有助于在 CPU 上进行人工智能推理。

内存控制器的增强可能为我们所说的 AmpereOne-3 芯片奠定了基础,这是我们给它起的名字,采用台积电的 3 纳米(准确地说是 3N)工艺蚀刻而成。我们认为这将使用改进的 A2+ 核心。 Wittich 向我们证实,未来的 AmpereOne 芯片实际上正在使用 3N 工艺,并且在即将推出时正在台积电进行蚀刻。然后他告诉我们,这个未来的芯片将有 256 个核心。他没有深入讨论小芯片架构,但确实表示 Ampere 计算正在使用 PCI-Express 的 UCI-Express 插槽内变体作为未来设计的小芯片互连。

AmpereOne-3 也很有可能拥有更胖的向量 - AmpereOne-1 有两个 128 位向量,就像 Neoverse N1 和 N2 内核所做的那样,但我们认为这需要加倍到四个 128 位向量或真正的张量核心矩阵数学单元必须添加到核心或作为核心图块的附件。可能性有很多,但我们知道一件事:AmpereComputing 致力于在技术上可行的情况下在其 CPU 上捕获尽可能多的人工智能推理。

正如大型语言模型的出现并改变了(双关语)人工智能市场的一切,并使其对每个人来说都变得非常真实,正如英特尔和 IBM 在各自的 Xeon 5(以前的 Xeon SP)中添加矩阵数学单元一样, Power10 处理器,我们就AI推理如何主要保留在CPU上进行了争论,尽管在 GPT-4 需要 8 或 16 个 GPU 来托管模型以使用合理的子模型进行推理时,它看起来确实不像这样。 200 毫秒的响应时间,随着 GPT-4 模型参数大小的增长,今天我们正在研究大约 32 个 GPU。

在左侧,AmpereComputing 的 80 核 Altra CPU 和 Nvidia T4 GPU 加速器之间每花费一美元的推理结果非常接近,除了 OpenAI Whisper 自动语音识别系统,其中 Altra CPU 远远超过了 T4,而且让英特尔“Ice Lake”Xeon 和 AWS Graviton3 芯片看起来相当糟糕。

在右侧,我们只是测量四种工作负载的每秒推理量,这一次,它将 128 核 Altra Max M128-30 与 40 核 Intel Xeon SP-8380 和 64 核 AMD Epyc 7763 进行比较。显然,有更新的英特尔和 AMD 处理器,它们在一个插槽中塞进了更多的内核。但 Ampere 正在开始其 192 核 AmpereOne A192-32X 的升级,其整数性能大约是 Altra Max M128-30 的两倍,矢量单元的性能可能高出 1.5 倍,如果架构发生变化,可能会,多达 2 倍以上。我们预计明年推出的 256 核芯片将在整数和矢量性能上有很大的提升。

0条评论
0 / 1000