一家芯片初创公司,单挑Nvidia和Intel

2025-10-23 | 来源: 半导体行业观察 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

在预告Maverick-2 一年之后，NextSilicon终于带来了这颗革命性芯片的详细细节披露。

一颗与众不同的芯片

如下图所示，Maverick-2 芯片有四个计算区域，32 个 RISC-V E 核位于芯片左右两侧的外缘。据统计，计算块网格由七列组成，每列八个计算块，芯片上总共有 224 个计算块。每个计算块有数百个 ALU，因此可以轻松获得数万到近十万个 ALU。对于这颗采用台积电 5 纳米工艺制造，拥有540 亿个晶体管的 Maverick-2 芯片来说，这样的数据似乎并不合理。

但如果我们按照 NextSilicon 的图表所示做一个 14 x 14 的网格，那么每个计算块有 196 个 ALU；我们不知道一个计算块中有多少个浮点单元。每个 ALU 都有一个 FPU 是有道理的。

Nvidia B200大量走私销中国货源来自美超微

NVIDIA禁售芯片流入中国路透:维修需求爆单

不只OpenAI,Nvidia将"砸20亿美元"助攻马斯克xAI

作为对比，英伟达的“Ampere” A100 GPU 采用台积电 7 纳米工艺制造，拥有 542 亿个晶体管和 6912 个 FP32 CUDA 核心；而“Hopper” H100 和 H200 GPU 采用 4 纳米工艺制造，拥有 800 亿个晶体管和 18432 个 FP32 核心。Blackwell B200 插槽有两个芯片组，每个芯片组包含 1040 亿个晶体管，但每个芯片组仅包含 16896 个 CUDA 核心，采用 4 纳米工艺制造。我们推测，ALU 比 CUDA 核心更小，并且 Maverick-2 芯片上的 ALU 数量比英伟达 GPU 上的 CUDA 核心数量更多。

归根结底，ALU 数量不如一组 mill 核心所能支持的线程数量重要。NextSilicon 联合创始人兼架构副总裁、前 Mellanox（现为 Nvidia 网络部门）软件总监 Ilan Tayari 表示，典型的 CPU 有两个线程，GPU 有 32 到 64 个线程，但一个 mill 核心可以同时支持数百个线程。当然，mill 核心的大小和形状会有所不同，但每个计算块可能有数十个 mill 核心，每个 Maverick-2 有 224 个计算块，因此可以轻松支持数千个线程，所有线程都以 1.5 GHz 的频率运行——大约相当于一个慢速 CPU 或一个普通 GPU 的速度——并且所有线程都连接到 HBM3E 显存以获得快速带宽。

如上图右侧所示，这个主逻辑单元连接到一条内存总线，该总线上有一个保留站，用于在 ALU 调用数据之前临时存储数据。（NextSilicon 已获得这种保留站、调度器和数据流计算块组合的专利。）与常规 CPU 一样，Maverick ICA 也使用内存管理单元和表后备缓冲区，但这些单元的使用频率很低，并且仅在 ALU 调用特定数据时才会使用。它不进行推测或预测，只进行数据提取。

Tayari 自豪地说：“NextSilicon 的数据流架构使我们能够显着降低与传统 CPU 和 GPU 相比的开销。我们调整了硅片的分配比例。我们将大部分资源用于实际计算，而不是控制开销。我们独特的方法消除了指令处理开销。我们最大限度地减少了不必要的数据移动，从而使计算单元保持充分利用。我们并非试图隐藏延迟，而是通过设计来容忍并最小化延迟。”