温哥华Lipont Place力邦艺术港:活动场地租赁,拍摄场地租赁!

一家芯片初创公司,单挑Nvidia和Intel


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
在预告Maverick-2 一年之后,NextSilicon终于带来了这颗革命性芯片的详细细节披露。

一颗与众不同的芯片

如下图所示,Maverick-2 芯片有四个计算区域,32 个 RISC-V E 核位于芯片左右两侧的外缘。据统计,计算块网格由七列组成,每列八个计算块,芯片上总共有 224 个计算块。每个计算块有数百个 ALU,因此可以轻松获得数万到近十万个 ALU。对于这颗采用台积电 5 纳米工艺制造,拥有540 亿个晶体管的 Maverick-2 芯片来说,这样的数据似乎并不合理。


但如果我们按照 NextSilicon 的图表所示做一个 14 x 14 的网格,那么每个计算块有 196 个 ALU;我们不知道一个计算块中有多少个浮点单元。每个 ALU 都有一个 FPU 是有道理的。




作为对比,英伟达的“Ampere” A100 GPU 采用台积电 7 纳米工艺制造,拥有 542 亿个晶体管和 6912 个 FP32 CUDA 核心;而“Hopper” H100 和 H200 GPU 采用 4 纳米工艺制造,拥有 800 亿个晶体管和 18432 个 FP32 核心。Blackwell B200 插槽有两个芯片组,每个芯片组包含 1040 亿个晶体管,但每个芯片组仅包含 16896 个 CUDA 核心,采用 4 纳米工艺制造。我们推测,ALU 比 CUDA 核心更小,并且 Maverick-2 芯片上的 ALU 数量比英伟达 GPU 上的 CUDA 核心数量更多。

归根结底,ALU 数量不如一组 mill 核心所能支持的线程数量重要。NextSilicon 联合创始人兼架构副总裁、前 Mellanox(现为 Nvidia 网络部门)软件总监 Ilan Tayari 表示,典型的 CPU 有两个线程,GPU 有 32 到 64 个线程,但一个 mill 核心可以同时支持数百个线程。当然,mill 核心的大小和形状会有所不同,但每个计算块可能有数十个 mill 核心,每个 Maverick-2 有 224 个计算块,因此可以轻松支持数千个线程,所有线程都以 1.5 GHz 的频率运行——大约相当于一个慢速 CPU 或一个普通 GPU 的速度——并且所有线程都连接到 HBM3E 显存以获得快速带宽。




如上图右侧所示,这个主逻辑单元连接到一条内存总线,该总线上有一个保留站,用于在 ALU 调用数据之前临时存储数据。(NextSilicon 已获得这种保留站、调度器和数据流计算块组合的专利。)与常规 CPU 一样,Maverick ICA 也使用内存管理单元和表后备缓冲区,但这些单元的使用频率很低,并且仅在 ALU 调用特定数据时才会使用。它不进行推测或预测,只进行数据提取。

Tayari 自豪地说:“NextSilicon 的数据流架构使我们能够显着降低与传统 CPU 和 GPU 相比的开销。我们调整了硅片的分配比例。我们将大部分资源用于实际计算,而不是控制开销。我们独特的方法消除了指令处理开销。我们最大限度地减少了不必要的数据移动,从而使计算单元保持充分利用。我们并非试图隐藏延迟,而是通过设计来容忍并最小化延迟。”
点个赞吧!您的鼓励让我们进步     好新闻没人评论怎么行,我来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文

    猜您喜欢

    您可能也喜欢

    当前评论

    当前评论目前还没有任何评论,欢迎您发表您的看法。
    发表评论
    您的评论 *:
    安全校验码 *:
    请在此处输入图片中的数字
    The Captcha image
      (请在此处输入图片中的数字)

    Copyright © 加西网, all rights are reserved.

    加西网为北美中文网传媒集团旗下网站