一家芯片初创公司,单挑Nvidia和Intel
于是,Raz 和他的团队构想了一种名为“智能计算架构”(ICA)的新架构,该架构使芯片能够自我重构,以适应不断变化的工作负载,从而将开销降至最低,并最大限度地提升计算能力,用于处理高要求的 AI 和 HPC 应用背后的数学运算。这便是 NextSilicon 专利“可重构硬件的运行时优化”的基础,也是其 Maverick-2 处理器中使用的非冯·诺依曼数据流架构的指导原则。
“NextSilicon 的宗旨是使用软件来加速你的应用程序,”Raz 解释道。“其核心是一种复杂的软件算法,它能够理解代码中的重要内容并对其进行加速。相比之下,大多数 CPU 和 GPU 都是某种形式的处理器核心组。它们接收指令,并试图构建复杂的流水线和矢量指令集,并采用乱序执行来减少延迟。我们认为这是错误的方法。更好的方法是应用帕累托原则,看看哪些 20% 的代码占用了 80% 的运行时间。为什么我们不对计算和内存应用 80/20 规则呢?为什么我们不能自动识别重要的计算内核并尝试只关注它们呢?”
Raz 随后描述了其中的秘诀:“应用程序开始在主机上运行,然后我们会自动识别代码中计算密集型的部分。我们保留计算图的中间表示。我们不会将计算图转换为指令。你需要将其视为硬件的即时编译器。我们保留程序的计算图,并将其放置在数据流硬件上。我们从硬件获取遥测数据,并以递归方式进行,因此我们始终在程序运行时优化计算和内存。”

“先进的软件分析器就像一个精准定位系统,持续监控您的应用程序。它会精准定位出那些占用性能的关键代码片段,然后以纳秒级的粒度重新配置硬件本身,构建针对该特定代码优化的自定义数据流水线。这种非对称执行模型能够将卓越的效率精准地引导到能够发挥最大效能的地方,同时让您的大部分代码保持正常运行。”Raz总结说。
Raz同时指出,英伟达的CUDA生态,也在将大家绑死在其GPU上,丧失了主动性和议价权。为此,NextSilicon 制定了不是迭代的愿景,而是推动一场革命。公司不会墨守成规,而是构建一个全新的游戏规则,其中计算基础设施:
1、运行一切,毫不妥协:您现有的 CPU 代码、复杂的 GPU 内核、要求苛刻的 HPC 任务以及尖端的 AI/ML 模型——无需修改代码即可运行它们。
2、提供极致速度:体验高达 10 倍的加速,功耗仅为原来的四分之一。如何实现?通过实时动态优化芯片,优化应用程序最热门、资源最密集的代码路径。
3、消除供应商锁定:告别专有领域特定语言 (DSL)。告别繁琐的移植流程。告别框架维护的噩梦。您的代码,您的语言,加速开发。
4、让您的创新永不过时: ICA 能够随着工作负载的演变而不断调整。您再也不会遇到“重写瓶颈”。

总结而言,NextSilicon 的数据流架构建立在图形结构之上。数据流处理器并非像冯·诺依曼那样逐条处理指令,而是由一系列计算单元(称为 ALU)组成,这些单元以图形结构互连。每个 ALU 处理特定类型的函数,例如乘法或逻辑运算。当输入数据到达时,计算会自动触发,结果将流向图形中的下一个单元。与串行数据处理相比,这种新方法具有很大的优势,因为芯片不再需要处理数据提取、解码或调度,这些是消耗计算周期的开销任务。
您的点赞是对我们的鼓励
无评论不新闻,发表一下您的意见吧
“NextSilicon 的宗旨是使用软件来加速你的应用程序,”Raz 解释道。“其核心是一种复杂的软件算法,它能够理解代码中的重要内容并对其进行加速。相比之下,大多数 CPU 和 GPU 都是某种形式的处理器核心组。它们接收指令,并试图构建复杂的流水线和矢量指令集,并采用乱序执行来减少延迟。我们认为这是错误的方法。更好的方法是应用帕累托原则,看看哪些 20% 的代码占用了 80% 的运行时间。为什么我们不对计算和内存应用 80/20 规则呢?为什么我们不能自动识别重要的计算内核并尝试只关注它们呢?”
Raz 随后描述了其中的秘诀:“应用程序开始在主机上运行,然后我们会自动识别代码中计算密集型的部分。我们保留计算图的中间表示。我们不会将计算图转换为指令。你需要将其视为硬件的即时编译器。我们保留程序的计算图,并将其放置在数据流硬件上。我们从硬件获取遥测数据,并以递归方式进行,因此我们始终在程序运行时优化计算和内存。”

“先进的软件分析器就像一个精准定位系统,持续监控您的应用程序。它会精准定位出那些占用性能的关键代码片段,然后以纳秒级的粒度重新配置硬件本身,构建针对该特定代码优化的自定义数据流水线。这种非对称执行模型能够将卓越的效率精准地引导到能够发挥最大效能的地方,同时让您的大部分代码保持正常运行。”Raz总结说。
Raz同时指出,英伟达的CUDA生态,也在将大家绑死在其GPU上,丧失了主动性和议价权。为此,NextSilicon 制定了不是迭代的愿景,而是推动一场革命。公司不会墨守成规,而是构建一个全新的游戏规则,其中计算基础设施:
1、运行一切,毫不妥协:您现有的 CPU 代码、复杂的 GPU 内核、要求苛刻的 HPC 任务以及尖端的 AI/ML 模型——无需修改代码即可运行它们。
2、提供极致速度:体验高达 10 倍的加速,功耗仅为原来的四分之一。如何实现?通过实时动态优化芯片,优化应用程序最热门、资源最密集的代码路径。
3、消除供应商锁定:告别专有领域特定语言 (DSL)。告别繁琐的移植流程。告别框架维护的噩梦。您的代码,您的语言,加速开发。
4、让您的创新永不过时: ICA 能够随着工作负载的演变而不断调整。您再也不会遇到“重写瓶颈”。

总结而言,NextSilicon 的数据流架构建立在图形结构之上。数据流处理器并非像冯·诺依曼那样逐条处理指令,而是由一系列计算单元(称为 ALU)组成,这些单元以图形结构互连。每个 ALU 处理特定类型的函数,例如乘法或逻辑运算。当输入数据到达时,计算会自动触发,结果将流向图形中的下一个单元。与串行数据处理相比,这种新方法具有很大的优势,因为芯片不再需要处理数据提取、解码或调度,这些是消耗计算周期的开销任务。
| 分享: |
| 注: | 在此页阅读全文 |




一家芯片初创公司,单挑Nvidia和Intel