特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

本篇文章给各位网友带来的资讯是:特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格式,还有系统网络 详情请欣赏下文感谢IT大王网友 OC_Formula 的线索投递!

特斯拉备受关注的 Dojo 超算指令集结构细节史上首次大公开!而且还大秀了一把 Dojo 的数据格式、系统网络,以及软件系统绕行死节点的能力。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

关于特斯拉自研的 AI 芯片 D1,更多细节也被披露。一切来自刚刚举办的硅谷芯片技术研讨会 HOT CHIPS,听特斯拉硬件工程师 Emil Talpes 怎么说。

特斯拉 Dojo 超算

所谓 Dojo,是特斯拉自研的超级计算机,能够利用海量的视频数据,做“无人监管”的标注和训练。它有高度可扩展且完全灵活的分布式系统,能够训练神经网络,还能适应新的算法和应用。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

不仅如此,还能从头开始构建大系统,而不是从现有的小系统演变而来。每个 Dojo ExaPod 集成了 120 个训练模块,内置 3000 个 D1 芯片,拥有超过 100 万个训练节点,算力达到 1.1EFLOP*(每秒千万亿次浮点运算)。

微架构方面,每个 Dojo 节点都有一个内核,是一台具有 CPU 专用内存和 I / O 接口的成熟计算机。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

这很重要,因为每个内核都可以做到独立处理,而不依赖于共享缓存或寄存器文件。每个内核拥有一个 1.25MB 的 SRAM,这是主存储器。这种 SRAM 能以 400GB / 秒的速度加载,并以 270GB / 秒的速度存储。

芯片有明确的指令,可以将数据移入或移出 Dojo 超算中其他内核的外部 SRAM 存储器。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

嵌入 SRAM 中的是列表解析器引擎(list parser engine),诸如此类的引擎可以将信息一起发送到其他节点或从其他节点获取信息,无需像其他 CPU 架构一样。

至于通信接口,每个节点都与 2D 网格相连,在节点边界处每周期有八个数据包。而且每个节点都有独立的网络连接,能与相邻节点进行无缝连接。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

关于 Dojo 的指令集,它支持 64 位标量指令和 64B SIMD 指令,能够处理从本地到远程内存传输数据的原语(primitives),并支持信号量(semaphore)和屏障约束( barrier constraints)。

特斯拉自研 AI 芯片新进展

数据格式对 AI 来说至关重要,特别是芯片所支持的数据格式。特斯拉借助 Dojo 超算来研究业界常见的芯片,例如 FP32、FP16 和 BFP16。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

FP32 格式比 AI 训练应用的许多部分所需的精度和范围更广,IEEE 指定的 FP16 格式没有覆盖神经网络中的所有处理层。相反,谷歌 Brain 团队创建的 Bfloat 格式应用范围更广,但精度更低。

特斯拉不仅提出了用于较低精度和更高矢量处理的 8 位 FP8 格式,还提出了一组可配置的 8 位和 16 位格式,Dojo 超算可以在尾数的精度附近滑动,以涵盖更广泛的范围和精度。

在给定时间内,特斯拉最多可以使用 16 种不同的矢量格式,但每个 64B 数据包必须属于同一类型

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

特斯拉自研的 D1 芯片,是 Dojo ExaPod 的核心。由台积电制造,采用 7 纳米制造工艺,拥有 500 亿个晶体管,芯片面积为 645mm,小于英伟达的 A100(826 mm)和 AMD Arcturus(750 mm)。

每个芯片有 354 个 Dojo 处理节点和 440MB 的静态随机存储器。D1 芯片测试完成后,随即被封装到 55 的 Dojo 训练瓦片(Tile)上。

这些瓦片每边有 4.5TB / s 的带宽,每个模组还有 15kW 的散热能力的封盖,减掉给 40 个 I / O 的散热,也就是说每个芯片的散热能力接近 600W。瓦片也包含了所有的液冷散热和机械封装,这和 Cerebras 公司推出的 WES-2 芯片的封装理念类似。

特斯拉 Dojo 超算最新细节大公开!涉及指令集结构、数据格

演讲最后结束时,特斯拉工程师 Emil Talpes 表达了如下观点:

我们最终的目标是追求可扩展性。我们已经不再强调 CPU 中常见的几种机制,像是一致性、虚拟内存、全局查找目录。只因为当我们扩展到非常大的系统时,这些机制并不能很好地随之扩展。

相反,在整个网格中我们依靠的是那种快速、分散的 SRAM 存储,这样能够得到更高数量级的互连速度支持。

© 版权声明
好牛新坐标
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章