全球最大晶圆级AI处理器：14336个ARM核心，2048个小芯片

3年前浏览588

日前，加州大学洛杉矶分校和伊利诺伊大学厄巴纳-香槟分校的研究人员发表了一篇新论文，称大规模芯片/系统集成的最佳路径是使用小芯片技术，使用无源硅互连技术将各种设备安装到单个硅晶片上，这种方法更灵活、可以扩展并具有显着的成本优势。

研究人员团队已经设计并正在制作“2048-chiplet、14336-core 晶圆级处理器”的原型，该系统包括 1024 个小块的阵列，其中每个小块由两个小芯片组成，总共 2048 个小芯片和大约 15,000 mm 2的总面积。

他们总结工作的论文很好地展示了chiplet 方法的优势和挑战。

“据我们所知，这是有史以来最大的基于小芯片组装的系统，”该团队在论文中说。“就活动区域而言，我们的原型系统比 Nvidia/AMD 的单个基于小芯片的系统大约 10 倍，比来自 Nvidia 的 64 个小芯片 Simba 研究系统大约 100 倍。”

相比之下，Cerebras 的第二代 AI 系统在单个晶圆上拥有 850,000 个优化的张量核心，面积为 46,225 平方米。

加州大学洛杉矶分校开发的基于小芯片的晶圆级系统使用硅互连结构 (Si-IF)将许多小芯片紧密集成在高密度互连晶圆上的基于细间距铜柱（10μm 间距）的 I/O 上，这些 I/O 至少为比基于中介层的系统中使用的传统µ-bumps 密度高 16 倍，以及~100µm 的小芯片间距。

这些小芯片可以采用异构技术制造，并且可以潜在地提供更好的性价比权衡，100s Tbit/s 的 TB 内存以及高性能计算和 AI 应用程序的 PFLOP 计算吞吐量。

“这个原型系统的规模迫使我们重新思考设计流程的几个方面。因为这是构建这样一个系统的第一次尝试，所以在制造和组装过程中有几个未知数，”该团队在论文中说。“因此，容错和弹性是我们做出设计决策背后的主要驱动因素之一。我们还确保设计决策不会太复杂，这样他们就可以由一个小团队可靠地实施，”他们说。

每个 tile 由两个小芯片组成：一个计算小芯片和一个内存小芯片。每个 40nm 计算小芯片包含 14 个独立可编程的ARM Cortex-M3处理器内核和 64kbits 的本地 SRAM，而内存小芯片提供 512KB的全局共享内存。该系统被构建为一个统一的内存系统，其中任何区块上的任何内核都可以使用互连直接访问整个晶圆级系统的全局共享内存。

小芯片采用 TSMC 40nm-LP 工艺设计和制造，并终止于构建细间距 I/O 焊盘的顶部铜金属层。晶圆级基板是一个无源基板，包含小芯片和铜柱之间的互连布线，以连接到小芯片 I/O。小芯片倒装芯片键合到晶圆级基板上，并通过边缘连接提供功率。

由于晶片基板的尺寸远大于掩模版的最大尺寸，因此必须将 Si-IF 基板设计为可步进重复。

整个晶片被分成较小的相同光罩，并通过缝合这些光罩制造，每个光罩由 72 个瓦片 (12x6) 组成。

每个标线内的小芯片间链接的宽度为 2 µm，间距为 3 µm，但在每个标线的边缘，链接逃逸变得更粗（宽度增加到 3 µm，间距减小到 2 µm），同时保持间距不变，以减少标线拼接误差的影响。

来自网格边缘每个瓦片的多个 I/O 需要扇出到晶圆边缘并连接到外部连接器，因此扇出布线和边缘 I/O 焊盘被设计成每个标线。来自边缘光罩的 Si-IF 基板上的小芯片插槽将保持未填充状态，并且外部连接器将连接到这些光罩中的焊盘。

为确保这些 I/O 焊盘不会导致小芯片粘合的问题，该团队使用自定义块蚀刻工艺去除不需要的焊盘。如果代工厂支持每个晶片有多个光罩，也可以使用单独的掩模印刷晶片的边缘。

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2021-10-19