导读 Meta最近公布了该公司AI训练基础设施的详细信息,透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。与许多参与人工智能的大型...

Meta最近公布了该公司AI训练基础设施的详细信息,透露它目前依靠近50,000个NvidiaH100GPU来训练其开源Llama3LLM。

与许多参与人工智能的大型科技公司一样,Meta希望减少对Nvidia硬件的依赖,并朝着这个方向迈出了又一步。

Meta已经拥有自己的AI推理加速器MetaTrainingandInferenceAccelerator(MTIA),它是为这家社交媒体巨头的内部AI工作负载量身定制的,尤其是那些可以改善其各种产品体验的工作负载。该公司现在分享了有关其第二代MTIA的见解,该加速器比其前代产品有了显着改进。

MTIA的这个改进版本可以处理推理但不能处理训练,它将过去解决方案的计算和内存带宽增加了一倍,与Meta的工作负载保持了紧密的联系。它旨在有效地服务于向用户提供建议的排名和推荐模型。新的架构旨在提供计算能力、内存带宽和内存容量的平衡组合,以满足这些模型的独特需求。该架构增强了SRAM功能,即使在减少批量大小的情况下也能实现高性能。

最新的加速器由8x8处理单元(PE)网格组成,密集计算性能提高了3.5倍,稀疏计算性能据说比MTIAv1高出7倍。这一进步源于新架构对稀疏计算流水线以及数据输入PE方式的优化。主要功能包括本地存储大小增加三倍、片上SRAM增加一倍、带宽增加3.5倍以及LPDDR5容量增加一倍。

除了硬件之外,Meta还专注于将软件堆栈与硅片共同设计,以协同实现最佳的整体推理解决方案。该公司表示,它已经开发出一种强大的机架式系统,可容纳多达72个加速器,旨在使时钟频率达到1.35GHz,运行功率为90W。

除其他发展外,Meta表示还升级了加速器之间的结构,显著提高了带宽和系统可扩展性。Triton-MTIA是一个后端编译器,专为MTIA硬件生成高性能代码而构建,进一步优化了软件堆栈。