近日,Meta与NVIDIA公司联合宣布,它们正在合作构建大型超级计算机,以支持人工智能研究。新机器被命名为RSC,也就是AIResearchSuperCluster。
目前,RSC超级计算机的第一阶段已经建成并投入使用,它部署了760个NVIDIADGXA100系统作为其计算节点,拥有总共6080个NVIDIAA100GPU,并与NVIDIAQuantum200Gb/sInfiniBand网络相联。所有这一切使它能够提供1895千万亿次的TF32计算性能。
在存储方面,RSC则配备了175PB的PureStorageFlashArray、10PB的PureStorageFlashBlade和46PB的缓存,存储在PenguinComputingAltus服务器中。
而RSC的第二阶段也已经在紧锣密鼓的准备中,并计划建在2022年7月左右完成。据Meta公司表示,第二阶段完成之后,RSC将在第一阶段的基础上增加额外1240个DGXA100节点,使其拥有总共16000个GPU,可达到16TB/s的速度,并将拥有高达一个完整艾字节的存储容量。
而艾字节这一单位甚至对于许多人来说都还有些陌生:1艾字节相当于大约10亿千兆字节的数据。Meta表示,这相当于36000年的高质量视频的容量。而在1艾字节面前,我们经常使用的拥有2TB存储空间的移动硬盘,就仿佛沙漠里的一粒沙。
尽管在第一阶段完成时,RSC就已经是全球最快的AI超级计算器之一。而据Meta公司称,与第一阶段相比,第二阶段的RSC的AI训练性能将提高2.5倍以上,这一速度更将使RSC将自己的竞争对手远远甩在后面,成为全世界最快的AI超级计算机。
此外与之前的系统不同,RSC超级计算机不仅可以处理开源的公共数据集,还可以处理来自Meta的真实内部数据。也就是说,即使不联网时,RSC还可以通过Meta自己的数据中心进行连接,继续工作。另外Meta表示所有用户生成的数据在存储系统到GPU阶段都进行了加密,只有在用于模型训练之前才会临时在内存中解密。
为了处理RSC不断增长的带宽和容量需求,Meta还开发了一种存储服务,名为AIResearchStore或AIRStore。AIRStore将为AI模型预处理训练数据,并优化传输速度。
此外,在第二阶段完成后,RSC预计还将会成为NVIDIADGXA100系统的最大安装客户。之所以选择NVIDIA的DGX服务器,而非选择自己投资开发,业界分析主要是为了缩短上市时间。Meta明白——上市时间很重要。
而NVIDIADGX服务器则使快速组建大型机队成为可能,从而避免了一般设计和安装定制超级计算机所需的数月或数年的时间。
为元宇宙布局
现在RSC的第一阶段已经被用于自然语言处理(NLP)和计算机视觉的大型模型训练等应用。而RSC的长期目标,无疑是为Meta公司所畅想的"将现实与虚拟世界之间的界限模糊化"的元宇宙布局。
Meta公司表示,RSC超级计算机可以使MetaAI研究人员创建能够从数万亿个示例中学习的新AI模型,并使他们能够跨多语言共同分析文本、图像和视频,开发新的增强现实(AR)工具,还可能识别有害内容。
"我们希望RSC能够帮助我们构建全新的AI系统,例如,可以为一大群人提供实时语音翻译,而这群人中的每个人甚至都说完全不同的语言,这样他们就可以在研究项目上无缝协作或者一起玩AR游戏。"Meta公司的一位研究人员在一篇博客文章中写道。
Meta公司的CEO扎克伯格也在一份声明中表示:"我们为元宇宙打造的体验需要巨大的计算能力,而RSC将使新的AI模型能够从数万亿个示例中学习、理解数百种语言,等等。"
疫情期间的系统开发
据悉,开发团队只用了18个月的时间,就实现了RSC这样一台可以工作的AI超级计算机。
对于RSC超级计算机的开发,Meta称最早可以追溯到2013年Facebook人工智能研究实验室的成立,但这一项目的真正开始是在2020年初,当时公司认为为了充分利用人工智能、GPU和网络结构技术的进步,有必要建立一个新的系统。而当时的主要目标就是:一个能够在1艾字节大的数据集上训练具有超过一万亿个参数的模型的系统。
在开发过程中,新冠疫情无疑给系统的开发带来了巨大的困难,尤其是供应链的中断,导致开发一度缺乏从芯片到GPU等一系列组件。
不过,Meta表示,开发团队已经成功缓解了开发第一阶段的供应链问题,且RSC接下来的分阶段构建也正在按计划进行中。