揭秘全球最大AI集群xAI Colossus:122天如何速成?

   发布时间:2024-10-29 17:06 作者:顾青青

科技媒体servethehome近日受邀参观了由xAI公司打造的全球最大AI训练集群——Colossus,这一壮举展示了AI技术的迅猛发展。据悉,xAI在短短122天内便成功搭建了10万张英伟达H100 GPU,并计划未来再增加10万张,其中包括5万张更先进的H200。

Colossus集群配备了英伟达HGX H100服务器,每台服务器内含8张H100 GPU,所有服务器均在Supermicro的4U水冷系统中高效运行。每个机架可容纳8台服务器,组成1个含有512个GPU的阵列,整个集群则拥有超过1500个GPU机架。

为了确保高效的数据传输,每个GPU都配备了400GbE的网络接口控制器,使每台HGX H100服务器达到3.6 Terabit每秒的以太网带宽。xAI采用了Supermicro的4U通用GPU系统,这些系统凭借先进的液冷技术,提升了散热效率,确保了高性能计算的稳定性。

此次展示活动得到了埃隆·马斯克及其团队的特别批准,由于构建全球最大AI集群的敏感性,部分内容在视频中进行了模糊处理。Supermicro作为此次巡展的赞助商,进一步彰显了其在AI行业中的重要地位。

 
 
更多>同类内容
全站最新
热门内容
本栏最新