超节点算力集群崛起!中国移动携手浪潮、阿里云引领AI新纪元

   发布时间:2024-12-26 11:10 作者:顾雨柔

人工智能大模型的迅猛发展正引领着算力需求的急剧增长,其参数规模正向超万亿级别迈进,这无疑对高性能智算基础设施提出了更高要求。在此背景下,中国移动揭示了算力领域的一项重大革新:传统单台智算服务器容纳8张GPU芯片的算力模式,正逐步被“超节点算力集群”所取代。

为了应对这一算力变革,中国移动推出了原创的OISA(全向智感互联)协议,旨在构建一个高效、智能、灵活且开放的GPU卡间互联体系。该体系专为支持大模型训练、推理及高性能计算等AI应用而生,旨在满足日益增长的数据密集型计算需求。

OISA协议的设计精髓在于其全向连接和智能感知两大特性。全向连接确保了大规模GPU之间的对等通信,使得算力资源得以充分利用。而智能感知则通过定义流量感知标签,结合流控和重传机制,进一步优化了数据传输效率,提升了系统的整体性能。

在协议层面,OISA采用了多项关键技术,包括精悍的报文格式、内存和消息的多语义融合、多层次流控重传以及预设集合通信加速等。这些技术的运用,使得OISA能够实现高带宽、低时延和高可靠的GPU通信能力,为超节点算力集群的高效运行提供了有力保障。

据中国移动介绍,目前OISA协议已迭代至Gen1.1版本,其支持超节点内任意GPU卡间的点对点读写互联带宽高达896GB/s。同时,每个OISA-Switch芯片支持128个端口,交换容量达到51.2T,为超节点算力集群提供了强大的算力支持。

展望未来,中国移动表示将全面支持超节点算力集群创新联合体的发展,计划联合产业界优先完成在单层Switch条件下基于OISA互联技术的32/64卡超节点产品落地,并加速推进128卡超节点产品的研发与输出。这一举措无疑将为人工智能大模型的发展注入新的动力,推动算力领域迈向新的高度。

 
 
更多>同类内容
全站最新
热门内容
本栏最新