微软投资的硅谷新兴企业d-Matrix近日正式宣布,其精心研发的人工智能芯片Corsair已投入市场流通。
据d-Matrix介绍,Corsair在单服务器环境下,为Llama3 8B模型提供了惊人的处理能力,每秒可处理高达60000个tokens,且每个tokens的延迟仅为1毫秒。这一数据彰显了Corsair在高效处理大规模数据方面的卓越性能。
Corsair不仅性能出众,还在能源效率和成本节约方面展现出显著优势。d-Matrix声称,与GPU及其他替代方案相比,Corsair能够在提供同等性能的同时,显著降低能耗和成本。
在AI推理运算领域,数据传输一直是制约性能提升的关键瓶颈。由于AI推理需要处理大量且快速的内存数据,传统解决方案往往难以兼顾这两方面的需求。d-Matrix针对这一挑战,提出了创新的解决方案。
目前,业界主要有三种解决数据传输瓶颈的方法。第一种是通过采样和流水线技术减少处理的数据量,虽然能加速深度学习,但牺牲了准确性和精确性。第二种是在传统处理器附近设置专用AI引擎,如苹果、英伟达、Intel和AMD所采用的方式,但这种方法需要集成SRAM和外部DRAM,能耗高且效率较低。
d-Matrix采用的是第三种方法,即将计算移动到内存附近。这种被称为数字存算一体(DIMC)的技术架构,通过降低延迟和减少消耗,显著提升了AI推理运算的性能。DIMC技术特别适合处理AI推理中的静态但大型权重数据集,这些数据集在推理过程中会被反复访问,DIMC技术消除了大部分能量转移费用和数据移动的延迟。
得益于DIMC技术的优势,Corsair提供了150TB/s的超高内存带宽,交互速度提高了10倍,能效提高了3倍。这一突破性的性能表现,使得Corsair在AI推理运算领域具有广泛的应用前景。
Corsair芯片还采用了行业标准的PCIe Gen5全高全长卡外形,并通过DMX Bridge卡连接成对的卡,以满足高性能计算的需求。每张Corsair卡都由多个DIMC计算核心驱动,具备2400 TFLOP的8位峰值计算能力,同时配备了2GB的集成性能内存和高达256GB的片外容量内存,确保了强大的计算能力和数据存储能力。