摩尔线程近日宣布,已成功将大语言模型高速推理框架vLLM的MUSA移植版本上线,为开发者在使用摩尔线程全功能GPU进行开源项目MUSA移植时,提供了实用的参考范例。
该公司正致力于依托其自主研发的统一系统架构GPU以及MUSA软件平台,构建一个完善且用户友好的MUSA应用生态。
据悉,vLLM是一款高效且便捷的大模型推理和服务框架,它支持包括PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行在内的多项创新技术,并能显著提升大语言模型(LLM)的推理性能。目前,该框架已被广泛应用于各类大语言模型,并成为行业内备受推崇的开源大模型推理框架。
摩尔线程基于vLLM v0.4.2版本进行了细致的移植适配工作,使得该框架能够支持摩尔线程GPU后端Device。更重要的是,这一移植版本已完全开源,为开发者提供了二次开发、升级vLLM至社区更新版本等灵活性。
摩尔线程的MUSA架构凭借其先进性,以及软件栈对CUDA的出色兼容性,通过MUSIFY代码自动转换工具,用户可以轻松将原有的CUDA代码迁移至MUSA平台,实现无缝替代。
同时,摩尔线程还提供了包括算子库muDNN、集合通信库MCCL、线性代数库muBLAS等一系列MUSA加速库,以便快速替换CUDA相关库的调用。
通过MUSA软件栈对CUDA软件栈接口的兼容,摩尔线程不仅大幅提高了应用移植的效率,还缩短了开发周期。该公司还提供了一系列实用的工具和脚本,其中包括MUSIFY自动代码移植工具,以进一步简化开发过程。
对于那些对摩尔线程vLLM-MUSA开源项目感兴趣的开发者,可以通过以下链接获取更多信息:
https://github.com/MooreThreads/vLLM_musa