腾讯云AI代码助手近日迎来重大升级,正式引入了DeepSeek-V3-0324这一顶级模型。这一升级无需繁琐配置,用户只需下载或更新AI代码助手插件即可享受。
据官方宣称,这一升级将带来前所未有的开发效率提升,甚至可能达到100倍的惊人增幅。
DeepSeek-V3-0324作为DeepSeek-V3系列的一次小版本迭代,其模型参数从初代的6710亿小幅增加至6850亿。该模型继续沿用混合专家(MoE)架构,每个token激活约370亿参数,在推理、编程、数学以及中文处理等多个领域均展现出了行业领先的实力。
DeepSeek-V3-0324在解决一些复杂问题上表现出了卓越的能力。例如,在近期备受关注的“7米甘蔗过2米门”AI测试题中,它能够自主发现隐藏解法,并给出合理的答案。
腾讯总结了DeepSeek-V3-0324的五大显著优势。首先,该模型采用了创新的训练策略,包括无辅助损失的负载均衡、多token预测训练以及FP8混合精度训练等,这些策略有效避免了传统方法的性能损失,显著降低了计算成本,并提高了训练效率。
其次,DeepSeek-V3-0324对MoE架构进行了优化。通过动态调整偏差项、节点受限路由机制以及FP8调度与RDMA优化等技术手段,该模型在防止路由崩溃的同时,性能提升了15%以上,训练效率更是提升了40%。它还支持128K超长上下文,能够处理50页PDF或完整代码库,多轮对话记忆能力显著增强。
在综合能力方面,DeepSeek-V3-0324相较于初代V3在关键指标上取得了突破性进步。例如,在MMLU-Pro、GPQA、AIME以及LiveCodeBench等多项权威基准测试中,该模型的表现均有了显著提升。特别是在数学竞赛解题能力方面,AIME竞赛正确率提升了近20%,超越了Grok3。同时,该模型在中文处理方面也展现出了明显优势,中长篇写作逻辑更严密,联网搜索报告更精准。
在编程生成能力方面,DeepSeek-V3-0324同样表现出色。它能够精准生成800行无错误的网页代码(含动态交互,视觉美观),代码可运行率高达92%。该模型还支持20多种编程语言,前端开发效率提升了80%。在kcores-llm-arena评测中,它的表现也超越了Claude 3 Sonnet普通版。
最后,DeepSeek-V3-0324在推理与开发者体验方面也进行了诸多优化。借鉴DeepSeek R1模型训练技术,该模型的推理任务显著提升,上线每秒可生成20多个token(在M3 Ultra设备上),响应速度比前代快40%。同时,智能补全、代码纠错、API兼容性检测等功能也得到了大幅提升,进一步提高了开发效率。