近日,国产大模型月之暗面推出了其最新的视觉思考模型k1,这一创新成果基于强化学习技术,实现了端到端的图像理解和思维链技术的原生支持,并将应用范围拓展至数学以外的多个基础科学领域。
k1模型已全面上线于月之暗面智能助手的Android、iPhone应用以及官方网站kimi.com。用户只需在最新版本的手机应用或网页端Kimi+页面中找到“Kimi视觉思考版”,即可通过拍照或上传图片的方式,体验这一前沿技术。
据透露,在针对数学、物理、化学等基础科学学科的基础能力测试中,k1模型的表现超越了全球知名的OpenAI o1、GPT-4o以及Claude 3.5 Sonnet等模型,展现了其强大的实力。
月之暗面官方表示,k1模型真正实现了端到端的图像理解和思考能力,用户输入的图像信息可以直接被模型处理并思考得出答案,无需依赖外部的OCR技术或额外的视觉模型进行信息预处理。这一特性使得k1模型在图像理解和处理方面更加高效和准确。
从模型训练的角度来看,k1的训练过程经历了两个阶段:首先通过预训练获得基础模型,然后在基础模型的基础上进行强化学习后训练。在预训练阶段,k1模型重点优化了字符识别能力,在OCRBench上取得了903分的当前最优成绩,并在多个基准测试集上表现出色。
在强化学习后训练阶段,k1模型在数据质量和学习效率方面进行了进一步优化,并在强化学习的规模化上取得了新的突破。这是k1视觉推理模型在基准测试中取得行业领先成绩的最关键因素。然而,月之暗面也坦诚地表示,在内部测试中,他们发现k1视觉思考模型在某些方面仍存在局限性,如分布外泛化能力、复杂问题处理成功率、噪声场景准确率以及多轮问答效果等,都有待进一步提升。
尽管k1模型在某些场景和泛化能力上与OpenAI的o1系列模型相比仍有差距,但其作为国产大模型的一次重要突破,无疑为图像理解和思考技术的发展注入了新的活力。