Kimi视觉思考模型k1问世，数理化能力领先OpenAI等全球标杆-资讯-沃资讯

Kimi视觉思考模型k1问世，数理化能力领先OpenAI等全球标杆

发布时间：2024-12-16 15:23 来源：ITBEAR 作者：沈如风

近日，国产大模型月之暗面推出了其最新的视觉思考模型k1，这一创新成果基于强化学习技术，实现了端到端的图像理解和思维链技术的原生支持，并将应用范围拓展至数学以外的多个基础科学领域。

k1模型已全面上线于月之暗面智能助手的Android、iPhone应用以及官方网站kimi.com。用户只需在最新版本的手机应用或网页端Kimi+页面中找到“Kimi视觉思考版”，即可通过拍照或上传图片的方式，体验这一前沿技术。

据透露，在针对数学、物理、化学等基础科学学科的基础能力测试中，k1模型的表现超越了全球知名的OpenAI o1、GPT-4o以及Claude 3.5 Sonnet等模型，展现了其强大的实力。

月之暗面官方表示，k1模型真正实现了端到端的图像理解和思考能力，用户输入的图像信息可以直接被模型处理并思考得出答案，无需依赖外部的OCR技术或额外的视觉模型进行信息预处理。这一特性使得k1模型在图像理解和处理方面更加高效和准确。

从模型训练的角度来看，k1的训练过程经历了两个阶段：首先通过预训练获得基础模型，然后在基础模型的基础上进行强化学习后训练。在预训练阶段，k1模型重点优化了字符识别能力，在OCRBench上取得了903分的当前最优成绩，并在多个基准测试集上表现出色。

在强化学习后训练阶段，k1模型在数据质量和学习效率方面进行了进一步优化，并在强化学习的规模化上取得了新的突破。这是k1视觉推理模型在基准测试中取得行业领先成绩的最关键因素。然而，月之暗面也坦诚地表示，在内部测试中，他们发现k1视觉思考模型在某些方面仍存在局限性，如分布外泛化能力、复杂问题处理成功率、噪声场景准确率以及多轮问答效果等，都有待进一步提升。

尽管k1模型在某些场景和泛化能力上与OpenAI的o1系列模型相比仍有差距，但其作为国产大模型的一次重要突破，无疑为图像理解和思考技术的发展注入了新的活力。

更多>同类内容