Kimi 宣布推出视觉思考模型 k1,基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
公告称,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。「Kimi 视觉思考版」会完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。
目前,k1 视觉思考模型已陆续上线最新版「Kimi智能助手」的 Android 和 iPhone 手机APP以及网页版 kimi.com。在最新版手机APP或网页版 Kimi+ 页面找到「Kimi 视觉思考版」,即可拍照或传图体验。
“今天我们发布和上线的 k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,用户体验和效果都达到了新的高度。”
从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的当前最好(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9,处于全球第一梯队水平。
不过项目团队也承认,在内部测试中发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。