Kimi 发布视觉思考模型 k1-一休教程

Kimi 宣布推出视觉思考模型 k1，基于强化学习技术打造，原生支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。

公告称，在数学、物理、化学等基础科学学科的基准能力测试中，初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。「Kimi 视觉思考版」会完整呈现推理思维链CoT，让用户不只看到答题结果，也能完整看到模型思索答案的全过程。

Kimi 发布视觉思考模型 k1插图

目前，k1 视觉思考模型已陆续上线最新版「Kimi智能助手」的 Android 和 iPhone 手机APP以及网页版 kimi.com。在最新版手机APP或网页版 Kimi+ 页面找到「Kimi 视觉思考版」，即可拍照或传图体验。

“今天我们发布和上线的 k1 视觉思考模型，真正意义上实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案，不需要借助外部的OCR或额外视觉模型进行信息处理，用户体验和效果都达到了新的高度。”

从模型训练的角度看，k1 视觉思考模型的训练分为两个阶段，先通过预训练得到基础模型，再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力，在 OCRBench 上得到 903 分的当前最好（state-of-the-art）结果，在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9，处于全球第一梯队水平。

不过项目团队也承认，在内部测试中发现了一些 k1 视觉思考模型存在的局限性，例如在分布外（out-of-distribution）的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面，有很大提升空间。在一些场景和泛化能力上，k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表一休教程网的观点和立场。

Kimi 发布视觉思考模型 k1

文章展示

开源日报 | OpenAI开放满血o1 API；Databricks宣布100亿美元融资；张一鸣进军私募业；Linux 6.1 LTS额外延长一年支持；中文Claude用户最喜欢写惊悚小说

JetBrains 推出 klibs.io：更轻松地搜索 KMP 库

马斯克展示 Grok2 新功能

EasyGoAdmin 敏捷开发框架 GoFrame+AntdVue 版本 v2.2.0 发布

资讯评论

资讯评论

排行榜展示

hs2姿势mod教程（hs2解锁姿势插件）

如何将Windows10电脑的默认下载位置更改为D盘

华夏网赚论坛（华夏免费版论坛）

哪里可以写黄文赚钱（哪里可以写黄文赚钱的软件）

上传91视频可以赚钱吗（91上传作品能赚钱吗）

美国赚钱可以拿回中国用吗（美国挣得钱能拿回中国吗）

Kimi 发布视觉思考模型 k1

相关文章

文章展示

排行榜展示