AMD 开源首款小语言模型 AMD-135M-一休教程

AMD 宣布推出 AMD-135M —— Llama 家族的第一个小型语言模型。该模型具有推测解码功能，其训练代码、数据集和权重都是开源的，以便开发人员可以重现该模型并帮助训练其他 SLM 和 LLM。

“大语言模型通常使用自回归方法进行推理。然而，这种方法的一个主要限制是每次前向传递只能生成单个 token，导致内存访问效率低下并影响整体推理速度。

推测解码的出现解决了这个问题。其基本原理是使用小型草稿模型生成一组候选 token，然后由更大的目标模型进行验证。这种方法允许每次前向传递生成多个 token，而不会影响性能，从而显著减少内存访问消耗，并实现几个数量级的速度提升。”

AMD 开源首款小语言模型 AMD-135M插图

公告称，AMD-135M 使用 AMD Instinct MI250 加速器从头开始训练，拥有 6700 亿个 token，包括 AMD-Llama-135M 和 AMD-Llama-135M-code 两个型号。

预训练：使用四个 MI250 节点，在六天内用 6700 亿个通用数据 token 从头开始训练 AMD-Llama-135M 模型。
代码微调：AMD-Llama-135M 代码变体利用另外 200 亿个代码数据 token 进行了微调，在同一硬件上耗时四天。

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表一休教程网的观点和立场。

AMD 开源首款小语言模型 AMD-135M

文章展示

开源日报 | OpenAI开放满血o1 API；Databricks宣布100亿美元融资；张一鸣进军私募业；Linux 6.1 LTS额外延长一年支持；中文Claude用户最喜欢写惊悚小说

JetBrains 推出 klibs.io：更轻松地搜索 KMP 库

马斯克展示 Grok2 新功能

EasyGoAdmin 敏捷开发框架 GoFrame+AntdVue 版本 v2.2.0 发布

资讯评论

资讯评论

排行榜展示

hs2姿势mod教程（hs2解锁姿势插件）

如何将Windows10电脑的默认下载位置更改为D盘

华夏网赚论坛（华夏免费版论坛）

哪里可以写黄文赚钱（哪里可以写黄文赚钱的软件）

上传91视频可以赚钱吗（91上传作品能赚钱吗）

美国赚钱可以拿回中国用吗（美国挣得钱能拿回中国吗）

AMD 开源首款小语言模型 AMD-135M

相关文章

文章展示

排行榜展示