Meta 开源新的“多标记预测”语言模型-一休教程

Meta 今年 4 月曾在一篇论文中介绍了一种利用多标记预测（multi-token prediction）实现更好、更快 LLM 的新训练方法。为了便于研究人员进一步探索，该公司现如今在 HuggingFace 上发布了使用这种方法完成代码的预训练模型。

“大型语言模型（例如 GPT 和 Llama）都是通过下一个标记预测损失进行训练。在这项工作中，我们认为训练语言模型同时预测多个未来标记会带来更高的样本效率……我们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题，在 MBPP 上多解决了 17% 的问题。另外一个好处是，即使批量规模很大，使用 4-token 预测训练的模型的推理速度也能提高 3 倍。”

Meta 开源新的“多标记预测”语言模型插图

Meta 此次共发布了 4 个经过代码训练的 7B 参数模型。其中有两个模型接受了 2000 亿个 token 的代码样本的训练，而另外两个模型则分别接受了 1 万亿个 token。在模型附带的一篇论文中，Meta 透还露了其正在开发但尚未发布的第五个 LLM，该模型拥有 130 亿个参数。

目前尚不清楚为什么这种方法产生的代码质量比传统的 LLM 设计更高。Meta 的研究人员在论文中指出，原因可能与语言模型的构建方式有关。

开发人员通常使用一种称为 Teacher-forcing 的技术来训练 LLM。包括给模型分配任务，例如生成一段代码，然后在模型出错时给它提供正确答案。这种方法有助于简化开发工作流程，但会限制所训练 LLM 的准确性。

Meta 研究人员认为，一次生成四个 token 的输出有可能减轻 Teacher-forcing 方法的局限性。“我们认为，’Teacher-forcing’鼓励模型专注于在短期内进行良好的预测，而忽略了生成序列整体结构中的长期依赖性。”

科技媒体 VentureBeat 认为，这一突破的影响可能十分深远。随着 AI 模型的规模和复杂性不断膨胀，它们对计算能力的贪婪需求引发了人们对成本和环境影响的担忧。Meta 的多标记预测方法或许能遏制这一趋势，使先进的 AI 更易于使用，并具有可持续性。

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表一休教程网的观点和立场。

Meta 开源新的“多标记预测”语言模型

文章展示

Elasticsearch 8.16.2 发布

写个 AI 小助手：轻松对话，工作更轻松高效了！

🔥IoTOS v1.6.8 物联卡平台

Netty 4.1.116.Final 发布，Java 网络应用框架

「通义」应用团队从阿里云分拆，并入阿里智能信息事业群

OpenAI 开放满血 o1 API：成本爆降、延迟更低

排行榜展示

hs2姿势mod教程（hs2解锁姿势插件）

如何将Windows10电脑的默认下载位置更改为D盘

华夏网赚论坛（华夏免费版论坛）

哪里可以写黄文赚钱（哪里可以写黄文赚钱的软件）

上传91视频可以赚钱吗（91上传作品能赚钱吗）

美国赚钱可以拿回中国用吗（美国挣得钱能拿回中国吗）

Meta 开源新的“多标记预测”语言模型

相关文章

文章展示

排行榜展示