智谱开源清影模型 CogVideoX-一休教程

7 月 26 日，智谱发布 AI 生视频「清影」并上线智谱清言APP，30秒将任意文图生成视频。现在，智谱宣布正式开源清影模型 CogVideoX。

CogVideoX开源模型包含多个不同尺寸大小的模型，此次开源的是 CogVideoX-2B，它在FP-16精度下的推理仅需18GB显存，微调则只需要40GB显存，这意味着单张4090显卡即可进行推理，而单张A6000显卡即可完成微调。

CogVideoX-2B的提示词上限为226个token，视频长度为6秒，帧率为8帧/秒，视频分辨率为720*480。“我们为视频质量的提升预留了广阔的空间，期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。”

智谱开源清影模型 CogVideoX插图

为了评估文本到视频生成的质量，智谱方面使用了VBench中的多个指标，如人类动作、场景、动态程度等。还使用了两个额外的视频评估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，这些工具专注于视频的动态特性。如下表所示：

智谱开源清影模型 CogVideoX插图1

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表一休教程网的观点和立场。

智谱开源清影模型 CogVideoX