腾讯宣布开源可控视频生成框架 MimicMotion该框架可以通过提供参考人像及由骨骼序列表示的动作来产生平滑的高质量人体动作视频

公告称,大量的实验结果和用户调研表明MimicMotion在各种方面都显著优于以往的方法目前模型及配套代码均已开源

与以往的方法相比MimicMotion具有以下几个亮点

  • 首先通过引入了置信度感知的姿态引导信号大幅提升了帧间一致性使得产生的视频在时序上能够做到平滑自然
  • 其次通过放大置信度感知的区域损失显著减少了图像失真使得局部画面如人体手部细节得到了大幅改善
  • 最后通过结合扩散过程的渐进式潜在特征融合策略MimicMotion能够在有限的算力资源内生成无限长的视频同时保证画面连贯

主要优势:

  • 生成结果细节更清晰 (尤其是手部细节);
  • 生成视频时序平滑度更好无明显闪烁;
  • 能够生成长视频并且无明显跳变

架构设计

资讯评论插图

MimicMotion模型的核心结构是一个带有U-Net的隐空间视频扩散模型用于在隐空间中进行逐步去噪输入视频帧的VAE编码器和相应的解码器用于获取去噪视频帧这些部分都加载了Stable Video Diffusion (SVD)预训练参数并将其冻结VAE编码器独立地应用于输入视频的每一帧以及条件参考图像基于逐帧操作不考虑时间或跨帧交互不同的是VAE解码器处理经过U-Net时空交互的隐特征为了确保生成流畅的视频VAE解码器在空间层外加入了时间层以镜像VAE编码器的架构

除了输入视频帧之外参考图像和姿态序列是模型的另外两个输入参考图像通过两个独立的路径输入到扩散模型中一个路径是将图像输入到U-Net的每个模块中具体来说通过类似CLIP的视觉编码器提取图像特征并将其输入到每个U-Net模块的交叉注意力中以最终控制输出结果另一个路径针对输入的隐特征与原始视频帧类似输入的参考图像使用相同的冻结VAE编码器进行编码以在隐空间中获得其表示然后单个参考图像的隐特征沿着时间维度复制以与输入视频帧的特征对齐复制的隐参考图像与隐视频帧沿通道维度连接在一起然后一起输入到U-Net中进行扩散

为了引入姿态的指导PoseNet被设计为一个可训练的模块用于提取输入姿态序列的特征它由多个卷积层实现不使用VAE编码器的原因是姿态序列的像素值分布与VAE自编码器训练的普通图像不同通过PoseNet提取姿态特征然后逐元素地添加到U-Net第一个卷积层的输出中这样姿态指导的影响可以从去噪的一开始就发挥作用

资讯评论插图1

MimicMotion在生成多种形式的人体动作视频上均具有良好的结果包括半身动作全身动作以及谈话动作视频相比现有的开源方案如MagicPoseMoore-AnimateAnyone等;

MimicMotion具有以下几点优势:

1. 生成结果细节更加丰富且清晰包括人体手部细节;

2. 帧间连续性更加优秀画面无明显跳变;

3. 支持平滑的长视频生成

在量化指标评估实验中MimicMotion相比现有开源方案MagicPoseMoore-AnimateAnyone以及MuseV在FID-VID及FVD测试指标上均取得了领先

资讯评论插图2

考虑生成结果对于用户的直观感受在由36位人员参与的用户调研中MimicMotion获得了75.5%以上的优胜率


免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表一休教程网的观点和立场。