在其核心,Boximator 扮演着插件的角色,将用户的限制融入到已有的视频合成模型中。在保持基础模型权重不变的同时,它训练附加模块,从而可以直接与最尖端的系统进行集成。
TikTok的母公司字节跳动发布了一篇关于Boximator的研究论文,这种新型技术能为生成视频中物体的运动提供极其精细的控制。让我们来看看:
Boximator(“box”与“animator”的合成词)提出了一种简易且强大的运动规定方法。用户首先在参考图像中画出框,选取物体。然后,他们可以通过附加的框和线条定义物体的最终位置或者跨越帧的整个移动轨迹。这种视觉为基础的技术避免了口头描述所需动作的需要。
在其核心,Boximator 扮演着插件的角色,将用户的限制融入到已有的视频合成模型中。在保持基础模型权重不变的同时,它训练附加模块,从而可以直接与最尖端的系统进行集成。
根据实际经验,Boximator增强型模型在保持原始视频质量(通过 Fréchet 视频距离(FVD)分数进行测量)的同时,实现了精确的运动控制功能。在 MSR-VTT 数据集上,该模块提升了两种基础模型的 FVD 分数,同时通过将生成的运动与实际框进行对比的平均精度指标,实现了强大的运动对齐。
定性结果进一步凸显了技术的真实性,物体能忠实地遵循复杂的用户定义的路径、交互和场景的进入/退出。Boximator 就像管理马术的人一样管理复合元素,并控制物体的数量、大小、接近度等。
这标志着向平衡质量、多样性和用户控制的更多功能视频生成平台迈出的重要一步。通过将运动规定外部化,Boximator 可能会节省学习这些更细粒度方面所需的大量计算力。
© 版权声明
以上内容来源于网络或收集整理,内容属作者个人观点,不代表TKTOC立场!文章版权归作者所有,未经允许请勿转载。