当前位置:首页 > 足球资讯 > 正文

formotion(formotion阿迪达斯好吗)

作者|蒋宝尚

编辑|簇尾

一方面,DeepFake被称为“AI癌症”,另一方面,它在哔哩哔哩非常受欢迎。最近,这项技术已被用于在线视频会议。

一键变脸,身临其境的与马斯克见面,讨论火箭上天大计划的项目,还上了Github热榜。

据说这是Avatarify,一个来自俄罗斯的程序员开发的开源“视频会议头像”软件。其背后的技术是基于一阶运动(First Order Motion)的核心模型,可以将视频中的对象制作成动画,并生成视频序列。一阶运动模型来自NeurIPS 2019的论文《图像动画的一阶运动模型》。它最初的目的是让“静止的图片”动起来。如下图所示:“你动,它也动”。

根据作者的介绍,这种模型可以轻松让《权力之旅》中的人物模仿川普说话,还可以做静态的马跑,还可以完成模型的“一键换装”。

论文解读:一阶动画模型的来源与主要想法

作者大多来自意大利特伦托大学,还有一位是snap的员工。该论文已发表在NeurIPS 2019上。

一阶运动模型的运算过程

整个模型分为运动估计模块和图像生成模块。在运动估计模块中,模型通过自监督学习分离目标物体的外观和运动信息,并进行特征表示。在图像生成模块中,模型会对目标运动过程中的遮挡进行建模,然后从给定的名人图片中提取外观信息,结合之前获得的特征表示合成视频。这种模式对硬件要求很高。要达到每秒33帧的视频效果,需要1080ti的显卡,也就是说需要NVIDIA 10系列显卡的卡加持。

模型细节与方法

一阶动画模型的思想是利用一组自学习关键点和局部仿射变换建立复杂的运动模型,以解决大型目标姿态动态变化时传统模型生成质量差的问题。

此外,作者还引入了一个“遮挡感知生成器”,可以指示源图像中不可见的部分,从而利用上下文来推断这部分内容。此外,为了改进局部仿射变换的估计,作者扩展了关键点检测器训练中常用的算术损失。最后,作者还发布了一个新的高分辨率数据集Thai-Chi-HD,用于评估图像动画和视频生成的帧。作者根据行车视频中相似物体的运动,对源图像中描绘的物体进行动画处理。

受猴网的启发,采用自我监控策略代替直接监督。

注意:猴子网通过深度运动迁移来激活任何物体。

formotion(formotion阿迪达斯好吗)  第1张

为了训练,作者使用了大量包含相同对象类别的视频序列集。该模型被训练以通过组合单个帧和学习视频中运动的潜在表示来重建训练视频。观察从同一视频中提取的帧对,模型学习将运动编码为特定关键点位移和局部仿射变换的组合。

在测试过程中,将模型应用于源图像和行驶视频的每一帧的帧对,源对象被“动画化”。运动估计模块的功能是估计密集运动场,然后使用该密集运动场来调整所计算的特征图和对象姿态。

此外,作者使用了后向光流,因为它可以有效地实现双线采样。运动估计模块不直接预测,而是分两步进行。第一步,从稀疏轨迹集中近似出两个变换,其中两个变换是通过使用自监控方法学习关键点得到的。视频图像中的关键点分别由编解码网络预测。

此外,稀疏运动表示非常适合动画,因为在测试中,可以使用驾驶视频中的关键点来移动源图像的关键点。使用局部仿射变换的优点是可以对每个关键点附近的运动进行建模。与仅使用关键点替换相比,局部仿射变换可以建模更大的变换族。

第二步,密集运动网络结合局部逼近获得密集运动场。除了密集运动场之外,网络还输出遮挡掩模,其指示视频中的哪些图像部分可以通过扭曲源图像来重建,以及哪些部分应该被嵌入(即,从上下文中推断)。

实验

作者在四个数据集上进行了训练和测试,结果表明,与所有实验相比,一阶动画模型可以渲染出分辨率非常高的视频。VoxCeleb数据集,UvA-Nemo数据集,BAIR机器人推送数据集,作者自己收集的数据集。

其中,VoxCeleb是一个数据集,它包含了从YouTube视频中提取的1251个人的超过10万个声音。数据集性别均衡,男性占55%。演讲者涵盖不同的种族、口音、职业和年龄。UvA-Nemo是由1240个视频组成的人脸分析数据集。作者使用了1116个视频进行训练,124个视频进行评测。

这个来自伯克利的包含Sawyer的机械臂在桌子上推动不同物体收集的视频。它包括42,880个训练视频和128个测试视频。每个视频长30帧,分辨率为256×256。作者收集的数据是YouTube上285个关于太极功夫的视频,其中252个用于训练,28个用于测试。训练前对视频进行预处理,分割后的训练集为3049个训练视频和285个测试视频。

太极视频中重构的比较

上图中的消融研究结果显示,来自太极高清数据集的两个序列和两个源图像上的图像动画任务与当前的SOTA进行了比较。

与X2Face和Monkey-Ne相比,作者的一阶动画模型提高了四个不同数据集的每一个指标。即使在VoxCeleb和Nemo上,作者的方法也明显优于X2Face。

在作者的博客上,还做了一个变脸的实验,如下:

Leifeng.com(Leifeng.com)(Leifeng.com)

0