论文地址: https://arxiv.org/pdf/2203.12707.pdf

开源地址: https://github.com/batmanlab/MSPC

摘要

未配对的图像到图像翻译(I2i)是一个不当的问题,因为无限数量的翻译功能可以将源域分布映射到目标分布。因此,在设计合适的约束方面已付出了很多努力,例如循环一致性(Cyclegan),几何一致性(GCGAN)和基于学习的限制(Cutgan),这有助于更好地解决问题。但是,这些众所周知的约束存在局限性:(1)对于特定的I2i任务而言,它们要么太限制或太弱; (2)当源和目标域之间存在显着的空间变化时,这些方法会导致内容失真。本文提出了一种称为最大空间扰动一致性(MSPC)的通用正则化技术,该技术执行空间扰动函数(T),而翻译操作员(G)则是可交换的(即T◦G= G = G◦T)。此外,我们介绍了两个对抗性训练组件,以学习空间扰动函数。第一个让T与G竞争以达到最大的扰动。第二个使G和T与判别器竞争,以使对象大小,对象失真,背景中断等变化引起的空间变化对齐。我们的方法在大多数I2I基准测试上都优于最新方法。我们还引入了一个新的基准测试,即剖面数据集的正面面,以强调I2i对现实世界应用的潜在挑战。我们最终进行消融实验,以研究我们方法对空间扰动严重程度及其分布比对的有效性的敏感性。

主要贡献

为了解决上述问题,我们提出了一种称为最大空间扰动一致性(MSPC)的新颖正则化,该正规化强制执行了一种新型的约束,并使内容跨域的空间分布内容对齐。我们的MSPC通过学习空间扰动函数t概括了GCGAN,该函数t可以自适应地通过图像依赖性空间扰动转换每个图像。此外,MSPC基于新的见解,即硬空间扰动的一致性会提高翻译器G的稳健性。因此,MSPC强制执行最大空间扰动函数(T)和翻译操作员(G)是交换的(即T◦,t◦ g =g◦t)。为了产生最大的空间扰动,我们引入了一个可区分的空间变压器t [26],以在迷你最大游戏中与翻译网络G竞争,我们将其标记为扰动分支。更具体地说,t试图最大化t(g(x))和g(t(x))之间的距离,并最小化它们之间的差异。这样,我们的方法会动态地为每个图像生成最难的空间转换,从而避免过度拟合G到特定的空间转换。图1a给出了一个简单的说明,说明了图像依赖性空间扰动如何在\( I2I \)框架上起作用。

为了对齐内容的空间分布,T 和 G 合作在另一个 mini-max 游戏中与鉴别器 Dpert 竞争,我们将其标记为对齐分支。在对齐分支中,T 通过减轻空间差异参与对齐翻译图像和目标图像之间的分布,即调整对象的大小,裁剪掉噪声背景,并进一步减少翻译网络 G 中不希望出现的失真。我们评估我们的模型基于几个广泛研究的基准,此外,我们构建了一个具有显着领域差距的 Front Face → Profile 数据集,以强调实际应用中的挑战。实验结果表明,所提出的 MSPC 在大多数 I2I 任务上都优于其竞争对手。更重要的是,MSPC 在各种 I2I 任务中执行最稳定,证明了我们约束的普遍性。图 1b 显示了通过动态空间变换函数对源图像和目标图像的对齐效果的视觉示例。

实验

我们在前面的不同设置中进行定量实验→剖面,城市景观[10],Google Map [25],马→斑马翻译。对于Face→配置文件,我们旨在模拟现实世界的应用程序,在该应用程序中,我们没有从源到目标的任何配对的培训身份,而是评估具有配对身份的固定前线和概况面的性能。 CityScapes和Google Map数据集在培训数据集中包含配对的图像,但是所有模型均以未配对的方式进行培训,还对配对的持有测试集进行了测试。S此外,我们还测试了模型→Zebra上的模型。配对数据不可用的地方。