重新思考超分系列之从数据增强角度

论文题目

Rethinking Data Augmentation for Image Super-resolution:

A Comprehensive Analysis and a New Strategy

1、简介

数据增强是提高深度网络性能的有效途径，目前的方法大多是针对高级视觉任务(如分类)而开发的，很少针对低级视觉任务(如图像恢复)进行研究。在本文中，提供了一个全面的分析现有的增强方法应用于超分辨率任务。发现在空间关系非常重要的情况下，丢弃或处理像素或特征的方法严重阻碍了图像的恢复。根据分析提出了CutBlur，它可以剪切低分辨率补丁并将其粘贴到相应的高分辨率图像区域，反之亦然。CutBlur的关键直觉是使模型不仅可以学习“如何”，还可以学习“在哪里”超分辨率图像。通过这样做，模型可以理解“多少”，而不是盲目地学习对每个给定像素应用超分辨率。方法在不同的场景下持续显著地提高了性能，特别是当模型规模很大并且数据是在真实环境下收集的时候。方法还改善了其他低级视觉任务，如去噪和压缩伪影去除。

在此基础上，我们提出了一种专为低水平视觉任务设计的新型增强方法CutBlur。剪切和粘贴低分辨率(LR)图像patch转化为相应的ground-truth high resolution (HR)图像patch(图1)。通过在单幅图像中具有部分LR和部分HR的随机比例像素分布，CutBlur通过鼓励模型学习“如何”和“在哪里”来超分辨率图像，从而获得正则化效果。这样做的一个很好的作用是，模型还可以学习在给定图像的每个局部部分上应用“多少”超分辨率。在试图找到既能保持输入HR区域又能超分辨其他LR区域的映射时，模型自适应学习超分辨图像。

由于这个独特的属性，CutBlur可以防止SR模型的过度锐化，这在现实世界的应用中很常见，在训练阶段，通过将几种精选的数据挖掘方法一起应用，称之为混合增强(MoA)，可以进一步提高性能。实验表明，所提出的策略在各种模型和数据集上显著且持续地提高了模型性能。

贡献总结如下:

1.第一个在直接应用于SISR任务时提供最新数据增强方法的全面分析

2. 提出了一种新的数据处理方法，CutBlur，它可以通过正则化模型来学习不仅“如何”而且“在哪里”将超分辨率应用于给定图像来减少不现实的扭曲。

3. 混合策略在SR任务中显示出一致且显著的改进，在RealSR中实现了最优状态(SOTA)性能。

2、背景

许多增强方法的核心思想是对训练信号进行部分遮挡或混淆，使模型获得更强的泛化能力。然而，与高级任务(如分类)不同，模型需要学习抽象图像，像素之间的局部和全局关系在低级视觉任务(如去噪和超分辨率)中尤为重要。观察到删除信息的方法对SR性能是有害的，特别是在具有更大接受域的特征空间中。每种特征增强方法都会显著降低性能。

另一方面，仔细应用像素空间中的数据处理方法会带来一些改进(表1)。例如，默认设置的Cutout(在矩形形状中下降25%的像素)会使原始性能显著降低0.1 dB。然而，当应用0.1%的比率并擦除随机像素而不是矩形区域时，Cutout具有积极的效果(DIV2K: +0.01 dB和RealSR: +0.06 dB)。注意，当使用48×48输入时，这只会降低2 ~ 3个像素。

CutMix显示了一个边际改进(表1)，假设这是因为CutMix生成了图像上下文边界的急剧过渡。Mixup提高了性能，但它混合了两个不同图像的上下文，这可能会混淆模型。为了缓解这些问题，创建了一个CutMix和Mixup的变体，称之为CutMixup(图1虚线下方)，它在我们的基线上提供了更好的改进。通过获得这两种方法的优点，CutMixUp从最小化边界效应和混合上下文的比例中获益。

基于这些观察，进一步测试了一组基本操作，如RGB排列和Blend(添加恒定值)，这些操作不会导致图像中的任何结构变化。这些简单的方法在合成DIV2K数据集上显示出了令人满意的结果，在比较困难的RealSR数据集上有了很大的改进。这些结果从经验上证明了假设，这自然使我们想到了一种新的增强方法，CutBlur。当应用时，CutBlur不仅提高了性能(表1)，而且提供了一些其他数据处理方法无法获得的良好属性和协同作用。

3、CutBlur

1）设xLR和xHR分别为LR和HR图像patch, s表示sr中的比例因子。如图1所示，由于CutBlur需要匹配xLR和xHR的分辨率，首先使用双三次核xsLR将xLR上采样5倍。CutBlur的目标是通过将xHR的随机区域剪切粘贴到相应的xsLR中来生成一对新的训练样本(xHR→LR, xLR→HR)，反之亦然:

其中M∈{0,1}sW ×sH表示表示替换位置的二进制掩码，1是二进制掩码，⊙是逐元素乘法。对于掩码及其坐标的采样，遵循原始的CutMix。

2）为什么CutBlur适用于SR?在之前的分析中，发现图像patch内的急剧过渡或混合图像内容，或失去像素之间的关系都会降低SR性能。因此，一个好的SR数据分析方法不应该产生不切实际的模式或信息丢失，同时它必须作为SR模型的良好正则化器。

CutBlur满足这些条件，因为它在相同内容的LR和HR图像补丁之间执行剪切和粘贴。通过把LR图像区域到相应的HR图像区域，它可以最小化边界效应，这主要来自于图像内容之间的不匹配(例如，Cutout和CutMix)。与Cutout不同，CutBlur可以利用整个图像信息，同时由于随机HR比率和位置的不同样本而享受正则化效果。

3）模型用CutBlur学到了什么?与其他防止分类模型过于自信地做出决策的数据分析方法(例如，标签平滑)类似，CutBlur防止SR模型过度锐化图像，并帮助它只对必要的区域进行超分辨。这可以通过使用一些人工设置进行实验来证明，其中我们提供cutblur训练的SR模型，并将HR图像(图2)或cutblur LR图像(图3)作为输入。

当SR模型在测试阶段获取HR图像时，它通常会输出过度锐化的预测，特别是在边缘的地方(图2)。CutBlur可以通过在训练阶段直接向模型提供这样的示例来解决这个问题。CutBlur不仅缓解了过度锐化问题，而且由于正则化效应(图3)，它增强了其他LR区域的SR性能。注意，在CutBlur模型中残余强度显着降低。假设这种增强来自于约束SR模型判别地将超分辨率应用于图像。现在模型必须同时学习“如何”和“在哪里”对图像进行超分辨率，这导致模型学习“应该在多大程度上”应用超分辨率，这为训练提供了有益的正则化效果。

4）CutBlur vs.在训练期间提HR输入。为了使模型学习身份映射，而不是使用CutBlur，可以很容易地想到在训练阶段提供HR图像作为网络的输入。与EDSR模型相比，CutBlur训练模型(29.04 dB)表现好于提供HR图像(28.87 dB)到网络的PSNR优于na¨ıvely。这是因为CutBlur更通用，因为HR输入是它的特殊情况(M = 0或1)。另一方面，给出HR输入永远无法模拟LR和HR像素的混合分布，因此网络只能学习“如何”，而不是“在哪里”超分辨率图像。

5）混合增强(MoA)。为了突破性能提升的极限，将各种数据处理方法集成到一个框架中。对于每次训练迭代，模型首先以p概率决定是否对输入应用DA。如果是，则从DA池中随机选择一个方法。根据分析，使用表1中讨论的所有像素域数据处理方法，同时排除所有特征域数据处理方法。这里，将p = 1.0设置为默认值，除非特别说明，否则报告所有使用该MoA策略的实验结果。

4、实验

1）通过改变模型和训练数据集的大小，对DIV2K (×4)验证集上的PSNR (dB)进行比较

2）在不同的数据集和任务上使用我们提出的方法进行定性比较，∆为网络输出与真值HR图像之间的绝对残差强度图。

3）合成环境和现实环境下SR(量表×4)任务的定量比较(PSNR / SSIM)，δ表示增强与不增强之间的性能差距。

4）基线和CutBlur模型输出的定性比较

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：https://www.iotsj.com//chanye/jiguang/5480.html

重新思考超分系列之从数据增强角度

相关推荐

联系我们