1. 首页 > 产业新闻 > 激光

重新思考超分系列之从数据增强角度

论文题目

Rethinking Data Augmentation for Image Super-resolution:

A Comprehensive Analysis and a New Strategy

1、简介

数据增强是提高深度网络性能的有效途径,目前的方法大多是针对高级视觉任务(如分类)而开发的,很少针对低级视觉任务(如图像恢复)进行研究。在本文中,提供了一个全面的分析现有的增强方法应用于超分辨率任务。发现在空间关系非常重要的情况下,丢弃或处理像素或特征的方法严重阻碍了图像的恢复。根据分析提出了CutBlur,它可以剪切低分辨率补丁并将其粘贴到相应的高分辨率图像区域,反之亦然。CutBlur的关键直觉是使模型不仅可以学习“如何”,还可以学习“在哪里”超分辨率图像。通过这样做,模型可以理解“多少”,而不是盲目地学习对每个给定像素应用超分辨率。方法在不同的场景下持续显著地提高了性能,特别是当模型规模很大并且数据是在真实环境下收集的时候。方法还改善了其他低级视觉任务,如去噪和压缩伪影去除。

在此基础上,我们提出了一种专为低水平视觉任务设计的新型增强方法CutBlur。剪切和粘贴低分辨率(LR)图像patch转化为相应的ground-truth high resolution (HR)图像patch(图1)。通过在单幅图像中具有部分LR和部分HR的随机比例像素分布,CutBlur通过鼓励模型学习“如何”和“在哪里”来超分辨率图像,从而获得正则化效果。这样做的一个很好的作用是,模型还可以学习在给定图像的每个局部部分上应用“多少”超分辨率。在试图找到既能保持输入HR区域又能超分辨其他LR区域的映射时,模型自适应学习超分辨图像。

由于这个独特的属性,CutBlur可以防止SR模型的过度锐化,这在现实世界的应用中很常见,在训练阶段,通过将几种精选的数据挖掘方法一起应用,称之为混合增强(MoA),可以进一步提高性能。实验表明,所提出的策略在各种模型和数据集上显著且持续地提高了模型性能。

贡献总结如下:

1.第一个在直接应用于SISR任务时提供最新数据增强方法的全面分析

2. 提出了一种新的数据处理方法,CutBlur,它可以通过正则化模型来学习不仅“如何”而且“在哪里”将超分辨率应用于给定图像来减少不现实的扭曲。

3. 混合策略在SR任务中显示出一致且显著的改进,在RealSR中实现了最优状态(SOTA)性能。

2、背景

许多增强方法的核心思想是对训练信号进行部分遮挡或混淆,使模型获得更强的泛化能力。然而,与高级任务(如分类)不同,模型需要学习抽象图像,像素之间的局部和全局关系在低级视觉任务(如去噪和超分辨率)中尤为重要。观察到删除信息的方法对SR性能是有害的,特别是在具有更大接受域的特征空间中。每种特征增强方法都会显著降低性能。

另一方面,仔细应用像素空间中的数据处理方法会带来一些改进(表1)。例如,默认设置的Cutout(在矩形形状中下降25%的像素)会使原始性能显著降低0.1 dB。然而,当应用0.1%的比率并擦除随机像素而不是矩形区域时,Cutout具有积极的效果(DIV2K: +0.01 dB和RealSR: +0.06 dB)。注意,当使用48×48输入时,这只会降低2 ~ 3个像素。

CutMix显示了一个边际改进(表1),假设这是因为CutMix生成了图像上下文边界的急剧过渡。Mixup提高了性能,但它混合了两个不同图像的上下文,这可能会混淆模型。为了缓解这些问题,创建了一个CutMix和Mixup的变体,称之为CutMixup(图1虚线下方),它在我们的基线上提供了更好的改进。通过获得这两种方法的优点,CutMixUp从最小化边界效应和混合上下文的比例中获益。

基于这些观察,进一步测试了一组基本操作,如RGB排列和Blend(添加恒定值),这些操作不会导致图像中的任何结构变化。这些简单的方法在合成DIV2K数据集上显示出了令人满意的结果,在比较困难的RealSR数据集上有了很大的改进。这些结果从经验上证明了假设,这自然使我们想到了一种新的增强方法,CutBlur。当应用时,CutBlur不仅提高了性能(表1),而且提供了一些其他数据处理方法无法获得的良好属性和协同作用。

3、CutBlur

1)设xLR和xHR分别为LR和HR图像patch, s表示sr中的比例因子。如图1所示,由于CutBlur需要匹配xLR和xHR的分辨率,首先使用双三次核xsLR将xLR上采样5倍。CutBlur的目标是通过将xHR的随机区域剪切粘贴到相应的xsLR中来生成一对新的训练样本(xHR→LR, xLR→HR),反之亦然:

其中M∈{0,1}sW ×sH表示表示替换位置的二进制掩码,1是二进制掩码,⊙是逐元素乘法。对于掩码及其坐标的采样,遵循原始的CutMix。

2)为什么CutBlur适用于SR?在之前的分析中,发现图像patch内的急剧过渡或混合图像内容,或失去像素之间的关系都会降低SR性能。因此,一个好的SR数据分析方法不应该产生不切实际的模式或信息丢失,同时它必须作为SR模型的良好正则化器。

CutBlur满足这些条件,因为它在相同内容的LR和HR图像补丁之间执行剪切和粘贴。通过把LR图像区域到相应的HR图像区域,它可以最小化边界效应,这主要来自于图像内容之间的不匹配(例如,Cutout和CutMix)。与Cutout不同,CutBlur可以利用整个图像信息,同时由于随机HR比率和位置的不同样本而享受正则化效果。

3)模型用CutBlur学到了什么?与其他防止分类模型过于自信地做出决策的数据分析方法(例如,标签平滑)类似,CutBlur防止SR模型过度锐化图像,并帮助它只对必要的区域进行超分辨。这可以通过使用一些人工设置进行实验来证明,其中我们提供cutblur训练的SR模型,并将HR图像(图2)或cutblur LR图像(图3)作为输入。

当SR模型在测试阶段获取HR图像时,它通常会输出过度锐化的预测,特别是在边缘的地方(图2)。CutBlur可以通过在训练阶段直接向模型提供这样的示例来解决这个问题。CutBlur不仅缓解了过度锐化问题,而且由于正则化效应(图3),它增强了其他LR区域的SR性能。注意,在CutBlur模型中残余强度显着降低。假设这种增强来自于约束SR模型判别地将超分辨率应用于图像。现在模型必须同时学习“如何”和“在哪里”对图像进行超分辨率,这导致模型学习“应该在多大程度上”应用超分辨率,这为训练提供了有益的正则化效果。

4)CutBlur vs.在训练期间提HR输入。为了使模型学习身份映射,而不是使用CutBlur,可以很容易地想到在训练阶段提供HR图像作为网络的输入。与EDSR模型相比,CutBlur训练模型(29.04 dB)表现好于提供HR图像(28.87 dB)到网络的PSNR优于na¨ıvely。这是因为CutBlur更通用,因为HR输入是它的特殊情况(M = 0或1)。另一方面,给出HR输入永远无法模拟LR和HR像素的混合分布,因此网络只能学习“如何”,而不是“在哪里”超分辨率图像。

5)混合增强(MoA)。为了突破性能提升的极限,将各种数据处理方法集成到一个框架中。对于每次训练迭代,模型首先以p概率决定是否对输入应用DA。如果是,则从DA池中随机选择一个方法。根据分析,使用表1中讨论的所有像素域数据处理方法,同时排除所有特征域数据处理方法。这里,将p = 1.0设置为默认值,除非特别说明,否则报告所有使用该MoA策略的实验结果。

4、实验

1)通过改变模型和训练数据集的大小,对DIV2K (×4)验证集上的PSNR (dB)进行比较

2)在不同的数据集和任务上使用我们提出的方法进行定性比较,∆为网络输出与真值HR图像之间的绝对残差强度图。

3)合成环境和现实环境下SR(量表×4)任务的定量比较(PSNR / SSIM),δ表示增强与不增强之间的性能差距。

4)基线和CutBlur模型输出的定性比较

版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//chanye/jiguang/5480.html

联系我们

在线咨询:点击这里给我发消息

微信号:666666