《武汉工程大学学报》  2024年05期 564-573   出版日期:2024-10-28   ISSN:1674-2869   CN:42-1779/TQ
实际场景人脸超分辨率算法综述


图像或视频是人类感知客观世界最直观的方式之一,在通信、遥感、医学、娱乐等领域中得到了广泛的应用[1],其分辨率高低直接影响采样信息的重建保真度。然而传输系统的带宽约束、图像传感器的物理限制、超声影像的质量不足和网络视频的码率限制等因素,降低了实际场景图像分辨率和质量,无法满足高质量需求[2]。超分辨率(super-resolution,SR)技术能够提高数字图像/视频的空间/时间分辨率、细节和清晰度,在多个实际应用中展现了重要价值[3]。
在视频监控、人脸识别、图像复原等实际应用场景中,人脸图像扮演着至关重要的角色[4]。摄像头与待捕获人脸距离不同,影响捕获人脸尺度大小,且捕获人脸存在不同的面部姿势和表情,影响面部信息保真度,导致人脸图像失真、模糊、被遮挡,影响人脸识别、表情分析等应用的准确性和可靠性,增加了人脸超分辨率(face super-resolution,FSR)任务的复杂性,引起世界范围内学者们的广泛关注[5]。
FSR技术作为图像SR技术的特定领域,旨在提高低分辨率(low-resolution,LR)人脸图像的清晰度[6]。由于LR图像中信息的缺失,使得求解高分辨率(high-resolution,HR)图像成为一个具有多个可能解的问题,其可视为欠定方程的求解问题:引入人脸先验等约束条件获得稳定的方程解。现有大多数FSR技术仅对明确的降质过程进行建模求解,难以处理实际场景中降质过程复杂不明确的情况。
鉴于此,根据实际场景降质过程是否明确,对FSR技术进行调研综述。按照不同发展阶段总结FSR的发展历程,详细阐述基于非盲降质和盲降质的FSR技术。最后根据可视化对比结果,剖析影响SR算法性能的因素,探讨未来发展方向。
1 FSR技术与发展历程
1.1 FSR定义
FSR技术旨在提高LR人脸图像的分辨率,求解欠定方程恢复图像细节,即使用不同的重建函数获得不同的解。通过一般退化过程得到重建后的人脸图像,如式(1)所示。
[ISR=?-1ILR, δ=FILR, δ] (1)
其中,[?-1(·)]表示人脸图像降质过程的逆运算,[ISR]表示重建后的人脸图像,[δ]表示重建函数的相关参数(如学习率、梯度参数等),[ILR]表示LR人脸图像,F(·)表示SR模型。
参数[δ]的训练目标函数如式(2)所示:
[δ=argminδLISR, IHR] (2)
其中,L(·)表示损失函数。
1.2 图像降质过程定义
由于图像在获取、传输或处理过程中可能遭受质量损失,通常涉及模糊和噪声等多种退化因素的复合作用,给定LR人脸图像[ILR]和HR人脸图像[IHR],图像的一般降质过程如式(3)所示。
[ILR=?IHR, θ] (3)
其中,[?(·)]表示图像降质过程的函数,[θ]表示模型参数,包括模糊核、下采样操作和噪声等。
在可控的非盲降质条件下,给定式(4)以描述图像退化函数。
[ILR=IHR]↓s (4)
其中,↓表示下采样操作,[s]表示比例因子,这类下采样操作多为单一的双线性插值或者双三次插值,然而这种退化模型过于单一,并未考虑到实际场景下的噪声、模糊等因素。为此,一个更贴近实际场景下的退化过程被提出,如式(5)所示。
(5)
其中[k]、[⊙]、[n]和[J(·)]分别代表模糊核、卷积运算、噪声和图像压缩函数。
1.3 FSR技术发展历程
2000年,Baker等[7]首次提出FSR概念,通过数学理论模型还原LR人脸图像。随后Liu等[8]使用全局-局部双分支模型和主成分分析(principal component analysis, PCA)法重建人脸边缘。在这些开创性工作的启发下,越来越多的工作使用数字图像处理技术对公式(1-3)进行求解。
Yang等[9]通过高、低分辨率图像块计算稀疏编码的系数。Kim等[10]采用梯度下降的核脊回归(kernel ridge regression, KRR)算法拟合映射函数。Wang等[11]结合高斯、拉普拉斯范数推导贝叶斯框架最优解。Chang等[12]使用流行学习和邻域插值少量数据拟合重建过程。随着FSR数字处理技术的发展,大多数工作采用稀疏编码、流形学习等数字建模恢复人脸信息。
在深度学习有了突破性进展后,Zhou等[13]将深度学习用于FSR技术,设计双通道卷积网络提出人脸表征。Huang等[14]使用像素级卷积神经网络(convolutional neural networks, CNN)与小波变换预测相应的小波系数。但基于像素损失训练往往导致输出过于平滑,为解决这一问题, Goodfellow等[15]首次提出生成对抗网络(generative adversarial networks,GAN),恢复更多细节的人脸图像并减少重建图像过于平滑的问题。随后Cai等[16]使用GAN的生成器恢复遮挡图像,融合多种损失函数指导鉴别器筛选无遮挡HR人脸图像,在跨数据库测试中表现出更好的模型泛化性能。
采用深度学习的FSR技术取得了显著的进展,但难以处理式(5)中噪声、压缩等降质过程,导致真实图像退化模型与假设的建模模型不一致。为此,2018年,Bulat等[17]首次提出对真实世界SR重建任务进行尝试。
2 实际场景FSR技术
2021年,Jiang等[4]较全面地调研了基于深度学习的FSR技术研究。考虑到实际场景图像降质过程的多样性,根据降质过程是否明确已知将FSR技术分为基于非盲降质和基于盲降质的FSR技术。
基于非盲降质的FSR技术利用人脸先验处理明确的降质过程,在部分实际场景数据集中取得不错的效果,但泛化性能较差;基于盲降质的FSR技术学习单一模型应对1个或多个退化过程的实例,不需要额外的先验信息或参考图像就能提高模型泛化能力和重建结果的真实程度。
2.1 基于非盲降质的FSR技术
基于非盲降质的FSR技术通常假设图像存在特定降质过程,针对不同降质过程单独建模,可分为空间下采样、噪声、模糊及多种降质过程组合的FSR技术。
2.1.1 空间下采样FSR技术 经典的SR任务将HR图像经过双线性插值或双三次插值等下采样操作得到LR图像。程超月[18]和邵奔[19]利用经过空间下采样处理得到LR图像的身份先验,通过空间注意力残差网络(spatial attention residual network,SPARNet)[20]重建清晰的人脸关键结构。上述方法取得了较高的峰值信噪比(peak signal-to-noise ratio, PSNR[21]),但PSNR仅关注像素差异,忽视了图像感知质量,且重建效果过于平滑,缺乏细节纹理信息。
为此,Zhang等[22]提出一种基于身份先验的有监督像素级GAN,重建出真实且纹理复杂的视觉效果。林旺庆[23]基于数据扩充和人脸属性、关键点等面部先验知识增强高频细节的捕捉能力。Xin等[24]提出一种结合像素级和语义级信息的密集连接网络,提高了面部纹理细节的恢复能力。
考虑到重建图像中包含的原始图像面部信息,He等[25]提出堆叠GAN的端到端网络,恢复结果保留输入面部的身份细节。为了改善恢复图像细节的不良伪影,Wang等[26]将密集卷积网络和谱归一化GAN相结合。虽然上述方法取得了更好的人脸轮廓细节和面部质感,但其训练的不稳定性导致模型难以收敛,重建结果有时会缺少必要的高频细节。
空间下采样方法的训练样本与实际场景图像存在域差,影响测试结果。上述方法仅考虑人脸图像本质上的放缩问题、关注LR图像和HR图像间的映射关系,并未关注实际场景多种因素的影响,泛化能力较差。
2.1.2 噪声FSR技术 针对噪声干扰的LR人脸图像,需要同时解决空间下采样的域差问题和噪声抑制问题。为此,Chen等[27]提出一种基于时序门控集成网络的多尺度噪声人脸复原方法。Nagar等[28]能够在高密度脉冲噪声下保证鲁棒性。Aakerberg等[29]首次对实际场景下LR人脸进行任意尺度的重建。上述方法可以高效重建噪声人脸图像,但处理复杂面部细节和复杂噪声时往往会增加边缘伪影、模糊等。
为此,Pang等[30]提出一种渐进式采样与样本调度相结合的策略。Miao等[31]通过小波变换分解频域分量,指导模型恢复复杂面部细节。为了解决混合高斯噪声和脉冲噪声的FSR问题,Tang等[32]提出一种自适应为像素分配权重以自动识别混合噪声的方法,在实际场景数据集上表现良好。
不同去噪技术有效抑制了LR图像的噪声,且可以应用于各种类型的人脸图像,具有高适用性。但其计算复杂度较高,过度去噪时会丢失图像细节,影响重建图像的真实性。
2.1.3 模糊FSR技术 模糊的LR人脸图像会导致细节丢失,针对模糊人脸图像首先进行模糊去除步骤,然后再应用SR算法。例如,辛经纬[33]将图像的语义表征、概率分布与人脸属性相结合,增加强噪声和模糊的人脸数据集的重建效果。未考虑个人身份信息的人脸验证方法的重建图像可能继承他人身份。为了解决这个问题,Xu等[34]提出一种基于身份保持的高度模糊人脸图像重建方法,提取不同层次身份信息和语义特征。
去模糊技术恢复了LR图像细节,适用于由运动模糊、镜头模糊等引起的图像模糊。然而,现有技术难以解决运动估计、模糊核估计等复杂问题,且过度去模糊同样会放大图像噪声,影响重建质量。
(4)多种降质过程组合的FSR技术
当同时存在模糊、噪声或空间下采样的不同组合的人脸图像时,首先需要分析其包含的降质过程,针对不同降质过程采用不同方法。如Tu等[35]提出多尺度退化人脸恢复模型,使用姿态学习重建正面化的人脸图像。
多种降质过程组合的FSR技术考虑到实际场景下的多种退化因素,得以模拟更符合实际场景下人脸图像的降质过程。
目前,非盲降质的FSR技术主要用于解决带有噪声、模糊等因素的FSR问题。通过构建实际场景的LR到HR人脸图像数据对,可以在实际场景下获得更好的重建效果。
2.2 基于盲降质的FSR技术
基于盲降质的FSR技术使用单一退化模型应对多种退化组合,如Li等[36]使用实际退化观测值和同身份的高质量图像修复未知退化。Yang等[37]隐式计算错误映射,优先分解/融合不同子空间,动态处理不同退化特征。然而上述方法生成模型会导致重建结果过度平滑,为此,Guo等[38]将预训练GAN生成的准确几何先验融入盲降质模型;Teng等[39]提出集成生成先验和人脸几何先验的协作网络,均提高了模型泛化能力。考虑到面部上下文信息与人脸先验的相互作用,Wang等[40]引入空间注意机制对上下文信息和先验信息进行建模,提高还原图像的真实感和保真度。Ge等[41]设计小波鉴别器端到端重建更多身份细节保留的图像,提高严重退化下身份保留细节提取能力。
尽管上述方法在处理训练数据的复杂退化问题上取得了显著成果,但仍难以模拟复杂退化过程,且需要频繁调整保真度、感知损失等超参数。为此,Yue等[42]基于扩散模型,通过建立低质量图像到高质量图像的后验分布,提高面部形状和细节的恢复能力。Gao等[43]基于扩散模型设计多尺度深度反向投影网络,提高不同尺度恢复图像的质量。Chen等[44]使用预训练稳定扩散的生成先验指导自注意力网络训练,在真实世界公共测试数据集上达到了最先进的性能。为了提高重建结果的真实程度和扩散模型的泛化能力,Yang等[45]单独建模退化属性,指导反向扩散过程。Gao等[46]提出扩散-信息-扩散框架,高度泛化不同退化场景和异构域下的人脸特征。
为了快速学习新任务并克服训练和测试人脸图像场景不一致的问题,使用元学习方法训练,根据输入图像特性构建一个测试时调整参数的自适应模型,让模型获得一种“学习”的能力。Xia等[47]使用元学习泛化大量外部数据,快速适应特定的复杂退化并提取隐式退化信息。Hu等[48]设计了一种元恢复模块处理各种退化因素,有良好的实际应用前景。
基于扩散模型的方法分步添加如式(5)所示的模糊核、噪声等模拟降质过程,有效应对多种降质过程并生成更稳定、清晰的图像。但生成速度慢,处理非图像或结构化数据时泛化能力弱。而元学习方法可以快速适应新场景、新任务,具有高泛化性,但极其依赖任务分布和数据质量。
由于实际场景捕获的低质量(low quality,LQ)人脸图像,其退化过程往往过于复杂,退化函数无法用单一退化模型精确表达。而基于盲降质的FSR技术旨在重建未知退化的LQ人脸图像,引入了更全面的退化形式,随机采样各个降质过程控制退化的严重程度,有效处理现实任务。
3 图像质量评估指标与FSR技术数据集
3.1 图像质量评估指标
图像质量评估指标一般分为主观评价指标和客观评价指标[49]。主观评价指标主要依靠人的感知,易受主观想法和环境因素的干扰,难以形成标准的评价结果。而客观评价指标从数学角度出发计算具体数值,可以直观表明评价结果。客观评价指标包括PSNR、结构相似度(structural similarity,SSIM)[50]、自 然 图 像 质 量 评 估(natural image quality evaluator,NIQE)[51]、图 像 感 知 相 似 度(learned perceptual image similarity,LPIPS)[52]、平均主观得分(mean opinion score,MOS)[53]和弗里歇特初始距离(Fréchet inception distance,FID)[54]。
两张图像的像素差异值越小,PSNR越高,仅关注图像中像素对齐的距离,可能导致PSNR更高但视觉感知更差。
SSIM用于衡量图像间的亮度、对比度和结构的相似性。若两张图像的SSIM越高,即图像失真程度越小,更符合视觉感知。
NIQE利用图像和预先建立的多元高斯之间的距离去衡量图像质量。NIQE值越小,图像质量越好,视觉效果更佳。
LPIPS也称感知损失,用于度量图片间的差别,相比PSNR和SSIM,LPIPS更符合人的感知情况。图像感知相似度[FLPIPS]的计算公式如下:
[FLPIPS=l1HlWlh,wωl×ylhw -yl0hw22] (10)
其中[Hl]和[Wl]为第l层网络层对应的高和宽,h和w代表[Hl]和[Wl]的索引,[ylhw ]和[yl0hw]分别为单位归一化第l层网络层后的预测特征值和参考特征值(通常是真值)。LPIPS首先使用向量[ωl]缩放激活通道。在计算[l]层特征堆栈后,对每层输出进行激活后在通道维度中进行单位归一化。最后利用[ωl]在通道上计算最终的LPIPS值。LPIPS值越低表示两张图像越相似,反之差异越大。
MOS通过人为的测试图像评定分数,最后根据平均分得出结论。MOS值越大,表示成像的结果越好,但如果测试人员过少,MOS往往不够准确。
FID更加关注生成图像和真实图像的分布建模之间的差异,经常用于评估人脸图像的视觉质量。视觉质量越好,FID值越小。
3.2 FSR算法数据集
表1列举了常见的人脸图像数据集。其中特征点是指根据人脸生理结构预定义的面部关键位置,通常包括眼角、眉毛、鼻尖、嘴角等,特征点的数量和精确度直接影响后续处理任务的性能。
CelebA为人脸属性数据集,包括10 177个身份的202 599张人脸图片。其中每张图片均有特征标记,包括人脸标注框(bounding box, BBox)、5个人脸特征点坐标和40个属性标记(包括微笑、戴眼镜等)。
AFLW是一个大规模面部对齐数据集,包含从Flickr获取的各个姿势和表情,除了特征点,还提供矩形框和椭圆框的脸部位置标注。
AFW是早期人脸关键点检测常用数据集,包含205张图像,其中有473张标记的人脸,每个人脸提供6个关键点和3个姿势角度的标注。
300W数据集的每个图像上不止包含1张人脸,但每张图像上只标注1张人脸。
WiderFace共32 203张图像,包括393 703张人脸,面部尺寸、姿态、表情等方面变化较大,广泛应用于实际场景FSR工作。
WFLW数据集提供了10 000张图像,除了标注98个关键点之外还包括遮挡、姿态、妆容、光照等信息标注。可以对数据集上的姿态、遮挡等鲁棒性进行简单的评估。
表1 人脸图像数据集
Tab. 1 Face image datasets
[数据集 发布时间 / 年 数量 / 个 特征点 / 个 CelebA[55] 2015 202 599 5 LFPW[56] 2011 1 432 29 AFLW[57] 2011 25 993 21 Helen[58] 2012 2 330 68 AFW[59] 2012 205 6 300W[60] 2013 3 827 68 WiderFace[61] 2015 32 203 × WFLW[62] 2018 10 000 98 ]
4 现有FSR技术实验分析
对比非盲降质和盲降质的FSR经典方法的重建效果时,使用的数据集均为CelebA。表2展示了4、8和16倍放大因子下小波超分辨率网络(wavelet-based super-resolution network, Wavelet-SRNet)[14]、SPARNet、小波域生成对抗网络(wavelet-domain generative adversarial network, WaveletSRGAN)[60]、人脸对齐超分辨率网络(super-resolution with face alignment network, Super-FAN)[63] 和属性增强卷积神经网络(attribute augmented convolutional neural network, AACNN)[64]的主客观指标,图1展示了不同非盲降质FSR技术对LR图像的4、8和16倍重建效果,其中HR经过对应倍数的双三次插值下采样得到LR,Bicubic表示对LR进行双三次插值上采样。结合图1和表2可以看出,Wavelet-SRNet的重建效果并不理想,牙齿等面部细节特征丢失严重,其原因是采用基于均方误差损失的残差网络减少了高频特征分量,且网络深度不足限制了复杂图像的细节纹理。类似的还有AACNN和SPARNet采用大量的池化层和卷积层,对输入的LR图像提取语义特征,导致信息丢失和语义混淆。虽然上述文献的PSNR等指标表现良好,但重建图像过于平滑。
Super-FAN额外进行了面部对齐,虽然更好地保留了面部结构,但重建结果中过度强调细节成分,生成了不必要的信息。这是因为热图损失的权重过大,过于强调面部对齐的精度。而WaveletSRGAN和Wavelet-SRNet虽然客观指标不突出,但人脸轮廓和细节质量更强,因为其引入了对抗损失,视觉效果上更加优秀。
基于盲降质的FSR技术的定量比较结果如表3所示。图2展示了盲降质FSR技术对LQ图像的16倍放大因子的可视化重建结果,测试集均采用CelebAHQ,Bilinear表示对LQ进行双线性插值上采样。结合图2和表3可以看出,使用双三次插值重建人脸图像获得了较高的PSNR,但难以恢复有意义的面部细节。深度人脸词典网络(deep face dictionary network, DFDNet)[67]过度依赖高质量参考图像,且采用的K均值生成字典对于人脸多样性存在局限,仅能捕捉有限的人脸变化和细节,导致重建结果出现色块,难以重建细节特征。渐进语义感知风格转换生成对抗网络(progressive semantic-aware style transformation for blind face restoration with GAN, PSFR-GAN)[66]重建出较多不存在的信息,这是因为其过度依赖解析图指导恢复过程。尽管采用多尺度特征调节细节信息的丰富度,但受限于人脸样本的多样性和质量,应用到实际场景仍需要提高模型泛化能力。生成性面部先验的生成对抗网络(generative facial prior with GAN,GPF-GAN)[68]的重建效果不理想,存在过多失真和虚假信息,这是因为预训练生成的面部先验不够准确,导致模型泛化能力不足。
生成对抗先验嵌入网络(GAN prior embedded network,GPEN)[65]将GAN嵌入深度神经网络,使用LQ人脸图像微调视觉效果。结构和生成先验融合网络(shape and generative prior integrated network,SGPN)[69]三维重建面部几何形状以自适应融合特征。GPEN和SGPN在人脸形状重建和人脸细节生成上达到良好平衡,重建出更逼真的人脸图像。虽然两者的重建结果良好,但SGPN在PSNR值和SSIM值相当的情况下,在LPIPS和FID评估指标上结果更好,表明重建图像更接近于原始图像,能够得到更清晰的局部细节。这是因为SGPN的集成网络能够更有效地利用预训练生成的先验信息,相对于GPEN限制求解空间,SGPN能够更好地捕捉并模拟真实人脸图像的分布特征。
在FSR任务中,既要追求高客观指标,也要保持良好的主观效果。引入对抗损失的GAN方法在PSNR和SSIM相当的情况下,可以重建更好的人脸轮廓和细节质量。同时,能否更有效地利用预训练的先验信息,采用更好的重建面部几何形状、高生成能力的网络等,对处理降质过程具有决定性作用。
5 总结与展望
在非盲降质问题中,基于传统损失函数(如MSE)的方法的重建结果并不理想,其原因是网络结构设计不足以捕捉复杂图像细节特征,导致重建图像过于平滑或出现信息丢失等问题。引入对抗损失等方法后,人脸轮廓、细节质量都有所改善。一些盲降质FSR技术在PSNR指标上更突出,但重建结果缺乏面部细节,感知质量较差。其中高效利用先验的方法如SGPN在主观评估指标上表现更好。现有大多数LR图像通过空间下采样得到,无法应对部分实际场景需求,且实际场景降质过程难以拟合,限制模型泛化能力。
使用大模型可以更好适应特定场景的图像特点,例如改善夜间监控或低光照环境对高精度人脸图像的需求。这是因为大模型具有强大的特征提取能力和表示能力,能够拟合更广泛的数据分布提高泛化性能。设计大模型需要考虑计算效率和资源消耗,可以引入大规模预训练和对抗学习等技术,进一步提升模型的泛化能力。借鉴一般图像SR任务中良好的网络结构,将其扩展为更适合FSR任务的高效深度网络。
实际场景的人脸数据集可以更好地反应真实世界的多样性和复杂性,涵盖不同种族、年龄、性别、面部特征等。通过模拟更真实的图像降质过程生成的LR人脸图像,使训练的网络更适用于实际应用场景。
在实际应用的不同成像条件下,如何保持人脸图像的个体身份不变是一个重点。为了同时提高视觉质量,可以研究维持身份一致性的算法,增强如皮肤纹理、瞳孔等感知细节,使网络更适用于真实世界人脸图像。
深度、纹理和光照等多模态信息提供额外的上下文联系。融合这些特征张量和时间信息可以帮助模型更好地理解人脸的三维结构和表面特性。然而现有大多数方法主要应用计算机视觉技术,忽视了文本、声音和图像等多模态算法,可以通过深度信息指导纹理恢复、光照信息改善面部阴影和高光效果等对现有方法进行改进。
不同光谱、光源位置、光照强度等都会对人脸图像产生影响。在背光环境下,人脸可能会偏暗看不清细节,且人脸与摄像机镜头的相对位置决定人脸姿态的多样性。针对这个问题,可以引用人脸皮肤色彩等先验信息减少光照影响,使用迁移学习或增量学习技术快速适应不同光照、表情等变化。