基于生成对抗网络的小样本图像数据增强技术
网络安全与数据治理 6期
杨鹏坤,李金龙,郝润来
(中国科学技术大学计算机科学与技术学院,安徽合肥230026)
摘要:基于生成对抗网络(GANs)的图像数据增强方法在近年来展现出了巨大的潜力。然而生成高分辨率、高保真图像通常需要大量训练数据,这和缺乏训练数据的现状背道而驰。为解决这一问题,提出了一种能够在小样本、高分辨率图像数据集上稳定训练的条件生成对抗网络模型,并且将该模型用于数据增强。实验结果表明,在基准数据集上,该模型与当前最新模型相比能够生成更加逼真的图像并取得了最低的FID值;在图像分类任务中使用其进行数据增强能够有效缓解分类器的过拟合问题。
中图分类号:TP391
文献标识码:A
DOI:10.19358/j.issn.2097-1788.2023.06.013
引用格式:杨鹏坤,李金龙,郝润来.基于生成对抗网络的小样本图像数据增强技术[J].网络安全与数据治理,2023,42(6):79-84,102.
文献标识码:A
DOI:10.19358/j.issn.2097-1788.2023.06.013
引用格式:杨鹏坤,李金龙,郝润来.基于生成对抗网络的小样本图像数据增强技术[J].网络安全与数据治理,2023,42(6):79-84,102.
Few-shot image data augmentation based on generative adversarial networks
Yang Pengkun,Li Jinlong,Hao Runlai
(School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China)
Abstract:In recent years, image data augmentation methods based on Generative Adversarial Networks (GANs) have shown great potential. However, generating highresolution, highfidelity images typically requires a large amount of training data, which contradicts the current lack of training data situation. To address this issue, a conditional GAN model that can stably train on fewshot, highresolution image datasets has been proposed for data augmentation. Experimental results on benchmark datasets indicate that this model, compared to the current stateoftheart models, is capable of generating more realistic images and achieving the lowest Fréchet Inception Distance (FID) score. Furthermore, using this model for data augmentation in image classification tasks effectively mitigates overfitting issues in classifiers.
Key words :generative adversarial networks; data augmentation; image classification
0 引言
视觉深度学习的成功不仅仅取决于高容量的模型,还依赖于大规模标注数据的可用性。许多优秀的模型在大规模数据集上取得了良好的性能。然而,对于视觉识别任务,由于数据的收集和标注耗费巨大,通常在没有足够样本的场景下训练模型,往往会导致模型过拟合,从而降低其泛化性能。
为了解决这些问题,数据增强是常用的缓解数据匮乏的手段之一。虽然传统的图像增强技术(如旋转和随机裁剪)的确有效果,但一些转换可能是无意义的,甚至会导致图像语义上的改变。如数字‘6’旋转180°变成了‘9’,改变了语义,这需要专家经验进行评估。最近的研究表明,使用生成对抗网络(GANs)进行数据增强具有巨大潜力。生成对抗网络是一种隐式生成模型,通过对真实样本的数据分布进行建模,可以根据已有数据集的高维特征组合生成与训练集完全不同的图像,能够为深度学习模型提供更多的图像特征,以缓解过拟合问题。Mirza等人提出的条件生成对抗网络(cGAN)可以通过控制类别生成对应类别的样本,因此可以得到带有标签的样本。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005378
作者信息:
杨鹏坤,李金龙,郝润来
(中国科学技术大学计算机科学与技术学院,安徽合肥230026)
此内容为AET网站原创,未经授权禁止转载。