这周阅读的文章题目是《基于深度卷积生成对抗网络的无监督表示学习》,这是我阅读的第二篇关于GAN的文章,这篇文章提出的模型叫DCGAN,它是一种生成对抗网络(GAN)的变体,其中生成器和鉴别器都是卷积神经网络。 abstract近年来 CNN 在监督学习领域的巨大成功 和 无监督学习领域的无人问津形成了鲜明的对比,本文旨在连接上这两者之间的缺口。提出了一种 deep convolutional generative adversarial networks (DCGANs),它具有一定的体系结构约束,并证明了它是无监督学习的一个强有力的候选者。 INTRODUCTION在计算机视觉领域,可以通过海量无标签数据,从中学习到好的表示,然后将其应用到众多监督学习任务当中去,例如:图像分类。一种较好的方法就是,利用产生式对抗网络来完成,然后利用生成器和判别器的一部分来作为特征提取器,进行其他监督任务的学习。众所周知,GANs 的缺点是:训练不稳定 ,这样就会导致产生了毫无意义的输出。甚少有 paper 尝试去理解和可视化 GANs 到底学习到了什么,以及多层 GANs 的即可表示。 本文的贡献如下:
APPROACH AND MODEL ARCHITECTURE已经有很多尝试将 GANs 做大规模,但是几乎都不怎么成功。作者在尝试用 supervised learning 常用的方法做 scale 时,也遇到了很多困难。但是,在作者做了很多模型探索之后(extensive model exploration)得到了一些结构上的技巧来改善训练的稳定性,并且允许得到更高分辨率的图像,采用更深的产生式模型。 本文核心的方法,主要从以下三个方面进行网络结构上的设计和改变 : 第一个是:全卷积网络。它用跨卷积代替确定性的空间池函数(如MaxPooling),允许网络学习自己的空间下采样。 我们在生成器中使用这种方法,允许它学习自己的空间上采样和鉴别器。 第二个是:在卷积特征的基础上消除全连接层的趋势,作者发现:全局平均池增强了模型的稳定性,但是损害了收敛的速度。将最高卷积特征分别直接连接到发生器和鉴别器的输入和输出的中间层工作得很好。GAN的第一层以均匀噪声分布Z作为输入,可以称为完全连通,因为它只是一个矩阵乘法,但结果被重塑为一个四维张量,并用作卷积堆栈的开始。 对于鉴别器,最后一个卷积层被平坦化,然后被馈入单个sigmoid输出。 参见图用于示例模型体系结构的可视化: 第三个是:批归一化,它通过将每个单元的输入归一化为零均值和零方差来稳定学习。但是,直接对所有的层都使用这种技术,就会出现问题:样本震荡和模型不稳定 。通过不对生成器输出层和鉴别器输入层应用BatchNorm可以避免这种情况。 作者总结了一个列表,对稳定的训练 GANs 提供了下面的几条建议: DETAILS OF ADVERSARIAL TRAINING作者在三个数据集上进行了训练,分别是:Large-scale Scene Understanding (LSUN),Image Net-1k and Faces dataset 。 EMPIRICAL VALIDATION OF DCGANS CAPABILITIES1利用GANS作为特征提取器对CIFAR-10进行分类 一种评价无监督表示学习算法的方式是:将其作为 特征提取器(feature extractor)在监督的数据集上,然后评价线性模型在这些特征上的拟合能力。 作者将K-means这种无监督学习方法作为一种 baseline,并且与之在 cifar-10 数据集上进行了对比。 2利用GANS作为特征提取器对SVHN数字进行分类 在 SVHN数据集上,作者将 DCGAN 的鉴别器提取出来的特征,在监督学习上做了测试。作者类似于监督学习的思路,将数据集划分开来。本文的方法取得了不错的效果,并且表明:我们通过在相同数据上训练具有相同结构的纯监督CNN,并在64个超参数试验中通过随机搜索优化该模型,验证了DCGAN中使用的CNN结构不是模型性能的关键贡献因素。 INVESTIGATING AND VISUALIZING THE INTERNALS OF THE NETWORKS我们以多种方式研究训练的生成器和鉴别器。 我们不对训练集进行任何最近邻搜索。 像素或特征空间中的最近邻被微小的图像变换所蒙蔽。 我们也不使用对数似然度量来定量评估模型,因为它是一个糟糕的度量。 CONCLUSION AND FUTURE WORK作者提出了一组更稳定的结构来训练生成对抗网络,并给出了证据,证明对抗网络可以学习良好的图像表示,用于监督学习和生成建模。 依旧存在一些形式的模型不稳定性--作者注意到,随着模型训练的时间越来越长,它们有时会将一个滤波器子集折叠为一个单一的振荡模式。 需要进一步的工作来解决这一不稳定问题。 作者认为将这个框架扩展到其他领域,如视频(用于帧预测)和音频(用于语音合成的预训练特征)应该是非常有趣的。 对学习的潜在空间的性质的进一步研究也将是有趣的。 |