图a. Principle of GAN. 前两天纽约暴雪,天地一片苍茫。今天元宵节,长岛依然清冷寂寥,正月十五闹花灯的喧嚣繁华已成为悠远的回想。这学期,老顾在讲授一门研讨生水平的数字几何课程,目前讲到了2016年和丘成桐先生、罗锋教授共同完成的一个几何定理【3】,这个工作给出了经典亚历山大定理(Alexandrov Theorem)的结构性证明,也给出了最优传输理论(Optimal Mass Transportation)的一个几何解释。这几天,机器学习范畴的Wasserstein GAN忽然变得火热,其中关键的概念能够完整用我们的理论来给出几何解释,这允许我们在一定水平上亲眼“看穿”传统机器学习中的“黑箱”。下面是老顾下周一授课的讲稿。 生成对立网络 GAN 锻炼模型生成对立网络GAN (Generative Adversarial Networks)是一个“言行一致”的系统,就是以己之矛克以己之盾,在矛盾中展开,使得矛愈加尖利,盾愈增强韧。这里的矛被称为是判别器(Descriminator),这里的盾被称为是生成器(Generator)。 图b. Generative Model. 生成器G普通是将一个随机变量(例如高斯散布,或者平均散布),经过参数化的概率生成模型(通常是用一个深度神经网来中止参数化),中止概率散布的逆变换采样,从而得到一个生成的概率散布。判别器D也通常采用深度卷积神经网。 图1. GAN的算法流程图。 矛盾的交锋过程如下:给定真实的数据,其内部的统计规律表示为概率散布,我们的目的就是能够找出。为此,我们制造了一个随机变量生成器G,G能够产生随机变量,其概率散布是,我们希望尽量接近。为了分辨真实概率散布和生成概率散布,我们又制造了一个判别器D,给定一个样本,D来复制判别这个样本是来自真实数据还是来自伪造数据。Goodfellow给GAN中的判别器设计了如下的损失函数(lost function), 尽可能将真实样本判为正例,生成样本判为负例: 。 第一项不依赖于生成器G, 此式也能够定义GAN中的生成器的损失函数。 在锻炼中,判别器D和生成器G交替学习,最终抵达纳什均衡(零和游戏),判别器无法分辨真实样本和生成样本。 优点GAN具有十分重要的优越性。当真实数据的概率散布不可计算的时分,传统依赖于数据内在解释的生成模型无法直接应用。但是GAN依然能够运用,这是由于GAN引入了内部对立的锻炼机制,能够迫近一下难以计算的概率散布。更为重要的,Yann LeCun不时积极倡导GAN,由于GAN为无监视学习提供了一个强有力的算法框架,而无监视学习被普遍以为是通往人工智能重要的一环。 缺陷 原始GAN方式具有致命缺陷:判别器越好,生成器的梯度消逝越严重。我们固定生成器G来优化判别器D。调查恣意一个样本,其对判别器损失函数的贡献是 两边对求导,得到最优判别器函数 代入生成器损失函数,我们得到所谓的Jensen-Shannon散度(JS) 。 在这种状况下(判别器最优),假如的支撑汇合(support)交集为零测度,则生成器的损失函数恒为0,梯度消逝。 改进 实质上,JS散度给出了概率散布之间的差别水平,亦即概率散布间的度量。我们能够用其他的度量来交流JS散度。Wasserstein距离就是一个好的选择,由于即便的支撑汇合(support)交集为零测度,它们之间的Wasserstein距离依然非零。这样,我们就得到了Wasserstein GAN的方式【1】【2】。Wasserstein距离的益处在于即便两个散布之间没有堆叠,Wasserstein距离依然能够度量它们的远近。 为此,我们引入最优传输的几何理论(Optimal Mass Transportation),这个理论可视化了W-GAN的关键概念,例如概率散布,概率生成模型(生成器),Wasserstein距离。更为重要的,这套理论中,一切的概念,原理都是透明的。例如,关于概率生成模型,理论上我们能够用最优传输的框架取代深度神经网络来结构生成器,从而使得黑箱透明。 最优传输理论梗概 给定欧氏空间中的一个区域,上面定义有两个概率测度和,满足 , 我们寻觅一个区域到自身的同胚映射(diffeomorphism),, 满足两个条件:坚持测度和极小化传输代价。 坚持测度关于一切波莱尔集, 换句话说映射T将概率散布映射成了概率散布,记成 。直观上,自映射,带来体积元的变更,因而改动了概率散布。我们用和来表示概率密度函数,用来表示映射的雅克比矩阵(Jacobian matrix),那么坚持测度的微分方程应该是:, , 这被称为是雅克好比程(Jacobian Equation)。 最优传输映射自映射的传输代价(Transportation Cost)定义为 。 在一切坚持测度的自映射中,传输代价最小者被称为是最优传输映射(Optimal Mass Transportation Map),亦即: , 最优传输映射的传输代价被称为是概率测度和概率测度之间的Wasserstein距离,记为。 在这种情形下,Brenier证明存在一个凸函数,其梯度映射 就是独一的最优传输映射。这个凸函数被称为是Brenier势能函数(Brenier potential)。 由Jacobian方程,我们得到Brenier势满足蒙日-安培方程,梯度映射的雅克比矩阵是Brenier势能函数的海森矩阵(Hessian Matrix), 。 蒙日-安培方程解的存在性、独一性等价于经典的凸赂何中的亚历山大定理(Alexandrov Theorem)。 图2. 亚历山大定理。 亚历山大定理如图2所示,给定平面凸区域,调查一个开放的凸多面体,选定一个面,的法向量记为,的投影和相交的面积记为,则总投影面积满足 , 凸多面体能够被肯定。亚历山大定理对恣意维凸多面体都成立。 后面,我们能够看到,这个凸多面体就是Brenier势能函数,其梯度映射将一个概率散布映到另外一个概率散布,并且这两个概率散布之间的Wasserstein 距离对偶于此凸多面体决议的体积。理论上,这个凸多面体能够作为W-GAN模型中的生成器G。 W-GAN中关键概念可视化 Wasserstein-GAN模型中,关键的概念包含概率散布(概率测度),概率测度间的最优传输映射(生成器),概率测度间的Wasserstein距离。下面,我们细致解释每个概念所对应的结构措施,和相应的几何意义。 概率散布GAN模型中有两个至关重要的概率散布(probability measure),一个是真实数据的概率散布,一个是生成数据的概率散布。另外,生成器的输入随机变量,满足规范概率散布(高斯、平均散布)。 图3. 由保角变换(conformal mapping)诱导的圆盘上概率测度。 概率测度能够看成是一种推行的面积(或者体积)。我们能够用几何变换随意结构一个概率测度。如图3所示,我们用三维扫描仪获取一张人脸曲面,那么人脸曲面上的面积就是一个概率测度。我们缩放变换人脸曲面,使得总曲面等于。然后,我们用保角变换将人脸曲面映射到平面圆盘。如图3所示,保角变换将人脸曲面上的无量小圆映到平面上的无量小圆,但是,小圆的面积发作了变更。每对小圆的面积比率定义了平面圆盘上的概率密度函数。 我们能够将以上的描画严厉化。人脸曲面记为,其上具有黎曼度量。平面圆盘记为,平面坐标为,平面的欧氏度量为。保角映射记为 , 则,这里面积变换率函数给出了概率密度函数。诱导了圆盘上的一个概率测度。 图4. 两个概率测度之间的最优传输映射。 最优传输映射 圆盘上原本有平均散布,又有保角变换诱导的概率散布,则存在独一的最优传输映射。图4显现了这个映射,中间帧到右帧的映射就是最优传输映射。我们看到,鼻尖周围的区域被紧缩,概率密度进步。 图5. 离散最优传输。 离散最优传输映射最优传输映射的数值计算十分几何化,因而能够直接被可视化。我们将目的概率测度离散化,表示成一族离散点,;每点被赋予一个狄拉克测度,,满足。然后,我们求得单位圆盘的一个胞腔合成,,每个胞腔映到相应的目的点,。映射坚持概率测度,胞腔的面积等于目的测度, , 同时极小化传输代价, 。 图6. 离散Brenier势能函数,离散最优传输映射。 离散Brenier势能 离散最优传输映射是离散Brenier势能函数的梯度映射。关于每一个目的离散点,我们结构一个平面 ,这里平面的截距是未知变量。这些平面的上包络(upper envelope)构成一个开放的凸多面体,恰为离散Brenier势能函数的图(Graph), 。 图6左侧显现了离散Briener势能函数。凸多面体在平面上的投影构成了平面的胞腔合成,凸多面体的每个面被映成了一个胞腔;每个面的梯度都是,因而Brenier势能函数的梯度映射就是。 依据保测度性质,每个胞腔的面积应该等于指定面积。由此,我们调理平面的截距以满足这个限制。依据亚历山大定理,这种截距存在,并且实质上独一。 离散Wasserstein距离 我们和丘成桐先生树立了变分法来求取平面的截距。给定截距向量,平面族为,其上包络构成的Briener势能函数为 , 上包络的投影生成了平面的胞腔合成, 胞腔的面积记为。我们定义的能量为, , 这个能量在子空间 上是严厉凹的,其独一的全局最大点就给出了满足保测度条件的截距。这个能量的非线性项,实践上是上包络截出的柱体体积, , 图7给出了柱体体积的可视化,柱体体积是凸函数。 图7. 离散Brenier势能函数的图截出的柱体体积。 体积函数和Wasserstein距离之间相差一个勒让德变换(Legendre Transformation)。勒让德变换十分几何化,我们能够将其可视化。给定一个定义在实数轴上的二阶润滑凸函数,其图是一条凸曲线,这条凸曲线由其一切的切线包络而成。假如,在恣意一点,函数的切线的斜率为y,则此切线的截距满足 , 这被称为是函数的勒让德变换。以切线的斜率为参数,以切线的截距为函数值。 图8.凸函数的图像由其切线包络而成,切线汇合被表示成原函数的勒让德对偶。 由于的凸性,映射是微分同胚,记为。那么,原函数和勒让德变换后的函数满足关系: , 这里c,d是常数。原函数和其勒让德变换的直观图解由图9给出。我们在xy-平面上画出曲线,曲线下面的面积是,曲线上面的面积是勒让德变换。 图9. 图解勒让德变换。 勒让德变换的几何图景对恣意维都对。我们下面来调查体积函数的勒让德变换。依据定义, , 假定我们变动截距,或者等价地变动胞腔面积,调查两个胞腔交界处, , p原本属于,变更后属于,一切这种点的总面积为。则为Wasserstein距离带来的变更是: 因而,总的Wasserstein距离的变更是 。 由此我们看到Wasserstein距离等于 , 其非线性部分是柱体积的勒让德变换。 总结 经过以上讨论,我们看到给定两个概率散布,则存在独一的一个凸函数(Brenier 势函数),其梯度映射把一个概率散布映成了另外一个概率散布。这个最优传输映射的传输代价就给出了两个概率散布之间的Wasserstein距离。Brenier势能函数,Wasserstein距离都有明晰的几何解释。 在Wasserstein-GAN模型中,通常生成器和判别器是用深度神经网络来完成的。依据最优传输理论,我们能够用Briener势函数来替代深度神经网络这个黑箱,从而使得整个系统变得透明。在另一层面上,深度神经网络实质上是在锻炼概率散布间的传输映射,因而有可能隐含地在学习最优传输映射,或者等价地Brenier势能函数。对这些问题的深化了解,将有助于我们看穿黑箱。 图10. 基于二维最优传输映射计算的曲面保面积参数化(area preserving parameterization),苏政宇作。 图11. 基于三维最优传输映射计算的保体积参数化 (volume preserving parameterization),苏科华作。 (在2016年,老顾撰写了多篇有关最优传输映射的博文,十分欣喜地看到这些文章启示了一些有心的学者,发表了SIGGRAPH论文,申请了NSF基金。感激大家关注老顾谈几何,希望继续给大家灵感。) 参考资料 [1]Arjovsky, M. & Bottou, L.eon (2017) Towards Principled Methods for Training Generative Adversarial Networks [2] Arjovsky, M., Soumith, C. & Bottou, L.eon (2017) Wasserstein GAN. [3] Xianfeng Gu, Feng Luo, Jian Sun and Shing-Tung Yau, Variational Principles forMinkowski Type Problems, Discrete Optimal Transport, and Discrete Monge-Ampere Equations, Vol. 20, No. 2, pp. 383-398, Asian Journal of Mathematics (AJM), April 2016. 请长按下方二维码,选择 “辨认图中二维码”,即可关注。 【老顾谈几何】约请国内国际著名地道数学家,应用数学家,理论物理学家和计算机科学家,讲授现代拓扑和几何的理论,算法和应用。 回复“目录”,能够阅读往期精髓;回复“智商”,能够阅读“如何从大脑外形判别一个人的智商”;回复“象牙塔”,能够阅读“地道数学走出象牙塔”;回复“概览”,能够阅读“计算共形几何概览”。 |