本文摘要(由AI生成):
本文讨论了对抗生成网络(GAN)与最优传输理论的关系,特别是蒙日-安培方程在其中的应用。作者从偏微分方程和几何角度介绍了蒙日-安培方程的基本理论,包括其弱解的存在性和唯一性,并通过初等方法进行了说明。深度学习中的核心任务包括学习流形结构和概率分布变换,而最优传输问题旨在寻找代价最小的保测度映射。文章还探讨了基于蒙日-安培方程的生成模型,其几何解法具有诸多优势,如保证最优解的存在性和唯一性、二阶收敛的牛顿法优化、误差的精确控制等。实验结果验证了这种方法的优越性,并对未来的正则性理论进行了展望。
最近老顾收到很多读者来信,绝大多数询问对抗生成网络的最优传输解释,以及和蒙日-安培方程的关系。很多问题涉及到经典蒙日-安培方程理论,这里我们从偏微分方程和几何角度介绍一下蒙日-安培方程的理论,主要是解的存在性,唯一性。我们尽量用较为初等的方式来解释。
深度学习的巨大成功可以归结为自然数据所满足如下两个定则:
1)流形分布律:同类自然数据满足特定的概率分布,可以用概率分布来刻画,其支集是高维数据背景空间中的低维流形;
2)聚类分布律:同一数据中的不同子类表示成不同的概率分布;并且这些概率分布之间的距离足够远,使得这些子类可以被区分。
因此,深度学习的核心任务包括:
1)学习流形结构:即计算从流形到参数域的参数化映射(编码、解码映射);也计算流形之间的映射;
2)概率分布变换:在特征空间或者图像空间中,计算两种概率分布之间的距离,和两种概率分布之间的变换。
最优传输问题就是求所有保测度的映射中,使得传输代价最小者:
基于最优传输观点,特别是几何上的Alexandrov途径,我们设计了新颖的生成模型,进行了初步试验。这里的几何算法可以用硬件加速。详细的讨论请见深度学习和几何(演讲提要)。下面,我们用尽量初等的方法来介绍蒙日-安培方程弱解的存在性和唯一性。
图1. 左帧非凸集,右帧凸集。
如图1所示,左帧是非凸集,右帧是凸集。
图2. 凸函数。
证明基于下面事实:正定矩阵之和、正定矩阵和正常数的数乘还是正定矩阵;或者用第一个定义。
图3. 凸函数的次微分。
我们将光滑函数的梯度推广到连续非光滑情形。
图4. 勒让德变换。
图4显示了凸函数的勒让德变换,其直观思想如下:每一个支撑平面将空间分成上半空间和下半空间,所有的上半空间的交集,被称为是所有支撑平面的上包络,上包络的边界就是凸函数的图(Graph),凸函数可以表示成所有支撑平面函数求上界:
由此,如果我们知道所有的支撑平面,我们可以重构原来的凸函数,如图5所示。我们可以用勒让德变换来表达所有的支撑平面,
图5. 由支撑平面重构凸函数。
其勒让德变换是对偶点的凸包,对偶点族为
这里,上包络(upper envelope)和凸包(convex hull)操作都有成熟的计算几何算法。
即拉回测度的密度函数等于映射的雅可比矩阵的行列式。那么凸函数梯度映射的雅可比矩阵是函数的海森矩阵,记为。由此,蒙日-安培测度的公式为
蒙日-安培测度具有非常直观而且重要的特性。
图6. 次微分的单调性。
我们下面考察弱解的存在性。
图7. 锥函数。
对抗生成模型(GAN model)可以用最优传输理论来解释和计算,生成器等价于求解最优传输映射,判别器等价于计算Wasserstein距离,即最优传输映射的传输总代价。传输代价的Brenier理论将最优传输映射求解归结为蒙日-安培方程的弱解。这里我们用尽量初等的方法介绍了蒙日-安培方程弱解(Alexandrov 解)的存在性和唯一性,由此帮助大家奠定学习GAN模型的理论基础。
除了理论严密清晰,白箱替代黑箱,从深度学习的实战角度而言,用蒙日-安培方程的几何解法计算最优传输映射来部分替代目前深度神经网络生成模型方法,具有很多优点:
1、蒙日-安培方程的几何解法归结为凸优化问题,保证最优解的存在性和唯一性,不会停留在局部最优上面;
2、蒙日-安培方程的几何解法具有明确的海森矩阵,可以用牛顿法进行优化,二阶收敛。或者用超线性的拟牛顿法,效率远高于线性的梯度下降法。
3、蒙日-安培方程几何解法的误差可以精确控制,采样密度和逼近Brenier势能函数的误差模有确定关系,可以自适应条件采样密度,以提高逼近精度。
4、算法设计具有层级(hirearchical)和自适应(self adaptive)特性,进一步提高效率。
5、蒙日-安培方程的几何解法硬件友好,可以用目前的GPU并行实现。
实验结果验证了我们的看法,用这种方法从效率和生成质量而言,优于传统方法。
蒙日-安培方程的正则性理论更加复杂,但是对于模式塌缩的理解非常关键。我们会在未来加以详尽讨论。