< 上一个 | 内容 | 下一个 >

5.2.2 分析视角

由于神经网络是一个复杂的系统,神经网络的数学分析需要结合多种技术。目前神经网络的数学分析视角主要包括优化理论、概率统计、函数逼近论、信息论和控制论等。

1.优化理论

优化理论是研究神经网络的数学原理的重要的分析视角,因为神经网络的训练过程常常被封装成为求解一个最小化目标函数优化问题。优化理论的作用主要包括:

1)提供优化速率保证。目前训练神经网络的优化器包含大量超参数,其取值通常基于经验而缺乏理论保障,使得神经网络的表现有较大的不确定性。优化理论通过为优化算法提供收敛速率保证,为优化器的超参选择提供指导,提高神经网络训练过程的稳定性。

2)设计新型优化器。收敛速率分析理论能比较不同优化器收敛速度的差异并探讨差异对应的原因,引导设计收敛速度更快的优化器,从理论上指引下一代优化器的发展方向,降低神经网络的训练成本。

3)有助于建立泛化理论。优化器本身对于求解目标函数最优解具有偏好,不同偏好往往带来不同的泛化性能,这被称为优化器的隐式正则效应。优化理论可以刻画隐式正则效应,并进一步指导具有更强隐式正则效应的优化器的设计。

2.概率统计

概率统计是神经网络的数学原理研究中的另一个重要视角,能分析数据、建模、训练、推理各个环节的随机因素。概率统计的作用主要包括:


1)刻画数据的属性。概率统计能刻画训练数据和真实场景数据分布之间的距离,为神经网络的场景泛化能力提供基础;而且概率统计可以通过数据建模删除冗余信息,凸显数据特性,启发设计对应的神经网络结构。

2)分析训练中的随机性。神经网络训练中,优化器需要随机选取一部分数据进行模型迭代以降低计算开销。概率统计可以分析初始化及优化中的随机性,设计更好的初始化方式,缩减随机性所带来的训练不稳定。

3.函数逼近论

在神经网络的数学原理中,函数逼近论被用来分析神经网络的表达能力,即在最理想的数据、算法、算例情况下,神经网络是否有能力完成某一任务。函数逼近论的作用主要包括:

1)显示神经网络强大的表达能力。由函数逼近论,神经网络可以高效逼近任意复杂度的连续函数,具有强大的模型表达能力,为实际场景中训练神经网络提供了理论上限,也为神经网络在人工智能任务中取得优秀表现提供了理论依据。

2)指导神经网络结构的设计。函数逼近论刻画神经网络结构

(如层数、每层神经元个数、模型基本单元结构)对模型表达能力的影响,能指导如何平衡神经网络的结构参数实现表达能力最大化,并启发针对特定任务设计新的基本架构。

除上述视角以外,信息论与控制论也对分析神经网络的数学原理有重要作用。信息论中的相对熵可以度量两个分布之间的距离,检验参数与数据独立性,设计神经网络的损失函数,基于复杂度度量进行网络压缩等;控制论可以刻画智能体与外界交互的行为,支撑基于神经网络的深度强化学习算法的设计与分析。