5.3.3 优化能力

5.3.3 优化能力

神经网络的优化研究通常基于非凸优化理论。这方面的主流研究工作试图对优化器收敛到最优点的迭代复杂度进行刻画，并基于此对不同的优化器进行比较。其中代表结果是随机梯度下降在非凸目标函数上可以收敛到驻点。

然而，这些优化分析与神经网络的实际应用仍有较大差距。首先，

自适应算法是训练神经网络的主流优化器，但是大多数自适应算法在非凸目标函数上的收敛性还没有得到刻画；其次，经典收敛性分析往往假设目标函数曲率有限，然而神经网络曲率变化剧烈。