< 上一个 | 内容 | 下一个 >

5.1.3 神经网络给人工智能带来的挑战

虽然神经网络在众多领域中都取得了巨大的成功,但也仍面临着一些挑战。本节将列举出目前存在的代表性问题及挑战,并归纳这些挑战中蕴含的数学原理。

1.神经网络的优化理论欠缺

神经网络的训练对应基于梯度信息的迭代优化过程。算法通过计算损失函数对网络参数的梯度,并根据梯度更新参数,以实现最小化损失函数。然而,对于深度神经网络,优化算法存在着局部最优和梯度消失等问题,模型初始位置、学习率等超参数的选择会对训练效果产生显著的影响。特别地,在如今大模型的训练场景中,完全基于实验的网络搜索参数方法正在消耗着难以承受的算力资源。然而,已有的优化理论不能有效利用模型结构,对复杂非凸的神经网络仍缺乏理


论指导。

2.神经网络的泛化能力薄弱

现有的训练方法能确保神经网络在训练数据集上具有可靠的性能表现,然而由于数据分布的长尾性,训练数据集难以覆盖所有可能的数据。如何确保神经网络在训练集之外的数据集也能保持可靠的性能被称为神经网络的泛化问题。在自动驾驶、工业生产等风险敏感场景中,确保模型在遭遇意外情况时仍然能够正确应对而非不知所措是最基本的可靠性要求,这也对模型的泛化能力提出了更高要求。然而,由于人工智能任务中的数据通常具有非独立同分布、不完备、异质等特点,使得统计学基本假设不再适用,使得神经网络的泛化能力欠缺理论保证。

3.神经网络的可解释性差

神经网络的可解释性问题也是一个重要挑战。由于神经网络的结构复杂以及参数众多,难以解释网络的决策过程和内部工作机制。这使得神经网络在一些对解释性要求较高的领域,如法律和医疗等方面的应用受到了限制。现有研究中,可解释性可以分为全局可解释性和局部可解释性,全局可解释性关注各个特征在模型全局的重要性,可用梯度方法和信息熵方法进行刻画;局部可解释性关注模型做出特定决策的原因,可将模型在数据输入的位置进行线性逼近,并根据线性化的结果定量地给出解释。然而,如何全方面地、定量地评价模型的可解释性仍有待探索。