4.4.2 基于深度学习的心理揣测模型

4.4.2 基于深度学习的心理揣测模型‌

受益于深度学习的飞速发展，基于深度学习的心理揣测模型也取得了很大进展。Google DeepMInd 团队的 Rabinowitz 等人[47]设计了一个 ToM-net 神经网络模型实现通过元学习对其他智能体的建模，他们的网络包含了建模被观测者特点、内心状态的模块，并通过结合这两部分的输出以及被观测者当前的状态来对被观测者进行揣测。他们构建了一个能够收集智能体行为轨迹的观察者，其目标是预测其他智能体的未来行为。他们将提出的 ToM-net 模型应用于简单的网格环境中，结果表明观察者可以有效地为智能体建模并通过 Sally-Anne 测试。而观察者自身不需要执行任何动作。

加利福尼亚大学洛杉矶分校的 Akula 等人[48]基于心理揣测的思想提出了一个可解释人工智能框架CX-ToM，用于解释深度卷积神经网络做出的决策。该模型可以显式的建模人类用户的意图、人类用户对机器的理解，以及机器对人类用户的理解，通过人类用户和机器之间的多轮交互，提高模型的可解释性，并增加人类对模型的信任。

除此之外，心理揣测的思想也正在影响着多智能体强化学习。为了辅助智能体决策，心理揣测通过观测对手的历史信息（比如，位置、行为、是否结束游戏等信息）来推断对手的目标、行为趋势等。Yang等人[49]提出了 Bayes-ToMoP 的新方法，可以有效地检测对手使用的固定或更高级的推理策略。Bayes-ToMoP 还支持检测以前从未见过的策略，并相应地学习最佳反应策略。除此之外，深度版本的 Bayes- ToMoP，通过使用深度强化学习技术将 Bayes-ToMoP 扩展到足球游戏这种复杂的多智能体强化学习任务中。

< 上一个 | 内容 | 下一个 >