< 上一个 | 内容 | 下一个 >

4.4.2 基于深度学习的心理揣测模型

受益于深度学习的飞速发展,基于深度学习的心理揣测模型也取 得了很大进展。Google DeepMInd 团队的 Rabinowitz 等人[47]设计了一 个 ToM-net 神经网络模型实现通过元学习对其他智能体的建模,他们 的网络包含了建模被观测者特点、内心状态的模块,并通过结合这两 部分的输出以及被观测者当前的状态来对被观测者进行揣测。他们构 建了一个能够收集智能体行为轨迹的观察者,其目标是预测其他智能 体的未来行为。他们将提出的 ToM-net 模型应用于简单的网格环境中,结果表明观察者可以有效地为智能体建模并通过 Sally-Anne 测试。而 观察者自身不需要执行任何动作。

加利福尼亚大学洛杉矶分校的 Akula 等人[48]基于心理揣测的思想提出了一个可解释人工智能框架CX-ToM,用于解释深度卷积神经网络做出的决策。该模型可以显式的建模人类用户的意图、人类用户对机器的理解,以及机器对人类用户的理解,通过人类用户和机器之间的多轮交互,提高模型的可解释性,并增加人类对模型的信任。

除此之外,心理揣测的思想也正在影响着多智能体强化学习。为了辅助智能体决策,心理揣测通过观测对手的历史信息(比如,位置、行为、是否结束游戏等信息)来推断对手的目标、行为趋势等。Yang等人[49]提出了 Bayes-ToMoP 的新方法,可以有效地检测对手使用的固定或更高级的推理策略。Bayes-ToMoP 还支持检测以前从未见过的策略,并相应地学习最佳反应策略。除此之外,深度版本的 Bayes- ToMoP,通过使用深度强化学习技术将 Bayes-ToMoP 扩展到足球游戏这种复杂的多智能体强化学习任务中。