< 上一个 | 内容 | 下一个 >

8.3.4 量子强化学习

量子强化学习的骨架与经典强化学习的骨架并没有本质的不同。区别于经典强化学习的是,量子强化学习中,状态、动作、参数等数据可能以量子方式进行编码并以量子方式进行更新。量子强化学习是一个仍在探索中的前景广阔的学科。

经典强化学习中有两类典型框架:一类方法基于对动作价值函数 Q(s,a)的估计设计策略,这类算法称为基于价值的方法,包括 Q- learning SARSA 等著名算法; 另一类方法则称为投影模拟

Projective SimulationPS)方法。在本节中,将首先介绍基于价值的方法在量子强化学习中的若干实现方式,之后介绍投影模拟在量子强化学习中的发展及前景。

8.3.4.1 受量子启发的强化学习

探索量子强化学习的第一个方向是由 Grover 算法启发的。于 2008 年,董道毅等人[113]第一次提出了量子强化学习这一概念,将量子引入强化学习。董道毅提出的框架简述如下:首先,在量子系统中,任意选择量子可观测量状态,其所有特征向量可以构成 Hilbert 空间下的一组标准正交基。在该框架中,状态和动作都是量子态,并且对应到不同的量子系统中,我们称之为状态空间𝒮与动作空间𝒜,并且设状态空间和动作空间中的标准正交基为|𝑠𝑛⟩, |𝑎𝑛。状态空间中的任何态|𝑆⟩ 都可以用形如|𝑆⟩ = ∑𝑛 𝛼𝑛|𝑠𝑛的形式表示, 其中𝛼𝑛 满足

𝑛|𝛼𝑛|2 = 1称为振幅。策略则对应于状态空间到动作空间,即𝒮 → 𝒜的一个映射。根据策略选择时,则是根据该映射对应到动作空间中,在动作空间的标准正交基|𝑎𝑛下进行测量,根据测量出的结果选择对应的动作。以量子计算中的 Grover 算法为灵感,通过不断迭代,提升策略中较好行动对应的振幅,从而不断改善策略直至收敛。尽管提出了量子强化学习的框架,但以目前的科技水平而言,董道毅所要求的在量子环境中进行量子强化学习需要大量的量子比特,这仍是一件


不太现实的事情。

以上述框架为灵感,董道毅于 2012 [114]提出了量子启发式强化 学习,并且在机器人导航任务上进行测试,取得了比以往更好的效果。而于 2021 年,Qing Wei 等人[115]则在上述框架下提出了量子深度强化 学习的一种实现方式。更具体地来说,该文章提供了一种在量子框架 下自然且易于使用的经验放回机制。经验被诠释为一些量子态的张量 积。而经验放回机制涉及三个子操作:准备操作、折旧操作以及基于 量子观测的经验选择。准备操作指将作为量子态的经验结合时序差分 误差产生新的量子态,这可以被视为经验的初步加工。折旧操作指调 整经验的一些参数,使得经验与我们预期的意义一致,调整的参数包 括时间等。基于量子观测的经验选择则指从过往的经验中提取经验并 以该经验作为动作选择的依据。在准备操作和折旧操作中,通过引入 Grover 算法,使得产生较高收益的行动概率得到提升。通过该经验放 回机制,该文章实现了基于量子经验放回的深度强化学习(DRL-QER)算法,在 OpenAI 平台进行了测试并与其他两种算法进行了对比, DRL-QER 算法在一些环境中取得了更好的效果。

Dunjko 等人[116]在环境、动作都是量子态的假设下提出了更为细致的另一种框架,并通过理论分析说明量子强化学习可以做到平方加速。后续有一些工作对该框架进行改进,如[117]讨论了该框架应用于元学习的场景。

8.3.4.2 基于变分量子电路的量子强化学习

随着变分量子电路理论的发展,基于变分量子电路发展量子强化学习成为了量子强化学习理论中最重要的部分。嘈杂中型量子设备

NISQ)是目前量子计算机的主流形态,基于 NISQ 进行设计和实验也因此成为量子强化学习中的重要研究方向。而在这其中,利用变分量子电路框架进行量子深度强化学习是一件尤其可行且非常有潜力的工作。Kwak 等人[118]作出了对于 2021 年前的量子强化学习相关研


究的一个总结,同时,这也是基于变分量子电路利用 PennyLane 库实现量子强化学习的一篇教程。

2020 年,Chen 等人[64]首先提出使用变分量子电路框架研究深度 强化学习,他们重新诠释了经验回放和目标网络,总结出变分量子深 度 Q 网络(VQ-DQN)。VQ-DQN 框架与 Dong 提出的量子强化学习 有相当大的不同。VQ-DQN 框架中的状态、动作、策略仍然是经典的。 其中的量子部分主要在于用 VQ-DQN 替换深度 Q 网络以估计 Q 值。估计 Q 值时以目前的状态作为输入,以最优的决策作为输出返回。在 量子中,一个较好的编码方案可以使用较少的量子比特,从而可以减 少变分量子电路中训练参数的数量。本文的编码是量子电路的一部分,编码策略则是将状态空间先编码为整数,将该整数的二进制表示中的 每一位对应到相应的量子比特上。量子电路初始以全|0⟩输入,整数位 为 1 时,则在对应位采用𝑅𝑧(𝜋)𝑅𝑥(𝜋)门,在对应位的量子比特则变为

𝑅𝑧(𝜋)𝑅𝑥(𝜋)|0⟩ = |1⟩,否则整数为 0 时,采用𝑅𝑧(0)𝑅𝑥(0)门,得到

𝑅𝑧(0)𝑅𝑥(0)|0⟩ = |0⟩尽管本文的编码策略较为简明,在 FrozenLakeCognitiveRadio 环境下进行测试时,仍可以以较少的参数取得较优的结果,这种参数的减少优势将随着环境规模的扩大而逐渐凸显。 Owen 等人[119, 120]则改进扩展了Chen 等人的框架,使该框架可以对连续空间起效。并且,他们设计了多体量子强化学习的框架。不过,使用经典方法于该框架下对 Pong 环境和 Breakout 环境测试,该框架并不能取得较好的学习成果。吴绍君等人[121]的结果则进一步改进了连续空间中的量子强化学习模型,并且提出了量子状态振幅编码:一种避免了离散化导致的状态数指数增长的状态编码方法。利用他们设计的框架QDDPG,他们尝试解决了量子计算中较为重要的问题:量子态生成问题以及特征值问题。

尽管前述工作看起来十分的完善, Skolik 等人[122] 则指出在

CartPole 这一环境下,Samuel Yen-Chi ChenOwen 的框架并不能起


到比较好的效果。他们还将指出,相比于基于深度神经网络的强化学习,基于变分量子电路的强化学习更加依赖超参数以及编码策略。在 CartPole 环境中,一辆与一根棍子以固定点方式连接的小车在水平轴上无摩擦的运动,而我们可以选择向左推或者向右推小车,强化学习的目的则是保持小车尽可能的接近初始态。小车和棍子的位置和速度可以决定这个系统,因此,这可以被视作一个 4 维经典系统。CartPole在经典强化学习中具有已知的较好策略,因此 CartPole 成为了量子强化学习中的常用测试。Chen 等人[123]2022 年运环境用量子振幅编码技术,将 4 维的 CartPole 环境编码为了含有 2 个量子比特的系统中,在该编码下取得了近似最优的表现。同时,他们使用多体张量网络-变分量子电路(TN-VQC)架构,将具有 147 维输入的 MiniGrid 环境编码为变分量子电路架构中的 8 维向量,同样在测试中取得了近似最优的表现,展现了量子电路在缩小计算规模上的能力。

变分量子电路框架不仅可以缩小计算规模,在许多的环境下,其自身的量子优势将得以凸显。Jerbi 等人[124]也提出了若干基于变分量子电路的强化学习框架,特别的,引入了 SOFTMAX-VQC 策略。他们使用蒙特卡罗方法策略梯度算法来学习该策略,在 CartPoleMountainCa Acrobo 环境下测试,得到了比运用一般策略的量子强化学习更好的学习效果。但更重要的是,他们通过在变分量子电路生成的环境下测试发现,在该环境下,基于变分量子电路的强化学习表现明显优于基于神经网络的强化学习。该环境仍不够自然,因此他们还构建了一些与传统的监督学习任务相近的环境,在该环境下,承认离散对数在经典计算中的困难性则可以说明变分量子电路在该环境下优于任何的经典强化学习方法。不过,Skolik [122]中指出,尽管该文章展示了量子优势,但在这些展示优势的环境中,如何以变分量子电路学习最优策略仍然是未知的问题。Sequeira 等人[125]则用理论分析了量子策略梯度算法的收敛速率,在 CartPole Acrobo 环境下进行


测试验证了该结果。而且通过 Fisher 信息研究了梯度方法在量子模型下的有效程度,以此说明了量子模型相较于经典模型可以以更少的数据得到更准确的结果。

变分量子电路框架具有强大的生命力,有许多的研究尝试将经典强化学习中的算法和思想迁移到量子强化学习中,且几乎都取得了与经典版本相当或者更好的结果。通过扩展经典强化学习中的中心化训练、去中心化执行方法,Yun 等人[126]设计了一种全新的量子多体强化学习方法,并说明在 Single-Hop Offloading 环境下,该方法在 60%的比例上优于经典多体强化学习方法。通过用变分量子电路框架诠释经典中的长短期记忆神经网络,可以得到量子版本的长短期记忆神经网络(Quantum Long Short-Term MemoryQLSTM),Samuel Yen-Chi Chen等人[127]使用 QLSTM 实现了量子递归神经网络。更具体的,该文章以 QLSTM 进行强化学习,在 CartPole 环境下,取得了比经典递归神经网络更好的结果。Kimura [128]扩展了变分量子电路框架下的强化学习,在 POMDP 模型下进行量子强化学习,该文章的方法基于经典的复值强化学习,通过在 Maze 环境下进行测试说明了量子优势。 Qingfeng Lan [129]则提出了量子版本的 Soft Actor Critic 算法,并在 Pendulum 环境下进行了测试,与经典算法相比,运用更少的参数得到了近似的效果。尽管量子强化学习相比经典强化学习具有优势,但训练量子强化学习需要大量的资源。于是,借鉴于经典强化学习中的 A3C 网络, Chen[130] 提出了量子版本的 A3C 网络( Quantum Asynchronous Advantage Actor-CriticQA3C),在 AcrobotCartPoleMiniGrid 环境下进行测试,得到了与 A3C 网络相当或者更好的效果。

此外,还有一些基于变分量子电路框架研究的较为零散的结果,在此处进行陈列。Hu[131][132]提出的 CV 模型下的量子神经网络 CV- QNN 为基础研究量子强化学习,在 FrozenLake 环境下进行了测试。


在深度 Q 网络中,以期望作为选择动作的标准,将分布和期望相比,分布包含的信息更多,因此以分布作为学习媒介的方式(distributional Deep Q NetworkdistDQN)也是一种值得考虑的方法。Wei Hu [133]CV-QNN 实现了量子版本的 distDQN,仍在 FrozenLake 环境下进行测试,与之前的结果[131]相比,量子 distDQN 更容易找到较优策略并且平均表现也更好。不过,Hu 的几篇工作都没有展示具体细节。

Hsiao[134]的工作探讨了不引入纠缠的情况下量子强化学习的效果。该文章引入了新的函数近似方法:单量子门的变分量子电路。在该框架中,以一层单量子电路门作为输入层,之后以一层单量子电路门进行参数的调整,测量之后,将结果输入经典神经网络中进行训练。以经典的近端策略优化算法作为基底,单量子门的变分量子电路作为函数的近似在CartPoleAcrobot LunarLander 环境中进行测试,仍然取得了比经典神经网络更好的效果。但值得提出的一点是,该文章的编码方式为最简单的编码,而非量子振幅编码,因而并没有显著减少参数的数量,该文章实现的方法也更接近于量子启发式强化学习。

8.3.4.3 基于玻尔兹曼机的量子强化学习

在经典强化学习中,使用玻尔兹曼机(Boltzmann Machine)作为 函数空间中的估计也是一种常用方法。于 2016 年,Crawford [135]则 考虑运用量子模拟退火(Simulated Quantum AnnealingSQA)和深度 玻尔兹曼机作为量子玻尔兹曼机(Quantum Boltzmann MachineQBM)的框架,以该量子玻尔兹曼机进行强化学习的方法称为 QBM-RLQBM-RL 在实验中比 RBM-RL 表现更优,具体地说,QBM-RL 的优 势在于便于处理具有较大动作空间上的问题。但 QBM-RL 的物理实 现仍然是一件困难的事情。Levit [136]则将 QBM-RL D-wave 系统 上以硬件层面实现,并且经过对比实验得出在 Grid-World 问题上,该 实现劣于运用 SQA DBM-RL。于 2021 年,Jerbi [137]扩展了[135]的 框架,达到了更好的性能以及更强的兼容性。以玻尔兹曼机进行估计


时,近似采样的困难性将成为瓶颈,而本文的框架突破主要在于采用 了一种量子近似采样算法规避瓶颈。量子近似采样算法包括如下几种:量子吉布斯采样算法、基于哈密顿量模拟的吉布斯态制备算法和量子 模拟退火算法,上述算法在目前的硬件条件下均不太可能实现。该算 法的一个可行版本则以变分吉布斯态制备过程为核心。尽管有噪音、退相关等问题,但该扩展的框架有望在 NISQ 设备上实现。

8.3.4.4 基于投影模拟的量子强化学习

投影模拟是一种受到物理启发的强化学习方法。于 2012 年, Briegel 等人[138]首次提出投影模拟。在投影模拟中,代理被视作接受感知并输出动作的过程,具体的条件概率则称为策略。以往学习的经验将作为感知和动作间的带权网络储存在记忆中,并且感知与动作的配对将被标记好坏情况。在选择动作时,代理将根据以往学习的网络从当前感知对应的节点随机游走一定时间,在一定次数内,如果游走到已被标记为好的感知-动作对,那么输出相应的动作,否则随意输出。根据得到的回报,在网络中相应地分配边的权重以及感知-动作对的标记作为学习的过。除了投影模拟,这项工作还提出了投影模拟相应的量子框架。在量子版本中感知与动作仍然是经典变量,仅有网络被解释为量子变量。而经典投影模拟选择动作中的随机游走则对应于在作为量子态的网络中的量子游走。不过,该文章仅粗略地谈及了量子框架,没有更深入的工作。

Paparo 等人[139]则较为具体地描述了量子游走的过程。他们的框架与 Briegel 等人的投影模拟框架不同,被称为基于反射的投影模拟框架(Reflection-based Projective SimulationRPS)。对于不同的感知, RPS 将建立独立的记忆网络而非一个整体的记忆网络,动作选择和更新则相应在对应的记忆网络上进行操作,其余部分不改变。在经典的投影模拟框架中,可将随机游走过程视为在标记为好的动作上的一个采样任务,调整网络中的权重可以被视为调整采样任务中的参数。在


量子游走中,使用类似于 Grover 算法的方法设计算子,以该算子进行采样任务中参数的调整,将该算子对应的扩散过程视为量子游走。在该文中,使用量子游走建立的RPS 框架称为QRPS。因采用了Grover算法,故使用 QRPS PS 代理相比 RPS 代理,在涉及随机游走的过程中,理论上有平方级别的加速。Dunjko 等人[140]则给出了在若干限制下的QRPS 的实现,并在 Invasion Game 中进行了数值测试,验证了平方加速。

投影模拟在量子计算上有较为重要的应用。Tiersch 等人[141]说明了利用投影模拟方法进行学习,可以在变换的环境中得到适应能力较强的量子计算能力,并且尝试实现了基于测量的 Grover 搜索算法。 Melnikov 等人[142]则说明了基于投影模拟方法的代理在自动设计量子实验上的可行性,该工作启发了大量后续工作。如 Pires 等人[143]尝试了以此方法在NISQ 上自动合成生成Bell 态或 GHZ 态的量子电路。