< 上一个 | 内容 | 下一个 >

8.3.2 量子无监督学习

无监督学习是一种机器学习方法,它处理的是没有预先定义类别标签的数据集。在无监督学习中,算法的目标是从数据集中挖掘出一些有用的结构模式,例如聚类、降维、异常检测等。量子无监督学习是利用量子计算机来处理无标签数据集的无监督学习算法。量子无监督学习算法包括一些经典算法的量子版本,例如量子主成分分析、量子聚类和量子最近邻算法等。此外,无监督学习算法也可以解决一些量子计算中的问题,例如量子过程层析,量子纠缠探测,量子相变学习,量子异常检测,量子去噪等问题。下面将对上述内容进行分类讨论。

8.3.2.1 量子主成分分析

1.概述

主成分分析是一种在数据挖掘和模式识别中广泛应用的无监督学习算法,可以用于减小数据集的维度,并发现数据中的结构。Lloyd, Mohseni Rebentrost 提出了一种量子主成分分析算法,它是经典主成分分析的量子版本[26]。与经典主成分分析相比,量子主成分分析可以利用量子计算机的优异性能,对数据进行快速信息提取,显著提高处理大型数据集的效率。

2.实现与应用

量子主成分分析算法可以看作是一种量子态层析过程:去探索一个未知量子态的特征。使用多个未知量子态的密度矩阵的拷贝,量子主成分分析算法能够在对数时间内构建量子态的大特征值所对应的特征向量。量子主成分分析的实现依赖于一些量子算法模块,包括密度矩阵指数化和量子相位估计算法[96]。量子主成分分析方法具有以下优势:相比经典主成分分析方法,计算复杂度可以实现指数级的减少,这使得解决大规模数据集问题更加高效。作为两个重要的应用,量子


主成分分析算法给量子态区分和聚类任务提供了新的方法。

3.挑战与发展

对于量子主成分分析算法的实际应用,仍然存在一些重要的挑战和限制。首先,仍需要进一步发展量子主成分分析的理论和基础算法。其次,在量子计算机硬件的实现和算法设计方面,还需要快速的技术发展,以实现大规模和高精度的数据处理。

总的来说,量子主成分分析作为量子无监督学习的关键算法之一,在数据压缩和模式识别等领域具有广泛的潜力。快速找到一个矩阵的 较大特征值和其对应的特征向量将在高维数据的表示和分析中起到 重要作用。未来,我们会看到更多量子主成分分析应用的出现,并不 断优化和拓展其应用。

8.3.2.2 量子聚类

聚类是将数据集划分成相似性较高的数据集群的过程。在无监督学习中,聚类是一种广泛使用的技术,可以应用于数据挖掘、图像分析和生物信息学等领域。利用量子计算的特性,量子聚类算法可以对经典聚类算法进行提速。虽然以上算法已经取得的一定的成功,但是仍然存在着很多挑战。例如,多数算法需要对量子计算中的误差进行处理,如退相干和噪声。另外,需要更多的实验结果和数据分析去支持这些算法的有效性和可扩展性。可以预见的是,随着量子计算机技术的不断进步,量子聚类算法在未来的无监督学习领域将发挥越来越重要的作用。下面将对量子聚类算法进行分类展开介绍:

1.量子谱聚类

谱聚类是一种强大的无监督机器学习算法,它的核心思想是使用 数据的相似度矩阵来生成拉普拉斯矩阵。利用拉普拉斯矩阵的谱性质,它能够把数据投影到低维空间,使得聚类更为有效。与经典聚类相比,量子谱聚类可以显著地降低算法的计算复杂度[97-99]

2.量子均值聚类


经典 k-均值聚类的目的是:把输入数据集合划分到 k 个聚类中,使得每个数据点到聚类中心的距离的平均值最小。Lloyd 等人[12]Kerenidis 等人[100]分别提出了不同版本的量子均值聚类算法。与经典 k-均值算法相比,它们都能显著地节省运行时间,特别是在处理大数据集的时侯。更具体的说,在[12]中,量子算法的运行时间与特征空间的维数成对数关系;在[100]中,量子算法的运行时间是数据集元素个数的对数级别。

3.量子k-中位数聚类

k-中位数聚类是一种无监督的学习方法,其目的是对数据进行聚类并找到数据的中心点。k-中位数聚类是一个常用的聚类算法,在经典机器学习中被广泛使用。与 k-均值聚类算法相比,k-中位数聚类算法不容易受到异常值的干扰。k-中位数聚类的算法流程如下:首先,随机选择k 个数据点作为聚类中心点。然后每个数据点被分配到最接近的聚类中心。接下来,计算每个聚类的中位数并把它作为新的聚类中心。最后,重复这个过程直到新聚类中心和旧聚类中心的差距小于预先设定的阈值。Aïmeur, Brassard Gamb 提出了一种量子 k-中位数聚类算法[101]。利用量子能够快速寻找中位数的优势,量子 k-中位数聚类算法能对经典 k-中位数聚类算法进行多项式级别的加速。

4.量子最小生成树聚类

最小生成树聚类是一种基于图论的聚类方法,其主要原理是根据样本之间的距离构建最小生成树,并基于生成树上的边来进行聚类划分。最小生成树聚类算法可用于无监督学习,以发现数据点之间的相似性和聚类结构。

在最小生成树聚类算法中,生成树是指在一个无向图中,连接所 有节点且边权值之和最小的树。当应用于聚类时,将所有数据点看作 图的节点,距离作为边权,然后求得图的最小生成树。最小生成树的 边连接了距离最近的数据点,并且将所有数据点分为若干个连通分量。


聚类的划分可以通过保留最小生成树的前 k 个边来实现,这里的 k 是预先设定的聚类个数。可以通过拆分生成树中的边来创建 k 个不同的子树,每个子树中的数据点构成了一个聚类。由于生成树算法是基于全局距离的,因此最小生成树聚类算法在数据点之间存在比其他聚类算法更准确的距离度量关系。

相比于其他聚类算法,最小生成树聚类算法的优点是可以有效地识别基于距离的异常点和数据点之间的非线性关系。但是,最小生成树聚类算法对于离群点和噪声数据敏感,也比较容易被数据中的噪声干扰。

在大规模高维数据下,求解最小生成树可能会比较耗时。而量子最小生成树聚类算法是一种最小生成树聚类算法的量子化版本[101]。利用量子计算的优势,量子最小生成树聚类能够更高效低处理高维大规模数据,从而实现更高效的聚类分析。

在量子最小生成树聚类算法中,首先将待聚类数据映射为一个加权无向图,其中节点表示数据点,距离作为边的权重。然后使用量子算法找到相应的最小生成树。设计量子最小生成树聚类算法的核心工具是振幅放大算法[102]。量子最小生成树聚类算法可以比相应的经典算法提供多项式级别的加速。

5.量子分级聚类

分级聚类是一种聚类方法,它通过逐步划分数据集来建立聚类层次结构。分级聚类算法从所有数据点开始,不断地将数据集划分为子集并形成一棵层次树,最终以一组聚类结束。分级聚类算法的特点是不需要先设定聚类数目,并且聚类层次结构可以轻松地表示在树状图中。在分级聚类算法中,初始时,所有的样本被视为同一个聚类。随后,算法通过计算聚类内样本的相似度,然后选取聚类中两个最不相似的样本进行分裂。将这两个样本分割成两个新聚类,并计算新生成的聚类与其他聚类之间的相似度。这个过程一直进行下去,直到满足


某个终止准则,比如指定的分裂次数或聚类内样本距离的阈值。

量子分级聚类是分级聚类的量子化版本[101]。和传统的分级聚类算法一样,量子分级聚类算法也通过逐步划分数据集来建立聚类层次结构。利用量子寻找最大值算法作为子程序,量子分级聚类算法可以比相应的经典算法实现更为高效的聚类分析[103]

6.量子核心集构造算法

k-聚类(例如 k-中值聚类和k-均值聚类)是一个基本的机器学习问题。而核心集是一种处理聚类问题的强大技术。粗略地说,当数据集很庞大的时候,核心集可以作为数据集的一个小型代理,使得聚类的计算复杂度大大降低。最近,北京大学前沿计算研究中心的李彤阳、姜少峰团队[104]提出了一种量子算法,可以快速地找到 k-聚类的核心集,从而对各种 k-聚类近似经典算法提供平方级别的加速。同时,他们给出了相应的下界,证明了他们提出的量子算法是几乎最优的(相差一个对数因子)。

8.3.2.3 量子最近邻

Wiebe, Kapoor Svore 提出了一种量子最近邻算法,它是量子无监督学习中的一种重要算法,旨在从经典数据中寻找最接近某个目标样本的数据[105]。量子最近邻算法具有一些经典近邻算法所不具备的优点,如具有更快的训练速度。下面将对量子最近邻算法的理论基础和应用进行介绍。

1.理论基础

量子最近邻算法的核心思想是使用振幅估计方法去计算欧里几得空间的距离[102]Wiebe, Kapoor Svore 证明了量子最近邻算法所需查询次数的上界[105]。在最坏情况下,量子最近邻算法能够对于经典蒙特卡罗算法在查询复杂度上实现多项式级别的加速。

2.应用

在对大型数据集进行分类的时候,经典方法通常需要高昂的计算


成本。而量子最近邻算法可以同时具有快速分类和准确性的双重优势。实验表明,对于几个真实世界中的二分类问题,量子最近邻算法的分 类准确率都可以与相应的经典算法相媲美[105]

8.3.2.4 量子过程层析

对一个未知的量子信道进行刻画和验证是量子计算中一个重要的问题。量子过程层析(即从测量数据中重建未知的量子信道)是刻画量子信道的一种基本方法。Torlai 等人提出了一种通过将量子信道表示为张量网络,并结合基于无监督机器学习的数据驱动优化算法来执行量子过程层析的技术[106]。模拟实现显示,对于最多 10 个量子比

特的无噪音一维和二维随机量子电路,以及一个带有噪声的 5 个量子

比特电路,该方法能够实现超过 0.99 的过程保真度,并且使用的单量子比特测量次数比传统过程层析技术少几个数量级。

8.3.2.5 量子纠缠探测

量子纠缠是量子信息处理任务中不可或缺的资源。陈逸威等人设计了一种无监督机器学习方法对量子纠缠进行探测[107]。他们提出了一种由伪孪生网络和生成对抗网络组成的复值神经网络,然后使用不具有量子纠缠的可分离量子态对该网络进行训练。通过对可分离态进行特征提取,该网络可以将纠缠态作为异常点检测出来。从两比特到十比特系统的数值实验表明,该神经网络能够实现平均 97.5%以上的检测准确率。此外,它还能够揭示纠缠的内部结构,例如子系统之间的部分纠缠。作为提供一种提取量子态中的隐藏特征的工具,该网络也可以应用于对其它量子资源的检测,例如贝尔非局域性( Bell Nonlocality)测试。

8.3.2.6 量子相变学习

随着量子技术的高速发展,实验量子模拟器已经变得足够庞大和复杂,从大量测量数据中发现新的物理现象可能会非常具有挑战性。而无监督机器学习方法则是应对这一挑战的可能途径。对于学习量子


相变的具体任务,现存的无监督机器学习算法主要针对由简单有序参数表征的相变。然而,这样的方法在涉及更复杂的相变时常常失效。最近,Lidiak Gong 提出了一种扩散映射方法( Diffusion Map Method),该方法对测量数据进行非线性降维和谱聚类,可用于对于复杂相变的无监督学习[108]。由于该方法适用于基于单一基底的局部测量,因此可以广泛地应用于各种实验量子模拟器去学习各种量子相变。

8.3.2.7 变分量子异常检测

异常检测的任务是对正常数据和异常数据进行区分。最近, KottmannMetzFraxanet Baldelli 提出了变分量子异常检测算法,这是一种用于分析量子数据的无监督学习算法[109]。变分量子异常检测算法使得直接在量子计算机上进行异常检测成为可能。在真实的量子计算机上的实验表明,该算法在量子设备上具有广泛的应用场景。

8.3.2.8 量子自编码器

自编码器是以无监督方式进行训练的神经网络,经典数据可以通过自编码器进行高效去噪。最近, 基于无监督量子神经网络, Bondarenko Feldmann[110]提出了一种量子自编码器,可以对几种常见的小规模量子态进行去噪处理,其中噪声包括自旋翻转误差和随机幺正噪声。量子自编码器可以广泛的应用于量子态制备和量子计量学中。此外,量子自编码器进一步的应用场景可能包括量子数据压缩、量子纠错等。在未来的发展中,为了对更大规模的量子态进行去噪处理,可能需要设计规模更深的量子神经网络。