< 上一个 | 内容 | 下一个 >

2.5.3 利用云计算资源应对算力需求挑战

2.5.3.1 Stable Diffusion WebUI 的应用瓶颈

虽然Stable Diffusion WebUI 非常流行,它的图形化操作界面大大降低了普通用户进行AI 生图的门槛,但在实际应用中,用户通常会面临一些限制,影响工作和创新的效率。Stable Diffusion WebUI 是单机版应用,对设备要求高,需要配有图形处理单元 (GPU) 才能顺畅地生成图像。用户一般使用带有GPU 显卡的本地计算机或租用云环


境中带有 GPU 设备的虚拟机,在其中安装和运行 Stable Diffusion WebUI。更为严重的是,单机版的计算资源有限,每次只能执行一个工作负载。一旦当前任务开始,界面就不会再允许提交新任务,直到当前的任务完成。这种单机运行模式会极大地影响用户开展AI 生图工作的效率。

Stable Diffusion WebUI 在实际应用中面临的限制,是普遍存在的生成式AI 高算力要求的一个侧影。由于生成式 AI 需要处理庞大的数据集和复杂的模型,其训练和推理的过程需要大量的计算资源。运行较大规模的生成式AI 模型,通常需要高性能的硬件设备,如图形处理单元 (GPU) 或专用的 AI 加速器。这些设备能够并行处理大规模的矩阵运算和神经网络计算,以加快模型的训练和生成速度。此外,生成式AI 的训练过程通常需要较长时间,甚至需要多天或数周才能完成。这期间,对于训练过程的自动化监控与调度,以及对结果的自动评估,都是生成式AI 在实际中得到更大范围应用所面临的挑战。

2.5.3.2 向云端寻求弹性算力资源

随着生成式AI 的发展,面对更大规模的数据集、更复杂的模型和更高质量的生成结果需求,人们将目光投向云计算服务,以获得更强大的计算能力和工程化平台的支持。实际上,目前很多流行的大模型都是在云计算平台上完成的训练。例如,Stable Diffusion 模型就是在 Amazon SageMaker 服 务 上 完 成 训 练 的 38 。 借 助 Amazon SageMakerStability AI (Stable Diffusion 模型的开发公司) 在具有数千个GPU Amazon Trainium 芯片的计算集群上构建AI 模型,从而将训练时间和成本缩短 58%

利用拥有弹性和高可用算力支持的云计算已成为大规模开展生成式AI 实践的重要途径。通过云计算平台,生成式 AI 可以利用弹性



38https://aws.amazon.com/blogs/machine-learning/stability-ai-builds-foundation-models-on-amazon-sagemak


er/


的资源分配和并行计算能力,加快训练和推理速度;同时,还可以利用丰富的云服务构建起灵活实用、可快速迭代的工程化系统,为创新和应用提供基础环境。

在云端拓展算力的方式主要有两类,以 Stable Diffusion WebUI

的使用为例:

(1) 云虚拟主机。用户在云计算平台租用配有 GPU 等加速设备的虚拟机,AI 生成工作完成后即可释放资源。目前,很多云计算服务商针对生成式 AI 业务提供专门的虚拟机类型,在虚拟机上预置好 Stable Diffusion WebUI 环境和相应的模型文件,便于用户开机即用。用户在使用体验上与在本地没有区别,仍然会受限于所使用的虚拟机上的GPU 资源。当设计任务较多时,仍然会遇到任务队列的瓶颈。由于应用的前端和后端都全部位于同一台虚拟机上,算力依旧依赖于前端所在的这台虚拟机,所以在应用架构上,与在本地自购主机没有本质区别。

(2) 后端云算力。面对大规模生成式 AI 任务需求,往往采用更高效灵活的前后端分离方式。Stable Diffusion WebUI 作为应用前端,被部署在低配置的云虚拟机或本地主机上;当需要推理或训练时,调用后端独立的高性能虚拟机。这样,针对训练和推理,分别配置为不同场景专门优化过的机型;针对不同的生成工作量,配置不同数量的算力资源,以实现并发加速。在亚马逊云科技的平台上,还可以使用 Spot 实例,充分利用闲置的计算资源,获得更高的性价比。

2.5.3.3 亚马逊云科技的算力与AI 研发资源

Stability AI 公司所使用的Amazon SageMaker 是亚马逊云科技的全托管的一站式机器学习开发平台,面向生成式AI 的算法和模型开发人员,帮助用户高效实现生成式AI 基础模型的训练、推理、自定义、微调、部署和管理。通过 Amazon SageMaker,用户不仅可以轻松访问包括 Nvidia GPUAmazon Trainium 在内的最新的基础设施


资源,利用 StudioNotebook 等一系列调试、分析和追踪模型效果的工具,轻松实践机器学习运维 MLOps 、大规模集群协调和分布式训练,还可以获得专门优化的机器学习框架和库、高性价比的 Spot 实例支持、多种推理方式的部署、大语言模型并行化处理等多种特性,最大限度地节省模型开发和应用成本,提升整体生产效率。

SageMaker JumpStart Amazon SageMaker 提供的一个资源中心,目前内置 300 多种开源模型和 10 多种预设场景解决方案。通过 SageMaker JumpStart,用户能够一键部署或微调包括Stable Diffusion在内的主流生成式AI 开源模型,低代码地轻松开发高质量模型,并缩短部署时间。同时,它还支持对大量模型的管理,包括搜索和共享。

在硬件层面,用户需要高性能、低成本且为机器学习专门构建的基础设施。亚马逊云科技不仅提供基于英伟达最新 GPU 芯片 (H100A100A10T4 ) 的虚拟机实例,还提供基于自研AI 训练 (Trainium) 与推理 (Inferentia) 芯片、专门针对生成式 AI 应用优化的高性价比虚拟机实例,帮助用户大幅节省生成式AI 训练和推理的成本。与其他类似的 Amazon EC2 实例相比,采用 Trainium 训练芯片的实例Trn1 可以节省高达 50%的训练成本,经过优化后可以在与高达 800Gbps 的第二代 EFA (弹性结构适配器) 网络相连的多个服务器上分发训练任务;采用Inferentia2 推理芯片的实例Inf2,吞吐量提高了 4 倍,延迟降低了 10 倍,支持包括Stable Diffusion 2.1 在内的大量生成式AI 的基础模型,在图片生成时间、QPS (每秒查询推理响应速度)、服务器推理成本上有较大优势。