2.5.3 利用云计算资源应对算力需求挑战

2.5.3 利用云计算资源应对算力需求挑战‌

虽然Stable Diffusion WebUI 非常流行，它的图形化操作界面大大降低了普通用户进行AI 生图的门槛，但在实际应用中，用户通常会面临一些限制，影响工作和创新的效率。Stable Diffusion WebUI 是单机版应用，对设备要求高，需要配有图形处理单元 (GPU) 才能顺畅地生成图像。用户一般使用带有GPU 显卡的本地计算机或租用云环

境中带有 GPU 设备的虚拟机，在其中安装和运行 Stable Diffusion WebUI。更为严重的是，单机版的计算资源有限，每次只能执行一个工作负载。一旦当前任务开始，界面就不会再允许提交新任务，直到当前的任务完成。这种单机运行模式会极大地影响用户开展AI 生图工作的效率。

Stable Diffusion WebUI 在实际应用中面临的限制，是普遍存在的生成式AI 高算力要求的一个侧影。由于生成式 AI 需要处理庞大的数据集和复杂的模型，其训练和推理的过程需要大量的计算资源。运行较大规模的生成式AI 模型，通常需要高性能的硬件设备，如图形处理单元 (GPU) 或专用的 AI 加速器。这些设备能够并行处理大规模的矩阵运算和神经网络计算，以加快模型的训练和生成速度。此外，生成式AI 的训练过程通常需要较长时间，甚至需要多天或数周才能完成。这期间，对于训练过程的自动化监控与调度，以及对结果的自动评估，都是生成式AI 在实际中得到更大范围应用所面临的挑战。

2.5.3.2 向云端寻求弹性算力资源

随着生成式AI 的发展，面对更大规模的数据集、更复杂的模型和更高质量的生成结果需求，人们将目光投向云计算服务，以获得更强大的计算能力和工程化平台的支持。实际上，目前很多流行的大模型都是在云计算平台上完成的训练。例如，Stable Diffusion 模型就是在 Amazon SageMaker 服务上完成训练的 38 。借助 Amazon SageMaker，Stability AI (Stable Diffusion 模型的开发公司) 在具有数千个GPU 或Amazon Trainium 芯片的计算集群上构建AI 模型，从而将训练时间和成本缩短 58%。

利用拥有弹性和高可用算力支持的云计算已成为大规模开展生成式AI 实践的重要途径。通过云计算平台，生成式 AI 可以利用弹性

38https://aws.amazon.com/blogs/machine-learning/stability-ai-builds-foundation-models-on-amazon-sagemak

er/

的资源分配和并行计算能力，加快训练和推理速度；同时，还可以利用丰富的云服务构建起灵活实用、可快速迭代的工程化系统，为创新和应用提供基础环境。

在云端拓展算力的方式主要有两类，以 Stable Diffusion WebUI

的使用为例：

(1) 云虚拟主机。用户在云计算平台租用配有 GPU 等加速设备的虚拟机，AI 生成工作完成后即可释放资源。目前，很多云计算服务商针对生成式 AI 业务提供专门的虚拟机类型，在虚拟机上预置好 Stable Diffusion WebUI 环境和相应的模型文件，便于用户开机即用。用户在使用体验上与在本地没有区别，仍然会受限于所使用的虚拟机上的GPU 资源。当设计任务较多时，仍然会遇到任务队列的瓶颈。由于应用的前端和后端都全部位于同一台虚拟机上，算力依旧依赖于前端所在的这台虚拟机，所以在应用架构上，与在本地自购主机没有本质区别。

(2) 后端云算力。面对大规模生成式 AI 任务需求，往往采用更高效灵活的前后端分离方式。Stable Diffusion WebUI 作为应用前端，被部署在低配置的云虚拟机或本地主机上；当需要推理或训练时，调用后端独立的高性能虚拟机。这样，针对训练和推理，分别配置为不同场景专门优化过的机型；针对不同的生成工作量，配置不同数量的算力资源，以实现并发加速。在亚马逊云科技的平台上，还可以使用 Spot 实例，充分利用闲置的计算资源，获得更高的性价比。

2.5.3.3 亚马逊云科技的算力与AI 研发资源

Stability AI 公司所使用的Amazon SageMaker 是亚马逊云科技的全托管的一站式机器学习开发平台，面向生成式AI 的算法和模型开发人员，帮助用户高效实现生成式AI 基础模型的训练、推理、自定义、微调、部署和管理。通过 Amazon SageMaker，用户不仅可以轻松访问包括 Nvidia GPU、Amazon Trainium 在内的最新的基础设施

资源，利用 Studio、Notebook 等一系列调试、分析和追踪模型效果的工具，轻松实践机器学习运维 MLOps 、大规模集群协调和分布式训练，还可以获得专门优化的机器学习框架和库、高性价比的 Spot 实例支持、多种推理方式的部署、大语言模型并行化处理等多种特性，最大限度地节省模型开发和应用成本，提升整体生产效率。

SageMaker JumpStart 是 Amazon SageMaker 提供的一个资源中心，目前内置 300 多种开源模型和 10 多种预设场景解决方案。通过 SageMaker JumpStart，用户能够一键部署或微调包括Stable Diffusion在内的主流生成式AI 开源模型，低代码地轻松开发高质量模型，并缩短部署时间。同时，它还支持对大量模型的管理，包括搜索和共享。

在硬件层面，用户需要高性能、低成本且为机器学习专门构建的基础设施。亚马逊云科技不仅提供基于英伟达最新 GPU 芯片 (如 H100、A100、A10、T4 等) 的虚拟机实例，还提供基于自研AI 训练 (Trainium) 与推理 (Inferentia) 芯片、专门针对生成式 AI 应用优化的高性价比虚拟机实例，帮助用户大幅节省生成式AI 训练和推理的成本。与其他类似的 Amazon EC2 实例相比，采用 Trainium 训练芯片的实例Trn1 可以节省高达 50%的训练成本，经过优化后可以在与高达 800Gbps 的第二代 EFA (弹性结构适配器) 网络相连的多个服务器上分发训练任务；采用Inferentia2 推理芯片的实例Inf2，吞吐量提高了 4 倍，延迟降低了 10 倍，支持包括Stable Diffusion 2.1 在内的大量生成式AI 的基础模型，在图片生成时间、QPS (每秒查询推理响应速度)、服务器推理成本上有较大优势。

< 上一个 | 内容 | 下一个 >