通过采用模型优先的心态、优化利用率和战略性地运用负载平衡,首席信息官可以缓解芯片短缺。
译自How CIOs Can Battle GPU Poverty in the Age of AI,作者 Liam Crilly。
人工智能时代的淘金热已经到来,但对于许多公司来说,鹤嘴锄却处于缺货状态。随着人工智能需求的激增,一种被称为“GPU 匮乏”的现象正在困扰 CIO,其速度超过了建立数据中心以及更重要的是为其提供动力所需的芯片的能力。
简而言之,GPU 匮乏意味着希望将 GPU 用于人工智能计算的组织根本无法在这些强大的并行处理系统上购买容量,而这些系统是运行许多类型机器学习的最有效方式。
这种稀缺性源于完美风暴的完美风暴。强大的图形处理单元的全球芯片短缺已导致初创公司专门筹集资金来购买 GPU——当你考虑到在获得收入之前进行大规模资本支出正是云计算解决的问题时,这是一种疯狂的策略。然后是人工智能工作负载不断增长的需求。
随着越来越多的企业寻求利用 OpenAI 和 Google 等公司的人工智能服务或利用云中的人工智能模型和工具链,它们增加了对 GPU 定价的压力——使 GPU 进一步超出初创公司和其他缺乏资金的组织的承受范围。
GPU 匮乏正在整个供应链以及人工智能构建者的整个工具带上上下波动。数据中心建设设备面临着备用发电机和变压器等需求核心组件的多年积压。即使是寻找拥有廉价房地产、廉价且充足的电力以及与全球互联网快速连接的合适地点也变得更加艰巨。
然后是芯片缺失的问题。半导体制造厂正在努力跟上步伐,他们快速建造新工厂的努力只会经过许多年才能取得成果。
与此同时,超大规模云提供商和大型企业正在吞噬有限的 GPU 生产供应,导致价格暴涨。对于许多公司,特别是那些没有无底预算的公司来说,在云中访问 GPU 以用于人工智能应用程序的困难正在成为重大的业务风险。
然而,聪明的 CIO 可以通过常识性步骤来降低运行企业人工智能的资源需求,从而缓解 GPU 疯狂。
使用节俭模型和推理
就像一个足智多谋的旅行者学会轻装上阵一样,数据科学家可以使用更小、更高效的人工智能模型取得惊人的成果。例如,微软的 Phi-2 模型经过教科书和超高质量数据的训练,既紧凑又节能,需要更少的计算来调整和推理。
量化和剪枝等较新的技术使研究人员能够缩小庞然物模型,而不会牺牲准确性。TensorFlow Lite 等框架专门设计用于在边缘设备上部署这些精简模型,Hugging Face 等初创公司正在使预训练的、高效模型的访问民主化。负责 PyTorch 框架的团队也在创造新的方法,以更少的数据和开销有效地训练模型。
优化一切
随着 GPU 时间的平流层价格,优化人工智能工作负载可以快速且很好地获得回报。人工智能工程和 MLOps 团队应积极且频繁地分析性能以识别瓶颈。这可能意味着对不同的配置(批次大小、GPU 数量)进行基准测试,以找到最适合你特定任务的最高效设置,因为它并不总是直接的。
精明的团队将在训练期间组合和调整数据精度(FP16、FP32 等)以减少内存使用并运行更大的批次大小。管理内存分配和数据移动,使用数据预取和精细定时数据传输等技术来紧密跟踪计算可用性可能会有所帮助。
为人工智能作业找到理想的批次大小至关重要。较大的批次大小可以更好地利用 GPU,但过大会导致内存不足错误。进行实验以找到最佳点。如果你有更大的 GPU 或预留了大量 GPU 容量,请务必试用 GPU 虚拟化软件。这可以让你重新利用训练模型或进行更大调整所需的宝贵且稀有的计算,以解决人工智能应用程序操作所需的更普通的模型推理。
最后,如果可能,在容器的基础上进行部署,该容器支持自动扩展,以根据实时需求动态调整分配给工作负载的 GPU 数量。这有助于避免过度配置,同时确保在高峰期有足够的资源。
调整人工智能的负载平衡
经过适当调整的负载均衡解决了 GPU 匮乏的挑战,同时确保 AI 作业获得所需的资源,而不会出现超时,并提供了增强的安全性。它通过识别 AI 任务不同的计算需求而不同于传统的负载均衡。
通过分析工作负载、评估其 CPU 和 GPU 需求以及优先处理时间敏感的操作,特定于 AI 的负载均衡器可以动态地在最合适的硬件上分配工作。这种方法保护了昂贵的 GPU,用于真正需要其功能的操作,同时将受 CPU 约束的工作卸载到更具成本效益的资源上。
至关重要的是,特定于 AI 的负载均衡引入了令牌管理控制的新维度。在令牌发挥作用(语言模型)的 AI 系统中,平衡负载不仅仅关乎硬件效率。负载均衡器可以监控与 AI 作业关联的令牌使用情况,动态地重新路由请求以优化令牌消耗并防止成本超支。
此外,通过根据作业的潜在安全影响和令牌敏感性智能地路由作业,AI 负载均衡器有助于隔离高风险工作负载,为 AI 系统提供额外的保护层。实施此类负载均衡策略需要仔细考虑框架集成、稳健的监控以及基于云的 AI负载均衡解决方案的潜在成本节约。
经过 AI 调整的负载均衡器可能会提供更精细的控制——例如,基于令牌的速率限制,以及将作业运送或转移到在令牌使用或成本方面最经济的 LLM 集群的算法。
未来(希望)是富足的
好消息是,该行业并没有坐以待毙。芯片制造商正在加大生产力度,专门为 AI 设计的新芯片架构即将面世。更多的 AI 数据中心将上线。许多聪明的开发人员和工程团队正在不断改进 AI 模型的工作方式,并减少训练模型的负担,同时保持或甚至提高性能。
但是,这些解决方案不会在一夜之间出现。与此同时,通过采用以模型为先的心态、优化利用率和战略性地使用负载均衡,首席信息官可以减轻当前基础设施泡沫的最严重影响,避免 GPU 匮乏,确保他们的组织拥有足够的 AI 来完成需要完成的工作。
本文在云云众生(https://yylives.cc/)首发,欢迎大家访问。