瞭望 | 公共云提速“人工智能+”

新一代人工智能技术正步入跨越式发展新阶段，成为引领现代产业变革的核心力量。“人工智能+”今年首次被写入政府工作报告，多地积极探索推动AI深度赋能实体经济，开启了AI在各行各业广泛应用的新篇章。

随着AI技术和应用创新不断加速，模型复杂度和数据量急剧增加，对包括算力在内的新型基础设施建设提出了新需求和新要求，建立适应AI+时代的高质量算力服务体系迫在眉睫。

日前国家信息中心信息化和产业发展部发布了《“人工智能+”时代公共云发展模式与路径研究》报告，提出公共云是破解我国AI+时代算力“供不上、用不起”瓶颈问题的重要抓手。

公共云是指面向公众提供的云计算资源，通过聚合各类算力并通过在线的模式为各类用户提供简单易用，且近乎无限扩展的计算服务，其本质是将云计算资源规模化、大范围进行共享。“公共云能以资源利用效率最大化的方式，帮助提升我国算力供给能力，并通过规模经济效应推动算力门槛降低，让更多的用户享受普适普惠的算力服务。”国家信息中心信息化和产业发展部主任单志广介绍。

智能算力紧缺制约大模型规模化应用

智能算力资源紧缺已成为制约大模型规模化应用的主要瓶颈。

按照应用和功能特性，算力可分为基础算力、智能算力、超算算力三类，基础算力主要基于CPU芯片，用于满足基础通用计算需求，如网购、打游戏等；智能算力基于GPU、FPGA（现场可编程门阵列）、ASIC（专用集成电路芯片）等AI芯片的加速计算平台，主要用于人工智能的训练和推理计算，如语音、图像和视频的处理；超算算力由超级计算机等高性能计算集群提供，主要用于尖端科学领域的计算。

智能算力方面，以AIGC（生成式人工智能）为代表的AI应用、大模型训练等所使用的数据量和参数规模呈指数级增长，带来了智能算力需求爆炸式增加。例如GPT-3模型参数约为1746亿个，训练一次需要以每秒一千万亿次计算，运行3640天。GPT-4参数数量扩大到1.8万亿个，是GPT-3的10倍，训练算力需求上升到GPT-3的68倍，在2.5万个A100芯片上需要训练90～100天。

在中文大语言模型方面，2023年3月百度发布文心一言，4月华为发布盘古大模型，阿里发布通义千问大模型，商汤科技公布日日新大模型体系，5月科大讯飞发布星火大模型等，到目前我国大语言模型已有上百个。根据中国信息通信研究院测算，从设备供给侧看，2022年我国计算设备总算力规模中，基础算力占比40%，智能算力占比则高达59%，成为算力快速增长的驱动力。根据预测，到2026年智能算力规模将进入每秒十万亿亿次浮点计算（ZFlops）级别。

“大语言模型发展带来了AI算力需求的快速上升，所消耗的计算资源每几个月翻一倍，算力需求的增长速度已经远超芯片性能提升和产能扩张速度上限。”单志广介绍。

公共云具备缓解算力紧缺潜力

公共云是以需求为导向以应用为目的的一种公共服务模式。AI+时代，公共云将成为破解算力资源紧张、降低算力成本的关键抓手。

首先，公共云具备训练大模型所需的强算力。训练全球领先的基础大模型需要调度至少万张GPU芯片高效协同工作，只有极少数公共云具备相应能力。从亚马逊、微软和谷歌等科技巨头运营公共云的经验来看，其优势是规模大、效率高，天然能向全球市场扩张。

其次，公共云的规模效应能够带来算力普惠。随着AI大模型规模化应用，支撑海量用户频繁使用所需要的推理算力成本也将急剧上升，尤其是多模态大模型对于算力的消耗将远高于文本类大语言模型。算力成本是限制大模型发展的关键因素之一，中小型AI企业往往难以通过自建算力设施解决训练和推理算力需求，因此算力租赁需求旺盛。公共云可以多路复用，通过多租户使用同一套计算资源大池，削峰填谷，显著提升硬件资源利用率，降低使用成本。例如亚马逊、阿里云等公共云厂商随着用户规模增加、技术优化和运营效率提升，持续降低云计算服务价格，亚马逊AWS曾连续三年每年降价12次；过去十年阿里云将计算成本降低了80%，存储成本降低了近90%。

再者，公共云能够实现我国算力供给能力的边界突破。公共云通过集群的计算、网络、存储平衡设计和软硬一体化加速技术，调度“盘活”已有芯片，可以形成超大规模算力资源池，实现芯片复用、弹性可扩展；发挥公共云大规模机器调度、异构芯片兼容能力，不仅能将已有先进芯片集约化利用，还能充分利用已有的通用CPU资源，为AI大模型训练和推理应用提供必要的算力支持；随着公共云技术体系加速升级，AI训练、AI推理以及HPC超算等计算资源将并池管理，实现算力普惠和模型普及。