算力作为数字经济的坚实基础,备受各方关注。从我国东南沿海到西北内陆,从工业生产到百姓生活,算力正为各行各业的数字化注入新动能,成为经济社会高质量发展的重要驱动力。自《新型数据中心发展三年行动计划(2021—2023年)》的发布实施,到生成式人工智能(Artificial Intelligence,AI)大模型掀起AI应用热潮,再到《算力基础设施高质量发展行动计划》的发布,都将进一步推动我国算力产业的高质量发展[1]。研究算力发展实际情况,分析算力发展现存问题,是制定未来算力发展策略的关键举措。本文立足当前我国算力发展现状,客观分析我国算力产业发展现存挑战,为推进我国网络强国新征程提供发展建议。
1 我国算力发展现状
1.1 算力规模增长迅猛
近年来,我国数据中心在用标准机架数量年复合增长率超过30%,截至2023年6月,我国在用数据中心机架总规模超过760 万标准机架,算力总规模达到197 EFLOPS,存力总规模达到1 080 EB,年增速达到25%[2]。算力设施内、算力设施间、用户入算等网络创新发展,有力支撑AI、云—边—端协同、“东数西算”等应用场景。
1.2 布局结构日益优化
“东数西算”实施后,我国西部枢纽算力设施建设加快,国家枢纽节点—省内—边缘协同发展的算力梯次布局体系初步形成,算力结构也逐步从早期通用占主体演变为通用—智算—超算协同发展的格局。随着AI应用的快速兴起,智算中心建设步伐加快,截至2023年6月,全国已投运的AI计算中心达到25 个,在建的AI计算中心超过20 个,智能算力规模占整体算力规模的比例已提高到25.4%[3]。
1.3 算力技术创新活跃
我国计算机领域发明申请数量剧增,算力、存力、运力领域创新成果不断涌现。科技公司加速图形处理器(Graphics Processing Unit,GPU)等AI芯片研发,国内相关企业纷纷推出自研产品;“星河”AI网络、先进存储、液冷技术等很好地支撑了当前的智算需求。我国在计算、网络和存储方面都取得了很大进展。
1.4 算力赋能产业发展
随着我国算力规模的持续扩大,互联网、大数据、AI等与实体经济融合发展的新业态、新模式正加速涌现,算力正加速从互联网、电子政务等领域向服务、金融、制造、交通、医疗等行业渗透,成为传统产业智能化改造和数字化转型的重要支点。与此同时,算力应用也逐渐向城市治理、智能零售、智能调度等领域延伸,激发数据要素新活力,助力数字经济高速发展。
2 算力发展面临的挑战
2.1 算力协同仍需稳步推进
“东数西算”工程助力我国算力发展踏上新台阶,但就目前实施效果来看,距离我国东西部算力协同均衡发展仍有差距。首先,我国东西部之间商业模式协调机制仍需持续完善。我国东西部算力协作发展不仅需要依靠自身努力,也需要一定的商业模式来激励,我国西部能源供应价格优势与东部产业西迁成本收益之间的平衡需要一定的协调机制来保障。其次,枢纽节点算力结构需要持续优化。虽然目前我国已在大力推动智算中心建设,但大模型的训练迭代对智能算力需求的拉动远超预期,当前枢纽通用算力与智能算力的供需比例仍有一定差距。最后,同质化竞争带来的市场压力需要调解。由于同质化竞争,部分地区价格战加剧,导致原本的成本定价被转变为市场定价,对数据中心相关企业发展带来一定压力。
2.2 算力生态仍需持续完善
近年来,我国不断巩固算力基础设施,培育算力产业优质企业,推进算力赋能经济发展,健全算力产业生态,但目前发展仍需进一步提升,算力生态建设仍需持续完善。我国部分地区数据中心的实际运行业务效果与算力设计规模构想存在一定差距,以“筑巢引凤”的方式实现“新旧”动能转换的期待尚未实现,亟待推动从企业个体的位置空间聚集到有机融合的产业链条聚集,从而促进算力上、下游产业及应用生态市场协同发展。
算力拉动经济增长的潜力仍有较大挖掘空间。算力产业发展与当地资源禀赋结合不够紧密的现象仍然存在,导致算力产业未能深入赋能当地实体经济发展,算力产业发展带来的技术创新和成果尚未充分转化为当地数字经济的增长动力等问题,仍需持续开展算力应用赋能的举措、深挖算力赋能经济增长的潜力空间,将算力真正融入当地实体产业,充分转化为当地经济发展动能。
2.3 算力创新仍需全面提升
大模型等技术的迅速发展为算力产业发展带来了新挑战,目前我国算力核心技术创新力度不够,技术方面仍存在相对短板。在绿色低碳方面,我国现有先进数据中心电能利用效率最低已达1.05以下,达世界先进水平,但源网荷储一体化供电系统等低碳发展重要技术推广仍然受限,源荷对接存在一定困难[1]。
在算力调度方面,部分省市已上线调度平台;中国算力平台持续完善算力监测、匹配和调度等方面的能力,部署节奏加快,但算力调度的商业模式和技术细节仍需进一步探讨。在高端芯片和软件研发方面,我国自主创新能力仍需加强,对进口产品和技术仍有一定依赖,关键技术的“卡脖子”风险依然存在,难以支撑大模型、元宇宙等高性能场景建设。此外,国产数据库、中间件、操作系统等基础软件适配性、兼容性不足,对主流软件应用环境构建的支撑能力偏弱。
2.4 算力应用仍需深化拓展
当前,我国算力应用行业持续多元化拓展,为产业注入发展新动能,但算力应用深度仍需推进,算力供给与行业应用之间的衔接仍需加强。一方面,我国算力提供商缺少一体化解决方案,技术到落地过程仍存在一定障碍。算力技术与行业场景结合过程中需要较强的行业经验,而目前我国算力企业与人才在细分领域的储备尚不足支撑现有项目的长期深耕和成果应用转化。另一方面,传统企业缺乏对算力增益效用的认知与实践。传统企业的数字化转型日益加速,但现有的算力应用相对较浅,在顶层规划、转型方法、项目落地等思维方式和实践部署方面仍需进一步强化。
2.5 算力安全仍需加强保障
随着算力向生产生活各个领域的渗透逐渐深入,算网融合持续推进,算力作为转换数据价值的生产要素,安全保障至关重要,系统安全影响需重视。随着虚拟化技术的发展,算力应用对各种服务组件的依赖加大,而底层服务组件往往支撑着大量业务,一旦发生故障,诸多产品将受到影响,引发行业震动。
集群安全防护亟需增强。算力产业不断集聚发展,集群部署让算力资源更为集中,攻击目标更为明显,网络供给与威胁升级,影响后果更为严重,在传统设备级、系统级、算力中心级的安全防护基础上,亟需构建集群安全防护体系,增强防护能力。不稳定的水电供应,或者对传输线路和设施的物理破坏都会导致算力集群的宕机。
3 算力互联面临的挑战
3.1 产业需求无场景
大模型训练需要大规模的集群算力处理。随着数据并行和模型并行技术的不断完善和提升,分布式训练中可以使用千卡或万卡规模的GPU来缩短整体训练时长。数据显示,GPT-4的参数规模为1.8 万亿个,训练GPT-4约为2.15e25 FLOPS,在大约2.5 万个A100上训练了90~100天,利用率仅在32%~36%之间[4]。
2023年,购入超过2 万张GPU卡的国内公司仅腾讯、百度、阿里巴巴和字节跳动4家[5]。为充分发挥算力算效,这些企业均自建了大规模智算集群,为业内提供算力相关的服务。在正常发展情况下,未来大模型需要的计算能力相对于目前只增不减。大规模集群算力处理大模型、小规模算力处理小模型将成为业界常态。
3.2 技术瓶颈难突破
大模型并行计算模式采用分布式计算能力来处理大量的训练任务。由于带宽和时延的限制,并不是把几个小规模的集群远程连起来就能处理大模型。
在完成自身的计算任务后,节点需要将结果快速地同步给其他节点,以便进行下一轮计算;在此之前,计算任务处于等待状态。目前,每块GPU至少会配置100 Gbit/s的网卡[6],且带宽占用较满;如果带宽不够,会造成网卡间通信时间变长,影响加速比和训练效果。算力中心存在大量东西向流量,思科全球云指数统计,数据中心内部之间的流量占比为71.49%[7],随着智算的爆发,比例会更高。通常每机架配置百兆带宽,但如果要实现所谓的GPU远程互联,理论上单机架两台GPU服务器就需要1.6 Tbit/s的带宽,换算成智算中心的出口带宽将是天文数字。
在时延方面,智算中心内“一跳可达”的场景下,无限带宽技术和基于以太网的远端直接内存访问技术均能支持应用层的端到端时延微秒级。为了保证性能损失在5%以内,数据库集群系统要求至少40 Gbit/s的吞吐和3 μs的网络往返时延[8]。目前,北京—呼和浩特的端到端时延为12 ms,是集群内应用层端到端时延的1 000 倍。这样的网络时延,对大模型训练、数据库等应用来说是不可接受的。
3.3 安全稳定难保障
由于计算量较大,分布式训练任务需要持续数天或数周。在训练期间如果出现故障,轻则任务回退到上一个断点进行重训,重则整个任务将从0开始。分布式AI计算是同步的,并且希望训练任务具有可预测的完成时间[9]。在智算网络中,每千分之一的丢包将导致网络性能下降50%[10]。在正常情况下,互联网的丢包率在0%~1%,“尽力而为”的互联网显然不符合智算网络的稳定性需求。
4 我国算力发展建议
为进一步推动政策措施有效落地,增强算力应用赋能实效,针对我国算力发展现存挑战,结合我国现阶段算力产业发展基础,提出我国算力高质量发展对策建议。
4.1 以市场为导向,政府引导应用发展
加强算力发展的宏观指引,明确产业发展方向。充分发挥市场作用,在北京、上海、深圳等应用需求旺盛的地区及其周边地区适度加大发展力度。强化工程的引领作用,通过创建算网城市、打造算力中心标杆等方式形成示范效应,促进各地算力设施的高质量建设。
4.2 以协同为重点,推动全面一体发展
探索解决我国东西部的资源使用和利益分配问题,充分结合我国东西部自身优势,创新合作模式与机制,鼓励开展“以数换电”商业合作。推动我国西部枢纽紧抓机遇,对算力全产业链进行孵化,构建“算力租赁+AI应用”的生态体系,激活西部算力产业活力。鼓励企业适度超前部署大规模智算算力,提高算力中心自主可控比例。
4.3 以突破为目标,重点攻关核心技术
围绕算力发展需要,增强企业自主创新能力,持续推进GPU等关键产品和技术的研发。推动硬件、基础软件、应用软件等适配协同,进行算力调度技术的应用试验,形成一批具有自主产权的完整解决方案。加强对外技术交流合作,加深算力产业链的沟通协作。
4.4 以应用为牵引,推进算力赋能产业
构建多部门、多行业交叉合作机制,充分发挥算力对工业、农业、交通、能源、金融和教育等行业的赋能价值。在项目引进、企业扶持的过程中,培育算力龙头企业,协同带动算力上下游产业的发展,构建完善的算力产业生态链。通过“华彩杯”算力大赛等形式,挖掘并培育优质算力应用项目,推动优秀项目案例的复制推广。
4.5 以安全为保障,筑牢产业安全防线
统筹建设集群级安全防护能力,适当增加算力企业在安全方面的投入,解决好基础性问题,打造安全可靠的算网能力。鼓励算力中心进行多点热备,实现业务无缝切换。引导行业打造安全运维体系,提高运维人员应对突发事件的应急响应水平。
5 结束语
《算力基础设施高质量发展行动计划》等国家政策文件的发布,以及GB/T 43331-2023《互联网数据中心(IDC)技术和分级要求》等国家标准的实施,都将引领我国算力产业高质量发展。我国产业界应针对算力发展过程中遇到的问题不断加强技术攻关,将算力产业发展走深向实,持续增强我国算力基础力量,助力我国早日实现网络强国目标。