2025年以计算加速迈进智能化未来-IDC新一代云基础设施实践报告
5.31 MB
27 页
0 下载
21 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
以计算加速迈进智能化未来 ⸺IDC新一代云基础设施实践报告 趋势:云服务能力持续跃升,加速企业数智化转型与创新 01 目录 1.1 技术全面升级,为复杂的企业在线业务提供保障 1.2 软硬一体协同优化,应对AI时代激增的数据冲击 1.3 持续的融合创新,助力企业的国际化布局 挑战:企业多元业务需求与海量AI数据的冲击 02 2.1 在线业务面临性能与效率的极限挑战 �.� AI数据处理与计算协同的复杂度激增 2.3 国际化进程中的全球布局、合规与质量一致性难题 2.4 安全、稳定与成本的多元保障要求 解决方案 03 3.1 打造极致性能体验,为传统计算业务打开新空间 3.2 技术和架构创新,提升AI时代的向量数据处理和协同计算效率 3.3 强化硬件安全设计,持续增强安全保障能力 3.4 全球一致的云服务能力体系,全面助力企业国际化战略 优秀实践分析 04 4.1 小鹏汽车 4.2 微帧科技 4.3 嘎嘎射击 4.4 蚂蚁集团ZOLOZ 前言 IDC分析师认为:全球AI基础设施革新的浪潮中, 算力需求的爆发正在驱动云计算与边缘计算深 度融合,行业定制化与智能化服务加速渗透,成本优化与绿色计算将成为竞争的关键。未来,基 础设施的核心矛盾将从“资源供给”转向“效率与价值平衡”,技术迭代将围绕“弹性算力调 度”“数据主权治理”“垂直场景深度适配”三大主线展开。 越来越多的企业核心数据正在向云数据中心迁移,计算密集型任务处理能力与弹性资源供给能力 正成为云服务商的核心竞争力。面对企业客户的数字化转型需求,减少延迟和工作负载可移植性 将是客户的关键优先事项,为垂直特定数据类型提供量身定制的云服务将创造有利的竞争优势。 云提供商须为跨行业数据采集、存储和计算需求的大幅增长做好准备。 在AI高速发展和在线业务快速膨胀的时代,企业用户对云基础设施的性能、成本、稳定性、安全 性等方面提出了全新的要求。为适应企业创新、降本增效以及业务出海等需要,云服务商不断通 过协同创新升级全栈服务品质,同时也利用自身融合发展的经验优势,助力企业积极开展国际化 布局。 �� 1.1 技术全面升级,为复杂的企业在线业务提供保障 企业在线业务的受众范围和功能复杂度在快速增加,在金融交易、电商直播、实时游戏等场景 下,服务端动辄需要支持百万级并发连接和毫秒级响应要求,应对海量的网络协议处理、页面加 载、安全等事务。企业云计算客户不仅对算力密度有极致追求,还期望通过连接性能和存储技术 等多个方面的协同进步,实现数据库、大数据等服务平台的性能跃升。在IDC面向全球1350家企 业所做的数字化进程与业务成果调研中,应用的可用性、综合安全性、应用的性能等都成为企业 核心关注的目标。 趋势:云服务能力持续跃升 加速企业数智化转型与创新 01 IDC预计,云数据中心数据增长在2025年为58.1ZB,����年将翻4倍,达到228.9ZB,����-���� 年复合年增长率为40.9%。 图1 全球云数据中心数据增长,2024-2029 来源:IDC全球数据圈预测, 2025‒2029 ��.� ��% ��% ��% ��% ��% ��% ���.� ��% ��% ��% ��% ��% ��% � �� ��� ��� ��� ��� ���� ���� ���� ���� ���� ���� Capacity(ZB) Growth Rate �� 对算力密度的极致追求:企业希望利用有限的物理空间输出更强大的算力。这一方面体现在 一些高端的云服务实例可以提供数百、数千甚至数万数量级的CPU、GPU核服务能力;另一 方面,为满足大数据、数据库、3D视频处理在内的一些单核敏感型业务的需要,云服务仍将 持续提升单核、单实例性能。 多技术融合提升连接性能:云服务商综合利用内存/缓存、PCle、RDMA、IP网、EIP、VPC 等一系列技术升级和软硬件融合优化成果,大幅提升云、边、端不同位置服务之间的协同效 率,这对于保障在线业务的体验至关重要。 存储方案升级应对大数据量冲击:云服务商通过采用更高性能的存储设备和更高效的存储架 构,结合对数据布局的优化,提供贴合不同在线业务需求的个性化存储服务,例如低时延块 存储(数据库多副本场景,<0.1ms延迟)、高带宽弹性盘(大数据单副本场景,吞吐量达 ��Gbps)、高速临时存储等。 1.2 软硬一体协同优化,应对AI时代激增的数据冲击 AI预训练和推理过程需要存储和预处理海量的多模态数据,数据向量化趋势也非常显著,为保障 AI应用特别是中小模型推理和传统AI搜推场景的实时响应,云基础设施也在架构层面做出了持续 的优化创新。 图2 全球企业认为未来2年对业务成果最重要的IT事项 应用可用性 整体安全 风险管理 应用性能 灾难恢复和备份 运营及工具一致性 人才/技能 治理/合规 优化人员生产率 资源利用/密度最大化 成本管理 跨数据中心整合 自动化 快速交付 夸云可视性 n = ���� 来源: Cloud Pulse Survey, IDC ��% ��% ��% ��% ��% ��% ��% ��% ��% ��% ��% ��% ��% ��% ��% �� 分布式预处理框架和流程优化:通过构建分布式的训练数据预处理框架,将IVF、HNSWLib、 Faiss/Flat等向量化算法进行分布式改造,使其能够在多个计算节点上并行运行。通过数据分 片和任务分配,充分利用集群的计算资源,提高处理大规模向量数据的能力。这需要云计算 基础设施提供灵活的适配和资源编排能力,以及严格的资源隔离与共享保障。 利用硬件加速提升数据预处理和AI推理效率:在处理器内部增加专用硬件加速单元和专用指 令集,提升数据清洗、加密与传输效率。对于视觉模型、视频处理、数据库模糊检查询等任 务,云实例基于新一代处理器的向量指令集、矩阵加速指令集等,能够直接支持相关AI算子 执行,简化系统架构,提升响应性能与可靠性,持续改善搜推广、语音/视频处理以及中小模 型的推理体验。 云原生方案形成整体保障:除了算力层面的降本措施,云服务商还通过持续增强弹性伸缩、 Serverless以及统一运维等云原生解决方案的效能,实现硬件、算法、平台、服务的协同进 化。例如,在强化弹性伸缩能力时,综合运用编排调度(例如Kubernetes)、服务监控、服 务治理以及相关的配置管理等云原生能力,在提高弹性伸缩的速率的同时,持续增强自动化 预测能力以及优化自适应策略。 1.3 持续的融合创新,助力企业的国际化布局 面对智能化、全球化、融合化的发展浪潮,国内云服务商凭借自身在互联网创新、跨境电商以及 AI创新应用等领域的创新优势,不仅可以为自身拓展新的广阔发展空间,也为全球市场带来新的 发展机遇与变革动力。 互联网创新推动全球市场繁荣:国内云服务商在互联网创新方面的成果优势,一方面体现在 业务的示范效应,例如在电商、社交媒体、在线教育、远程办公等互联网服务领域,国内云 服务商具有丰富的融合开发和运营经验,可以通过国际合作与交流,输出到全球市场。另一 方面也体现在丰富的技术融合经验,即基于自身的互联网创新业务推动云计算服务能力的发 展和进步,例如综合运用云网络、分布式云架构、负载均衡、CDN等技术,保障全球用户获 得流畅的访问体验。 �� 跨境电商形成市场综合服务优势:一些国内大型云服务商具备丰富的跨境电商业务运营经 验,可以整合跨境物流、支付等环节的资源,为跨境电商企业提供一站式的解决方案。在信 息服务方面,具备强大的数据分析工具,能够帮助跨境电商企业精准洞察不同地区消费者的 需求和偏好,优化选品和营销策略,有效保障交易数据的安全合规要求。 AI创新应用不断挖掘新的市场潜力:近年来,国内云服务商在AI创新应用方面不断突破,为 挖掘全球市场新潜力提供了强大动力。相关的基础AI模型和AI技术栈都十分强大,特别是能 够持续利用云计算的海量数据存储和强大计算能力优势,支撑智能化的云应用出海。一大批 AI产品已经在市场中发挥了巨大作用,例如B端市场的国内企业生产、供应链管理、风险控 制,以及C端市场的智能搜推、智能客服等。 �� 挑战:企业多元业务需求与 海量AI数据的冲击 02 2.1 在线业务面临性能与效率的极限挑战 面对企业海量在线业务以及复杂的创新场景,现有的云基础设施常常难以应对用户在弹性、低时 延和高吞吐等方面的基础性能问题。 复杂应用的复合性能挑战:以游戏场景为例,其涉及复杂的图形渲染,以及物理环境模拟、 人工智能算法等,既需要高性能单核算力,支撑Unity和Unreal Engine等3D引擎的运行,也 需要可靠的的多线程并发能力,支持多玩家同步时的后台任务处理和AI推理。游戏业务的周 期特性对于资源的弹性伸缩能力要求极高。此外,玩家数据的记录也涉及频繁的写操作,需 要保持长连接、低时延的计算、存储服务。当前的游戏业务还广泛使用到数智驱动,利用AI 加速对玩家行为进行实时分析并提供个性化推荐。 存算分离架构带来网络、存储性能压力:在大数据、数据库场景中,存算分离架构使计算节 点和存储节点之间的数据传输量大幅增加。大数据平台运行时,CPU负载普遍在60%以上, 内存带宽利用率可高达80%以上。高负载情况下,保持算力的平稳输出非常重要,包括性能 的线性度指标以及资源隔离的力度等。特别在是高密度计算环境下,单服务器下的租户更 多,相关租户之间的故障隔离以及缓存、存储等资源的共享访问问题会更加突出,既要确保 租户之间运行不受任何影响,又不能以牺牲用户访问性能为代价。此外,多副本存储策略在 面对存算分离架构时也会带来数据一致性的挑战。一些分布式事务处理涉及多个计算节点和 存储节点,进一步增加了系统设计和实现的复杂度。 云原生架构带来系统架构和技术栈的新问题:例如如何处理微服务间频繁的通信、复杂的拓 扑、多样化存储以及动态多变的负载等,并强化隔离保障安全。云服务商通过持续增强弹性 伸缩、Serverless以及统一运维等云原生解决方案的效能,帮助用户降低成本。例如,在强 化弹性伸缩能力时,综合运用编排调度(例如Kubernetes)、服务监控、服务治理以及相关 的配置管理等云原生能力。 �� �.� AI数据处理与计算协同的复杂度激增 传统的云存储和处理架构难以高效应对,存储和传输成本也非常高昂。同时,AI算力需求持续高速 增长,为保障AI系统的实时响应,云基础设施需要在架构层面做出创新,以应对多种类型的挑战。 数据处理挑战:除AI海量、多模态特征外,工业制造、医疗等领域的AI应用所涉及的异构数据 多,格式和标准不统一,进一步导致管理和存储成本的上升。在海量AI数据预处理过程中, 非结构化数据清洗、数据标注等工作的效率往往不高,也严重影响了AI应用目标的达成。 协同计算挑战:规模化的AI训练和推理任务,往往采用分布式架构执行,参数同步时的通信 需求巨大,传统云网络在高并发实时通信场景下难以满足 PB 级数据传输的低延迟需求。同 时,很多AI任务混合使用CPU、GPU、TPU等算力,但一些云平台对大量的异构算力缺乏统 一管理和调度框架,算力有效利用率长期难以提升。 体验与效率挑战:大量的AI模型服务以API形式向外输出,当云架构设计不合理时,用户端的 高并发请求极易导致服务崩溃。值得注意的是,AI任务的多样化意味着并非所有AI任务都适 合采用GPU集群方式进行处理。例如一些实时推荐、召回分析、游戏状态管理等场景,需要 在数据库的域内完成模糊查找、匹配等操作,以满足实时性和数据不出域的要求。 2.3 国际化进程中的全球布局、合规与质量一致性难题 全球化业务对企业云计算的规模、弹性以及各项性能指标的要求更高,技术实现相对复杂且成本 高昂。各国家、地区的政策法规、基础设施差异大,同时还要尽量保障全球服务质量和体验的一 致性,这无疑增加了企业全球化发展的难度。 云服务与算力网点布局问题:在本土之外构建云基础设施,可能涉及土地、供电、人力等多 项工作,组织协调难度极大。不同国家基础设施发展水平不一,无论是中企出海还是外企入 华,都会因不熟悉当地环境而困难重重,难以获得理想的云服务与算力支持。此外,合规风 险问题不容忽视,各国对数据存储、跨境传输等有严格规定,稍有不慎将面临巨额罚款和声 誉损失。 规模、性能与弹性需求:不同市场的业务规模差异大,在海外拓展初期,业务波动往往较 大,各地区的增长难以预测,这给云计算的技术需求规划也带来了难题。企业既要避免初期 大规模投入造成资源浪费,又要确保业务高峰时有足够云计算资源支撑。部分地区的云服务 性能难以保证,数据的传输延迟和丢包率高,严重影响用户端的响应速度和综合体验。 �� 服务质量与体验一致性:很多大型企业,对全球化业务的服务质量和体验一致性要求极高, 确保用户身处任何国家都期望获得相同体验、相同水准的服务。但不同国家文化背景、使用 习惯和技术水平差异性,都会严重对上述目标产生严重影响。这需要企业投入资源,兼顾全 球标准的建立以及本地化适配问题。 2.4 安全、稳定与成本的多元保障要求 云计算的安全性与稳定性直接影响用户信任度,任何数据泄露或业务中断均可能导致灾难性后果。 数据安全性⸺信任与合规的双重考验:云计算的多租户架构和分布式存储特性增加了数据 被跨域非法访问的风险,在金融、医疗、零售等场景中,数据泄露可能引发灾难性后果。此 外,跨境数据传输需满足各国严格的法规要求,稍有不慎便可能面临巨大的风险。 应用稳定性⸺AI与线上业务的双重冲击:AI应用的普及加剧了云计算的不确定性。模型训 练需要应对海量数据冲击,推理服务对延迟非常敏感。同时,大量的线上业务依赖7×24小 时高可用性,业务中断或数据丢失都可能引发巨额经济损失。 运维复杂度⸺人力与资源的双重负担:云计算的分布式架构和动态资源调度需求增加了运维 难度。大型企业可能使用跨区域、跨云环境下数以千计的实例,处理自动化扩容、故障转移 等复杂任务。企业需投入大量的云原生开发和运维人才,采购昂贵的监控与自动化工具等。 成本控制⸺算力性价比难题:企业多云集群和异构计算资源的效率和适配不足,使算力成 本长期居高不下,弹性能力的缺失造成的大量云实例闲置,也加剧了浪费现象。在企业加速 业务创新的背景下,大型企业的多业务线体系需要频繁地应付新业务上线部署时千奇百怪的 需求,进一步产生了额外的高额开支和大量的重复建设。 �� 解决方案 03 阿里云第九代企业级ECS实例(ECS g�i)基于“CIPU+飞天”技术架构,搭载英特尔®至强® 6性能 核处理器(P-core),为包括数据库、大数据、游戏在内的多类场景带来显著的性能和体验提升。 CIPU作为新一代云计算管控和加速中心,向下对数据中心的计算、存储、网络资源快速云化并进 行硬件加速,向上接入飞天云操作系统实现弹性多租户的安全隔离、性能优化和成本控制,全方 位助力企业应对在线业务的高并发、低延迟、高可用挑战。, 作为最新一代的至强® 产品,英特尔®至强® 6 性能核处理器经过精心优化,具备更出色的单核性 能,更适合公有云工作负载,能够为浮点运算、事务型数据库和科学计算等工作负载提供更高的 单个 vCPU 性能。在核心数量、算力密度、内存与 I/O 升级和AI 深度优化,以及多场景性能上, 至强® 6性能核处理器均有全面突破。 图3. 英特尔®至强®代际演进 来源: Intel 代际规格 第二代英特尔®至强®可 扩展处理器 第四代英特尔®至强®可 扩展处理器 英特尔®至强®6900 性能核处理器 128 核 60 核 28 核 最高单路 内核数 内存 PCIe AI加速器 AVX-512(VNNI) AMX/TMUL(INT8& BFloat 16)&AVX-512 (VNNI/INT8) AMX/TMUL(INT8& BFloat 16,FP16)&AVX-512 (VNNI/INT8) 6通道 高达2933MT/s(DDR4) 8通道 高达4800MT/s(DDR5) PCIe 5.0, 80条通道 PCIe 3.0, 48条通道 支持PCIe 5.0, 多达96条通道 12通道 高达6400MT/s(DDR5) �� 至强 ® 6 性能核处理器专为计算密集型工作负载而设计,计算单元基于英特尔 3 制程工艺,最 高配备 128 个性能核,当前阿里云 ECS g�i 采用高性能 120 核定制款。 支持多达 12 个通道 6400MT/s 的 DDR�,拥有高达 504MB 的三级共享缓存,96 条 PCIe �.� 及 64 条 CXL �.� 通道。 新增对 FP�� 数据格式的支持,可为 AI 推理和机器学习(ML)等计算密集型工作负载提供优于 其他通用 CPU 的出色性能。同时,凭借其出色的 Al 推理性能,英特尔 ® 至强 ® 6 性能核处理器 也是全球众多出色 AI 加速平台用于支持数据处理的机头 CPU 优选之一。 除了以更多内核为 ECS g�i 提供澎湃算力外,英特尔至强 ®6 性能核处理器还能助力主流工作负载 在 ECS g�i 上实现显著增益。与基于第五代英特尔 ® 至强 ® 处理器的 ECS g�i 相比,ECS g�i 的在线 游戏性能提升 15%,数据库性能提升 17%,Web 应用性能提升 20%。 3.1 打造极致性能体验,为传统计算业务打开新空间 1、在线业务 至强 ® 6 性能核处理器采用 Chiplet 架构,处理器拥有 3 个计算芯粒,2 个 IO 单元芯粒,所有芯粒之 间通过 EMIB 多芯片互连桥接封装技术(Embedded Multi-die Interconnect Bridge)技术进行高 速连接。单个计算芯粒拥有最多 43 个内核,可以在同一计算芯粒内高效地处理在线业务,对于大规 模在线业务(如 web 服务、缓存层、云原生微服务)可以在一个 Die 内分布完成,减少跨 Die 通信延 迟,更适合低延迟、大吞吐云业务场景。EMIB 高速封装桥接技术使计算单元之间通过高速桥互联, 同一个计算芯粒内无“非一致性内存访问” (NUMA)问题。在 SNC (Sub NUMA Cluster) 模式下,关 键数据驻留在同一个芯粒的本地内存 / 缓存中,避免跨芯粒访问的内存延迟开销,对高并发在线负 载和数据库事务处理更有优势。 (1)典型 Web 业务 为应对 Web 业务高并发、低延迟、动态流量波动大的特性,ECS g�i 提供了强大的单核计算性能和 弹性伸缩能力,从容应对突发流量。完备的 QoS 保障措施,能够更好地实现多租户环境下的性能稳 定与资源公平分配。通过在硬件架构上的一系列创新,至强 ® 6 性能核处理器拥有强大的硬件加速 能力,可为计算、网络资源带来显著提升。 �� 弹性伸缩:ECS g�i 对弹性伸缩能力进行了大幅优化。单实例创建时间从 10s 缩减至 4s,单规 格单可用区的 1 万实例交付时间从 5 min 降低到 1min,从触发弹性开始,30s 即可实现节点 就绪。基于至强 ® 6 性能核处理器所提供的英特尔 ® Speed Se
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
25 页请下载阅读 -
文档评分


基于云计算技术智慧环卫解决方案