英特尔公有云和互联网创新实践
12.52 MB
38 页
0 下载
20 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
1 英特尔中国 公有云和互联网创新实践 2 Large Language Model (LLM) 大语言模型 Traditional Deep Learning 传统深度学习 技术篇:英特尔 AI 产品组合 英特尔 AI 实战视频课程 英特尔中国 AI 实战资源库 基于英特尔® 架构的 AI 软件工具组合 03 10 15 30 36 37 CONTENT 目录 Large Language Model (LLM) 大语言模型 3 4 阿里云引入第五代至强® 可扩展处理器,实现 ECS g8i 算力再升级,为大模型 AI 推理加速添 新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。 • 使用处理器内置的 AI 加速引擎 -- 英特尔® AMX 和英特尔® AVX-512,提升并行计算和浮点运算能力; • 受益于第五代至强® 可扩展处理器显著提升的内存带宽和三级缓存共享容量,化解 AI 大模型吞吐性能挑战; • 利用第五代至强® 可扩展处理器内置的英特尔® SGX 和英特尔® TDX 安全引擎,实现端到端的数据全流程 保护。 CPU 也能玩转 AI - 为 AI 提速,给安全加码 挑战 解决方案 云服务器升级 解决方案 企业云服务 第五代英特尔® 至强® 可扩展处理器具备更强通用计算和 AI 加速能力 阿里云 ECS g8i 集群可支撑 72B 参数级别的大语言模型分布式推理 文生图 创意辅助工具 AI 生成代码 虚拟助手 1.2.3 数据来源于阿里云未公开的内部测试,如欲了解更多详情,请联系阿里云:https://www.aliyun.com 英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。 算力需求激增:视频、数据库 等场景算力需求激增 智能化应用普及:大模型推理 需求爆炸式增长 数据安全挑战:数据隐私及安 全需求增强 85% 整机性能提升高达 1 7 倍 AI 推理性能提升高达 2 50% 中小参数模型起建成本降低 3 4 白皮书 | 用友采用第五代英特尔® 至强® 可扩展处理器加速自然语言处理 (NLP) 应用 助力企业服务数智化转型 图 3. 第五代英特尔® 至强® 可扩展处理器具备强大性能 为 AI 加速而生的处理器 以针对工作负载优化的性能实现业务增长和飞跃 以高效节能的计算助力降低成本与碳排放 值得信赖的优质解决方案和安全功能 21% 整体性能提升 42% 推理性能提升 2.7 倍 三级缓存提升 10 倍 每瓦性能提升 16% 内存速度提升 用友的测试数据如图 4 所示,相较于第四代英特尔® 至强® 可扩展 处理器,第五代英特尔® 至强® 可扩展处理器在 NLP (YonMaster Dialogue Bot) 工作负载中实现了 1.2 倍的代际吞吐性能提升 6。 收益 • 提升 NLP 应用的性能 显著化解 NLP 中频繁的向 72B 最大可支持参数规模 eRDMA 集群 batchsize>32 内存资源丰富 eRDMA 集群化部署 g8i g8i g8i g8i g8i g8i 5 千帆大模型平台利用百度智能云平台中丰富的英特尔® 至强® 可扩展处理器资源,加速 LLM 模 型推理,满足 LLM 模型实际部署需求。 • 基于至强® 可扩展处理器不断提升的算力和内存带宽,有效支持 LLM 实现端到端加速; • 采用第四代 / 第五代至强® 可扩展处理器内置的 AI 加速引擎 – 英特尔® AMX, 最大限度地利用计算资源, 显著增加 AI 应用程序的每时钟指令数 (IPC); • 利用大模型推理软件解决方案 xFasterTransformer(xFT), 进一步加速 LLM 推理。 让更加可及、经济的 AI 算力 资源,在千行百业扬“千帆” 挑战 解决方案 大模型推理优化 解决方案 AI 服务平台 2.32 倍 相较于第三代至强® 可扩展处理器,基于第五代至强® 可扩展处理器的 Llama-2-7b 模型输出 Token 吞吐提升达 1 75% 相较于第三代至强® 可扩展处理器 ,基于第五代至强® 可扩展处理器的 Llama-2-7b 模型首 Token 时延降低达² 利用充足的 CPU 资源, 降低 LLM 推理服务 TCO 百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择 扫码获取全文 英特尔® AMX 可以更高效地实现 AI 加速 85 int8 ops/cycle/core with 2 FMA 256 int8 ops/cycle/core with 2 FMAs 2048 int8 ops/cycle/core Multi-fold MACs in one instruction LLM 推理中大量矩阵及向量 矩阵乘法对硬件的较高需求 满足行业离线 LLM 应用需求, 并支持用户快速部署 LLM 解决 30B 等规模的 LLM 使用 高端 GPU 成本较高等问题 Intel® AVX-512 vpmaddubsw vpmaddwd vpaddd Clock cycle 1 Clock cycle 2 Clock cycle 3 16-bit constant 16-bit constant 16-bit output 32-bit acc output 32-bit acc output 8-bit input 8-bit input Intel® AVX-512 (VNNI) Intel® AMX 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc output 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction vpdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc input 8-bit new instruction tdpbusd 8-bit input 8-bit input 32-bit acc input 32-bit acc output FP32 s 8 bit exp 23 bit mantissa BF16 s 8 bit exp 7 bit mantissa FP16 s 5 bit exp 10 bit mantissa INT16 s 15 bit mantissa INT8 s 7 bit mantissa 第三代英特尔® 至强® 可扩展处理器 模型广场 我的模型 百度文心大模型 第三方大模型 第五代英特尔® 至强® 可扩展处理器 英特尔® CPU 模型管理 数据管理 模型精调 模型评估 & 优化 推理服务部署 第四代英特尔® 至强® 可扩展处理器 下一代英特尔® 至强® 可扩展处理器 模型评估 模型压缩 Post-pretrain SFT- 全量更新 RLHF SFT-LoRA 增量训练 自动评估 人工评估 快速体验 推理加速 多算力规格 潮汐调度 实时监控 数据构建 数据回流 数据标注 分析 增强 清洗 预置 Prompt 模板 自制 Prompt 模板 Prompt 评估 Prompt 优化 1.2 有关性能和基准测试结果的更完整信息,请访问:https://www.intel.cn/content/www/cn/zh/artificial-intelligence/baidu-ai-cloud-accelerates-llm.html 6 用 CPU 打造智行云网大脑, 网络大模型直面算力拦路虎 挑战 大模型推理优化 解决方案 网络大模型 < 100 毫秒 新方案已在多个运维场景推理任务中运用, 辅助生成时延可有效满足业务响应时间要求 1 提升10% 新方案使得运维效率有效提升, 准备在中国电信现网各省公司实现规模落地 2 >40% 与主流 GPU 相比,CPU 平台方案 可节省算力资源池建设成本 3 基于 CPU 平台的中国电信网络大模型推理算力方案架构 扫码获取全文 面向边缘 / 用户现场的中国电信网络大模型推理部署 网络大模型在执行云网运营等 应用时,需承受巨大的并发推 理压力和性能要求 GPU 算力方案会带来巨大的成 本压力和能耗,且不利于 LLM 大规模应用 网络大模型运行过程对内存容 量有较大需求,而 GPU 方案 往往缺乏足够的内存容量 解决方案 中国电信网络大模型方案引入第五代至强® 可扩展处理器,借助其内置的多种 AI 加速引擎, 结合英特尔开源的 xFT 分布式推理框架,有效平衡大模型推理的性能和成本。 • 采用第五代英特尔® 至强® 可扩展处理器作为方案的算力核心,利用其更多的内核数量、更强的单核性能 和更大的三级缓存容量等,为大模型提供强劲算力支持; • 利用英特尔® AMX 对 INT8 和 BF16 低精度数据类型的支持,在矩阵运算中有效提高计算速度并减少存储 空间占用 ,更充分地利用计算资源,大幅提升网络大模型推理效能; • 采用英特尔 AI 软件工具 (如 xFasterTransformer) 提升推理性能、降低部署成本并便捷地迁移模型。 1.2.3 有关性能和基准测试结果的更完整信息,请访问:https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/telecom-actively-research-network-llms.html * 荣获第二届“华彩杯“算力大赛 2024 年全国总决赛一等奖 3 解决方案:基于第五代至强® 的 CPU 算力方案 为中国电信网络大模型提供高效能推理 CPU 在传统上被视为更适于 AI 负载中的通用计算,例如大 模型应用的前期数据准备、知识库的存储和处理等工作。随 着更多 AI 加速技术嵌入 CPU,以及围绕 CPU 平台的 AI 生 态逐步完善,CPU 平台所具备的多项优势使其能在满足大模 型推理性能的同时,又可兼具成本、绿色节能等方面的优势。 使用 CPU 构建大模型推理方案的优势 • CPU 作为通用计算资源更易获取; • 无需引入异构硬件平台的设计或有关人才; • 更易获得技术支持和维护; • 基于既有的 x86 架构设计的开发和部署方案更高效且 稳定; • 可复用既有平台的空闲算力,避免额外投资; • 可便捷地将 GPU 训练好的模型在 CPU 上推理,无需 额外迁移成本; • CPU 有着更完备的能耗管理,更利于绿色节能。 基于这些优势,中国电信联合英特尔,将英特尔® 至强® 可扩 展处理器引入中国电信网络大模型的基础算力平台,积极探 索基于 CPU 平台的大模型推理方案,化解大模型推理能力下 沉到省公司的挑战,并为满足各行各业对大模型推理算力的 迫切需求探索新路。 如图一所示,方案使用第五代英特尔® 至强® 可扩展处理器作为 算力核心。通过其内置的英特尔® AMX、英特尔® AVX-512 等 AI 引擎提供的加速能力,中国电信网络大模型能通过分类预测、 知识生成、方案撰写、根因分析等能力向上打造智行云网大脑。 大脑以故障推理、业务逻辑以及智能交互等多个引擎为驱动力, 在流量预测、异常检测、故障管理等云网场景中实现隐患自动 发现与维护、故障自动隔离以及云网事件自动处置等网络运营 智能化能力。各级运维人员接入后,可以通过知识问答、信息 筛选和总结等交互方式,直接使用大模型的推理结果。 第五代英特尔® 至强® 可扩展处理器实现高效的大模 型推理的技术关键要素 面对高强度、高并发的大模型推理需求,第五代英特尔® 至强® 可扩展处理器不仅具有更多的内核数量、更强的单核性能和更 大的三级缓存 (LLC) 容量,还可凭借增强的内存子系统,以及 全面的 AI 加速环境来为大模型提供强劲的推理算力支持。 隐患自动发现与维护 故障推理引擎 英特尔® 深度学习加速 ( 英特尔® DL Boost) 英特尔® 高级矢量扩展 512 ( 英特尔® AVX-512) 英特尔® 高级矩阵扩展 ( 英特尔® AMX) 英特尔® 软件防护扩展 ( 英特尔® SGX) 流量预测 中国电信网络大模型 英特尔® 至强® 可扩展处理器 异常检测 故障管理 智能交互 智能调度 … 故障自动隔离 业务逻辑引擎 云网事件自动处理 智能交互引擎 知识推理 可信决策 场景编排 能力解耦 多轮交互 人机对话 分类预测、知识生成、方案撰写、根因分析、回复润色、RPA指令自动生成、语义质检 图 1 基于 CPU 平台的中国电信网络大模型推理算力方案架构 白皮书 | 中国电信携英特尔积极探索基于至强® CPU 平台的网络大模型推理算力方案 进行即时 / 近即时处理。为了更好地满足业务需求并提升使用 体验,中国电信选用了符合 OTII 标准的边缘服务器。 网络大模型 训练 网络大模型 推理 网络大模型 推理 知识库 数字平台 数字平台 GPU 训练资源池 至强® CPU 推理资源池 至强® CPU 推理资源池 标准 / 液冷 服务器 标准服务器 OTII 服务器 集团 省公司 大模型 平滑迁移 大模型 性能优化 边缘/用户现场 图 4 面向边缘 / 用户现场的中国电信网络大模型推理部署 边缘部署的环境复杂性通常比数据中心更高,有时甚至需要 在极端恶劣的环境中部署。这意味着边缘服务器需要在功耗、 体积 耐用性等方面符合特定要求 能在极端高低温 灰 决大模型 验证结果由 同时,202 器 /OTII 服 使用 xFT 开源 Qwe 室进行了全 中国电信网 维护要求、 场景 1 场景 2 场景 3 白皮书 | 中国电信携英特尔积极探索基于至强® CPU 平台的网络大模型推理算力方案 7 京东云推出搭载第五代至强® 可扩展处理器的新一代云服务器,以处理器内置 AI 引擎显著加 速多种云上大模型推理,有效支撑 11.11 促销运行高峰。 • 利用第五代至强® 可扩展处理器及其内置的 AI 加速引擎 -- 英特尔® AMX,在提升算力的同时,高效处理大 量矩阵乘法运算,提升 AI 推理性能; • 使用英特尔® oneDNN 对 CPU、GPU 或两者使用相同的 API,抽象出指令集的其他复杂的性能优化,实 现深度学习构建块的高度优化。 看如何用 CPU 加速的 AI 大模型构建数智化供应链 挑战 解决方案 云服务器升级 解决方案 大模型推理调优 4.19 倍 基于第五代至强® 可扩展处理器 , 通过英特尔® AMX 将模 型转化为 BF16,JD SE-ResNext-50 推理性能提升高达 1 51%+ 京东与英特尔联合定制优化的第五代至强® 可扩展 处理器较上一代的推理性能 (Token 生成速度) 提升了2 避免采购专用硬件 加速器的高昂支出 Llama2-13B 推理性能测试数据 3 扫码获取全文 英特尔® AMX 架构 1.2.3 有关性能和基准测试结果的更完整信息,请访问:https://www.intel.cn/content/www/cn/zh/artificial-intelligence/the-new-generation-of-jd-cloud-servers.html 巨大算力开销带来的 性能挑战 专用模型服务器带来的 成本挑战 专用 AI 服务器带来的 灵活性挑战 每核可存储 更大的数据块 可在单次运算中计算 更大矩阵的指令 TILE 2D 寄存器文件 平铺矩阵乘法 (TMUL) 2 9 0 1 3 5 2 4 7 8 1 5 英特尔® AMX 1 1.51 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 ® ® 8438C AMX,BF16) ® ® 8538C AMX,BF16) 以 8438C Llama2-13B 推理性能 (越高越好) 8 火山引擎第三代弹性计算云服务器实例 g3i 引入第五代至强® 可扩展处理器进行全新升级,通 用性能与应用场景性能均大幅提升,可有力胜任高达 80 亿参数的模型推理,并兼顾速度与成本。 • 基于火山引擎最新自研 DPU2.0 架构和第五代至强® 可扩展处理器显著提升的代际性能、更高的 CPU 核心数、更快的内存以及更大的末级缓存容量,显著提升 g3i 算力性能,实现内存扩容,有效为 LLM 与更 多场景提供支撑; • 利用第五代至强® 可扩展处理器及其内置的 AI 加速引擎 -- 英特尔® AMX,在提升算力的同时,高效处理大 量矩阵乘法运算,提升 AI 推理性能,胜任 80 亿参数模型推理,降低中小模型推理成本。 中小模型推理新选择!算力 性能倍增,实例全新升级 挑战 解决方案 云实例算力升级 解决方案 云服务 / 弹性计算 122% 火山引擎 g3i 整机算力提升 1 75% 火山引擎 g3i 内存带宽提升 2 3.43 倍 在 1,024*1,024 分辨率下,使用英特尔® AMX 将数据 转换为 BF16,SDXL-Turbo 文生图推理可实现加速比 3 提供更加稳定可靠、弹性灵活、 性能优越的云实例 不断拉升云实例算力性能,满 足变化迅速的业务需求 支持内置 AI 加速的算力需求, 兼顾速度与成本 SDXL-Turbo 文生图推理性能 4 火山引擎 g3i 可胜任 80 亿参数的模型推理 5 LIama-3-8B
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
36 页请下载阅读 -
文档评分


基于客户视角的供应链创新和变革实践
5G+工业互联网融合创新平台建设方案