积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部研究报告(37)技术趋势(37)

语言

全部中文(简体)(35)

格式

全部PDF文档 PDF(35)PPT文档 PPT(2)
 
本次搜索耗时 0.021 秒,为您找到相关结果约 37 个.
  • 全部
  • 研究报告
  • 技术趋势
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)

    网络成大模型训练瓶颈 ,节点内外多方案并存 证券研究报告 | 2024 年 5 月 5 日 行业研究 · 行业专题 计算机 · 人工智能 投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提升依赖于 更 大的训练数据量和模 在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议: A I 大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势; A I 大 模型需要部署在高速互联的多个 A I 芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型 梯度 的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升,模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models
    30 积分 | 24 页 | 947.01 KB | 4 月前
    3
  • pdf文档 中国移动:云智算技术白皮书(2025)

    .....................................13 2.5.2 训练框架 .....................................14 2.5.2.1 训练并行优化 .......................... 14 2.5.2.2 低精度训练 ............................ 14 2.5.2.3 故障容错 . 计算进入深水区:在算力方面,十万卡级超大规模 GPU 集群的异构算力需求已远 超现有资源池化的调度能力;在网络层面,AI 训练中 TB 级参数同步对时延极为 敏感,传统网络架构难以满足低时延、高吞吐的传输要求;在服务形态上,单一 的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI 开发全链 路的需求,迫切需要构建适应智能时代的云计算新范式。 1.2 云智算的内涵 云智算 IaaS、PaaS、SaaS 三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。一是 AI IaaS,即算网一 体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练 推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵 活调度、即取即用。二是 AI PaaS,即面向各类 AI 开发者的工具平台服务,提 供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境,显著提升全社会
    0 积分 | 30 页 | 716.31 KB | 5 月前
    3
  • pdf文档 艾瑞咨询-2024年中国基础云服务行业发展洞察报告

    、网硬件设备及软件服务,聚焦大模型训练、推理及AI相关场景的新型专业算 力基础设施;是服务人工智能产业,为高计算量人工智能业务场景提供专业智算资源、智算服务、智算生态的新型基础设施。从发 展历程看,智算中心是数据中心在服务能力上从“综合化”向“专业化”的转型。在应用领域上,传统数据中心以服务各类企业业 务应用场景为主,智算中心则专注于人工智能领域,服务大模型训练、推理及其他人工智能相关场景,如图像渲染、金融量化、医 建设 目标 搭载CPU芯片的通用计算服 务器 服务特定场景的超算服务器为主 搭载GPU芯片为主的AI服务器 核心 设施 企业综合业务场景 气象预测、基因测序、工业仿真、芯片 设计 …… 模型训练、模型推理、图像渲染、 金融量化、医药开发、自动驾驶…… 应用 领域 基础云厂商 智能算力中心主要建设者 运营商 ICT厂商 AI厂商 …… 智能算力中心概念及主要建设者 15 ©2024 整能力。智算中心通过聚合智能算力资源有 效解决大模型时代各类企业在大规模模型训练和推理中所面临的智算资源稀缺问题;结合专业算力、算法、数据等工具和服务,加 速大模型开发、调优、迭代,强化大模型的通用能力和行业适配性;依托生态伙伴提供应用、解决方案开发能力,加强大模型的商 业实践能力。 1)物理资源:智算中心根据模型训练和推理需求差异,提供技术架 构统一、可实现内部各组件高速互通互联的AI服务器和服务器间以低
    10 积分 | 29 页 | 1.88 MB | 5 月前
    3
  • pdf文档 中兴-面向智算场景的高性能网络白皮书2025

    I模型需要更大规模的算力集群执 行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效 率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互 联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得 网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流 量呈现出完全不同的特征 延。 AI和HPC集群规模和服务范围的扩大对广域网传输也提出全新需求,包含数据协同和数 据快递两大应用场景。数据协同应用主要面向AI/HPC的分布式协同,例如在跨DC的AI训练 过程中的是训前模型和数据上载,以及训练期间数据和状态同步过程;数据快递场景包括数 据灾备、大规模科学数据传递等。以上都需要广域网具备高性能海量数据传输的能力。 综上,面对大规模AI/HPC的计算、存储和通信需求,不仅数据中心内部的大规模密集 高性能数据中心网络(HP-DCN) 3.1.1 支持超大规模组网是基础 在Scaling Law(扩展定律)的驱动下,万卡GPU训练集群已成为AIGC核心玩家的及 格线,智算中心正迅速朝着超万卡级别的规模迅速发展,国内云商如阿里巴巴、百度等陆续 宣布具备10万卡集群的支持能力,而Grok-3的训练集群已达到20万卡级别,预计会有更多 10万卡+智算集群出现。 如此大的组网规模势必引发网络技术的质变,高性能网络架构的主要功能设计以及性能
    10 积分 | 41 页 | 1.89 MB | 6 月前
    3
  • pdf文档 2025年空间智能研究报告

    卡级,目前的主 要瓶颈是数据 • 低 • 物理操作需要满 ⾜安全性、合规 性和精确度需求 • 低 • 机器⼈本体目前 价格昂贵,商业 价值低 • 硬件设备承担3D交互功能 • 可以为具身智能训练采集数据,是目前真机数据的主要获取⽅式 空间智能概览 自动驾驶 3D⽣成 具身智能 扩展现实(XR) 世界模型 ⽂字、图片、视频数据相比空间智能规模更⼤,支撑了以语⾔模型为核 ⼼的AI浪潮快速发 • 缺少存量装机量,要从零 开始积累数据,同时仿真 数据精度有限 • 低 • 需要视觉数据、⼒学数据、 运动数据、激光雷达、甚 ⾄其他模态,异构数据多 • 低,数据主要来自⼀些 垂直的训练场景,数据 分布比较单⼀ • ⽆ • 目前数据是⼤部 分AI系统进步的 瓶颈,算法和算 ⼒的问题相对更 容易解决 • 自动驾驶能够快 速成熟的核⼼原 因在于数据采集 和数据闭环⽅面 的优势,⼤规模 /夜晚,季节性,⾼峰/非⾼峰等 • 数据反馈循环强:有⼤规模车队搭载自动驾驶系统测试、收 集数据用于模型训练,再将新模型投放市场进⾏OTA升级, 重复数据收集、反馈的闭环 描述 构成 自动驾驶数据量级1 1 2022 2023 2024 ~2亿公里 ~13亿公里 ~50亿公里 自动驾驶数据来源 2 真实 数据 • 最主要的训练数据,涵盖⼤量复杂多样的 环境变化,保真度最⾼ 合成 数据 互联⽹ 数据 真实
    30 积分 | 27 页 | 11.13 MB | 4 月前
    3
  • pdf文档 2025年AI CITY发展研究报告——“人工智能+”时代的智慧城市发展范式创新

    的战略指引 1.1 人工智能芯片快速迭代助推新一轮AI浪潮 传统通用处理器(CPU)已经难以满足深度学习等高并发计算需求,AI芯片通过架构创新实现了数量级的性能跃 升。高端AI芯片的突破更使得训练百亿参数大模型成为可能,直接推动了ChatGPT、Sora等生成式AI的爆发。AI芯片 的快速发展已成为推动全球科技变革的核心引擎,其意义远超硬件迭代本身,深刻重构了算力供给模式、产业竞争格 局与社会智能化进程。 《数字中国发展报告(2024年)》 3. 央视新闻. 《我国已形成完整人工智能产业体系》 4. 国际金融论坛(IFF).《全球人工智能竞争力指数报告》 智能算力规模高速增长,为AI训练和应用筑牢算力基础 人工智能算法模型的训练与应用离不开智算中心的算力支撑。2024年,中国智能算力规模达725.3百亿亿次/秒 (EFLOPS),同比增长74.1%,增幅是同期通用算力增幅(20.6%)的3倍以上;智能算力市场规模为190亿美元,同 高质量数据集量质齐升,持续丰富人工智能训练养料 国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提出,强化场景需求牵 引,带动数据要素高质量供给、合规高效流通。我国高质量数据集建设取得积极进展,数据要素市场不断拓展新空 间,2024年数据生产量达41.06泽字节(ZB),同比增长25% 2。庞大的数据规模为人工智能模型的训练提供了丰富 的素材,使得模型能够学习到更广泛、更深入的模式和规律。
    20 积分 | 78 页 | 5.45 MB | 4 月前
    3
  • pdf文档 2025智算中心行业研究:新一轮人工智能浪潮汹涌,算力底座万亿市场可期-20250430-深企投产业研究院-

    Data Center, 简 称 AIDC),一般认为是在传统数据中心的基础上,基于 GPU、TPU、 FPGA 等人工智能芯片及计算框架构建的人工智能基础设施,可以支 撑大量数据处理和复杂模型训练。智算中心狭义上是智能算力的物理 载体,是“机房+网络+GPU 服务器+算力调度平台”的融合基础设施, 是传统数据中心的增值性延伸。广义的智算中心是融合算力、数据、 算法的新型基础设施,通过数据服务、算法模型服务加速大模型的商 中心具备大规模的数据存储能力,能够安全、可靠地存储海量的数据, 包括结构化数据和非结构化数据,并利用强大的计算力,对数据进行 快速处理和分析,提取有价值的信息。2)AI 模型训练与优化。为人 工智能模型的训练提供强大的计算支持,加速模型的收敛速度,提高 训练效率。此外,通过对训练好的模型进行优化,能够提高模型的准 深企投产业研究院 2 确性和泛化能力。3)应用开发与创新支持。智算中心可提供丰富的 开发平台和工具,支 换机等)、存储设备、数据中心管理系统等 IT 基础架构环节。产业 链中游参与者主要是云厂商、IDC(数据中心)服务商和专业智算服 务供应商,凭借资源优势和技术优势搭建智算中心,为下游企业提供 大模型训练及平台服务。产业链下游为各行业的人工智能应用需求, 促进 AI 与各行各业深度融合,赋能产业数字化、智能化转型。 图 2 智算中心及算力产业链 资料来源:科智咨询等,深企投产业研究院整理。
    0 积分 | 49 页 | 2.69 MB | 5 月前
    3
  • pdf文档 云计算蓝皮书(2024年)-中国信通院-

    务商对外国客户的身份识别和报告义务,拟议规定提供美国“基础 设施即服务”的云服务商、经销商须核验外国人客户身份信息,并 在特定情形下向美国商务部报告外国人客户的详细身份信息和人工 智能大模型训练活动情况。 欧盟发布宣言、计划,将云计算服务的使用率定为提升国家竞 争力的关键绩效指标,确认云计算作为国家科技创新和数字经济时 云计算蓝皮书(2024 年) 2 代的重要支撑。2023 年 能”模式逐步应用于能源业务生产各环节,成为落实“双碳”目标 重要抓手。企业在能源勘探、碳排放监测过程中积累了大量生产数 据,通过对数据进行整合与处理,可以围绕碳排放的降低与平衡进 行人工智能训练,从能源认知分析、能源生产优化、能源预测维护 等多方面探索“双碳”战略的进一步落实方式。例如,中国海油依 托人工智能云平台将岩层、油气产能数据进行评估与分析,提升能 源勘探效率减少碳排放。山东能源成立人工智能联合创新中心,发 智算资源集中与纳管的优势,各大云厂商纷纷在智算领域进行布局, 形成千卡、万卡智能云集群,AIIaaS 成为云计算新范式--以云服务的 方式提供可便捷获取的智能算力。云计算与智算资源融合形成的智 能云能够为大模型训练和推理提供充足的算力资源,已经成为促进 人工智能领域发展的坚实技术底座。 AIIaaS 提供智算基础支撑,为智能云提供坚实的底层资源。一 是智能计算能够提供丰富多样的智能云资源池。区别于传统的依靠
    0 积分 | 59 页 | 4.51 MB | 5 月前
    3
  • pdf文档 英特尔公有云和互联网创新实践

    第四代英特尔® 至强® 可扩展处理器 下一代英特尔® 至强® 可扩展处理器 模型评估 模型压缩 Post-pretrain SFT- 全量更新 RLHF SFT-LoRA 增量训练 自动评估 人工评估 快速体验 推理加速 多算力规格 潮汐调度 实时监控 数据构建 数据回流 数据标注 分析 增强 清洗 预置 Prompt 模板 自制 Prompt 模板 Prompt 无需引入异构硬件平台的设计或有关人才; • 更易获得技术支持和维护; • 基于既有的 x86 架构设计的开发和部署方案更高效且 稳定; • 可复用既有平台的空闲算力,避免额外投资; • 可便捷地将 GPU 训练好的模型在 CPU 上推理,无需 额外迁移成本; • CPU 有着更完备的能耗管理,更利于绿色节能。 基于这些优势,中国电信联合英特尔,将英特尔® 至强® 可扩 展处理器引入中国电信网络大模型的基础算力平台,积极探 平台的网络大模型推理算力方案 进行即时 / 近即时处理。为了更好地满足业务需求并提升使用 体验,中国电信选用了符合 OTII 标准的边缘服务器。 网络大模型 训练 网络大模型 推理 网络大模型 推理 知识库 数字平台 数字平台 GPU 训练资源池 至强® CPU 推理资源池 至强® CPU 推理资源池 标准 / 液冷 服务器 标准服务器 OTII 服务器 集团 省公司 大模型
    10 积分 | 38 页 | 12.52 MB | 5 月前
    3
  • pdf文档 中兴通讯自智网络白皮书2025

    智算规模增长,算网深入融合,业界持续提升资源利用率 洞察分析 应对建议 智算网络自智:自智网络发展对智算的训练需求有两个方面,一是超大规模GPU集群算力作为云资源池的基础设施支 撑,二是提升GPU集群的智能运维能力。在训练前,需要进行快速健康度压测,包括预应力测试、巡检、预检和故障预 测等服务。训练过程中,必须具备实时感知集群健康度的能力,监测GPU卡故障、RDMA网络故障、节点故障和Pod状 态 可视化。一旦发生故障,需要具备分钟级的故障定界定位能力,以及 作业重调度能力,对故障节点进行隔离、替换或自愈,并重新恢复训练。同时,对checkpoint的读写性能进行优化,以 快速完成断点续训。通过全生命周期的自动化和智能化运维,提高资源利用率,降低运维成本。 除了训练,推理也是自智网络需要关注的关键能力之一。通过知识蒸馏、模型量化和推理引擎优化等新技术突破,可以 不断降低推理成本。根据 10 自智网络发展趋势 得越来越快,单个训练集群的规模从万卡级别开始向十万卡级别迈进。然而,AI芯片算力的升级速度却难以跟上集群 算力需求的增长,这进一步加剧了训练集群规模的扩张。大规模训练集群带来了巨大的计算和数据通信存储压力,对 集群的稳定性提出了严峻的挑战。硬件故障、节点性能下降、网络波动等因素都可能导致训练频繁中断,严重影响模型 训练过程,降低集群资源利用率,并造成能耗浪费。例如
    10 积分 | 41 页 | 7.03 MB | 6 月前
    3
共 37 条
  • 1
  • 2
  • 3
  • 4
前往
页
相关搜索词
新型智算中心网络模型训练瓶颈节点内外方案并存24PPT中国移动中国移动云智算技术白皮皮书白皮书2025艾瑞咨询2024基础服务行业服务行业发展洞察报告中兴面向场景高性性能高性能空间智能研究AICITY人工人工智能时代智慧城市范式创新一轮新一轮浪潮汹涌浪潮汹涌算力底座万亿市场20250430深企投产业研究院计算蓝皮蓝皮书信通英特特尔英特尔公有互联联网互联网实践通讯中兴通讯自智
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩