2025年智算服务案例集-全球计算联盟务,构建稳健高效的算力平台,才能将算力转化为驱动创新的价值源泉,持续 释放算力价值。 智算服务是发挥极致集群算力的关键要素,释放算力新质生产力,服务 不可或缺。智算集群是一个复杂工程系统,非简单的软硬件的堆砌,它要求 算、存、网、服务的高效协同。智算服务包含智算集成、运维、计算使能和优 化、辅助运营等方面。发挥极致集群算力,需要构建智算服务产业共识,持续 推进智算服务产业升维。 我们期望通过本案例集的 广东电信韶关数据中心间接蒸发冷却技术应用 ..................................................... 11 3.1.5 联合开发智算运维调度系统保证集群训练长稳高效 ............................................. 13 3.2 模型支持和行业应用类服务 ......................... 在运维阶段,如何将不同架构、不同厂商的算力资源高效池化、统一调度和管理,是 一个巨大的技术挑战。智算集群对稳定性与可靠性要求极高,AI 训练任务通常需要连续运 行数天甚至数周,任何硬件故障或网络波动都可能导致任务失败,造成巨大经济损失和时 间成本;智算集群的软硬件耦合深,故障定界困难。从芯片、服务器到集群网络、调度系 统、AI 框架,任何一个环节出问题都可能导致服务不可用,因此对运维团队的技术深度和10 积分 | 28 页 | 2.59 MB | 1 月前3
实现自主智能供应链:2035年企业竞争的新高地主化成熟度中位数仅为16%(平均成熟度则为21%)。 预计在未来五到十年内,该成熟度中位数将大幅 提升至42%。 为了更深入地理解如何向更高自主化水平迈 进,我们将典型的供应链流程划分为9个集群和 29项具体活动(见图3)。例如,“生产制造”集 群便涵盖了生产加工、产品组装以及包装等活动。 随后,我们将受访企业各项活动的当前状态及预 期的未来状态,映射到了既定的自主化发展阶段 (见图4)。 动能够在这场变革中置身事外。AI将在不同程 度上赋能所有这些活动(见图5)。目前,大多 数能力仍处于较低的自动化和决策自主化水平, 但在诸如“生产制造”“质量与生产控制”以 及“客户与现场支持”等集群中存在特例。在 这些领域,自动化已展现出强劲势头。例如,汽 车制造商依赖机器人装配线,利用AI驱动的精 准控制来提高生产速度并减少错误。 回顾国内供应链近十年的发展历程,大部 分龙头企业通过ERP的实施落地,在当时已具 have been segmented into 28 activities grouped in 9 clusters of similar nature of task 按相似特征划分的 活动集群 20. 21. 生产控制 质量控制 设计、研发与战略采购 1. 创意构思/创新 2. 新产品/新服务的设计、测试与验证 3. 采购寻源、供应商选择及合同磋商 4. 供应商发展与关系管理0 积分 | 28 页 | 2.74 MB | 6 月前3
2025年以计算加速迈进智能化未来-IDC新一代云基础设施实践报告分布式预处理框架和流程优化:通过构建分布式的训练数据预处理框架,将IVF、HNSWLib、 Faiss/Flat等向量化算法进行分布式改造,使其能够在多个计算节点上并行运行。通过数据分 片和任务分配,充分利用集群的计算资源,提高处理大规模向量数据的能力。这需要云计算 基础设施提供灵活的适配和资源编排能力,以及严格的资源隔离与共享保障。 利用硬件加速提升数据预处理和AI推理效率:在处理器内部增加专用硬件加速单元和专用指 升。 体验与效率挑战:大量的AI模型服务以API形式向外输出,当云架构设计不合理时,用户端的 高并发请求极易导致服务崩溃。值得注意的是,AI任务的多样化意味着并非所有AI任务都适 合采用GPU集群方式进行处理。例如一些实时推荐、召回分析、游戏状态管理等场景,需要 在数据库的域内完成模糊查找、匹配等操作,以满足实时性和数据不出域的要求。 2.3 国际化进程中的全球布局、合规与质量一致性难题 难度。大型企业可能使用跨区域、跨云环境下数以千计的实例,处理自动化扩容、故障转移 等复杂任务。企业需投入大量的云原生开发和运维人才,采购昂贵的监控与自动化工具等。 成本控制⸺算力性价比难题:企业多云集群和异构计算资源的效率和适配不足,使算力成 本长期居高不下,弹性能力的缺失造成的大量云实例闲置,也加剧了浪费现象。在企业加速 业务创新的背景下,大型企业的多业务线体系需要频繁地应付新业务上线部署时千奇百怪的10 积分 | 27 页 | 5.31 MB | 6 月前3
Deepseek大模型在银行系统的部署方案设计的数据安全,为银行业务的稳定运行提供坚实基础。 5. 模型部署 在银行系统中部署 Deepseek 大模型时,首先需要对硬件资源 进行规划和配置。考虑到大模型的计算需求,建议采用高性能 GPU 服务器集群,以确保模型训练和推理的效率。每个节点应配 备至少两块 NVIDIA A100 GPU,以保证足够的并行计算能力。服 务器之间通过高速 InfiniBand 网络连接,确保数据传输的低延迟 和高带宽。 ,降 低模型复杂度。 接下来,我们采用分布式训练框架,如 TensorFlow 或 PyTorch,以加速训练过程并处理大规模数据。分布式训练不仅提 高了计算效率,还增强了模型的泛化能力。在集群环境中,每个计 算节点负责处理数据的子集,通过参数服务器进行梯度更新和模型 同步。这种方法能够显著减少训练时间,尤其是在处理 TB 级数据 时。为了进一步提高训练效率,我们使用混合精度训练(Mixed 大模型的部署过程中,首先需要明确的是银行的 硬件和软件环境。银行系统通常具有高可用性和高安全性的要求, 因此部署方案的每一个环节都需要经过严格的设计和测试。硬件方 面,建议采用高性能的 GPU 集群来支持模型的推理和训练,同时 配备足够的存储设备以确保数据的快速存取。软件环境则需要部署 在银行现有的操作系统上,确保与现有系统的无缝集成。在部署过 程中,建议采用容器化技术,如 Docker,以便于模型的快速部署10 积分 | 181 页 | 526.32 KB | 9 月前3
从大模型、智能体到复杂AI应用系统的构建(61页 PPT)应用实例:市域四链融合决策应用实践 特色 创新 特色 创新 术建设中国视谷产业大脑,驱动政府、园区、企业、人才等多元创新主体共谋产业发展 产业集群四链融合决策应用实践:中国视谷产业大脑 围绕“政府精准治理、产业生态培育、企业创新服务”的需求,运用知识计算、大数据等技 产业集群四链融合决策应用实践:萧山机器人产业大脑 以夯实基础、高效上线、打造亮点为任务,以机器人产业面临的问题为导向,基于萧山机器人产业发展基础和规 ,建设全球机器人产业知识中心和产业 链精准合作平台 60 宁波市高新区新材云创新材料科创大脑 • 建立数字化产业监管模式 • 构建综合资源服务体系 • 构建线上产业交流平台 产业集群四链融合决策应用实践 • 家电知识问答大模 型 • 用户决策树构建模 型 • 赛道甄选 5A 模型 • 企业创新力评价模 型 慈溪智能家电科技大脑 特色 创新 特色 创新 120 积分 | 61 页 | 13.10 MB | 3 月前3
CRM客户关系系统接入DeepSeek大模型应用场景设计方案(173页WORD)弹性伸缩的模型服务 集群,支持 Kubernetes 自动扩缩容 3. 本地缓存层(Redis)存储 高频访问的客户画像数据 4. 监控告警系统 (Prometheus+Grafana)实时跟踪 API 健康状态 成本效益分析表明,采用 DeepSeek 的 TCO(总拥有成本) 比自建同类模型低 40-60% ,主要节省来自: - 无需维护 GPU 计算 集群 - 按实际调用量计费的弹性成本模型 GPU 算力:单实例至少配备 NVIDIA A100 80GB 显卡,处理典型 CRM 工单分析任务时,响应时间可控制在 800ms 以内。若需支持 高并发(>50 QPS),建议采用 A100 集群或 H100 加速卡。 - 内存:每实例 64GB DDR4 内存为最低要求,复杂客户画像生成 场景需扩展至 128GB 以避免频繁换页。 - 存储:推荐 NVMe SSD 存储系统,容量配置需考虑: 大模型在 CRM 系统中高效运行的 关键环节。通过系统化的优化手段,可显著提升模型响应速度、资 源利用率及业务适配性。以下是具体实施方案: 1. 计算资源动态分配 采用 Kubernetes 集群实现弹性资源调度,根据 CRM 业务峰谷特 征配置自动扩缩容策略。例如: - 工作日 9:00-11:00 自动扩容至 4 个 GPU 节点,处理客户咨询高 峰 - 夜间缩容至 1 个节点,降低10 积分 | 179 页 | 1.22 MB | 1 月前3
AI大模型人工智能数据训练考评系统建设方案(151页 WORD)关键参数。用户可以通过图形化界面或配置文件完成模型配置,确 保灵活性与易用性。 在训练执行阶段,系统支持分布式训练以提高效率,特别是在 处理大规模数据集时。系统自动分配计算资源,支持 GPU 集群或 云计算平台(如 Kubernetes 集群)的动态调度。训练过程中,系 统通过实时监控工具(如 TensorBoard)记录并可视化训练指 标,包括损失值、准确率、学习率变化等,帮助用户及时了解训练 状态。同时 在人工智能数据训练考评系统的硬件资源配置中,需要综合考 虑计算能力、存储容量、网络带宽以及扩展性等因素,以确保系统 能够高效运行并满足未来需求。首先,计算资源是系统的核心,建 议采用高性能 GPU 集群作为主要计算单元。GPU 在处理大规模并 行计算任务时表现出色,尤其适合深度学习模型的训练与推理任 务。例如,NVIDIA A100 GPU 在 FP16 精度下的计算能力可达 312 TF 网络带宽的优化对于分布式训练尤为重要。建议采用高速网络 互联技术,例如 100Gb 以太网或 InfiniBand,以确保节点间数据 传输的低延迟和高吞吐量。对于中小规模集群,可采用树状网络拓 扑结构;对于大规模集群,则需考虑更复杂的 Fat-Tree 或 Dragonfly 拓扑结构,以提升网络性能。 此外,为保证系统的高可用性和灾难恢复能力,建议配置冗余 电源、UPS 不间断电源以及备份服务器。通过硬件资源的合理配置60 积分 | 158 页 | 395.23 KB | 7 月前3
DeepSeek消费电子行业大模型新型应用最佳实践分享平台 全链路能力。 • 提供从训练——推理——应 用的一站式丝滑服务体验 • 全面接入 deepseek 模型 大模型工具链支持大模型研发至应用全栈技术 算力 计算集群( H20/A10 等) 国产算力适配 高性能计算网络架构 客户业务系统 知识引擎应用 提供多种扩缩容策略,满足不同场景的灵活资源需 求 纳管资源组 按量计费算力池 大模型专属 GPU 算力 包月独享 核心收益 长上下文 (64~128K) 超大模型启动加速 独享 GPU 算力集群 私有 API 服务调用 高并发、高可用 企业级鉴权流控 算力投入持续降低 DeepSeek 全系 列 R1 、 V3 满血版 R1-Distill-Llama-70B R1-Distill-Qwen-32B10 积分 | 28 页 | 5.00 MB | 9 月前3
Nacos3.0开源开发者沙龙·Agent & MCP杭州站 一个易于构建 AI Agent 应用的服务、配置和AI智能体管理平台(87页)应用侧数据源动态无损轮转 Nacos-Controller : k8s 配置及服务同步 价值 • 可视化管理界面 • 配置变更实时推送 • 配置历史&回滚 • 配置灰度发布 • 跨k8s集群互通 • 非k8s异构发现 快速接入 • helm install & crd deploy • 全量一键双向同步 • 按需部分双向同步 项目地址:https://github 容器化部署,隔离计算资源,同时具备安全沙箱 的特性 2. 多副本部署,提升稳定性 3. 采用SLB提供负载均衡能力,对外暴露服务 4. 推荐采用streamableHTTP协议 5. Nacos集群模式部署,提供高可用能力 streamableHTTP Nacos MCP Router部署最佳实践 演示 time POD POD stdio streamableHTTP 高德MCP20 积分 | 87 页 | 11.66 MB | 3 月前3
审计领域接入DeepSeek AI大模型构建Agent智能体提效设计方案(204页 WORD)费用报销合规检查 70% 25% 5% 95% ≥ 结果可视化通过交互式动态看板实现,关键特性包括: - 钻取 分析功能支持从科目余额表层级下钻至凭证级明细 - 风险热力图使 用拓扑图展示异常集群分布,节点大小代表风险值权重 - 自动生成 的可疑点说明文档包含证据链截图与法规依据(如标注「该供应商 与上市公司注册电话相同,违反上市规则第 10.2.3 条」) 数据流转通过以下 mermaid 自动吸收新产生的审计结论数据,模型版本每周迭代 训练资源建议配置: - GPU 计算节点:NVIDIA A100 40GB * 8 - 内存:512GB DDR4 - 存储:Ceph 分布式存储集群,容量 ≥200TB - 网络:10Gbps RDMA 高速互联 模型验证采用交叉验证法,将数据集按 7:2:1 划分为训练集、 验证集和测试集,确保各项指标达到: - 异常检测准确率≥91% 需求及成本效益综合选择本地化部署或云服务方案。本地化部署适 用于数据合规要求严格的场景,例如涉及企业核心财务数据的审计 任务。典型配置需包含以下核心组件: - 硬件基础设施:推荐采用 GPU 集群(如 NVIDIA A100/A800), 单节点配置不低于 64 核 CPU、256GB 内存,并预留 50TB 以上分 布式存储空间以满足审计日志和模型训练数据的存储需求。 - 容器化部署:通过10 积分 | 212 页 | 1.52 MB | 3 月前3
共 26 条
- 1
- 2
- 3
