积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(29)前沿探索(29)

语言

全部中文(简体)(29)

格式

全部PDF文档 PDF(28)DOC文档 DOC(1)
 
本次搜索耗时 0.034 秒,为您找到相关结果约 29 个.
  • 全部
  • 人工智能
  • 前沿探索
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • DOC文档 DOC
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 华为:2025年华为混合云现代化运维体系核心能力及最佳实践报告

    战,这些挑战涉及日常运维、主动预防以及故障恢 图1.1 混合云现代化运维顶层设计参考架构 运维体系 现代化 统一化 运维体系 运维体系升级 IT架构演进升级 平台运维现代化 极简性 运维体验 极简信息汇聚 极简运维操作 极简管理决策 预见性 风险治理 风险预防管理 变更风控管理 混沌工程演练 确定性 故障恢复 可用性指标构建 全链路可观测 故障感知与快恢 云网定位定界 应用运维 应用数据治理 运维故障分析 安全运维现代化 无死角 安全管控 用户授权可控制 作业过程可信赖 合规遵从高等级 体系化 租户安全 云原生安全 全栈端到端安全 智能安全管控 混合云现代化运维设计参考架构 数字资产&运维能力迭代 云运维团队组建 运维团队管理流程经验 运维人才培养机制 运维团队能力沉淀 运维专家经验知识库 运维脚本、故障模式库 智能客服 运维资产智能转型 复等方方面面,华为在每个领域都提出了运维现代 化改进的方案:极简性的运维体验应对政企混合云 运维投入人力有限的场景,保证混合云运维效率; 预见性风险治理帮助政企客户实现风险的提前感知 与预防;确定性故障恢复则给出了在云与业务耦合 度日益加深的背景下的最佳答案。 应用运维现代化 当前,越来越多的用户将关注点从云与设备运维转 向应用的运维,尤其是承载着经济乃至国计民生的 05 核心应用的运维受到运维管理者额外的重视。将应
    20 积分 | 53 页 | 8.80 MB | 1 天前
    3
  • pdf文档 2025年智能化时代数据库自主可靠运维白皮书-腾讯云

    障,数据库运维的可靠性与效率,直接决定了业务价值的实现能力。 当前,AI等新技术的发展为数据库可靠运维带来新的机遇与挑战。机遇方面,自然语言交互让非 技术人员也能便捷操作数据库,智能诊断与预测式运维将被动故障处置转化为主动风险防控,自 动化部署与调优大幅降低人工成本。挑战方面,AI幻觉导致的准确性风险、多技术栈(尤其是国产 数据库与云架构)带来的管理复杂度、数据爆炸式增长对灾备能力的更高要求,以及数据安全合 方式提升召回准确率和 稳定性,此外,也可以通过数据预处理矫正出问题的数据。 智能化部署:AI基于用户需求,自动生成配置文件并完成数据库部署,简化传统部署流程。 �.� AI对传统运维的影响 故障诊断与智能运维:根据不同数据库特性,利用AI生成巡检、监控、处置脚本和工具,协助完成 日常运维的巡检、监控、告警等操作,生成巡检报告以及事件总结报告。也可以构建AI Agent,将 运维排查和维 提升后再逐步引入。 �.� 运维应当如何拥抱AI � 稳定可靠 运维面临的挑战 第二章 随着数智化转型推进,海量数据爆发式增长,数据库作为数据底座,重要性越发凸显。对数据库可 靠性、灾备体系能力建设、故障恢复响应速度等提出了更高的要求。 数据库稳定可靠运维面临需求、逻辑实现不可控的挑战。 数据库稳定运行的最大挑战就是需求的合理性。一方面,在源头需求上,可能存在多个需求互斥、 技术无法实现或不合
    20 积分 | 89 页 | 2.06 MB | 1 天前
    3
  • pdf文档 2025年超节点发展报告-华为&中国信通院

    规模实现“双万” 跨越,行业模型落地需求专业化。 传统的服务器集群架构在这场变革中瓶颈愈发明显。千亿级模型一次梯度同步产生的 TB 级数据 让传统以太网带宽难以承受;同时,伴随算力规模扩大,万级处理器带来的故障常态化,对自动化 运维与 RAS 能力提出了更高要求。在这样的背景下,超节点的出现成为了面向大模型未来发展的必 然趋势。 超节点并非简单的硬件堆砌,它的实现离不开基础技术、系统能力与可落地性的三方协同。基础 系统能力则是超节点高效运转的保障,它需要具备大规模、高可靠、多场景等系统特征。大规模的 组网能力突破了单机扩展的硬件限制,为大规模算力聚合提供架构支撑;高可靠的运行特性化解了 网络、计算、存储等子系统的故障风险,保障集群作业的连续性;多场景的适配能力则能通过精细 化资源调度等机制,满足不同业务需求,最大化释放算力价值。 本文系统性地提出并论证了 “超节点将成为 AI 时代的核心计算单元” 这一重要观点,清晰地呈 系统性挑战。首先是通信墙, 千亿级模型一次梯度同步即 TB 级数据,传统以太网难以承受。其次是功耗与散热墙,为破通信墙 而提升密度,促使液冷、48V 供电成为标配。第三是复杂度墙:万级处理器带来故障常态化,从业 界模型 GPT-3 (175B) 到 GPT-4 (1.9T) 的演进为例,随参数增至 10.8 倍,总集合通信达 34.1 倍, 跨节点 RDMA 49.3 倍,光电转换 49.3
    20 积分 | 31 页 | 4.79 MB | 1 天前
    3
  • pdf文档 未来网络发展大会:算力城域网白皮书(2025版)

    旦发生网络故障 引发训练任务卡死等问题会严重影响训练效率,网络须具备高精仿真、 网络自愈等智能运维能力。 综上,跨集群协同训练服务对算力城域网的需求是:采用 400G/800G 高速链路,支撑 100km-500km 跨集群协同训练。基于 RDMA 无损数据传输保障跨集群训练的算效下降小于 5%。采用 4:1、 8:1、16:1、32:1 等高收敛比组网;网络高稳定运行,故障影响不扩散。 等信息,要求网络在保证高吞吐、低时延的 前提下,具备 RDMA 无损传输能力,避免出现拥塞、丢包。同时, 网络还需通过租户级切片保障业务间的有效隔离,在保障业务 SLA 要求的同时,避免业务之间故障相互影响。 综上,云边协同训推场景对算力城域网的需求是:具备网络级负 载均衡和RDMA无损传输能力,保证在用户吞吐不下降的同时,TTFT 和 TPOT 劣化低于 5%;具备端到端租户级业务隔离能力,有效保障 品和服务的商业创新。 (4)智能运维、安全可靠  实现高精仿真,消除因配置差错导致的网络事故。  打造精细化业务监测能力,实现全网资源与业务实时可视。  基于网络实时监测和故障快速感知,实现故障自动定界定位。  按用户或业务类型设置网络切片,实现用户数据管道安全隔离。 算力城域网白皮书(2025 版) 15 4.2 算力城域网总体架构 图 4-1 算力城域网(COMAN)总体架构
    20 积分 | 42 页 | 7.16 MB | 1 天前
    3
  • pdf文档 未来网络发展大会:2025服务生成算力网络白皮书

    功能的思想,最终实现算网服务生成,即系统全流程的自动化运行、 智简的服务体验、多样化的业务承载、高效的资源利用率、自适应的 优化调整等。从技术实现方面来说,算力网络中的基础资源感知和建 模、资源的编排策略、算网运行的故障处理、算网服务的在线优化等 关键动作,都可以通过智能算法实现自动化。从系统功能方面来说, 算力网络的感知、分析、决策、调度、运维、安全等功能需要自主实 现,而且需要不断提高智能化水平来满足日益复杂的功能需求,并能 好的算网基础设施设计、优化和管理手段。此外,通过内嵌实时智能, 基础设施层一方面能够拓展对自身信息的感知深度与维度,包括资源 感知、性能感知与故障感知等,为算网管理层进行分析决策提供可靠 全面的输入。另一方面,通过在数据源头进行分析决策,能够实现实 时不间断的业务响应、设备能耗的智能调节、毫秒级的算网故障感知 和故障修复等功能,提升系统自响应、自修复、自优化能力。 算网管理层是服务生成算力网络的大脑,负责系统功能的具体实 服务生成算力网络白皮书 14 现。从功能内容来说,算网管理层通过南北向接口分别对基础设施层 状态信息和业务意图进行输入,在此基础上进行分析决策和算网控制, 包括状态感知、资源调度、算力管理、服务编排、故障分析与自修复 等,从而实现感知、分析、决策、控制的全流程闭环管理。从实现方 式来说,算网管理层采用单域自治与跨域协同的分层渐进策略来实现 系统服务生成。单域自治强调针对系统子功能模块的自动化、智能化
    20 积分 | 66 页 | 5.25 MB | 1 天前
    3
  • pdf文档 未来网络发展大会:2025卫星互联网承载网技术白皮书

    互联网承载网具备高 度的动态路由与自适应调度能力,能够应对卫星轨道变化、链路中断、 业务突发等复杂情况,保障业务连续性。此外,星座规模和节点分布 的高度冗余赋予了网络极强的抗毁性和弹性,在单点故障或区域性灾 害中仍能维持通信链路畅通,这对于应急通信、国防安全等领域具有 战略意义。 从网络协同的角度看,卫星互联网承载网与卫星互联网接入网之 间是骨干与接入的关系,接入网完成用户与卫星之间的直接通信,承 便地对整个卫星互联网承载网的路由策略进行调整和优化,以适应不 同的业务需求和网络状况。​ 6 然而,集中式架构也存在明显的缺点。由于所有的路由计算均依 赖于地面中心,一旦地面控制器出现异常故障,整个卫星互联网承载 网的路由功能将受到严重影响,甚至可能导致网络瘫痪。而且,在面 对一些实时性要求较高的业务场景时,地面控制器计算路由并将转发 表上注到卫星互联网路由器的过程可能会产生较大的时延,无法及时 切换到下一个快照时,需要快速切换成为下一代快照对应的转发表。 这种方法在一定程度上提高了路由的稳定性和适应性,但仍然无法完 7 全解决依赖地面控制器的问题。此外,为了进一步提升路由算法的负 载均衡、运行效率、故障容错以及差异化服务保障能力,部分研究引 入了网络状态感知机制以及深度强化学习等人工智能方法,进一步优 化路由策略。通过实时感知网络状态,并利用人工智能算法进行智能 决策,提高了集中式架构下卫星互联网承载网的性能。
    20 积分 | 85 页 | 3.37 MB | 1 天前
    3
  • pdf文档 未来网络发展大会:2025光电融合网络技术与产业应用白皮书

    使用相干热插拔光模块 可以直接从路由器端口提供密集波分复用 (DWDM) 功能,这有助于 简化网络传输,节省资本支出,减少对网络中的转发器和光传输设备 的需求,有助于简化并加速网络规划、运维和故障排除,同时 IP+光 融合技术通过使用相干热插拔光模块不仅能将网络容量扩展到 800G,还能将 400G 网络的传输距离扩展到数千公里。 2.3.1 技术概述 IP+光通过深度融合 IP 层与光层,可减少网络转接层级、显著降 Switching)是在 MPLS 的基础上扩展而来,最初设计目的是将 MPLS 的标签机制从电层延 伸至光层,标记包括 TDM 时隙、波长、波长组、光纤端口等资源, 从而实现业务在多种传输介质之间的统一调度与快速故障恢复。 理论上具备跨域、跨层调度能力,是一种典型的光电协同协议。 它支持 LMP、RSVP-TE 等多种信令机制,可实现链路资源发现、光 层路径计算、保护倒换等功能,曾在早期 IPoDWDM 架构中被多家 SDN 控制器和开放 API(如 OpenConfig, T-API, OpenROADM Yang Models)实现对开放式线路系 统的统一管控。控制器负责波长的路径计算、资源分配、性能监控和 故障管理,不再依赖单一厂商的网管系统。 这种解耦模式带来了诸多价值,不仅打破了厂商锁定,降低了采 购成本,增加了运营商的议价能力;还能实现最佳组件组合,让运营 商在不同功能模块上选择性能最优或成本最优的供应商;同时加速了
    20 积分 | 95 页 | 2.94 MB | 1 天前
    3
  • pdf文档 2025年数字金融专刊-暨鑫智奖·第六届金融机构数智化转型优秀案例集

    技术路径,是证券行业较好的长 尾客户服务的大规模商业化应用。 国泰海通证券基于 AI Agent 的金融云平台运维决策机制项目创新性地融合多模态数据与大模型技术,实现全 链路智能运维,显著提升故障诊断效率和资源利用率,降低运维成本,其技术架构先进,应用场景丰富,为金融 云平台智能化转型提供了优秀范例,具备较强的行业推广价值。 财信人寿:“吉小星”AI 助手——保险全链路智能增效引擎 天津银行:全触点智能客户体验运营平台 息的全过程。 ②故障注入与韧性验证 集成混沌工程平台,重点验证核心应用在高可用、 自愈能力、节点故障、告警能力、资源弹性伸缩能力等 是否满足设计规范。同时设计验证交易服务平台在注入 扰动后发生系统接口不稳定或者接口不通的场景对核心 应用系统各业务的影响程度。针对非本体系统,包括注 册中心、配置中心、文件传输系统、COS 对象存储、 OB 数据库、密管系统注入网络故障,以此验证这些应 发下资 源自动扩缩、以及按企业级架构设计可灵活配置来作为 建设目标。 新一代核心系统架构设计复杂,对质量保证提出 了全新要求,给测试带来了全新挑战。比如,业务服务 依赖数据流传导网状化导致故障发生时路径隐蔽难于明 确;分布式事务、幂等防重控制等机制若失效引发资损 风险增大;交易与核算异步分离时效一致性、正反场景 下处理预期多样化;端到端全链路压测模拟真实真实生 产流量形态困难等。
    40 积分 | 85 页 | 42.28 MB | 20 天前
    3
  • pdf文档 新华网&腾讯云:2025年国产数字化升级标杆实践报告

    AMD x86 海光 x86 统信UOS服务器版 鲲鹏 ARM 飞腾 ARM 北极星网格 PolarisMesh 分布式调度TCT 分布式事务DTF 微服务框架 TSF 容灾管理DRMS 故障演练CHAOS 备份恢复BRMS 多中心部署架构 高可用性 腾讯专有云PaaS平台TCS 灵活独立、轻量交付,企业云原生架构转型一站式解决方案 应用场景 企业级PaaS平台 容器与微服务平台 边缘计算(云边一体) 合或第三方云平台 灵活独立 统一管理易维护,应用改造成本低 降本增效 TCS FinOps 能力可帮助客户提升资源使用 率达 50% 开放兼容 国产软硬件生态兼容不绑定 稳定可靠 支持容灾与故障演练 极简交付 复三步快速构建云原生基础设施 轻量起步 初始建设投入少,最小 3 节点起步 - 16 国产数字化升级标杆实践报告 产品架构 数据库一体机TData 云数据库独享集群 安全可靠 核心控制节点采用主从热备机制,可实现 故障秒级切换,平台经过腾讯内部95%业 务实践验证,支持同城双活以及多地容灾, 系统可用性高达99.999%;同时提供5A数 据安全保障,支持国密数据存储。 提供开箱即用的极速启动体验,支持弹性扩 缩容,灵活适配业务增长需求;通过AI加持 的智能运维能力,结合运维知识库与系统运 行指标,实现故障事前预警、自愈和事后根 因分析,有效降低综合运维成本。
    20 积分 | 45 页 | 20.65 MB | 1 天前
    3
  • pdf文档 未来网络发展大会:2025分布式算力感知与调度技术白皮书

    务设计适应性的分配策略。  动态性:分布式环境本质上充满不确定性。资源可能随时加 入、离开、发生故障或性能波动;网络状况瞬息万变;任务 需求和依赖关系也可能动态调整。因此,算力感知必须是实 时的,调度决策也必须是动态调整的。系统需要具备快速响 应变化的能力,在某个节点出现故障时,能够迅速将其上的 任务迁移至其他健康节点,保证业务的连续性;在检测到网 络拥塞时,能够智能地选择其他通信路径,避免性能瓶颈。 者互为表里,不可分割。以智能为核心,利用人工智能算法赋能调度 决策,通过全面、精准、实时感知全网状态,做出全局最优资源匹配 决策,最大化资源利用率。以安全为基石,系统能实时感知网络攻击、 节点故障等异常,智能进行任务迁移等操作保障业务连续性,同时确 保敏感数据在可信域内流转,构筑数据安全屏障。以绿色为目标,将 “绿色低碳”作为核心优化目标,与智能、安全深度融合。智能调度 系统把能耗与碳 务执行效率。此外,系统需支持任务的跨节点、跨区域调度,实现“东 数西算”“东数西渲“等跨域协同,通过算力路由协议将任务精准匹 配至最优算力节点。 资源管理功能:对分布式算力资源进行统一管理,涵盖资源注册、 注销、状态监控、故障诊断等全生命周期管理。通过资源虚拟化与池 化技术,将分散的物理资源整合为逻辑资源池,实现资源的灵活分配 与弹性扩展。例如,利用 GPU 虚拟化技术(MIG、vGPU)将单块 GPU 18 切
    20 积分 | 73 页 | 2.15 MB | 1 天前
    3
共 29 条
  • 1
  • 2
  • 3
前往
页
相关搜索词
华为2025混合现代现代化运维体系核心能力最佳实践报告智能智能化时代数据据库数据库自主可靠白皮皮书白皮书腾讯年超节点发展中国信通未来网络大会算力城域城域网服务生成卫星互联联网互联网承载技术光电融合产业应用数字金融专刊暨鑫智奖第六六届第六届机构金融机构数智化转型优秀案例新华新华网国产数字化升级标杆分布布式分布式感知调度
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩