华为:2025年算力基础设施安全技术白皮书-端管云协同
3.30 MB
52 页
0 下载
3 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
华为算力基础设施安全技术白皮书 ——端管云协同 Huawei Computing Infrastructure Security Technical White Paper (HCIST) ——From Device-Pipe-Cloud Perspective 文档版本 V1.0 发布日期 2025-09-18 华为技术有限公司 版权所有 © 华为技术有限公司 2025。 保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。 商标声明 和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务 或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示 的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本 文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为技术有限公司 地址: 深圳市龙岗区坂田华为总部办公楼 邮编:518129 网址: https://www.Huawei.com PSIRT 邮箱: PSIRT@Huawei.com 客户服务电话: 8008308300 4008308300 i 当前,人工智能技术以前所未有的速度重塑全球产业格局,在深刻重构人类生活、学习与工 作的底层逻辑的同时,也对全球数字化转型进程带来巨大影响。“算力+数据+网络联接”已经成为 全球企业在数字化转型中的核心关注点。过去 24 个月里,全球 GPU 出货量激增,AI 训练集群规 模已从万卡集群迈向十万卡集群,算力基础设施建设正以“摩尔定律×云速度”快速扩张。 在算力成为企业数字化时代第一生产力的同时,算力已经成为网络攻击者的首要目标之一。 算力一旦被降速或污染,会直接引发业务停摆;而针对算力集群的入侵,则可能导致 AI 训练模型 被篡改、金融交易被延迟、制造执行系统乱序等一系列后果。“算力基础设施”作为数字化核心生产 系统,已经被纳入到关键信息资产进行管理。以审计为例,数字化运营企业的审计已经从财务领 域扩展到“全面风险管理”,审计既要通过经营数据看企业“做了什么”,也要关注计算完整性以保证 这些经营结果的“真实可信”,目前部分国家监管机构会把“系统算法、参数、日志的完整性与可追 溯性”列为必审内容。企业在算力基础设施上的合规治理能力将会直接反映在企业的股价、日常保 费、融资费率等一系列核心经营指标上。如果不在算力基础设施规划、建设和运营的同时嵌入“安 全基因”,企业最宝贵的数字化生产力将变成企业最大的风险敞口。 面对这些挑战,华为始终秉持“构建安全可信的算力基础设施”这一核心理念,深度融合端管云 协 同 架 构 与 机 密 计 算 、 机 密 存 储 等 前 沿 技 术 , 打 造 了 华 为 算 力 基 础 设 施 安 全 技 术 体系 (HCIST)。HCIST 通过全栈内生安全能力,覆盖芯片、固件、软件、单节点、多节点、集群及 云场景,严格遵循“数据可用不可见”原则,为用户数据与模型资产提供全生命周期的安全保护。在 计算场景中,我们基于鲲鹏和昇腾处理器,构建了硬件级可信保障能力;在存储场景中,通过机 密存储技术实现数据静态与传输中的端到端保护;在云场景中,依托擎天架构,提供了高安全、 强隔离的机密计算环境。同时,HCIST 通过远程证明与安全验证机制,确保平台身份与运行环境 的真实可信。未来,华为将继续深化异构硬件级保护、跨设备安全通道协议及合规框架的研发, 推动算力基础设施向更安全、更高效的方向演进。 HCIST 将能够帮助数字化运营企业更好的将“计算完整性”纳入企业风险管理中,确保计算节点 的可验证、可追溯,引入持续的安全监控措施,确保风险管控的有效闭环。我们相信,HCIST 不 仅能为 AI 时代的数据处理提供坚实底座,更将为全球数字经济的可持续发展注入新动能。 杨晓宁 华为网络安全与隐私保护官 i 人工智能正处于跨越式发展的新阶段,从基础大模型的快速迭代,到各行业智能化应用的广 泛落地,我们正见证一场深刻的技术革命。这场革命不仅改变了人类的工作与生活方式,也在重 塑全球产业格局。算力,作为人工智能的“发动机”,正日益成为数字经济的核心生产要素。 然而,随着智能化进程的加速,诸多挑战也逐渐显现。一方面,算力需求持续攀升,供需失 衡已成为大模型规模化落地的重要瓶颈;另一方面,数据作为 AI 的关键生产要素,在跨组织、跨 场景流转中面临安全与隐私挑战,如何在保障安全可信的前提下最大化释放数据价值,已成为产 业共同面对的核心议题。 华为始终致力于为智能社会构建安全、可信、开放的算力基础设施。为此,我们构建了华为 算力基础设施安全可信技术体系(HCIST)。该体系坚持开放的设计理念,既支持多元异构环境 的适配,又确保各方资源能够按需集成、协同运作。纵向层面,HCIST 构筑了从芯片、固件、操 作系统、集群到云的全栈安全能力;横向层面,则充分发挥“端-管-云”协同优势,为数据和模型资 产提供端到端的全生命周期保护。 通过内生安全机制与开放的架构,HCIST 为各类 AI 应用提供高性能、可扩展、易迁移、可信 赖的算力基础设施。在实际部署中,HCIST 面向复杂异构算力场景,实现从 CPU 到 NPU 的全面 安全防护;在数据管理方面,提供机密存储、隐私计算与远程证明等关键能力;在网络层面,支 持跨设备、跨地域的安全协议和加密传输,构建可信任的数据流通环境。通过持续的技术创新和 华为全栈软硬件能力,HCIST 逐步发展成为体系化的安全框架,从单点设备到超大规模集群全面 赋能,支撑多样化的安全与隐私需求。 展望未来,华为将继续与产业伙伴协同共进,不断推动异构、跨域协同的安全防护架构和标 准体系的建设与演进,促进全球智能化走向可持续、可信赖的发展模式。 朱小勇 华为 2012 实验室 可信理论、技术与工程实验室主任 i 前言导读 人工智能(AI)正以前所未有的速度重塑全球产业格局,以 ChatGPT 为代表的技术浪潮,不仅推动 了大模型的工业化应用,更将 AI 算力和数据安全推向全球科技竞争的战略高地。然而,这一进程伴 随着两大结构性挑战:其一,算力供需的不平衡严重制约了大模型的规模化部署和普及;其二,数 据资产在跨组织、跨地域流动过程中的安全风险阻碍了协同与创新。 为应对这一挑战,华为秉持“构建开放安全可信的算力基础设施”这一核心理念,依托端管云协同架构, 融合机密计算、机密存储、可信网络等多维度安全能力,构建了华为算力基础设施安全技术体系 (HCIST),实现数据与模型资产的全生命周期保护。 在计算安全方面,鲲鹏平台通过 virtCCA/CCA 技术实现 ARM 架构下的机密计算,配合国密算法加 速与可信计算 3.0 满足高安全合规要求;昇腾 NPU 则通过昇盾、PMCC 等技术,确保模型权重、用 户数据和中间结果在推理、训练与微调始终处于机密域,防范恶意用户、恶意管理员等潜在威胁。 在存储安全方面,HCIST 提出了机密存储(Confidential Storage)新理念,旨在从硬件层面构建可 信根基,依托硬件身份、链路加密、双层认证和数据直通等核心技术,形成覆盖全链路的数据安全 体系。该方案面向存算分离与智能存储深度融合的架构,不仅有效降低了跨节点、跨网络传输所带 来的安全风险,还实现了高安全和高性能的兼顾。 在云安全方面,华为云基于擎天(Qingtian)架构构建了物理隔离、安全启动、硬件身份证明等机 制,防御云平台内部威胁。擎天 Enclave 技术为租户提供高度隔离的执行环境,支持加密机、机密 AI 等敏感业务的安全运行,为多租户云环境下的关键业务部署提供可信基础。 在 AI 平台安全方面,HCIST 推出的 A+K 异构机密计算加速平台,实现了 CPU TEE 与 NPU TEE 的 深度协同,形成“双硬件信任根、端到端运行时隔离、任务级零信任验证”的整体架构。而机密容器技 术的推出,更是将 AI 运行时与 TEE 安全保护相融合,兼顾大模型的安全与性能。 在通信安全方面,HCIST 构建了端云协议安全以及 Unisec 安全通信体系,并通过可信群组密钥隔离、 线速加密传输、PHYSec 物理层安全加密等技术,覆盖包括 Scale-Out 与 Scale-Up 等计算网络新形 态,保障跨节点、跨集群环境中的算力调度与数据传输安全。 HCIST 既支持全栈一体化,也支持分层解耦的组合方式,可在不同硬件平台和不同应用场景中部署, 满足端云协同大模型机密推理、金融行业的零丢失数据安全保护、私有模型的安全存储与使用、云 原生密码应用等高安业务诉求。展望未来,HCIST 将面向后量子安全、集群机密计算、分布式可信 根与 AI 全生命周期保护持续演进。 文档版本 V1.0 版权所有 © 华为技术有限公司 1 1. AI 时代背景与挑战 1.1 大语言模型驱动的变革 人工智能技术正以前所未有的速度重塑人类社会运行范式,其中大语言模型(Large Language Model, LLM)作为核心驱动力,正在深刻重构人类生活、学习与工作的底层逻辑。以 ChatGPT 为 代表的生成式 AI 引爆了 LLM 的工业化浪潮,2024 年世界人工智能大会(WAIC)明确指出,大语 言模型与产业场景的深度融合已成为全球科技竞争的战略制高点。2025 年,WAIC 进一步发布了 《人工智能全球治理行动计划》,强调开展人工智能安全治理,包括构建具有广泛共识的安全治理 框架,完善数据安全和个人信息保护规范,探索人工智能服务可追溯管理制度,并提倡在全球范围 推动人工智能安全治理国际合作。然而这场变革面临双重结构性挑战: AI 算力供需失衡的困局 大语言模型的规模化部署遭遇算力瓶颈的严重制约。现代 LLM 参数量已从千亿级迈向万亿规模,其 推理过程需要执行海量矩阵运算,对计算资源需求产生指数级提升。算力供需矛盾在边缘场景尤为 尖锐,端侧设备受限于功耗与体积,难以承载超过百亿参数模型的实时推理;云侧数据中心虽具备 强大算力,但传统虚拟化架构无法满足低时延需求。更关键的是,算力资源与算力安全之间并不统 一,大规模 AI 算力往往缺乏高效安全防护与可信执行保障,难以服务于对安全与隐私有较强需求的 场景,进一步加剧了 AI 算力的供需失衡。 数据资产流动的安全鸿沟 产业智能化亟需高质量数据流通支撑,但现有基础设施难以保障数据要素的安全可信流动。在金融、 医疗等敏感领域,机构间存在严格的“数据孤岛”:银行风控模型需要跨机构交易数据,却受制于金融 监管合规要求;医疗 AI 研发依赖多中心病历,又面临敏感数据保护壁垒。传统解决方案如联邦学习、 同态加密等虽尝试破解此困局,但在模型效果、通信开销与端到端可控性之间难以取得根本性平衡。 更深层的矛盾在于跨主体交互中信任机制的缺失,数据提供方担忧数据主权失控与价值流失,应用 和模型开发者顾虑核心算法知识产权保护。这种互信缺失导致数据价值链难以有效贯通,严重阻碍 了跨组织协作的领域大模型构建与数据价值共创。 这些挑战的本质是传统计算架构与 AI 新范式间的结构性错配。端侧设备受物理限制无法承载复杂模 型,而云端中心化处理又面临隐私泄露风险。因此,在以端侧单机计算为代表的第一代计算范式和 以云侧分布式计算为核心的第二代计算范式的基础上,产业正在探索第三代计算范式——通过端管 云协同架构将设备级安全与云侧高安全算力基础设施通过安全信道进行深度融合,在保障数据主权 的前提下释放 AI 潜能,这不仅是技术演进的选择,更是推动智能产业规模化的关键突破口。第三代 文档版本 V1.0 版权所有 © 华为技术有限公司 2 计算范式的关键技术和重要前提是具备高安运算环境、高安存储环境、高性能链路安全的算力基础 设施。 1.2 云端 AI 隐私保护困境 传统云端 AI 服务在提供强大计算能力的同时,面临着严峻的隐私保护挑战,这些挑战主要源于其基 础架构的安全局限性。在 AI 推理场景中,云端服务需要直接访问未加密的用户请求数据以执行复杂 模型运算,这种架构特性导致传统云服务模式难以满足日益严格的隐私保护要求。其核心困境主要 表现在三个相互关联的维度:承诺可验证性缺失、运行时透明度不足以及特权访问风险不可控。 传统云服务无法提供可靠的技术手段验证其隐私承诺的实际执行情况。云服务提供商虽可能承诺不 记录特定用户数据,但缺乏有效的技术机制使安全研究人员能够独立验证该承诺是否被持续遵守。 这种承诺与验证之间的鸿沟导致用户必须无条件信任服务提供商,无法获得技术层面的保障机制。 运行时环境的不透明性构成第二重隐私风险。云端 AI 服务通常缺乏透明且可可验证的运行时环境, 也往往不具备远程证明服务,这些能力的缺失使得用户难以了解云端软件栈是否运行在可信的环境 中,也无法快速验证软件栈是否被恶意篡改,例如模型推理引擎被篡改为包含数据采集功能的恶意 版本。 特权访问机制带来的系统性风险构成了第三重困境。云端 AI 服务的运维不可避免地需要管理员介入, 这些高权限角色通过 SSH 等远程接口进行故障诊断和系统维护。尽管存在访问控制策略,但在实际 运维压力下难以实施有效约束。此类高权限接口可能成为恶意攻击者的首要目标,比如勒索软件会 频繁尝试窃取管理员凭证以获取敏感数据访问权限。服务提供商亟需在确保运维灵活性的同时,建 立可验证的技术屏障来杜绝特权滥用风险。 这些困境共同揭示了传统算力基础设施的本质局限:在需要处理算力密集型应用,比如大模型推理、 微调、训练等场景时,由于传统的隐私计算方式无法高效地实现密文的处理,就需要对未加密用户 数据进行直接操作,如果缺乏硬件级信任根、可信执行环境、完善的远程证明方案等由算力底座硬 件支持的特性时,会导致隐私保护承诺难以技术化实施。当用户数据离开本地设备或端侧设备进入 云端,即脱离用户控制范围,进入一个无法审计、无法验证、权限边界模糊的计算环境。这种结构 性缺陷促使行业寻求根本性的解决方案,即通过构建算力基础设施安全技术体系将设备级安全模型 延伸至算力中心,实现新型隐私保护算力基础设施,确保数据全生命周期的数据安全和可信流转, 真正实现算力基础设施的安全高效利用。 文档版本 V1.0 版权所有 © 华为技术有限公司 3 2. HCIST 架构和关键技术 华为算力基础设施安全技术白皮书(Huawei Computing Infrastructure Security Technical White Paper, HCIST)系统性地介绍华为公司各个产业和研究部门围绕算力基础设施安全构建的关键技术, 分层次构建全链路数据保护能力,其核心技术体系涵盖计算、云、存储、通信等业务场景,围绕业 务构建算力基础设施安全能力,为大模型、数据隐私等场景提供硬件级可信保障,为解决 AI 时代数 据处理的核心矛盾提供高安全算力底座。 HCIST 实现了“端侧—管道—云侧”的协同安全能力,贯穿数据产生、传输、处理的全生命周期,构 建纵深防御体系(如图 1 所示)。HCIST 在设计上既支持一体化部署,也支持分层解耦与按需组合, 使其既能覆盖全场景的整体保护,也能以单点技术的方式融入到其他厂商的方案中,针对特定行业 与应用场景灵活裁剪出差异化方案。横向端管云的协同机制在技术能力上实现跨层联动,在策略设 计上以开放生态为导向,支持灵活的算力基础设施架构,可以高效对接不同厂商的设备,适配不同 客户的安全诉求。该协同架构不仅强化了跨域场景下的隐私保护能力,也为 AI 算力基础设施提供了 动态可验证、弹性可扩展的安全执行环境,成为支撑大规模 AI 服务可信运行的关键底座。 图 1 HCIST 的整体架构,实现端管云/软硬芯不同用户界面模块化解耦和生态兼容 在终端侧,HCIST 强化了硬件级别的原生信任机制,通过构建端侧可信执行环境,确保生物识别、 支付凭证等敏感数据始终运行在物理隔离的 TEE 中,有效防范越权访问与数据泄露风险。同时,基 于分布式设备认证机制,打破传统默认信任模型,实现设备之间的动态信任协商,显著提升多设备 协同场景下的整体抗攻击能力。 文档版本 V1.0 版权所有 © 华为技术有限公司 4 在数据传输路径中,HCIST 采用零信任架构对通信管道进行全流程加固。通过双盲通信机制,有效 隔离了端云之间的直接可识别链路,杜绝了流量分析与 IP 反查等攻击方式。 在算力平台侧,HCIST 从芯片、固件、软件、单节点、多节点、集群、云场景等多个维度构建算力 安全防护能力,提供了数据端到端的保护,严格遵循"数据可用不可见"原则,在确保用户数据与模 型资产全生命周期安全的前提下,实现高性能 AI 推理、微调和训练等能力,支撑包括 Agent 在内的 AI 新场景。 HCIST 的构建包含了从芯片到系统的全栈内生安全能力,通过基于硬件支持的机密计算技术和可信 计算技术构建双重防护体系。硬件层面采用面向新一代可信计算架构,通过内置或外置硬件可信根, 使能安全启动和可信启动流程,确保仅授权且经密码学校验的代码可执行。运行时启用包含主机侧 和设备侧的异构机密计算环境,不但能阻断主机侧特权访问,还能隔断主机管理员或恶意用户对设 备侧数据的非法访问。同时,充分利用机密存储的特性,将用户数据和推理中间数据进行安全保护, 既提升了 AI 业务的效率,又保护了数据隐私,防止中间数据泄露带来的隐私风险,这一将机密计算 环境从 CPU 扩展到异构算力的方式,极大拓展了算力基础设施端到端的安全防护能力,也成为 HCIST 的一个重要特性。同时,这种架构天然具备可扩展和可组合特性,能够根据安全需求和业务 目标灵活搭配不同厂商、不同系列的计算、存储、通信和终端等产品与技术,从而真正服务于算力 基础设施的生态,构建统一又灵活的安全算力底座。 文档版本 V1.0 版权所有 © 华为技术有限公司 5 3. 计算场景算力基础设施安全 本章介绍计算场景算力基础设施安全,重点围绕基于鲲鹏和昇腾的算力基础设施安全能力。这些能 力既可作为 HCIST 统一技术体系的组成部分,也可根据不同算力环境的需求进行灵活解耦与组合, 实现面向异构平台的安全部署方案。通过这些安全方案及其组合,华为计算场景算力基础设施安全 体系既可以防御传统网络安全风险又可以应对全新的 AI 安全挑战。 华为计算场景算力基础设施安全参考架构如图 2 所示,包含了四层安全防护方案,层层递进,纵深 防御,为客户提供 AI 时代
| ||
下载文档到本地,方便使用
共 52 页, 还有
2 页可预览,
继续阅读
文档评分

