2025国家数据基础设施技术路线研究报告
6.07 MB
39 页
1 下载
47 浏览
0 评论
0 收藏
| 上传 | 格式 | 评分 |
|---|---|---|
itfangan | .pdf | 3 |
| 概览 | ||
国 家 数 据 基 础 设 施 技术路线发展研究报告 2025 年 5 月 区块链技术 可信数据空间 数场 数联网 数据元件 隐私保护计算技术 联合出品单位 北京市政务服务和数据管理局 上海市数据局 天津市数据局 重庆市大数据应用发展管理局 福州市数据局 杭州市数据资源管理局 西安市数据局 武汉市数据局 成都市数据局 苏州市数据局 青岛市大数据发展管理局 大连市数据局 上海数据交易所 赣州市数字产业集团有限公司 北京化工大学 北京交通大学 北京物资学院 安恒信息技术股份有限公司 蚂蚁技术研究院 中国移动研究院 湖南天河国云科技有限公司 浪潮云信息技术股份有限公司 上海零数科技有限公司 杭州高新数联互通科技有限公司 国家数据基础设施技术路线发展研究报告 国家数据基础设施技术路线发展研究报告 目 录 CONTENTS 前言 第一章 人类社会正进入数据要素化发展新阶段 06 数据资源正成为继土地、劳动力、技术、资本之后的第五大生产要素 网络空间升级为算力空间后正在向数据空间进一步迭代 数据产业正快速发展成为数字经济社会的主导产业 数据基础设施正逐步成为数据高效流通的可信安全环境 第二章 世界各国积极探索数据基础设施建设 12 美国的数据基础设施探索实践 欧盟的数据基础设施探索实践 第三章 建设和运营国家数据基础设施意义重大 32 国家数据基础设施是下一个30年全球经济增长的新引擎 国家数据基础设施是国家掌控数据战略资源的有效手段 国家数据基础设施是实现数据安全高效流通的技术保障 国家数据基础设施是“五位一体”统筹推进数字中国建设的的支撑底座 第四章 国家数据基础设施的特征和建设路径 36 国家数据基础设施的涵义 国家数据基础设施的特征 国家数据基础设施建设总体思路和实施路径 第五章 国家数据基础设施技术路线比较 44 隐私保护计算 区块链 可信数据空间 数场 数联网 数据元件 第六章 国家数据基础设施技术发展趋势 68 全球将形成三种数据基础设施主流技术路线 国家数据基础设施将向“一空间(场或网)四技术”方向收敛 数据基础设施将实现人工智能大模型的“数据平权” 05 07 07 08 09 13 21 33 33 34 35 37 37 39 46 50 54 58 61 64 69 71 73 74 结束语 2024年7月18日,党的二十届三中全会审议通过了《中共中央关于进一步全面深化改革、推进中国式现 代化的决定》,明确提出“建设和运营国家数据基础设施,促进数据共享”。2024年10月9日,中共中央办 公厅、国务院办公厅发布《关于加快公共数据开发利用的意见》,提出“加强数据基础设施建设,推动数据 利用方式向共享汇聚和应用服务能力并重的方向转变。”“研究制订数据基础设施标准规范,推动设施互联、 能力互通,推动构建协同高效的国家公共数据服务能力体系。”2024年12月31日,国家发展改革委、国家数 据局、工业和信息化部发布《国家数据基础设施建设指引》,正式按下国家数据基础设施建设的启动键,开 启了国家数据要素化事业的新征程。 国家数据基础设施建设是一项前无古人的伟大创新事业,从实现目标上要形成数据高效流通与安全可信 间的协调统一。从技术架构上要突破引领全球计算机和信息系统发展了80余年的冯.诺依曼架构;从建设运营 上要实现供给方、需求方和服务方等数据主体基于共识规则基础上的价值共创。具有极大的挑战性,至今还 未形成成熟的技术路线。《国家数据基础设施建设指引》充分考虑国内外技术最新发展趋势,结合我国各地 方各行业具体探索实践,提出了隐私保护计算、区块链、可信数据空间、数场、数联网、数据元件等六条技 术路线,选择了北京、天津、上海等18个城市围绕以上六条技术路线开展城市数据基础设施建设试点试验, 并启动了11项数据基础设施国家标准研究制订。 目前,《指引》提出的六条技术路线成熟度还不高,还不能完全实现安全可信基础上的数据大规模流 通,全国各地方各行业特别是开展试点示范的18个试点城市,对各条技术路线的发展现状、技术特点、适用 范围、应用情况、发展趋势等方面有迫切需求。非试点地区和行业也对数据基础设施的试点建设进展高度关 注。基于此,北京化工大学联合北京市政务服务和数据管理局、上海市数据局、天津市数据局、重庆市大数 据应用发展管理局、福州市数据局、杭州市数据资源管理局、西安市数据局、武汉市数据局、成都市数据 局、苏州市数据局、青岛市大数据发展管理局、大连市数据局、上海数据交易所、赣州市数字产业集团有限 公司、北京交通大学、北京物资学院、蚂蚁技术研究院、安恒信息技术股份有限公司、中国移动研究院、湖 南天河国云科技有限公司、浪潮云信息技术股份有限公司、上海零数科技有限公司等23家机构,共同倡议发 起成立“数据基础设施技术路线专题研究组(WG6-SG1)”,并先期开展了“国家数据基础设施技术路线研 究”课题,形成了《国家数据基础设施技术路线发展研究报告 1.0版》 本研究报告由“数据基础设施技术路线专题研究组(WG6-SG1)”倡议成员机构共同完成,旨在为各地 方各行业,特别是18个试点试验城市的数据基础设施建设提供参考。 前 言 国家数据基础设施技术路线发展研究报告 前 言 04 > 05 照生产要素划分,人类社会7000多年的文明史可以分为三个阶段。第一阶段是农业社会,以土地和劳动力为主要生产要 素;第二阶段是工业社会,以技术和资本为主要生产要素;第三阶段是数字社会,以数据为主要生产要素。数据作为数字社会的 新型生产要素,不同于土地、劳动力、技术、资本等传统生产要素,具有虚拟性、非稀缺性、易复制性等二十多个独特的特性, 彻底颠覆了传统资源稀缺理论、边际效应递减理论、产权理论等经济学经典理论,对现代经济社会发展模式提出了新的挑战。 国家数据基础设施技术路线发展研究报告 人类社会正进入数据要素化发展新阶段 06 > 07 第一章 人类社会正进入 数据要素化发展新阶段 数据资源正成为继土地、劳动力、技术、资本之后的 第五大生产要素 网络空间升级为计算空间后正在向数据空间进一步迭代 土地 劳动力 资本 技术 数据 农业社会 工业社会 知识社会 物理空间 网络空间 计算空间 数据空间 人类社会正进入数据要素化发展新阶段 08 > 09 国家数据基础设施技术路线发展研究报告 在现代经济社会发展史上,任何一项新型事业的发展壮大都离不开背后产业的支撑,正如软件事业背后的软件产业、集 成电路背后的集成电路产业、电子信息事业背后的电子信息产业一样,数据事业的发展壮大也离不开数据产业的发展。当前, 围绕数据资源“采、存、算、管、用”的全生命周期各环节,已形成一大批数据资源、数据技术、数据应用、数据服务、数据安 全、数据基础设施等类型的数据企业,产业集聚效应更加明显,产业链发展更加完备,数据产业正在快速发展壮大。 数据产业正快速发展成为数字经济社会的主导产业 按照人们生产生活的空间划分,人类社会7000多年的文明史可以分为两大阶段四小阶段。第一阶段是物理空间时代。 7000多年的绝大多数时间都生活在一个三维的物理空间中,人们的生产生活学习等所有活动都在这个物理空间中开展;第 二阶段是网络空间时代。上世纪90年代互联网在全球普及之后,人类社会又多了一个新的网络空间,从通讯和社交开始,人 类社会的工作、学习和生活等逐渐从物理空间向网络空间迁移;第三阶段是计算空间时代。2000年以后,随着移动终端、 云计算、物联网等新业态的不断出现,政府、企业和个人等不同主体,将越来越多的管理、服务、生产、经营、工作、学习 等事务迁移到网络空间,网络空间的传输功能逐渐被计算功能超越,网络空间也由此升级为计算空间;第四阶段是数据空间 时代。近年来,随着大模型等人工智能技术的突破,以及人们对网络空间依赖程度的加深,对原先在互联网上难以流通的非 结构化数据和私域数据提出了流通的需求,如何构建一个既能让数据高效流通同时又确保安全可信的数据空间,成为网络空 间升级为计算空间后的又一次的跃升。 可流通数据只占全部数据的很小部分。自上世纪90年代互联网普及以来,全球数据资源呈爆发性增长态势,特别是移动 互联网、工业互联网、智慧城市、物联网、车联网等快速发展,手机终端、工业感应装置、道路监控设备、智能家居终端、 智能汽车等都成为数据生产设备,并实现7×24小时不间断地采集汇聚各种数据。但是,在全部数据资源中,只有两成左右 是可流通数据,八成左右是个人隐私、企业机密、国家秘密等不可流通数据。即使在20%可流通数据中,在万维网上真正流 通起来的结构化数据只有4%,而其他16%的图片、音频、视频等多模态非结构化数据,受限于技术瓶颈,尚无法实现在互 联网上自由流通。 数据基础设施正逐步成为数据高效流通的可信安全环境 私 域 数 据 个 人 隐 私 数 据 国 家 机 密 数 据 企 业 秘 密 数 据 道路监控设备 工业互联网自动感应装置 智能家电 可穿戴设备 广度扩展 互联网爬取 物联网自动生成 深 度 扩 展 数据生产方式正在发生巨大变化。2022年人工智能大模型的异军突起,对数据资源的需求陡增。据京数智科技研究成 果,预计到2028年全球可流通数据将完全耗尽。数据生产方式将从互联网上采集结构化数据的传统方式向数据资源的广度 和深度两个方向拓展:第一个方向是向广度拓展,即从互联网爬取数据向物联网自动生成数据的方向拓展。各种可穿戴设 备、智能家电、道路监控设备、工业互联网自动感应装置等生成的多模态非结构化数据,正成为当前数据来源的主流,专业 数据生产方式不断向广度和深度拓展是数据要素化发展新阶段的重要标志 人类社会正进入数据要素化发展新阶段 10 > 11 国家数据基础设施技术路线发展研究报告 化的数据标注与合成技术正成为海量非结构化数据成为高质量数据集的关键核心技术。第二个方向是向深度拓展,即从公域 数据领域向私域数据领域拓展。随着人工智能大模型的快速发展,全球可供大模型训练的公域数据即将耗尽,而原先由于涉 隐涉密(国家机密、企业秘密、个人隐私)而被尘封的海量私域数据,正在成为人工智能高价值数据集的重要数据源。传统 意义上的不可流通数据将随着隐私计算、区块链、智能合约、控制技术和数据沙箱等数据安全流通技术的不断突破,而逐步 变成可流通数据,从而充分释放这些涉隐涉密数据的高价值潜能。 数据安全流通要求新型数据基础设施的建立。人类社会不同发展阶段对统筹发展和安全提出了不同的要求。在信息 化、网络化发展阶段,数据具有的要素价值还未被广泛充分认识,数据安全成为关注的重点,即必须确保信息和网络的绝 对安全,甚至为了保障数据安全,往往采取分级保护、等级保护、认证保护、密码保护、隔离保护等技术手段,限制数据 流动,以实现“进不来、看不懂、拿不走、可溯源”等数据静态安全。在数据要素化发展新阶段,数据成为新型生产要素, 不仅对数据提出大规模、高通量、快速率的流通要求,充分发挥数据的要素价值作用,同时对数据安全也提出了新的、更 严格的要求,即要确保数据在大规模、高通量、快速率的流通过程中的安全。数据安全发展到了动态全过程安全阶段,这 时不仅需要更加强大的连接和算力功能,对数据更大规模、更快速率、更高通量流通利用的需求更强烈,而使用控制、隐 私计算、区域链、数据沙箱、智能合约、数据标识、语义发现、元数据智能识别等可信安全的数据流通技术正在成为数据 要素化发展新阶段的主流技术。 欧盟 《通用数据保护条例》 (GDPR》 《 数 据 治 理 法 案 》 (DGA) 《数据法案》 (Data Act) 《 数 字 市 场 法 案 》 (DMA) 《 数 字 服 务 法 案 》 (DSA) 美国 加州隐私法 (CCPA) 金融领域的《格雷姆-里奇= 比利雷法》(GLBA) 《健康保险流通和责任法》 (HIPPAA)等 中国 《中华人民共和国网络 安全法》 《中华人民共和国数据 安全法》 《中华人民共和国个人 信息保护法》 《中华人民共和国网络 数据安全管理条例》 法律法规对比 通过研究对比发现,美国在 联邦层面上一直没有数据安 全和个人信息保护等方面的 立法,只在个别州和金融、 健康、信用、视频、教育、 证券、未成年人、通信、计 算机、贸易、消费者保护等 11个领域出台了隐私保护 相关法律,这种相对宽松的 数据流通法规环境,催生出 了几种不同的数据基础设施 建设和运营模式。 数据基础设施类别 平台公司数据流通平台 专业公司数据分析平台 经纪商数据交易平台 代表企业 亚马逊、谷歌、微软 Databricks、Snowflake、Palantir Acxiom、Corelogic、Factual、BDEX、Infochimps 国家数据基础设施技术路线发展研究报告 第二章 世界各国积极探索数据基础设施建设和运营 12 > 13 第二章 世界各国积极探索 数据基础设施建设和运营 与欧盟的《通用数据保护条例》(GDPR》、《数据治理法案》(DGA)、《数据法案》(Data Act)、《数字市场法 案》(DMA)、《数字服务法案》(DSA)等数据相关法律制度,以及中国的《中华人民共和国网络安全法》《中华人民共 和国个人信息保护法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《中华人民共和国网络数据安全 管理条例》等数据安全法律法规相比,美国在联邦层面上一直没有数据安全和个人信息保护等方面的立法,只在个别州和金 融、健康、信用、视频、教育、证券、未成年人、通信、计算机、贸易和消费者保护等11个领域出台了隐私保护相关法律, 如《加州消费者隐私法》(CCPA)还有金融领域的《格雷姆-里奇=比利雷法》(GLBA)和健康领域的《健康保险流通和责 任法》(HIPPAA)等。美国至今没有一部保护数据产权方面的法律,即使是数据隐私的相关法规也相对分散,管理较为宽 松—只要不涉及公民隐私,企业通过政府开放平台、网络爬取、提供产品或服务中获得等各种方式得到的数据,都可以自由 使用和流通。 美国的数据基础设施探索实践 使用技术或方案 覆盖企业全部供应链、生产链、生态链 的完善数据整合与协作体系 云原生架构数据分析处理平台 区块链和加密算法 以Google Cloud、AWS、Azure等为代表的公司是全球领先的云平台公司,为美国和其他国家公域数据流通提供了先 进的基础设施。 1.Google Cloud的开源协作数据流通平台 Google Cloud是Google推出的云计算服务,服务涵盖计算、存储、网络、大数据、机器学习及办公应用等众多领域, 如虚拟机部署的Compute Engine、网络私有部署的Virtual Private Cloud、全托管式AI平台Vertex AI、谷歌办公应用,以 及数据分析应用平台BigQuery等。其中,BigQuery是Google Cloud构建的高效安全数据流通平台。 BigQuery平台通过EDC组件并嵌入联邦学习,可以提供数据存储、数据处理、数据分析等全流程服务,以实现数据的 高效利用与处理。既能满足互操作性的要求,通过实现不同系统和平台之间能够无缝对接,从而推动数据的流通和共享,也 能确保数据自主权的实现,即保证参与者能够使用与管理自己的数据,在向他方提供数据访问权限时,能够保持对自己数据 是否流通、流通给谁、如何流通、何时流通、以何种价格流通等权限的控制权。BigQuery数据流通平台的技术特点有以下 三方面: (1) BigQuery云数据仓库 BigQuery作为Google Cloud的企业数据仓库,是Google Cloud数据处理的核心枢纽,具备诸多显著优势。它是完全 托管和无服务器的,这一特性赋予了它最大程度的灵活性与可扩展性,使其能够支持从千兆字节到艾字节规模的存储和SQL查 询。消费者可以将数据便捷地上传至BigQuery中,这些数据会被安全加密存储,保障数据的持久性和高度可用性。BigQuery还 拥有高速内存中的BI引擎,每秒可处理450万行数据,便于更快地生成报告和进行分析。当服务提供商通过特定方式访问数据进 行分析后,处理结果依然存储于BigQuery,方便消费者随时获取处理后的数据,极大地提高了数据的利用效率。 (2) EDC搭建数据交互桥梁 EDC是由Eclipse基金会托管的开源项目,其目标是提供一个可弹性扩展的开发架构。EDC在Google Cloud的数据交互 体系中扮演着桥梁的角色,是实现互操作性的关键一环。借助EDC,服务提供商和消费者的数据系统得以无缝对接。例如, 消费者可以将数据发送到BigQuery中,服务提供商则通过EDC进行访问和分析,而无需直接共享自身数据,最终将处理后 的数据提供给消费者。这一特性在保障数据自主权方面意义重大,服务提供商不用担心数据泄漏风险,还能充分利用自身分 析能力为消费者数据提供价值。 (3)联邦学习 联邦学习是一种创新的机器学习框架。它是一种分布式机器学习方法,允许多个参与者在不共享原始数据的情况下共同 训练模型。这种方法在保护数据隐私的同时,利用多方数据进行模型训练,适用于数据孤岛场景,使企业能够在保护用户隐 私的同时,使用分散的数据源进行模型训练。在Google Cloud的架构中,联邦学习嵌入整个数据处理流程,与BigQuery和 EDC紧密配合。当服务提供商利用EDC访问BigQuery中的消费者数据时,联邦学习技术确保数据仅在本地进行计算,交换的 只是模型参数而非原始数据。 (4)数据自主控制 Google Cloud通过分布式云等数据自主权控制功能,为用户提供对数据和工作负载的数据自主权控制。用户可以根据 自己的需求,选择在公共云或分布式云中部署应用,确保数据自主权的实现。 (5)赋能 Catena-X汽车空间 Google Cloud积极参与了欧盟Catena-X汽车数据生态系统建设。通过连接和整合私人、社区和公共数据源,Google Cloud帮助企业优化需求管理,让企业能够更精准地把握市场动态,合理安排生产与供应。凭借强大的数据分析能力,显著 提升了企业的实时洞察和预测能力,大幅提高运营效率,有效降低风险,削减不必要的成本支出。Google Cloud作为IDSA 的成员,积极为开源数据空间连接器做出贡献。 Google Cloud通过在BigQuery上整合EDC连接器和联邦学习等技术,以及在数据自主权和互操作性方面的精心设计, 构建了一个高效、安全的数据流通平台。这种创新模式能将数据平台的流通数据与私有或不可共享的参与者数据相结合,实 现数据的循环利用和价值提升。 国家数据基础设施技术路线发展研究报告 第二章 世界各国积极探索数据基础设施建设和运营 14 > 15 这种宽松的数据流通法规环境,催生出了三种不同的数据基础设施建设和运营模式:一是平台公司的数据流通平台。以 亚马逊、谷歌、微软为代表的大型跨国数据平台公司分别构建起自身的数据安全流通环境,形成覆盖企业全部供应链、生产 链和生态链的完善数据整合与协作体
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
37 页请下载阅读 -
文档评分

