清华大学:2025年智能数据标注产业发展观察报告智能数据标注产业发展观察报告 发布单位: 清华大学数字政府与治理研究院 江苏省数字化协会 支持单位: 上海数据交易所 华东江苏大数据交易中心 2025年4月20 积分 | 60 页 | 25.79 MB | 5 月前3
2025年智能驾驶智算数据平台发展研究报告括但不限于算力资源跨地域 汇聚、异构算力支持、资源隔离与调度、高可用性与容错性、性能监控与分析等。 (3)算法服务。提供行业级算法服务能力,包括但不限于基础算法库、算 法开发与优化工具、数据标注基础模型、智驾模型训练与测试环境、智能驾驶基 础模型、剪枝压缩部署工具等。 2 智能驾驶智算数据平台发展现状分析 2.1 国外现状分析 2.1.1 国外企业及项目建设情况 (1)智能驾驶开发商及汽车厂商 研发,并且开发了高度真实的仿真平台,兼具 WorldSim 和 LogSim 仿真能力。 Waymo 的主要优势之一在于可依托 Google 在全球的用户网络,通过用户的 机器人验证进行道路交通对象数据标注,帮助 Waymo 建立高质量数据集。此外, Waymo 还通过高保真模拟驾驶环境用于补充真实世界的数据。 Wayve 积极利用人工智能算法开展自动驾驶系统开发。2023-2024 年,Wayve (3)我国智能驾驶数据集开放程度不佳 目前,国外智能驾驶领域拥有丰富的数据集资源,例如 nuPlan、Argoverse 和 Waymo Open Dataset 等。这些数据集不仅涵盖了多样化的驾驶场景,还提供了高 质量的标注,广泛应用于感知、决策、规划等关键环节的算法开发。相比之下, 我国的数据共享机制尚未充分发展,目前公开的国内数据集少之又少,开放的数 据集数量和质量不足,这对智能驾驶算法开发造成一定限制。 (4)数据共享与开放机制不完善0 积分 | 29 页 | 1.14 MB | 1 天前3
2024年汽车产业AIGC技术应用白皮书AIGC赋能自动驾驶应用 传统的数据标注需要海量的人工,但人工标注在效率和成本方面已经难以满足模型训练对海量数据集 的需求。同时,数据复杂度也在不断提升,从2D走向3D,直到4D数据,除了视频,还包括点云数据 的标注。具体而言,人工标注的不足包括: 1. 成本高:自动驾驶技术需要大量的数据来进行训练和测试,这些数据量通常都非常巨大,需要耗费 大量的时间和人力来进行标注。 2.标注的复杂性高:自动驾驶技 识别和跟踪,这些标注需 要高精度、高效率、高可靠性和高一致性,难度越来越高。 3.不能确保标注的一致性和规范性:在自动驾驶领域,数据的标注需要遵循一定的规范和标准,以确 保数据的准确性和一致性。 基于云端的离线大模型的数据标注方法对以上问题迎刃而解。离线模型可以对大量数据进行预处理, 在批量处理中自动化标注大量数据,并且可以保证数据的标注质量和一致性,从而大大提高数据标注 的效率,降低 的效率,降低数据标注的人力成本和时间成本。云端的大模型不但可以对数据进行自动化标注,还可 以进行多模态数据挖掘,用自然语言来进行数据预处理,例如检索特定场景数据、挖掘长尾数据等。 4.1.3 基于AIGC的自动化数据标注 图4.1-1 4D数据标注需要自动化数据标注才能满足成本和效率的需求 汽车产业 AIGC 技术应用白皮书 38 PAGE 4.1 AIGC赋能自动驾驶应用 自动驾驶的核心挑战在10 积分 | 54 页 | 7.82 MB | 1 天前3
大型装备制造业数字化之道 基于模型的数字化企业(MBE, Model Based Enterprise)解决方案白皮书 上行平移、旋转和缩放就能够很容易地理解产品 几何特征和相应的尺寸、公差。MBD 数据集 还可以表示隐含的信息,进行剖切或特定的测 量。在三维模型加二维图纸的定义模式下,三 维模型上并没有检验要求的描述,有关产品检 验信息标注在二维图纸上。而应用 MBD 方法, 可大大简化检验过程,应用基于三维模型的检 验软件,直接读取三维模型上的尺寸和公差数 据,在编制检验程序时,使用者的输入达到最 小。利用便携式的坐标测量装置,可使检验深 数字模型的表达,美国机械工 程师协会从 1997 年 1 月起发起关于三维模型 标注标准的起草工作,以解决图纸与信息系 统传输之间的矛盾。此标准于 2003 年 7 月 被美国机械工程师协会接纳为新标准 (ASME Y14.41)。 随 后,Siemens、PTC、Dassault 等公司将该标准应用于各自的 CAD 系统中, 对三维标注进行了支持。作为该项技术的发起 者之一,波音公司在 787 项目中开始推广使 Manufacturing Information, PMI) 与三维设计信息共同定义到产品 的三维数模型中,摒弃二维图样,直 接使用三维标注模型作为制造依据, 开创了飞机数字化设计制造的崭新模 式;R&R 公司开始应用主模型驱动的 技术,以具有 PMI 三维标注的模型作 为单一数据源,贯穿产品研发的各个 环节;GE 航空发动机应用主模型驱动 技术,实现三维主模型与多种具体应 用或任务关联,极大地缩短了产品研20 积分 | 99 页 | 48.83 MB | 1 天前3
2024年汽车AI大模型TOP10分析报告训 练 微 调 将模型在大规模无标注数据上进 行自监督训练得到预训练模型 将模型在下游各种自然语言处理任 务上的小规模有标注数据进行微调 得到适配模型 AI大模型就是预训练语言模型 通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型 预训练语⾔模型“预训练 + 微调”技术范式 ⼤规模⽆标注 ⽂本数据 模型预训练 不同特定任务 有标注训练数据 模型微调 测试数据 最终模型 Driven,模型基于大规模语料训练而成; Ø Multi-tasks Adaptive,支持多种任务,包括自然 语言生成NLG和自然语言理解NLU类的任务; Ø Few-shot (Zero-shot),在少甚至无标注样本的 条件下支持推理(自监督学习)。 产业研究 战略规划 技术咨询 3 大模型发展历程 众多预训练模型相继涌现,OpenAI 以 GPT2、GPT-3、ChatGPT 等系列模型为代表,持续引领大模型时代的浪潮 与主机厂合作落地 使用了百度文心ERNIE 3.0大模型,在智能客服知识库扩充、车载语音系统短答案生成、 汽车领域知识库构建三个任务上进行了微调与验证。 该大模型在2300万条吉利汽车专业领域无标注数据上进行模型预训练,并联合双方的人 工智能专家和汽车行业专家一起研发。 百度使用半监督、自训练方案对大模型进行训练 应用于提升百度自动驾驶感知算法 Ø 先用有标签数据对模型进行初始启动训练,后将模型在无标签数据上进行推理得到伪10 积分 | 59 页 | 28.41 MB | 5 月前3
工业大模型应用报告亿大幅拉升到 1750 亿,GPT-4 非官方估计约达 1.8 万亿。 泛化能力强:大模型能够有效处理多种未见过的数据或新任务。基于注意力机制 (Attention),通过在大规模、多样化的无标注数据集上进行预训练,大模型能够学 习掌握丰富的通用知识和方法,从而在广泛的场景和任务中使用,例如文本生成、自 然语言理解、翻译、数学推导、逻辑推理和多轮对话等。大模型不需要、或者仅需少 量特定 理复杂任务的优势,在更广泛的领域展现着巨大潜力,两者将长期共存。 大模型与小模型有望融合推动工业智能化发展。对于小模型而言,利用大模型的 生成能力可以助力小模型的训练。小模型训练需要大量的标注数据,但现实工业生产 过程可能缺少相关场景的数据,大模型凭借强大的生成能力,可以生成丰富多样的数 据、图像等。例如,在质检环节,大模型可以生成各种可能的产品缺陷图片,为小模 型提供丰富的训练样 11 工业大模型应用报告 3. 工业大模型应用的三种构建模式 大模型的构建可以分为两个关键阶段,一个是预训练阶段,一个是微调阶段。预 训练主要基于大量无标注的数据进行训练,微调是指已经预训练好的模型基础上,使 用特定的数据集进行进一步的训练,以使模型适应特定任务或领域。针对工业大模型, 一是可以基于大量工业数据和通用数据打造预训练工业大模型,支持各类应用的开发。0 积分 | 34 页 | 4.98 MB | 5 月前3
应急指挥一体化指挥调度平台、1:10000 n 依托城市级四标四实或一标三实展开,标准地址为基础。“四标”包括“标准地址库”,指每一个建筑、房间都有一个标准的唯一的地址;“标准作业图”,指在标准地 址的基础上全部在地图上标注作业;“标准建筑物编码”,指一个标准的地址对应一个标准的建筑物编码;“标准基础网格”,指作业上图后划分标准的网格。“四实” 即“实有人口”、“实有房屋”、“实有单位”、“实有设施”,其中“实有设施 点防护目标、重点危险源一键自动地图关联、自动标注、自动提醒、数据显示功能。 n 针对汇集的预案、应急资源、事件、数据、历史案例,建设应急标签库系统和知识图谱系统 n 支持数据画像、事件画像、地域画像、行业画像功能,支持灾害链预测、次生灾害预测、自动提醒功能 n 支持受灾区域、受灾人口、受影响区域、受影响人口、救援力量、疏散路径、关键救援装备、应急仓库、应急运力、周边重 点防护目标、重点危险源一键自动地图关联、自动标注、自动提醒、数据显示功能。 链预测、次生灾害预测、自动提醒功能 n 支持受灾区域、受灾人口、受影响区域、受影响人口、救援力量、疏散路径、关键救援装备、应急仓库、应急运力、周边重 点防护目标、重点危险源一键自动地图关联、自动标注、自动提醒、数据显示功能。 应急标签库与知识图谱平台 n 针对汇集的预案、应急资源、事件、数据、历史案例,建设应急标签库系统和知识图谱系统 n 支持数据画像、事件画像、地域画像、行业画像功能,30 积分 | 159 页 | 32.03 MB | 4 月前3
政务大模型通用技术与应用支撑能力要求入,以及支持结构化数据、非 结构化文本、音视频等多模态数据接入,提供数据去重工具。 6.2.1.2 数据标注 a) 应支持微调语料标注能力,即对已有大规模通用语料库进行精细化标注,以满足特定任务或领 域的需求。标注结果应具备一致性和可靠性,遵循相应的标注规范; b) 应支持对齐语料标注能力,具备将不同来源、不同结构的文本进行整合和对齐的能力,形成一 致、规范的文本数据。考虑文本的语法、语义和上下文信息,确保文本对齐和一致性; 应支持QA抽取能力,从原始文本中提取问题与答案相关信息的能力,以构建问答对数据。关注 问题的表述清晰度、答案的准确性以及上下文关联性,确保问答对质量; d) 应确保标注过程的可追溯性,便于后期数据审核和质量控制; e) 宜支持多人协同标注,提高标注效率。 6.2.1.3 数据增强 a) 应支持 prompt 扩写能力,具备对输入 prompt 进行拓展的能力,通过引入更多的描述性词汇 和细节信息,以 和道路交通运营提供全面、高效的专业知识搜索问答和初级分析研判能力,实现智能客服、智 能运维以及应急指挥等多种功能应用; c) 宜支持档案管理场景能力,包括但不限于知识型搜索能力、对档案知识智能检索的再标注等能 力; d) 宜支持法务数字助手场景能力,包括但不限于仿写型法律意见书生成、文本纠错、安全可靠等 能力; e) 宜支持智慧农业种植助手能力,包括支持对农业产品进行判断、提供图片识别和文本搜索图片5 积分 | 23 页 | 500.64 KB | 1 天前3
2025年AI CITY发展研究报告——“人工智能+”时代的智慧城市发展范式创新周期的高度安全可信。 大模型中心由3套AI工程平台构成,包括数据平台、AI模型平台和AI原生应用平台。 (1)数据平台 数据平台是聚焦人工智能应用的数据全生命周期治理中枢,集成数据获取、数据加工、数据合成、数据标注、 数据配比、数据评估、数据发布、数据管理、数据安全等功能。数据平台提供从原始数据获取到标准化数据发布的全 链路自动化处理能力,提升数据生产加工效率、保障数据质量与合规性,通过一站式数据工程能力推动AI应用的工程 大模型训练中的算力利用率。在此基础上,构建“算力水电”普惠模式,实现即开即用,让算力像用水、用 电、用气一样便捷。 21 AI CITY 发展研究报告 数据标注:支持文本、视频、图像全类型标注,支持智能辅助标注以提升标注效率,支持人工审核以提升标注 准确率。 数据配比:支持文本、图片、预测配比,支持配比数据灵活抽样、合并。 数据发布:提供多种发布方式,支持一键发布到模型训练平台直通训练,支持胶囊封装防止数据泄露。 数据配比 标签筛选配比 数据集配比 预训练配比 SFT配比 图QA配比 图文配比 数据安全 存储安全 加工安全 流通安全 数据标注 图片QA 问答排序 视频caption 团队标注 文本QA 图片caption AI辅助标注 数据管理 数据标签 数据地图 数据检索 数据分类 数据追溯 数据血缘 数据发布 格式转换 数据拆分 明文发布 胶囊发布 评估规则20 积分 | 78 页 | 5.45 MB | 4 月前3
阿里云:2025年阿里云百炼安全白皮书大模型风险:算法合规、内容安全、对抗攻击 大模型在技术原理上具有天然的局限性,面临全生命周期的风险挑战。 ● 算法合规风险:大模型全生命周期需要遵循明确的法规和技术标准要求,包括但不 限于训练数据来源、数据预处理、数据标注、输出内容、内容标识等方面; ● 内容安全风险:由于训练数据的偏差和污染,以及模型生成机制的不完全可控,可 能生成违法违规不良价值观的内容; ● 对抗攻击风险:攻击者可通过构造对抗样本或指令注入攻击,诱导模型生成错误的 低了硬件门槛和资源消耗。 3 通义大模型全生命周期安全实践 通义大模型严格遵循 GB/T 45652《生成式人工智能预训练和优化训练数据安全规范》、 GB/T 45674《生成式人工智能数据标注安全规范》和 GB/T 45654《生成式人工智能 服务安全基本要求》等国家技术标准要求,创新式构建三层防护体系,覆盖模型研发 训练、部署应用、运行上线全流程,通过内置算法安全设计、模型安全训练、内容安 2 模型训练 (一)预训练(Pre-Training): 通过严格筛选数据源、多层过滤内容及规范标注管理,构建安全可控的预训练语料体 系。预训练阶段是大模型获取世界知识的关键环节,训练数据的质量与安全性很大程 度上决定了模型的基础能力和安全水位。通义大模型严格执行语料来源管控、数据清 洗和标注管理,落实预训练语料安全管理。 (1)数据源筛选:严格落实 GB/T 45652 对训练数据来源审核、来源配比、公网数20 积分 | 59 页 | 45.36 MB | 1 天前3
共 215 条
- 1
- 2
- 3
- 4
- 5
- 6
- 22
