具身智能标准化研究与评测方法探索[3];在软硬件协同层 面 ,NVIDIA IsaacGym 平台支持百万智能体并行训 练 [4],OpenAI 与 Figure 联合开发的 Figure 01 已实现语 关键词: 具身智能;标准化;评测体系;应用场景 doi:10.12045/j.issn.1007-3043.2025.07.008 文章编号:1007-3043(2025)07-0046-07 中图分类号:TP18 文献标识码:A 决策与交互的重要路径,对通用人工智能的发展具有关键意义。梳理了具身智 能的核心能力维度,分析了当前标准化工作的进展与挑战,提出评测体系设计 原则与关键指标,探讨了典型评测方法与平台实践。尽管初步标准框架已形 成,但在多模态交互、群体智能等方面仍缺乏系统标准,评测工具亦亟待升级。 未来应完善分领域标准、建设权威评测平台、加快国际接轨,并同步推进伦理法 律规范,推动具身智能生态规范发展。 Abstract: Embodied Keywords: Embodied intelligence;Standardization;Evaluation system;Application scenarios 具身智能标准化研究与评测 方法探索 Research on Standardization and Evaluation Methodologies of Embodied Intelligence 魏家馨 1,马瑞涛10 积分 | 7 页 | 1.41 MB | 1 天前3
人工智能大模型保险行业应用评测报告(21页 PPT)INTELLIGENCE ARTIFICIAL 人工智能大模型 保险行业应用评测报告 Evaluation Report on the Application of Large-scale Artificial Intelligence Models in the Insurance Industry 2023 年 10 月 以 ChatGPT 为代表的 AI 大模型技术席卷全球,不仅 发布《人工智能大模型保险行业应用评测报告》。报告特邀国内知名 高校专家学者、中国大地财产保险股份有限公司、众惠财产相互保险社等共同调研并撰写完成。 《报告》通过保险、法律、医疗等相关领域常规知识问题,测试大模型的基础能力,同时针对部分主要典型的应用能力设计 了保险业务场景设定及问题,以测试大模型的实际应用能力。区别于以底层专业性能指标为评测维度的大模型评测报告, 《报告》以应用场景的视 实用和直观的信息,更具现实层面的指导意义。 本报告评测结果经专家组进行谨慎的综合论证形成,但考虑到大模型迭代速度日新月异,评测结果仅代表测试期间所呈现的 效果。报告在分析结论上难免存在一定的局限性和偏差,欢迎各届批评指正。 评测框架 保险垂直领域大模型评测从常用的保险业务场景中抽离三大主要应用能力,细分为十大能力测试维度, 71 个评测任务。通 过 不同任务上大模型的性能表现,挖掘其基础能力的优势和特点。20 积分 | 20 页 | 3.47 MB | 1 天前3
全球计算联盟GCC:2025年异构算力协同白皮书际 的各类异构算力芯片齐头并进。 然而,因芯片架构不同、通信协议不统一、算存传能力差异而导致的异构算 力碎片化、生态割裂及协同效率不足等问题日益显现。构建统一计算、统一通信、 统一调度和统一评测的异构算力协同体系,实现异构算力间的无感知计算、无阻 碍通信协作、资源的高效调度和自动化测评,是推动异构算力基础设施迈向新阶 段的关键路径。 本白皮书通过系统性梳理算力产业发展现状、异构算力协同体系架构、关键 .........................................................................................15 3.4 统一评测体系................................................................................................. ASIC、GPGPU 不同路线算力差异,北向承载多场景、多行业、多模态大模型,构建异构算 力协同生态体系,实现异构算力的无感知计算、无阻碍通信、无闲置调度和无差异评测。异 构算力协同生态体系包括统一计算、统一通信、统一调度和统一评测四方面,通过四个核心 维度的统一化实现异构算力资源的深度融合。 图 异构算力协同体系架构 (1)统一计算:打破异构壁垒构建算力融合底座 统一计算是异构算力协10 积分 | 31 页 | 1.21 MB | 1 天前3
2025年网络安全十大创新方向创新方向:深度伪造检测 推荐落地方案: 中科睿鉴-端云协同多模态伪造检测方案 创新方向:大模型安全评估 推荐落地方案: 君同未来-大模型安全评估 奇安信-AI大模型安全技术评估服务 360-大模型安全评测平台 长亭科技-AIGC安全风险评估 创新方向:合规管理&安全运营深度融合 创新方向:AI应用防火墙 推荐落地方案: 奇安信-大模型卫士(GPT-Guard) 亚信安全-AI大模型防火墙 支持多模态检测,包含文本、图片、音频、视频; 2. 基于预训练的安全模型对AI大模型应用进行防护,做到以模制模; 3. 对于后门攻击、数据污染、梯度替换、模型操控、供应链投毒等攻击防护成 功率可达98%以上。对事实性评测、模型幻觉、逻辑推理、安全合规、隐私 保护等检测准确率可达98%以上; 4. 集成300+前沿模型,支持2000+系统漏洞评估,可检测50+攻击手段,涵盖 30+评估标准; 5. 轻量化部署,节省算力资源,消费级显卡即可运行。 风险防护、全场景模型监测管控等。 君同未来-大模型安全评估 方案概况 方案优势和用户价值 方案优势与特点: 1、权威的评测体系和智能评测引擎:内置国内外20+评测体系,个性化适配300+评测 标准选择,100+场景定制化测评方案,千万量级智能题库,基于特定领域的评测题自动 生成能力;实现“合规、能力、应用”多维度评测,灵活的定制化配置能力、交付形态 与部署方式。 2、全方位人工智能模型防御:内置50+防御及检测方法,实现覆盖多模态的人工智能30 积分 | 34 页 | 8.48 MB | 1 天前3
科大讯飞智慧农业业务介绍(30页 PPT)2014 年首次参加 IWSLT 国际口语机器翻译评测比赛获得第一; 2018 及 2021 IWSLT 第一名; 2021 年 8 月, IWSLT 比赛,科大讯飞与中科大语 音及语 言信息处理国家工程实验室团队在同声传译任务中包揽三个赛道的冠军) 机器口语评测技术( 2008 年中文口语评测首次达到人类专家水平, 2012 年英文口语评测首次达到人类专家水平) 声音定位与检测技术( DCASE 第一名) 机器阅读理解技术( 2021 年, XTREME 中刷新世界纪录) 作文自动评阅技术( 2018 Chinese Grammatical Error Diagnosis 第一名) 语义评测技术( 2019 Math Question Answering 第一名) 知识图谱技术技术( 2022 年 2 月,科大讯飞以第一名的成绩登顶世界顶级人工智能挑战赛 Open Graph Benchmark 2018 IDRiD 眼底图分析竞赛 MA 分割任务 第一名) 图像语义分割( 2017 首次参加国际自动驾驶领域权威评测集 Cityscapes 获得第一 , 2018 及 2021 再获第一名) 手势识别( 2020 The 20BN-Jester Dataset 手势识别评测第一名) 科大讯飞掌握国际先进的智能语音和人工智能技术 2018 年 -2023 年,科大讯飞共夺得61 项国际人工智能大赛冠军20 积分 | 30 页 | 9.26 MB | 1 天前3
AI+大数据助力校园智慧后勤发展(20页-PPT)灯设备、水表设备、空调设备 后勤服务质量监测评估中心 帮助后勤集团对所有乙方单位及需要评测的内 容进行整体评估。中心通过从不同业务评价体 系,不同业务系统中的评测及评测数据进行汇 总、整理,重新、综合打分方式实时对所有服 务项目进行整体监控。 包含但不限于:食堂档口服务质量评测、物业 服务质量评测、员工服务质量评测 后勤学生安全动态评估中心,可以通过对学生在校时 间、在校情况、进入情况及出现位置、社会关系进行10 积分 | 20 页 | 1.92 MB | 1 天前3
大模型技术深度赋能保险行业白皮书151页(2024)旨在为保险行业的智 能化转型提供技术参考和实践建议。 白皮书基于阳光保险的大模型落地实践经验,深入剖析了大模型技术在保险行业的落 地应用路线。我们详细阐述了数据准备、模型精调、工程化适配、模型评测等关键环节的技 术要点和注意事项,为行业同仁提供理论指导和操作建议。除此之外,成功的落地应用需要 保险公司和科技公司紧密合作,共同构建开放、共享、协同的创新生态。这些内容为保险行 业探索大模型技术的应用提供了宝贵的经验和启示。 · · · · · · · 17 3.2 保险垂直领域大模型构建及评测· · · · · · · · · · · · · · · · · · · · 52 3.2.1 保险垂直领域模型构建· · · · · · · · · · · · · · · · · · · · · · · · 52 3.2.2 保险垂直领域大模型评测体系· · · · · · · · · · · · · · · · · · 53 图4 S-Eval评测体系架构图· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 59 图5 S-Eval评测方法示意图· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 60 图6 S-Eval评测层级· · · · · · ·20 积分 | 151 页 | 15.03 MB | 1 天前3
阿里云:2025年阿里云百炼安全白皮书为企业提供开箱即用的 AI 能力,大幅降低了 使用门槛,提升了部署效率,显著提升了业务敏捷性和创新能力。此外,MaaS 提供 了 AI 基础设施层的算力调度、存储管理、网络传输等核心支撑能力,覆盖了模型训练、 评测、部署、推理等全流程服务,从而满足不同行业对服务可用性的差异化需求。 3 公共云和 MaaS 是兼顾性能、效率、安全的 最佳解决方案 23 22 ALIBABA CLOUD MODEL STUDIO 的方向发展。 ● 合规遵循:严格遵循法规和国标,对训练数据执行信息化筛选与过滤,并通过技 术手段构建围栏防护,防止模型被滥用或生成违法不良信息。 ● 安全可靠:全面落实国标要求,执行体系化安全评测;依托红蓝对抗持续提升模 型鲁棒性,确保模型在面对恶意攻击时大模型能够保持正常运行并输出可靠结果。 ● 伦理向善:通过安全训练实现价值观对齐,并在生成内容中主动开展正向引导, 在开放可控的环境中助力生产力提升与价值创造。 视 频、代码等多模态能力,实现跨模态深度语义对齐,显著提升模型在复杂任务中的表 现力和泛化能力;在安全治理方面 , 通义构建了模型全生命周期安全保障体系,涵盖 训练数据采集、模型训练、模型安全评测、服务部署与运行,全面保障模型的“安全、 可靠、可信赖、可用”。 49 48 ALIBABA CLOUD MODEL STUDIO SECURITY WHITE PAPER 安全 可信的20 积分 | 59 页 | 45.36 MB | 1 天前3
AICP-智能客服解决方案(74页PPT)天津联通智能客服项目综合 AI 感知和认知全方面技术,包括语音识别 / 合成、自然语言理解、知识库、用户画像 等 » 》 百度智能客服实施案例 —— 某运营商案 例 智能交互准确率 第三方用户评测对比效果 4 个月上线,赶超竞品,智能交互准确率稳定在 90% 理解能力 用户表述自然度 竞品 分流量上线:依据测试流量, 持续开展模型迭代和数据标 注 • 多样性评测:双方基于功能、 效果和体验分阶段开展评测 和优化 • 持续运营监控:监控产品和 业务运营效果,持续配合上 线过渡期运营 业务 梳理 产品 建设 接口 建设 模型 迭代 数据 标注 系统 部署 产品 评测 运营 监控 通过众多智能客服项目沉淀建设方 法论 产品监控 运营情况监控 存量数据的标注 增量数据的标注 私有化部署方案 代码安全部署方 案 客户核心系统集 成方案 智能多轮对话 智能运营管理平 台 智能知识平台 功能评测内容 效果评测内容 体验评测内容 项 目 产 品20 积分 | 73 页 | 8.46 MB | 1 天前3
智改数转网联(2024-2025年度)政策汇编(2025—2027 年)》的通知》(工信部联企业〔2024〕239 号) .......................................... 76 11.《关于发布中小企业数字化水平评测指标(2024 年版) 的通知》(工信厅企业〔2024〕56 号) ............ 87 二、省级政策 12.《关于印发江苏省深化制造业智能化改造数字化转型 网络化联接三年行动计划(2025-2027 (五)设施联通。整合汇聚网络、平台、算力等各类基础设施 资源,为企业提供优质资源推荐、低成本资源共享和多类型资源 集成应用等服务。针对软件、装备、工艺等检验检测和仿真验证 需求,提供设施共享和产品评测服务。联合运营商等帮助企业部 署 5G、TSN、云计算等新型网络技术,建设组网灵活、接入便捷、 带宽可调、安全可靠的云网融合体系。 (六)数据共享。协同行业企业、研究机构、工业互联网平台、 作用, 强化标准、人才、产融等政策保障,形成转型推进合力。 二、分步组织实施 (一)制定转型规划 企业综合利用两化融合管理体系、数字化转型成熟 度、智能制造成熟度、中小企业数字化水平评测等参考 标准开展评估诊断,系统梳理企业自动化、信息化基础 条件,准确摸清企业数字化发展实际情况,识别转型痛 点需求和应用场景,开展投入产出测算和风险评估,明 确转型目标和方向。结合系统工程(MBSE)方法论编制规20 积分 | 162 页 | 2.99 MB | 1 天前3
共 75 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8
