基于大模型的具身智能系统综述基于大模型的具身智能系统综述 王文晟 1 谭 宁 1 黄 凯 1 张雨浓 1 郑伟诗 1 孙富春 2 摘 要 得益于近期具有世界知识的大规模预训练模型的迅速发展, 基于大模型的具身智能在各类任务中取得了良好的 效果, 展现出强大的泛化能力与在各领域内广阔的应用前景. 鉴于此, 对基于大模型的具身智能的工作进行了综述, 首先, 介绍大模型在具身智能系统中起到的感知与理解作用; 介绍大模型在具身智能系统中起到的感知与理解作用; 其次, 对大模型在具身智能中参与的需求级、任务级、规划级和动作 级的控制进行了较为全面的总结; 然后, 对不同具身智能系统架构进行介绍, 并总结了目前具身智能模型的数据来源, 包括 模拟器、模仿学习以及视频学习; 最后, 对基于大语言模型 (Large language model, LLM) 的具身智能系统面临的挑战与发 展方向进行讨论与总结. 关键词 大语言模型 大语言模型, 大型视觉模型, 基础模型, 具身智能, 机器人 引用格式 王文晟, 谭宁, 黄凯, 张雨浓, 郑伟诗, 孙富春. 基于大模型的具身智能系统综述. 自动化学报, 2025, 51(1): 1−19 DOI 10.16383/j.aas.c240542 CSTR 32138.14.j.aas.c240542 Embodied Intelligence Systems20 积分 | 19 页 | 10.74 MB | 1 天前3
从大模型、智能体到复杂AI应用系统的构建(61页 PPT)经历的思考过程。 推理大模型 :通过测试时拓展( Test-Time Scaling ) 、强化学习、蒸 馏 等技术,大模型的推理能力不断增强。 o3 通过模拟推理技术,能够暂停并反思自 身内部的思考过程,从而在回答问题前进 行更深入的推理,类似于人类的思考方式。 推理大模型的发展 Claude3.7 是 首 个混合推理 模 型,集普 通语 言模型 和推理 模型 于一体的 提示工程 (Prompt Engineering) ,让 LLM 以 调研员的角色去规划和拆分任务,使用提供的工具,完成调研过程,生成调研报告。在定义角色 时,会为其注册下面列出的各项工具 工 具 CollectLinks 问题拆解,从搜索引擎进行搜索,并获取 URL 地址列表。该工具基于 LLM 提示工程和搜索引擎 实 现,其功能如下:( 1 )将问题拆分成多个适合搜索的子问题(基于 LLM URL 列表进行排 序 (基于 LLM 提示工程) 工 具 WebBrowseAndSummarize 浏览网页并总结网页内容。由两个工具组成:浏览网页和总结网络内容。( 1 )浏览网页是通过封 装的 WebBrowserEngine 工具访问搜索引擎实现的 ; ( 2 )总结搜索结果是通过 LLM 提示工程实 现。 工 具 ConductResearch 生成调研报告。基于 LLM20 积分 | 61 页 | 13.10 MB | 1 天前3
大模型技术深度赋能保险行业白皮书151页(2024)据在获取难度、规模限制及多样性不足 等方面的挑战,更为开发出更加健壮、可靠且公平的大模型奠定了坚实基础。具体而言,合 成数据尤其适用于那些数据稀缺或难以直接获取的特定领域。此外,合成数据还能根据具 体需求进行定制化设计,如确保不同类别数据的平衡表示,进一步提升模型的泛化能力。 同时,合成数据还有助于缓解数据隐私保护的压力,通过创建匿名化或去标识化的数据 集,为数据的安全共享与高效利用提供了保障。 、机器人、车机等设备。与传统的云 端大模型相比,端侧大模型的参数量更小,因此可以在设备端直接使用端侧算力进行运行, 无需依赖云端算力。端侧大模型在成本、能耗、可靠性、隐私和个性化方面相比云端推理具 有显著优势,并能够以低能耗提供高效且安全的AI处理,减少延迟并保护用户隐私,适合 个性化的AI应用。 2024年大模型端侧算力的发展呈现出强劲的增长势头,这主要得益于技术进步、市场 需求增长 示学习方面。这些模型不仅提高了任 务的性能,还增强了模型的泛化能力,使其能够更好地理解和生成复杂的数据模式。 今年5月,OpenAI在其春季发布会上推出了他们的最新旗舰模型:GPT-4o,该模型具 备强大的多模态实时交互能力。其对音频输入的响应时间最短为0.232秒,平均为0.32秒, 智能化、高效化PC的需求。在产业链方面,AI PC的兴起对芯片厂商构成利好,推动其技术 创新与产品迭代。例如,高通、微软推出的基于骁龙X20 积分 | 151 页 | 15.03 MB | 1 天前3
抢滩接入Deepseek,教育行业迈入AI深度整合新阶段多模型内容,从而形成启发式引导思考的能力。 2、布局硬件+软件,以DeepSeek深度思考模式弥补传统教育硬件“重答案轻思 维”的短板,并开发新AI学习应用,集成自研讲解视频与高频AI学习工具,放大自 身专业内容积累和大模型技术优势。此外,学而思表示还在探索DeepSeek在公司 内部业务场景的应用,如推动客服家教沟通、视频脚本制作等场景的降本提效。 通过引入DeepSeek进行“硬件+软件+内容+运营”的多维智能升级,学而思有望10 积分 | 6 页 | 1.23 MB | 1 天前3
DeepSeek在金融银行的应用方案适 应金融行业的多样化需求。 2.1 深度学习与机器学习 深度学习(Deep Learning)和机器学习(Machine Learning)作为人工智能领域的核心技术,在金融银行的应用中具 有广泛的实用价值。机器学习通过从大量数据中提取模式并建立预 测模型,能够帮助银行优化业务流程、提升风险管理能力以及增强 客户体验。而深度学习作为机器学习的一个重要分支,通过构建多 层神经网络 低成本 的关键手段。通过部署 DeepSeek 的智能自动化解决方案,银行可 以显著减少人工干预,提高业务流程的准确性和一致性。首先,在 客户开户和账户管理流程中,深度学习算法能够自动验证客户身 份、审核文件,并生成标准化报告,从而大幅缩短处理时间。例 如,某银行通过引入自动化系统,将开户时间从原来的 30 分钟缩 短至 5 分钟,客户满意度提升了 20%。 其次,DeepSeek 的技术可以应用于贷款审批流程。通过自动 程,确保每个版本的代码和配置均经过充分测试和验证。 系统监控是保障金融银行系统稳定运行的关键环节。部署完成 后,需立即启用全面的监控机制,包括但不限于服务器性能监控、 应用运行状态监控、数据库监控、网络流量监控等。监控工具应具 备实时告警功能,能够在异常发生时及时通知运维团队。此外,监 控数据应存储并定期分析,以便发现潜在的系统瓶颈或性能问题, 并提前采取措施进行优化。 为了提升监控的效率和准确性,可以采用以下措施:10 积分 | 154 页 | 527.57 KB | 5 月前3
AIGC生成式AI大模型医疗场景应用可行性研究报告(152页 WROD)Transformer 结构,具备处理和理解自然语言、图像、声音等多模 态数据的能力。 生成式大模型具有几个显著特点。首先,这些模型能够进行自 我学习和自我优化。通过不断处理新的数据,模型能够逐渐提升自 身的生成能力和准确性。例如,在医疗场景中,模型可以分析大量 的病例数据,学习如何识别疾病特征,进而生成相应的医疗建议或 治疗方案。 其次,AI 生成式大模型具备高度的灵活性和适应性。无论是在 文 生成式大模型的发展格局展示了多样化的主流 算法,各具特点且适用于不同的应用场景。这些算法的进步推动了 医疗领域的创新应用,为医疗数据的处理、分析和生成提供了强大 的技术支撑。同时,在选择特定算法应用于医疗场景时,应根据具 体需求、数据类型和生成目标进行综合考量,以实现最佳效果。 算法类别 主要特点 适用场景 Transforme r 自注意力机制,长文本处理能力强 自然语言处理、对话系统、医疗 文本生成 疗领域的复杂问题提供新的思路和方案,同时推动个性化医疗和精 准医疗的发展。 2.2.2 应用案例 在当前医疗领域,AI 生成式大模型的应用案例逐渐增多,涵盖 了诊断、治疗、个性化医疗、患者管理等多个方面。以下是一些具 体的应用案例,通过展示其实际操作和成效,可以更好地理解 AI 生成式大模型在医疗场景中的潜力。 首先,在医学图像分析方面,AI 生成式大模型被用于处理和解 读医学影像,如 X 光片、CT 和60 积分 | 159 页 | 212.70 KB | 4 月前3
DeepSeek消费电子行业大模型新型应用最佳实践分享> 目标客户和场景 : • 面向具备简单开发能力的初级开发者、企 业运营人员。 • 可通过模型选择、提示词模版、 RAG 配 置能 力等加速大模型应用构建,实现与自 身业 务系统的无缝对接。 接入搜狗搜索增强 API ,一键开关,即可让 DeepSeek 实时 获取 互联网最新资讯,提升时效性和回答准确度 腾讯云大模型应用开发平台“知识引擎” —— 免部署,分钟级搭建应用10 积分 | 28 页 | 5.00 MB | 5 月前3
AI大模型人工智能行业大模型SaaS平台设计方案易用性:用户希望平台操作简单,能够快速上手,降低学习成 本。 2. 灵活性:用户希望平台能够灵活配置,支持多种使用场景与业 务需求。 3. 性能:用户需要能够处理大规模数据并快速响应,他们期望具 备高性能的处理能力。 4. 集成性:用户需要平台能够与现有系统无缝集成,方便数据传 输与资源共享。 接下来,在功能模块的设计上,我们可以将 SaaS 平台的核心 功能划分为以下几个主要模块: 为了确保模型的准确性和输出质量,平台将引入持续学习与优 化机制,定期进行模型的评估与更新。通过收集用户反馈与使用数 据,不断优化模型性能,使其适应实际应用中的变化。 同时,安全性将是我们平台设计的重中之重。将采用基础的身 份验证机制、权限管理以及数据加密技术,确保用户数据的安全和 隐私保护。此外,为了遵守相关法律法规,平台将建立合规机制, 及时更新处理政策与流程。 最后,我们将在平台的运营模式上考虑定价策略,提供灵活的 强大的加密技术, 实施数据访问控制和审计机制,从而增强用户对平台的信任。 其次,考虑到各行业对大模型的独特需求,可以探索行业特定 的模型定制化服务。通过建立模块化的模型架构,用户可以根据自 身需求,对默认模型进行优化和调整,以提高模型在特定任务中的 表现。这种定制服务可以涵盖多个行业,如医疗、金融、制造等, 助力其在各自领域的成功应用。 同时,提升模型的可解释性也是一个值得关注的研究方向。在50 积分 | 177 页 | 391.26 KB | 5 月前3
智慧地铁城市轨道交通行业AI大模型应用设计方案Forest)和局部离群因子(LOF)等,自动识别 数据中的异常点。这些方法通过学习数据的整体结构,来判断 哪些点是离群的,并能够处理高维特征的数据。 在实施异常值检测时,不仅需要关注 abnormal points 本 身,还要考虑其潜在原因,确保标记为异常值的数据是否真的有问 题。例如,城市轨道交通中的传感器数据可能由于设备故障而产生 不合理的读数,但在某些情况下,这些读数也可能反映了系统的真 实状态,因此需要与业务逻辑结合进行分析。 将数 据分为训练集、验证集和测试集。训练集用来训练模型,验证集用 于调优模型参数,测试集则用于评估模型的最终性能。一般推荐的 划分比例为:训练集 70%,验证集 15%,测试集 15%。当然,具 体比例可以依据数据的量与特性进行适当调整。 在进行数据划分时,应确保每个子集中的样本能够代表总体数 据的特征,避免因样本偏差导致模型性能下降。此外,针对时间序 列数据(如城市轨道交通的客流量数据),应保持时间的顺序性, 常见的数据来源包括历史运营数据、传感器数据、监控视频等。在 数据预处理过程中,需对数据进行清洗、去重、填补缺失值以及进 行标准化处理。 第三步是选择适合的 AI 技术和模型架构。根据应用场景的具 体需求,可以考虑使用深度学习、机器学习或自然语言处理等技 术。模型选择的标准应包括预测准确性、计算效率和可扩展性。此 阶段可以进行小范围的试点实验,以评估不同模型的有效性。 完成模型选择后,进行模型的训练与优化。使用预处理后的数40 积分 | 154 页 | 284.34 KB | 5 月前3
2025年以计算加速迈进智能化未来-IDC新一代云基础设施实践报告70 余家合作伙伴提供技术服 务。ZOLOZ RealId 产品采用深度学习模型提供实人认证、人脸识别、证件核验等组合能力,帮助客 户解决数字化渠道下实人认证相关的体验和安全问题,应用于金融业务核身、人证核验、人脸登录等 多种场景。 业务痛点: 让金融机构能够快速构建专属的智能体,以“数字员工”的身份处理客户咨询、执行交易、分析报告、 管理风险: 性能瓶颈: 复杂的金融问答、海量报告的10 积分 | 27 页 | 5.31 MB | 3 月前3
共 25 条
- 1
- 2
- 3
