北大:DeepSeek-R1及类强推理模型开发解读o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal 空间关系、几何模式和物体交互。这些合成数据集提供了可控环境,用于测试模型的视觉推理能力,并且可 以 无限生成训练样本。 文本渲染数据 是通过将文本内容转换为视觉格式创建的,使模型能够在不同模态下保持一致的文本处理能力。 通过将文本文档、代码片段和结构化数据转换为图像,确保模型无论接收的是纯文本输入还是截图或照片中的 文本,都能提供一致的响应。这也有助于增强模型在处理文本 Open Questions: Long-COT 指令数据扩展是否有助于慢思考推理能力? 哪种 Long-COT 数据构造方式具有最佳样本效率? Long-COT 及其扩展是否有助于多模态任务? Takeaways from RedStar [1]: Long-COT 在有限数据下增强推理能力:小规模数据集(如 1.3k 个问题) 可以显著提升推理性能,尤其是在数学任务 中,10 积分 | 76 页 | 6.72 MB | 9 月前3
2024年中国人工智能产业研究报告于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推 目 录 CONTENTS 01 中国大模型产业宏观环境 政策、经济、社会、技术 02 中国大模型产业价值总览 基础层、模型层、应用层 03 中国大模型产业商业进程 语音、视觉、语言及多模态产品 04 中国大模型产业实践案例 典型产品、标杆厂商 05 中国大模型产业发展趋势 产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下,中国人工智能产业 在经济、政策、认知、技术维度的发展环境如何? www.iresearch.com.cn 中国人工智能产业资本环境 语言及多模态赛道目前最受瞩目,同时基础层厂商积极入局 来源:艾瑞咨询研究院自主研究绘制。 从投资轮次的分布情况着眼,战略及股权投资的数量及占比均呈现出显著的上升态势,其中股权投资事件占比高达77.9%。而在应用赛道 的投资分布方面,语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时,以AI芯片、AI算力解决方案、算法架构等为代表的基础0 积分 | 51 页 | 3.35 MB | 9 月前3
2024年中国人工智能产业研究报告于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推 目 录 CONTENTS 01 中国大模型产业宏观环境 政策、经济、社会、技术 02 中国大模型产业价值总览 基础层、模型层、应用层 03 中国大模型产业商业进程 语音、视觉、语言及多模态产品 04 中国大模型产业实践案例 典型产品、标杆厂商 05 中国大模型产业发展趋势 产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下,中国人工智能产业 在经济、政策、认知、技术维度的发展环境如何? www.iresearch.com.cn 中国人工智能产业资本环境 语言及多模态赛道目前最受瞩目,同时基础层厂商积极入局 来源:艾瑞咨询研究院自主研究绘制。 从投资轮次的分布情况着眼,战略及股权投资的数量及占比均呈现出显著的上升态势,其中股权投资事件占比高达77.9%。而在应用赛道 的投资分布方面,语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时,以AI芯片、AI算力解决方案、算法架构等为代表的基础10 积分 | 51 页 | 3.35 MB | 9 月前3
2025年全球感知技术十大趋势预测深度分析报告交互体验则追求更加自然、流畅的感受。 单一传感模式由于其自身的局限性,无法同时兼顾这些需求。 然而,2025 年的感知技术将迎来全新的发展格局。它将在多个前沿领域展现出令人瞩目的突 破。多模态融合技术,将多种传感器的数据进行深度整合,为环境认知提供更丰富、准确的信息; 超低延迟网络技术,能够实现数据的实时传输,为远程控制和实时反馈提供有力支持;3D 空间 计算技术,将构建出逼真的三维空间 ........................................................................................ 2 第一章 多模态感知融合 .............................................................................................. ..................... 36 研究报告 2025 年全球感知技术十大趋势预测 5 第一章 多模态感知融合 Multimodal Perception Fusion 一、 技术详解 多模态感知融合,是一种综合性的技术手段,它旨在利用多种类型的传感器,全面采 集来自环境的多源数据,并通过先进的数据融合算法进行深度整合,从而获得比单一传感10 积分 | 36 页 | 1.01 MB | 9 月前3
2024年汽车AI大模型TOP10分析报告(OpenAI) ERNIE(百度) CPM(智源) GLM(洁华) 2012 2013 2014 2015 2016 2017 2018 2019 2020 2022 2022 2023 跨模态模型 预训练模型 大模型 计 算 机 视 觉 自 然 语 言 处 理 认 知 感 知 来源:大模型驱动的群体智能行业白皮书 产业研究 战略规划 技术咨询 4 大模型参数规模不断增长,推动 �� Code �� Other �� 产业研究 战略规划 技术咨询 9 ���� 问答 理解类 推理类 数学类 创作 表达类 代码类 ���� 问答理解类 常识、专业知识、多语言、多模态、角 色扮演+多轮对话、安全陷阱 推理类 情感推理、演绎推理、逻辑推理、归纳 推理、类比推理 创作表达类 文字创作&创意、内容改写/续写、修改 /润色、文字处理、编辑/语义匹配、摘 要提取、关键、字提炼、标题生成、文 性和可维护性。 参数规模扩展 为确保模型质量和性能,未来的大模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预 训练,尤其在数据量和参数量上将迎来显著跃升。 多模态融合 大模型将逐渐融入图⽚、⾳频、视频等多种模态信息,实现跨模态的交互与理解,从⽽拓 宽其应⽤场景和实⽤价值。 大模型小模型化 在产业应⽤层⾯,结合底层基础大模型和针对特定⾏业的精简数据微调,将训练出更为实 用、更易于产业落地的小型化大模型。10 积分 | 59 页 | 28.41 MB | 9 月前3
MoonFox月狐数据:2025年智能PPT行业市场研究报告各批次AI办公深度合成算法备案占比 其他 AI办公 使用智能PPT的用户在总体办 公人群中的比例 涉及智能PPT的专业大模 型数量 场景深化与垂 直能力升级 无缝嵌入工作流 与决策支撑 基于大模型的多模态内容生成能力,Google、Microsoft、 WPS、百度如流、钉钉、飞书等推出多文档内容生成、 会议转录与摘要、 智能创作、流程安排等功能。 向垂类场景进发落地应用,开拓财务、人力、政务等场景, 完成基础PPT制作,并为专业 化生产提升人效:生成式AI应用依靠AI大语言模型、跨模态理解能力,缩短内容生产时间,通过联网数据和素材库支撑加速PPT设计并 提升可视化效果。 传统PPT生产工作流:流程冗长、执行复杂 现阶段智能PPT生成:简化操作过程、提升可视化质量 联网搜索/素材库 AI大语言模型 跨模态理解能力 6 智能PPT跨越可用阶段,以用户为中心助力向“直觉化”使用跃迁 1 智能PPT内嵌入办公平台、AI助手成为重要功能 文本处理 大纲生成 简化搜索 智能排版 多种PPT生成模式 思维导图等多形式与PPT的转化 多种模板个性化定制 智能图表分析、生成 云 存 储 模板素材库 多轮对话交互 多模态媒体融合 交互协同 端到端生成 数据可靠 数据精准 智能处理 技 术 带 来 的 功 能 与 办 公 流 程 的 演 进 数据来源:2025年6月用户调研(N=1172),极光月狐数据研究院整理。20 积分 | 23 页 | 4.73 MB | 7 月前3
人形机器人生态报告2025-上海财经大学始快速向⼯业、商业、家庭、应急、教育等潜⼒领域拓展。 特征之四,AI ⼤模型对⼈形机器⼈的赋能⽅⾯进展明显。⼤脑、⼩脑和肢体分⼯ 协作体系明确的同时,基于感知-决策-⾏动-反馈的逐步深度融合,多模态⼤模型、强 2 化学习等技术正驱动⼈形机器⼈的智能化⽔平快速提升。 特征之五,具⾝智能体之间的关系开始从单体智能向智能协作、群体智能演进。 从单个机器⼈的遥控,向多台机器⼈乃⾄异构机器⼈之间的⽆⼲预协作⽅向突破,但 感知模块作为具⾝智能的“信息采集和处理器”,通过建⽴对外部环境的感知和理 解,为决策和⾏动提供⽀持。感知模块主要⽤于对象识别、位置定位、场景理解等⽅ ⾯,通过摄像头、激光雷达等多种传感设备的输⼊数据进⾏处理,进⽽从不同模态的 数据中获得多维环境信息。humanoid robots 决策模块作为具⾝智能的“指挥中⼼”,接受环境感知信息后,完成⾼级任务规划和 推理分析,并⽣成决策指令。决策模块主要任务包括任务规划和推理分析,决策模块 成化设计⼤幅降低冗余结构,相同扭矩下重量较传统⽅案更轻,减轻机器⼈肢体负 载。 2.3.4 灵巧⼿ 灵巧⼿是模仿⼈⼿结构与功能的⾼性能末端执⾏器,以⼈类⼿部⻣骼、关节与运 动机理为设计原型,通过多⾃由度驱动、多模态传感与智能控制技术,实现对物体的 抓取、捏取、拧动、装配等精细操作,具备⾼度灵活性和精确控制能⼒,已⼴泛应⽤ 于多领域精细操作场景,是机器⼈与物理环境直接交互的核⼼功能部件。 宇树科技发布的10 积分 | 20 页 | 2.65 MB | 1 月前3
2025年工业大模型白皮书合的结晶,正以前 所未有的速度重构制造业的智能化体系。随着第四次工业革命的推进,工业大 模型凭借其卓越的数据处理能力、出众的跨模态融合特性以及高效的智能决策 效能,日益成为推动工业智改数转的核心驱动力。然而,尚处于初级发展阶段 的工业大模型,仍面临工业数据多模态复杂性、模型可解释性不足以及应用成 本较高等挑战。为此,行业迫切需要系统性的解决方案,以促进工业大模型技 术的有效落地与广泛应用。 1.3.2 基于应用场景的分类体系.............................................................. 15 1.3.3 基于数据模态的分类体系.............................................................. 15 1.3.4 基于功能定位的分类体系........ 大模型与小模型协同...................................................................... 41 2.3.5 MOE 与多模态融合 ........................................................................ 42 2.3.6 AI Agent ..10 积分 | 142 页 | 10.54 MB | 9 月前3
电子行业:AI大模型需要什么样的硬件?-20240621-华泰证券-40页85%。在语言能力之外,AI 大模型的多模 态能力也快速提升。2023 年初,主流闭源大模型通常为纯文本的 LLM。2023 年至今,闭 源模型的多模态能力具有大幅度提升,目前主流闭源大模型通常具备图像理解、图像生成 能力。部分最前沿的闭源大模型,例如 GPT-4o、谷歌 Gemini,支持的模态更加多元,能 够理解文本、图像、音频、视频(帧),并生成文本、图像、音频。2022 年 9 月,红杉资 本预计还需要近十年的时 系统,强化虚 拟助手 Bixby,为用户提供丰富多样的应用服务。据 Techweb,Google 有望在 10 月推出 Pixel9 系列,预计将搭载基于最新 Gemini 模型的 AI 助手,执行复杂的多模态任务。芯片 方面,下半年将发布的骁龙 8Gen4 较上一代产品有望进一步支持 AI 应用。 图表7: AI 手机典型应用及趋势 资料来源:OPPO《AI 手机白皮书》(2024.2),华泰研究 风格扮演 辅导作业 通话摘要:一键从通话到纪要 通话记录 通话纪要 待办生成 便签同步 拍照、擦除、背景还原等 智能圈选 消除 背景生成 趋 势 多模态自然对话 可信、有用、个性化专属 内容生产 自然对话|OS融合的多模态| 语音、文字、图片、文档、视频全能聊| 语音、手势全能控 内容合规|幻觉消除|复杂推理|任务调度| 服务生态支持|人设支持|个性化问答和推荐| 用户专属记忆0 积分 | 40 页 | 2.60 MB | 9 月前3
北京大学-DeepSeek原理和落地应用2025人工智能概念辨析 PART 01 大模型相关术语 l 多模态 Ø 文本、图片、音频、视频 l AI工具(国内) Ø DeepSeek、 豆包、Kimi、腾讯元宝、智谱清言、 通义千问、秘塔搜索、微信搜索... l 通用模型 Ø 大语言模型(LLM,Large Language Model) Ø 视觉模型(图片、视频) Ø 音频模型 Ø 多模态模型 Ø …… l 行业模型(垂直模型、垂类模型) 注意力机制(Attention) •编码器(BERT):多数embedding模型,Ernie早期版本,……. •混合网络:T5、GLM •解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心 •生成式人工智能(GenAI):AIGC •DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、…… •OpenAI GPT(ChatGPT)、 a的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构 大模型的发展阶段 生成模型 ref:中文大模型基准测评2024年度报告(2025.01.08) 推理模型 生成模型与推理大模型的对比 比较项 OpenAI GPT-4o(生成模型) OpenAI o1(推理模型) 模型定位 专注于通用自然语言处理和多模态能力,适合日常对 话、内容生成、翻译以及图文、音频、视频等信息处10 积分 | 57 页 | 9.65 MB | 9 月前3
共 150 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15
