北大:DeepSeek-R1及类强推理模型开发解读o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal 空间关系、几何模式和物体交互。这些合成数据集提供了可控环境,用于测试模型的视觉推理能力,并且可 以 无限生成训练样本。 文本渲染数据 是通过将文本内容转换为视觉格式创建的,使模型能够在不同模态下保持一致的文本处理能力。 通过将文本文档、代码片段和结构化数据转换为图像,确保模型无论接收的是纯文本输入还是截图或照片中的 文本,都能提供一致的响应。这也有助于增强模型在处理文本 Open Questions: Long-COT 指令数据扩展是否有助于慢思考推理能力? 哪种 Long-COT 数据构造方式具有最佳样本效率? Long-COT 及其扩展是否有助于多模态任务? Takeaways from RedStar [1]: Long-COT 在有限数据下增强推理能力:小规模数据集(如 1.3k 个问题) 可以显著提升推理性能,尤其是在数学任务 中,10 积分 | 76 页 | 6.72 MB | 9 月前3
2024年中国人工智能产业研究报告于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推 目 录 CONTENTS 01 中国大模型产业宏观环境 政策、经济、社会、技术 02 中国大模型产业价值总览 基础层、模型层、应用层 03 中国大模型产业商业进程 语音、视觉、语言及多模态产品 04 中国大模型产业实践案例 典型产品、标杆厂商 05 中国大模型产业发展趋势 产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下,中国人工智能产业 在经济、政策、认知、技术维度的发展环境如何? www.iresearch.com.cn 中国人工智能产业资本环境 语言及多模态赛道目前最受瞩目,同时基础层厂商积极入局 来源:艾瑞咨询研究院自主研究绘制。 从投资轮次的分布情况着眼,战略及股权投资的数量及占比均呈现出显著的上升态势,其中股权投资事件占比高达77.9%。而在应用赛道 的投资分布方面,语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时,以AI芯片、AI算力解决方案、算法架构等为代表的基础0 积分 | 51 页 | 3.35 MB | 9 月前3
2024年中国人工智能产业研究报告于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推 目 录 CONTENTS 01 中国大模型产业宏观环境 政策、经济、社会、技术 02 中国大模型产业价值总览 基础层、模型层、应用层 03 中国大模型产业商业进程 语音、视觉、语言及多模态产品 04 中国大模型产业实践案例 典型产品、标杆厂商 05 中国大模型产业发展趋势 产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下,中国人工智能产业 在经济、政策、认知、技术维度的发展环境如何? www.iresearch.com.cn 中国人工智能产业资本环境 语言及多模态赛道目前最受瞩目,同时基础层厂商积极入局 来源:艾瑞咨询研究院自主研究绘制。 从投资轮次的分布情况着眼,战略及股权投资的数量及占比均呈现出显著的上升态势,其中股权投资事件占比高达77.9%。而在应用赛道 的投资分布方面,语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时,以AI芯片、AI算力解决方案、算法架构等为代表的基础10 积分 | 51 页 | 3.35 MB | 9 月前3
人形机器人生态报告2025-上海财经大学始快速向⼯业、商业、家庭、应急、教育等潜⼒领域拓展。 特征之四,AI ⼤模型对⼈形机器⼈的赋能⽅⾯进展明显。⼤脑、⼩脑和肢体分⼯ 协作体系明确的同时,基于感知-决策-⾏动-反馈的逐步深度融合,多模态⼤模型、强 2 化学习等技术正驱动⼈形机器⼈的智能化⽔平快速提升。 特征之五,具⾝智能体之间的关系开始从单体智能向智能协作、群体智能演进。 从单个机器⼈的遥控,向多台机器⼈乃⾄异构机器⼈之间的⽆⼲预协作⽅向突破,但 感知模块作为具⾝智能的“信息采集和处理器”,通过建⽴对外部环境的感知和理 解,为决策和⾏动提供⽀持。感知模块主要⽤于对象识别、位置定位、场景理解等⽅ ⾯,通过摄像头、激光雷达等多种传感设备的输⼊数据进⾏处理,进⽽从不同模态的 数据中获得多维环境信息。humanoid robots 决策模块作为具⾝智能的“指挥中⼼”,接受环境感知信息后,完成⾼级任务规划和 推理分析,并⽣成决策指令。决策模块主要任务包括任务规划和推理分析,决策模块 成化设计⼤幅降低冗余结构,相同扭矩下重量较传统⽅案更轻,减轻机器⼈肢体负 载。 2.3.4 灵巧⼿ 灵巧⼿是模仿⼈⼿结构与功能的⾼性能末端执⾏器,以⼈类⼿部⻣骼、关节与运 动机理为设计原型,通过多⾃由度驱动、多模态传感与智能控制技术,实现对物体的 抓取、捏取、拧动、装配等精细操作,具备⾼度灵活性和精确控制能⼒,已⼴泛应⽤ 于多领域精细操作场景,是机器⼈与物理环境直接交互的核⼼功能部件。 宇树科技发布的10 积分 | 20 页 | 2.65 MB | 1 月前3
北京大学-DeepSeek原理和落地应用2025人工智能概念辨析 PART 01 大模型相关术语 l 多模态 Ø 文本、图片、音频、视频 l AI工具(国内) Ø DeepSeek、 豆包、Kimi、腾讯元宝、智谱清言、 通义千问、秘塔搜索、微信搜索... l 通用模型 Ø 大语言模型(LLM,Large Language Model) Ø 视觉模型(图片、视频) Ø 音频模型 Ø 多模态模型 Ø …… l 行业模型(垂直模型、垂类模型) 注意力机制(Attention) •编码器(BERT):多数embedding模型,Ernie早期版本,……. •混合网络:T5、GLM •解码器(GPT):大语言模型(LLM),也是传统的多模态模型的核心 •生成式人工智能(GenAI):AIGC •DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、…… •OpenAI GPT(ChatGPT)、 a的DiT(加入Diffusion的视觉模型),部分新的多模态模型架构 大模型的发展阶段 生成模型 ref:中文大模型基准测评2024年度报告(2025.01.08) 推理模型 生成模型与推理大模型的对比 比较项 OpenAI GPT-4o(生成模型) OpenAI o1(推理模型) 模型定位 专注于通用自然语言处理和多模态能力,适合日常对 话、内容生成、翻译以及图文、音频、视频等信息处10 积分 | 57 页 | 9.65 MB | 9 月前3
生成式AI爆发:医疗人工智能走到新的十字路口-蛋壳研究院...................................................................................55 5.1 深睿医疗:自研多模态 AI 引擎,数智化助力医院数据资产管理........................ 56 5.2 医渡科技:“双中台”助力全线产品升级,盈利能力大幅提升................... 年新发布医疗大模型应用场景分析.......................................................... 52 图表 42 深睿医疗 DeepwiseTrioData 多模态医疗大数据平台架构.........................56 图表 43 医渡科技“大数据+大模型”双中台解决方案................................... 年)》提出的“2022 年农村适龄妇 女两癌筛查覆盖率要达到 80%,到 2030 年达到 90%”的防治目标,并将 AI 技术带到基 层百姓身边,同时完成自身的商业化落地。 此外,医准智能还基于多模态数据打造的超声医学大模型,推出 YiZhun UltraGPT。以 医疗 AI 大模型在超声影像中的应用,赋能超声影像智能化升级,更快速、更多维度地 拓展动态实时超声 AI 应用场景,提升诊断和治疗效率,助力多病种研究,助力超声设10 积分 | 69 页 | 13.45 MB | 9 月前3
2025具身机器人行业未来展望报告包括一个带有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架构, 可提供每秒 800 万亿次8位浮点运算 AI 性能,以运行 GR00T 等多模态生成式 AI 模型。凭借 集成的功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽,大大简化了设计和集成工 作。 Jetson Thor 波士顿动力 Atlas使用Jetson Thor 具身智能的算法方案分为分层决策模型和端到端模型两种路线。 分层决策模型 端到端模型 以「Figure 01」为代表,将任务分解成不同层级,以多个神经网 络训练,再以流程管线的方式组合。Figure 01顶层接入OpenAI的 多模态大模型,提供视觉推理和语言理解;中间层神经网络策略 作为小脑进行运动控制并生成动作指令;底层机器人本体接受神 经网络策略的动作指令,进行控制执行。分层决策模型的缺点是: 不同步骤间的对齐和一致性需解决。 过像素重排后生成64个图像token嵌入。这些嵌 入与文本嵌入结合,形成一个丰富的多模态表示。 特征提取:通过对图像和文本的共同编码,模型能够提取出具有高度相关性的特征。在策略训练过程中,任务的文本描述和可能的多张图像 会以对话格式传递给VLM,从而获得形状为(批量大小 × 序列长度 × 隐藏维度)的多模态特征。 英伟达通用机器人大模型 GR00T N1 04 23 资料来源:英伟达官网、CSDN,浙商证券产业研究院0 积分 | 31 页 | 3.33 MB | 8 月前3
2025年DeepSeek手册:DeepSeek给我们带来的创业机会从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 从擅长理解的认知型AI,发展到擅长文字生成的生成式AI 从语言生成式AI,发展到可理解和生成声音、图片、视频的多模态AI 从生成式AI,发展到推理型AI 专家系统 感知AI 认知AI 生成式AI 多模态AI 推理式AI 9 政企、创业者必读 人工智能发展历程(二) 从单纯对话的大模型AI,发展到具有行动和执行能力的智能体AI 从数字空 国外:GPT-4等效智能在过去18个月内价格下降240倍 国内:大模型「亏本」卖,可以「白嫖」大模型API能力 19 政企、创业者必读 DeepSeek出现之前的十大预判 之七 多模态越来越重要 由文本生成迈向图像、视频、3D内容与世界模拟 多模态模态在能力变强的同时,规模正在变小 20 政企、创业者必读 21 DeepSeek出现之前的十大预判 之八 智能体推动大模型快速落地 能够调用各种工具,具有行动能力 外部情报分析、 大数据分析、 工作流知识) 专家经验模型( 专业模型训练) 业务流程自动化( A g e n t框架) 组织协同( 工作流) 人机交互 赋能个人和 企业员工 生产力提升 多模态 能力 3 图片理解和处理 视频理解和处理 音频理解和处理 非结构化文档处理 47 政企、创业者必读 DeepSeek能力很强大 个人使用绰绰有余 但要在政府、企业应用需要和场景结合 10 积分 | 76 页 | 5.02 MB | 9 月前3
人形机器人标准化白皮书(2024版).........................................................................................36 2.2.3 多模态感知与场景理解............................................................................................ 人形机器人由大脑、小脑、机械臂、灵巧手、腿足、一体化关节 等关键部分组成,集成实现对环境的感知交互、运动控制、任务执行 等功能,涉及整机、传感器、执行器、控制器和动力能源等关键部组 件,本白皮书将从机械本体与核心部件、动力系统、多模态感知与场 景理解、自主任务规划与决策、运动规划与控制、移动操作与人机交 互、大模型训练系统、仿真训练系统、操作系统等维度分析人形机器 人的关键技术研究现状和发展趋势,并从中识别标准化需求。人形机 指)和 5 指,按照主动 自由度分为小于 6 自由度、6-12 自由度以及 12 自由度以上。灵巧手能 够执行精细的操作任务,如抓取、搬运、操作工具等,通过集成各种 传感器,具备触觉、视觉等多模态感知能力,能够实时感知环境变化 和操作对象的状态。当前灵巧手的技术方案尚未完全收敛,在传动方 式和传感器方案上尚未有统一意见,连杆具有大负载、高精度和低成 本的优势,但在灵活性上不及腱绳,齿轮方式受限于加工精度和空间0 积分 | 93 页 | 3.74 MB | 8 月前3
2025食品饮料行业AI转型白皮书-甲子光年-82页从田 间到餐桌的全产业链条,为行业打开效率跃迁与价值重塑的想 象空间。以大语言模型为代表的生成式AI技术取得了突破性进 展,从最初简单的文本生成,到如今能够生成高质量的图像、 音频、视频等多模态内容,其应用范围不断拓展,潜力也愈发 凸显。如何借助AI技术实现转型升级,已成为食品饮料行业发 展的关键命题。 本白皮书旨在为食品饮料行业的AI转型提供一份前沿的、真实 的、本土化的落地指南。我们深知,在AI转型的道路上,企业 行业及AI技术洞察 创新·变化·多元,AI奇点为食品饮 料行业带来更多想象空间 各模态独立发展阶段 多模态融合阶段 物理世界模型阶段 转型案例 全场景、全链路的价值跃迁, AI驱动行业升级再造 实操问题难以解决 奶牛养殖往往依靠专业知识及实操 经验,通识概念无法完全解决实际10 积分 | 82 页 | 17.71 MB | 9 月前3
共 25 条
- 1
- 2
- 3
