北大:DeepSeek-R1及类强推理模型开发解读技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: 和 Train-Time Scaling 提升模型的推理能力? 得益于纯大规模强化学习 , DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; Laws [1] 。 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero 8 大规模推理为中心的强化学习,提升模型数学代码能力 RL 驱动下自然涌现长文本推理能力10 积分 | 76 页 | 6.72 MB | 5 月前3
信通院:“机器人+人工智能”工业应用研究报告2025的显著优势,“机器人+人工智能”正在汽车制造、电子信息、金属 材料等关键行业加速落地,展现出广阔的应用前景。 本报告中的“机器人+人工智能”指的是建模优化、机器视觉、 语音交互、机器学习、深度学习等人工智能技术应用于机器人上的智 能体。其工业应用包括两个层次,一是嵌入各类智能软硬件的机器人 产品在生产操作、物流配送等典型工业场景中的应用,二是智能化的 工业控制平台通过集成人工智能技术与工业机器人等设备,在产线优 8 三、“机器人+人工智能”在工业领域的应用 ................. 10 (一)应用场景:从生产操作向其他高附加值场景拓展 ..... 10 1、生产操作:从操作精度提升到自适应学习 .............. 11 2、物流配送:“识别+导航”模型组合适用于封闭生产场景 . 12 3、质量管理:机器视觉检测大量取代人工检测 ............ 12 4、安全管理:在部分重化工业存在一定需求 年,这一市场规模将突破 70 亿元大关。与此同时,2024 年,诺 贝尔物理学奖颁给了 John J. Hopfield 和 Geoffrey E. Hinton,以 表彰利用人工神经网络进行机器学习的基础发现和发明。对于机器人 产业来说,物理智能将使机器人能够理解 3D 世界的空间关系和物理 行为,赋予机器人更强的环境感知、理解和交互能力,实现更广泛的 功能应用,如宇树科技的机器人实现了原地侧空翻、复杂舞蹈动作、0 积分 | 37 页 | 2.06 MB | 5 月前3
2025具身机器人行业未来展望报告感觉与运动:处理视觉、听觉、触觉等信息、并控 制自主运动 小脑 位于大脑后下方, 紧贴脑干后方, 形似蝴蝶。 运动协调:调节肌肉张力、协调精细动作(如鞋子、 弹琴) 平衡与姿势:帮助维持圣体平衡与空间定位 学习辅助:参与运动技能学习 脑干 连接大脑与脊髓, 由 中脑、桥脑、 延髓 三部分组成。 生命维持:控制呼吸、心跳、血压灯基本生命活动 信息中转:船体大脑与脊髓之间的感觉和运动型号 反射控制:管理咳嗽、吞咽、瞳孔反射灯原始反应 目前为机器人中央控制器担任此角色, 但目前并未获得相应能力。后续可能 在此基础上进一步增加硬件及算力 小脑 运动协调:调节肌肉张力、协调精细动作(如穿鞋子、弹 琴等) 平衡与姿势:帮助维持身体平衡与空间定位 学习辅助:参与运动技能学习 动作学习模仿、复杂动作控制 等 机器人中央控制器,即现有的机器人 “大脑” 脑干 生命维持:控制呼吸、心跳、血压灯基本生命活动 信息中转:传递大脑与脊髓之间的感觉和运动信号 反射控制:管理咳嗽、吞咽、瞳孔反射灯原始反应 机器人各传感器,执行器,线束,网 关 人脑结构与机器人大脑对应关系 01 8 资料来源:浙商证券产业研究院 人脑的小脑在机器人中对应的主要是动作学习模仿训练以及复杂动作的控制。而在机器人行业中,目前通常被称为机器人“大脑”,这主要 是因为相对于工业机器人,具有“大脑”的人形机器人对复杂运动的学习掌握能力明显增强,比如近期宇树、众擎、波士顿动力等公司在视 频中展示的人形机器人执行舞蹈,空翻高难度动作。至于对应人脑中的0 积分 | 31 页 | 3.33 MB | 4 月前3
国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代端到端的定义:基于数据驱动的深度学习 在广义语境中,端到端是一种研发范式,指在一个任务中,从输入端到输出端,中间不经过任何其他处理环节,由 一个模型完整实现输入到输出的全过程。在智能驾驶领域,端到端架构是指车辆将传感器采集的信息直接输入统 一的深度学习神经网络,经过处理后直接输出驾驶命令。深度神经网络赋予端到端模型强大的学习能力,使其能 从大量驾驶数据中自动学习复杂的驾驶模式和场景特征。 代效率,有效降低了维护成本。 请务必阅读正文之后的免责条款部分 图2:端到端技术演进 资料来源:辰韬资本,Ai fighting,国元证券研究所 5 从模块化方案向一体化端到端模型过渡 端到端架构的本质是深度学习的全面使用与数据驱动。根据感知模块与决策模块之间的贯通程度,可分为模块化 端到端与一体化端到端。 模块化端到端将感知模块和决策规划模块视为两个独立部分,分别使用神经网络,但模块之间仍存在人工设计的 尝试,标志着自动驾驶从模块化向一体化迈进的起点。 2017年:Wayve.AI成立并发布“Learning to Drive in a Day”。Wayve.AI采用强化学习结合深度学习的方法,仅用 一天时间训练即可应对复杂城市驾驶场景,展示了端到端技 术在快速学习和适应能力上的潜力。 2017 年 : Comma.ai 推 出 OpenPilot 。 Comma.ai 发 布 了 OpenPilot软件,最初为L2级辅助驾驶系统,后逐步转向端10 积分 | 95 页 | 6.54 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” 基于DS-v3构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI技术演变路线 5 理解Chatgpt,J⼀个AI领域的“⼯程奇迹” Chatbot: ⽂本交互式应⽤ Gpt3: 预训练⼤模型 Prompt engineering 提⽰词⼯程 RLHF 强化学习 Nvidia A100(A800) ⾼性能卡 SFT 监督微调 RDMA 传统模型需要⽤32位或者16位数记录数字 • “⼿机号码,记最后4位” • 提升训练速度同时保持精度,降低硬件门槛 FPBn混合精度训练 • 从海量数据中提炼⾼价值信息,提升模型 学习效率 • 蒸馏垂类⼩模型能⼒,不输于全尺⼨模型 数据蒸馏技术 • ⼤道⾄简,⽤强化学习跳出题海和⼩测 让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳,成本极致压缩 8 为什么⼈⼈都爱DeepSeek? 成本优势 电⼦病历和数据管理⾰新 ⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通 数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理(DRG/DIP) Ds推理思考能⼒以及医保控费压⼒ 医院 • 学习/培训模式发⽣改变 • 医⽣临床决策影响模式发⽣改变 • 科研与学术⽅式和效率 医⽣ • 数据驱动的精细化监管:⽐如药占⽐/集采 vs&药品经济学 • 数据安全和合规重构 • 多元⽀付体系(商业参与度更强)10 积分 | 32 页 | 14.20 MB | 5 月前3
2024年中国人工智能产业研究报告众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期: le发布BERT大模型; • 之后GPT模型持续演进,2022年11月,GPT3.5的ChatGPT面世,引爆互联网,大 模型时代随之到来。 2014年,GAN(对抗式生 成网络)诞生,深度学习进 入了生成模型研究的新阶段。 里程碑事件:2006年深度神 经 网 络 引 入 ; 2012 年 AlexNet ImageNet图像识别 大赛让图像领域飞跃式发展 CNN与RNN架构 2015年,扩散概率模型的基本概念与整体 框架被提出,2020-2021年,Diffusion Model在图像生成领域得到广泛应用。 Diffusion架构 Diffusion Model是一种基于概率生成的深度学习模型,通过模拟 数据从有序到无序再到有序的过程,实现从噪声中生成高质量数据 样本,应用于图像生成、图像修复、图像转换、视频生成等方向。 2022年-2024年,在大语言模型之外,Transfo0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期: le发布BERT大模型; • 之后GPT模型持续演进,2022年11月,GPT3.5的ChatGPT面世,引爆互联网,大 模型时代随之到来。 2014年,GAN(对抗式生 成网络)诞生,深度学习进 入了生成模型研究的新阶段。 里程碑事件:2006年深度神 经 网 络 引 入 ; 2012 年 AlexNet ImageNet图像识别 大赛让图像领域飞跃式发展 CNN与RNN架构 2015年,扩散概率模型的基本概念与整体 框架被提出,2020-2021年,Diffusion Model在图像生成领域得到广泛应用。 Diffusion架构 Diffusion Model是一种基于概率生成的深度学习模型,通过模拟 数据从有序到无序再到有序的过程,实现从噪声中生成高质量数据 样本,应用于图像生成、图像修复、图像转换、视频生成等方向。 2022年-2024年,在大语言模型之外,Transfo10 积分 | 51 页 | 3.35 MB | 6 月前3
UMU:2025年AI赋能企业变革-人才先行白皮书AI 思维和应用能力的复合型人才,我们 必须重新思考大模型时代对人才的能力要求。这种转变既反映了 AI 应用的深化,也体现了企业对人才能力的新要求。 在 AI 人才短缺的困境中,高管普遍低估了员工学习和接纳 AI 的意 愿。这一认知偏差不仅限制了企业对现有人才的培养投入,也阻碍了 AI 在企业内部的推广和应用。 无论是处于 AI 探索阶段还是已经开展 AI 应用的企业,最突出的痛点 是组织缺乏 在零售行业的应用 02 08 09 09 企业 AI 应用落地核心挑战:认知偏差与人才短缺 3.1 企业普遍缺乏对 Al 的专业认知和技能 3.2 AI 人才短缺 3.3 高管低估了员工学习和接纳 AI 的意愿 03 12 13 15 人才是变革的关键 4.1 引入大模型≠提升生产力 04 16 4.2 AI 力的诊断和测评 17 4.3 发展大模型时代的 AI 力 18 分析简历、行为数据和社交网络信息,评估候选人的潜在能力和职业适应性 AI 在人力资源领域的应用 2.1.4 个性化培训计划:提高培训针对性,激发员工学习积极性 分析员工的岗位需求、技能水平、绩效数据和职业发展规划,制定个性化的培训计划 推荐最适合的培训课程和学习资源,实时跟踪学习进度,提供反馈和建议,提高培 训的针对性和效果 人才预测与保留:预测人才流失风险,优化员工职业发展路径 分析员工的行为数据、绩效10 积分 | 24 页 | 34.62 MB | 5 月前3
北京金融科技产业联盟:2025年数字孪生技术金融应用研究报告子、达索等世界知名的工业软件公司开始在各自擅长的工业 领域提出数字孪生的衍生概念与应用方案。 2015 年,国内航空工业领域吸收并应用了数字孪生概 念,通过集成各类传感器采集的数据,使用机器学习等人工 智能算法,建立可实时更新的“拟真”模型,以支撑各类航 空工业产品的生命周期内的各项活动。 数字孪生是集成了多物理量、多尺度、多概率的系统, 经过最初在航空航天领域的应用,逐渐扩展到电力、城市管 拟实体上进行各类运算,从而对实际物理实体的运行决策进 行支撑。 数据层:包含支撑服务层各类服务的各类数据,包括从 物理实体各处采集和监测的数据,以及对数据中间集和物理 实体历史数据仿真的生成孪生数据。同时,数据层能够运用 机器学习,大模型技术等 AI 技术对数据集进行各类预测及 模拟生成,对数据进行虚拟化,实现数据智能孪生。 算力层:支撑以上各层服务的算力基础设施层,包括云 计算、容器化、云原生等技术,通用计算、智能计算、存储、 孪生模型、保证数字孪生模型与对应物理实体实现有效闭环 的核心技术之一。 3.数据孪生技术 数据孪生作为金融领域数字孪生底层的关键技术,该技 术通过机器学习模型对一组业务数据的分布进行学习,从中 找到相应规律,进而生成与之相类似的数据,实现业务数据 的仿真模拟。为实现数据的高质量仿真,需要使用机器学习 领域的生成式模型,主流的生成模型包括生成式对抗网络 ( Generative adversarial net , GAN10 积分 | 53 页 | 2.07 MB | 5 月前3
北京大学-DeepSeek原理和落地应用2025AI肖睿团队 (孙萍、吴寒、周嵘、李娜、张惠军、刘誉) 2025年03月01日 厦门大学大数据百家讲坛 • 北大青鸟人工智能研究院 • 北大计算机学院元宇宙技术研究所 • 北大教育学院学习科学实验室 7 人工智能概念辨析 DeepSeek R1 大模型原理 落地应用 目 录 C O N T E N T S 人工智能概念辨析 PART 01 大模型相关术语 l 多模态 •运算推理:规则核心;自动化 •知识工程:知识核心;知识库+推理机 •机器学习:学习核心;数据智能(统计学习方法,数据建模) •常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,….. •人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样 •传统神经网络:霍普菲尔德网络,玻尔兹曼机,….. •深度神经网络:深度学习 •传统网络架构:DBN,CNN,RNN,ResNet,Inception,…… 它做到这个水平只用到少得多的资源,所以价格十分便宜 • 它是完全开源的并且还发布论文,详细介绍了训练中所有的步骤和窍门 • DeepSeek深度求索公司是一家纯粹的中国公司 混合专家 MOE 多头潜在注意力 MLA 强化学习 GRPO Deepseek官网地址: http://ai.com https://chat.deepseek.com DeepSeek-R1 训练技术全部公开,论文链接: https://github10 积分 | 57 页 | 9.65 MB | 5 月前3
共 37 条
- 1
- 2
- 3
- 4
