北大:DeepSeek-R1及类强推理模型开发解读000 美元 )带来惊艳效果 MoE 架构 671B 激活 37B \ 使用 Multi-head Latent Attention (MLA) 架构 DeepSeek-R1 技术剖析:背后的教师模型 DeepSeek-V3 20 2048 张 H800 计算 : ~54 天 大规模 RL 的加持下, DeepSeek-R1Zero K1.5 中 Long2Short 方法指的是将长文本 CoT 模型的知识迁移到短文本 CoT 模型,本质上是一种「蒸 馏」, 不过目标和策略更多样,不仅要性能,还要 token 效率;更多地关注对教师模型推理策略的学习,而不仅 是输出。 S1 模型通过少成本获得超过 o1-preview 的表现: 高质量推理数据构建: s1K 数据集精心挑选了 1000 个涵盖数学竞赛、博士级科学问题及奥林匹克竞赛题目等, 很多高阶推理范式,而这些高阶推理范式是小模型直接利用大规模强化学习难以发现的(可以认为是由于预 训练 知识不足),因此这些蒸馏得到的小模型表现比较突出,甚至超过了基于 RL 的方法。 相对依赖于强大的教师模型 蒸馏过程通常针对特定任务或一组任务(例如代码和数学问题) 优化, 这可能导致生成的小模型在面对新任务或环境 (例如通用任务) 时适应性和泛化能力不足。 技术对比讨论:蒸馏10 积分 | 76 页 | 6.72 MB | 5 月前3
备份 中培伟业:2025年数字化转型与人才体系建设指南报告. 20250428 13-08-57型,如 GPT-4 和 LLAMA 2,不仅在学术界引起了广泛关注,还在工业界得到了广泛应用。某 学院旨在帮助教师队伍深入了解和应用大模型,从而利用其强大的自然语言处理能力解决各种 现实世界的问题。 二、培训目标 大模型: 介绍大型语言模型的基本原理、架构和训练方法,帮助教师建立对大模型的理 解和认知。 LLAMA: 深入探讨 LLAMA 在各个领域的实际应用,包括自动文本生成、机器翻译、 DAMA 大中华区、ISO 27001、ITIL、PMP、Cisco 等方面的授权讲师,具有丰富的教学和 实践经验,对 IT 职业培训有深刻的理解,曾参与“国家网络技术水平考试”体系设计、课程 研发和教师培训,在项目管理、IT 服务管理、数据治理、操作系统、网络互联设备、数据库 管理、信息安全管理等领域有深入的研究。在国内多家大中型企业担任网络安全规划设计顾问。 为国内多个行业进行项目管理、网络10 积分 | 53 页 | 6.10 MB | 5 月前3
国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代车企可以将云端大模型通过DeepSeek的知识蒸馏技术压缩为适合自动驾驶车端部署的小模型,无需单独对车端模型进行训练。不同版 本的智驾方案,在理想情况下可以来源于同一教师模型而无需重复开发,有助于提升开发效率、减少三方智驾企业的资金压力和项目 周期压力,并逐渐模糊中高阶智驾技术边界。长远来看,基于教师模型蒸馏得到的学生模型也会更加精细化,且DeepSeek所展示的推 理效率也有一定的借鉴意义,这也就意味车端所需的芯片算力要求会有所 划控制。规划大模型基于数据驱动模式迭代,取代人类手写规则代码,使得驾 驶策略向拟人进化,目前在效果上,前后顿挫减少50%、违停卡死减少40%、安 全接管减少60%。 请务必阅读正文之后的免责条款部分 图27:知识蒸馏中的教师模型与学生模型 资料来源:人工智能科学研究,国元证券研究所 小鹏:云端蒸馏模型+纯视觉方案,大幅提升车端上限 28 小鹏技术路线的演进是从记忆泊车到城市智驾、从有高精地图到无图方案、从激光雷达到纯视觉、从模块化到一体10 积分 | 95 页 | 6.54 MB | 5 月前3
人形机器人标准化白皮书(2024版)协作共融,提高救援效率,两类场景下的地形复杂、环境极端,人形 机器人在高危/救援下的应用成为最有价值的场景,也对机器人的性能 和形态提出了更高的要求。 27 6)教育培训 在教育培训领域,人形机器人可以作为教育助手或辅助教师使用, 他们可以与学生进行互动,解答问题,提供个性化教学。此外,人形 机器人还可以用于模拟实验、演示科学原理、编程教育等教学场景, 丰富教学内容,为教育注入更多创新元素,激发学生的创造力和想象0 积分 | 93 页 | 3.74 MB | 5 月前3
共 4 条
- 1
