北大:DeepSeek-R1及类强推理模型开发解读DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 及其技术细节 DeepSeek-R1 背后的 Insights & Takeaways : RL 加持下的长度泛化 \ 推理范式的涌现 DeepSeek-R1 社会及经济效益 技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment Outline10 积分 | 76 页 | 6.72 MB | 5 月前3
从大模型、智能体到复杂AI应用系统的构建(61页 PPT)AI 应用系统的构 建 —— 以产业大脑为例 肖俊 浙江大学计算机学科与技术学院人工智能研究所 2025 03 杭州 • 大模型推理能力快速提 升 • 推理模型和思维链 (CoT) • 智能体是什么? • 四链融合产业大脑案例 提纲 大模型推理能力快速提升 开始模仿人 脑进行大量 数据的标记 和训练 神经网络 CNN RNN GAN 1990 年开始; 2006 大语言模型易产生幻觉 ,在数学推理方面表现在推理能力严重不足, 体现在简单数值比较错误、 多步推理能力弱、推理不一致等 早期大模型在推理能力上存在明显短板 9.11>9.9? 简单数值比较错误 多步推理错 误 事实性幻觉问题 大语言模型易产生幻觉 ,在数学推理方面表现在推理能力严重不足, 体现在简单数值比较错误、 多步推理能力弱、推理不一致等 早期大模型在推理能力上存在明显短板 早期大模型在推理能力上存在明显短板 无法在复杂的思维链中保持一致性 推理过程和答案不一致 Yann LeCun 的批判观点: 对纯粹扩大规模方法的根本质疑 Mehrdad Farajtabar : "LLM 本质上是统计模式匹配工具,而非真正的 推 理系统 " 、 " 下一个词预测框架不足以产生真正的理解 " Yann LeCun20 积分 | 61 页 | 13.10 MB | 1 天前3
华为昇腾DeepSeek解决方案CANN … 互联技术:灵衢 AI 芯片:昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级,模型能力 = 算力 x 数据 x 思考 + 逻辑推理 DeepSeek-V3/R1 OpenAI-o1/o3 算力 x 数据 重新定义 Scaling Law 延续智能涌现的 方向 2017 谷歌发布首个 Transformer Restricted Distribution 下一代 AI 技术 Mamba 、空间智能 等 算力 x 数据 x 思 考 模 型 效 果 低成本完美对标 OpenAI O1 ,突破精确语义理解及复杂推理任务 DeepSeek-V3 是一款 MoE 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏 MOE 提质 降本 技术创新 硬件级、算法级、架构级、工程级、开0 积分 | 32 页 | 2.52 MB | 5 月前3
金融-DeepSeek银行部署加速,AI金融应用迎来跃迁. 1 3 专 业 | 领 先 | 深 度 | 诚 信 中 泰 证 券 研 究 所 n DeepSeek 开源使金融机构能够轻松获得前沿模型能力,且大幅降低部署成本。其通过对训练方式、算法架构和推理方 法 的工程化优化大幅降低了部署成本。近期采用大规模 RL 训练方法的阿里 QwQ-32B 等模型也在缩小规模的同时达到了 DeepSeek R1 671B 的应用效果,有望进一步催生银行落地应用。 R1-Zero 版 本模 型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和 long-CoT 能力涌现等) 。 图表:随步数提升 R1-Zero 的 AIME 任务准确度 图表:深度思考能力提升 性能:后训练阶段大规模应用强化学习,表现推理能力扩展 资料来源: DeepSeek-R1: Incentivizing Attention , MLA )进行优化;在后训练阶段采用冷启动 + 大规模强化学习 方 式,不再使用传统 SFT 做大规模监督微调, 甚至绕过了一些 CUDA ,采用 PTX 汇编来提升能力;在推理场景下通过 大规模 跨节点专家并行( Expert Parallelism , EP )来优化通信开销,尽可能实现负载均衡。 图表: DeepSeek R1 架构图10 积分 | 25 页 | 1.44 MB | 1 天前3
DeepSeek消费电子行业大模型新型应用最佳实践分享亿)。作为通用大语言模型,其在 在知识类任 务(知识问答、内容生成等)领域表现出色。 ● DeepSeek-R1 是基于 DeepSeek-V3-Base 训练生成的强化推理能力模型,在数学、 代 码生成和逻辑推断等复杂推理任务上表现优异。 DeepSeek 推动国产模型达到新 的高度 开源模型比肩头部闭源 60%+ 指标优于 Llama3.1 Claude-3.5 GPT- 4o OpenAI 接口规范 复刻 Deep seel 的推理加速能力 一键发起模型部署 推理加速 DeepSeek 模 型 客 户 数 据 训练加速 DeepSeek 联 网 助 手 文档问答 知识摘要 • 模型 + 训练平台 + 应用构建 平台 全链路能力。 • 提供从训练——推理——应 用的一站式丝滑服务体验 • 全面接入 deepseek 客户专属模型 混元系列模型 混元系列模型 TI 平 台 模型服务 腾讯云 TI 平 台 大模型模型训练和推理开发平台,灵活精调和部署私有 DeepSeek 训练 部署 应用 数据中心 分布式推理: 解决大参数量模型部署,提供超长上下文窗口 内置推理加速: 全新升级 Angel 推理加速能力,加速比可达 2 倍 大模型调用: 统一的大模型调用 API 及体验工具,大幅缩短业务10 积分 | 28 页 | 5.00 MB | 5 月前3
智能金融:AI驱动的金融变革(45页 PPT)Grok-3 20 万张卡 思维链推理 上下文对话 语料学习 ChatGPT BART Encoder-Decoder QWQ-32B 两阶段强化学习 BERT Only Encoder GPT Only Decoder RoBERTa Only Encoder GPT Only Decoder Gemma-3 多模态推理融合 思维链推理 DeepSeek-R1 高探索自由度 = 推理能力自我觉醒 (更长的思维链、 更深层次的 推理路径) 低可控:生成文本可 读性差、语言混乱 拒绝采样: 筛选高质量样本 20 万条 通用数据 在探索自 由度、学 习效率、 行为可控 性 找到动 态平衡 第一阶段训练:增强推理能力,生成高质量推理数据 推理导向强化学习 (准确率奖励 + 可读性奖励) 第二阶段训练:增强通用能力,避免灾难性遗忘 推理导向强化学习 (准确率奖励 + 格式奖励) DeepSeek-R1 (强推理模型) 671B DeepSeek-R1-Zero (强推理模型) DeepSeek-V3 (基础模型) 面向全场景的强化学习 (规则奖励 + 奖励模型) 纯强化学习训练 多阶段增强训练 R1-Zero 生成的 长思维链数据 综合性能 更强20 积分 | 45 页 | 4.10 MB | 1 天前3
解码DeepSeek构建医药行业新质生产力代表技术路线“⼤数据、⼤算⼒、通⽤范式”,验证⼤语⾔模型的可⾏性。 • GPT3/4 在深度推理和问题解决⽅⾯有所⽋缺, OpenAI-o1 通过思维链( Chain of Thought )增强推理能⼒,将复杂问题 分 解成更⼩、更易处理的步骤;⽽ DeepSeek R1 在展现卓越推理能⼒同时, 训练和推理成本极低 GPT 为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” BERT BERT 在文本分类、命名实体识别等 在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗 AI 小模型年代主要技术路线 “ 大数据、小算力、专用决策” DeepSeek-R1 基于 DS-v3 构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI 技术演变 路线 数据来源: 1. 甲⼦光年智库梳理, 2023 年; 5 体验: 哎哟 不错噢 低成本,超出⽤户预期的“智能” 增长:破圈,两个⽉到⼀亿⽤户的速度 亿)。作为通⽤⼤ 语⾔模 型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊ • DeepSeek-R1 是基于 DeepSeek-V3-Base 训练⽣成的强化推理能⼒模型, 在 数学、代码⽣成和逻辑推断等复杂推理任务上表现优异 更低的研发成本 * 更⾼效资源利⽤ $5.5M vs. OpenAI’s $100M+ 使⽤ ~20 积分 | 32 页 | 3.98 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025、 L1 、 L2 三个 层级 推理大模型 推理大模型的概念大规模传播应该开始于 2 0 2 4 年 9 月 份 。 2 0 2 4 年 9 月 1 2 日 , OpenAI 官方宣布了 OpenAI o1 推 理大模 型。 OpenAI 定义推理模型 在 OpenAI 的官网上 , OpenAI 定义推理模 型是在回答之前进行思考 理的方法。它让模型在得出最终答案之前 , 先显式地写出推理的中间步骤。这就像人 类解决复杂问题时会先把思考过程写下来 一样。 推理模型的核心 也就是说 ,如果模型在回复你之前有一 长 串的思考过程(这个过程必须可以显 示输 出) ,探索了很多不同的路径之后 给出答 案 ,那么有这个能力的大模型就 是推理大 模型。推理模型的核心在于处 理那些需要 多步骤逻辑推导才能解决的 多步骤逻辑推导才能解决的 复杂问题。 3.4 大模型的分 类 大语言模型可以分为通用大模型和推理大模型 3.4 大模型的分 类 n 推理大模型 DeepSeek R1 的对话效果 非推理问题 : ” 法国的首都是哪里 ? ” (答案直接 、 无需推导 ) 推理问题: ” 一列火车以每小时 60 英里的速度行驶 3 小时 , 行驶距离是多少? ” (需先理解 ”距离 = 速度 × 时间 ” 的关系10 积分 | 123 页 | 15.88 MB | 5 月前3
2024年汽车AI大模型TOP10分析报告(59页 PPT)2 Few-shot (Zero-shot) ,在少甚至无标注样本的 条件下支持推理(自监督学习)。 将模型在下游各种自然语言处理任 务上的小规模有标注数据进行微调 得到适配模型 预训练语言模型 从海量数据中自动学习知识 将模型在大规模无标注数据上进 行自监督训练得到预训练模型 Agent To B 特定行业类 Language 特定行业类 超长文本 Agent 道德责任 Knowledge Reason Other Math Code 知识 其他 代码 推理 语言 数学 IDC 测试题目分为基础能力和应用能力两个大类共 7 个维度 IDC 采取实测的方式,成立产品测试团队,通过多个维度对基础大模型及相关产品进行评测,并邀请外部专家团队深入分析各个产品答案准确性、合理性等,在 法律 : 智能法律助手,法律咨询 医疗 : 问诊,用药咨询 科研 问答理解类 常识、专业知识、多语言、多模态、角 色扮演 + 多轮对话、安全陷阱 推理类 情感推理、演绎推理、逻辑推理、归纳 推理、类比推理 创作表达类 文字创作 & 创意、内容改写 / 续写、修改 / 润色、文字处理、编辑 / 语义匹配、摘 要提取、关键、字提炼、标题生成、文10 积分 | 59 页 | 27.94 MB | 1 天前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求557.6 万美元, 对比 GPT-4o 等模型的训练成本约为 1 亿美元。 2025 年 1 月, DeepSeek-R1 发布,性能对标 OpenAI-o1 正式版。在数学、代码、 自然 语言推理等任务上,性能比肩 OpenAI-o1 正式版。 2 月 1 日消息,据彭博社报道, DeepSeek 的人工智能助手在 140 个市场下载次数最多的移动应用程序排行榜 上名列前茅。国外大型科技公司如微软、 DeepSeek-R1 模型。 2 月 1 日,华为云官方发布消息,硅基流动和华为 云团队联合首发并上线基于华为云昇腾云服务 的 DeepSeekR1/V3 推理服务。 l DeepSeek 通过 MLA 和 DeepSeekMoE 实现高效的推理和低成本训练,构建 DualPipe 算法和混合精度训练优化计算与通信负载;通过 ( 分阶段 ) 强化学习实现 性能突破。 多头潜在注意力 (MLA) DeepSeek-R1-Zero 通过强化学习架构创新实现突破性性能,核心技术创新体现在训 练效能优化策略、双维度评价体系、 结构化训练范式三个维度。 DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 Scaling Law 与“涌现”能力是大模型训练遵循的重要法则,随着0 积分 | 38 页 | 1.95 MB | 6 月前3
共 143 条
- 1
- 2
- 3
- 4
- 5
- 6
- 15
