北大:DeepSeek-R1及类强推理模型开发解读DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 及其技术细节 DeepSeek-R1 背后的 Insights & Takeaways : RL 加持下的长度泛化 \ 推理范式的涌现 DeepSeek-R1 社会及经济效益 技术对比探讨 STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \ Kimi-1.5 \ o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment Outline10 积分 | 76 页 | 6.72 MB | 5 月前3
英特尔公有云和互联网创新实践37 CONTENT 目录 Large Language Model (LLM) 大语言模型 3 4 阿里云引入第五代至强® 可扩展处理器,实现 ECS g8i 算力再升级,为大模型 AI 推理加速添 新解,更易得、更易用、可扩展性强,满足从小模型到超大模型的各类需求。 • 使用处理器内置的 AI 加速引擎 -- 英特尔® AMX 和英特尔® AVX-512,提升并行计算和浮点运算能力; 参数级别的大语言模型分布式推理 文生图 创意辅助工具 AI 生成代码 虚拟助手 1.2.3 数据来源于阿里云未公开的内部测试,如欲了解更多详情,请联系阿里云:https://www.aliyun.com 英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。 算力需求激增:视频、数据库 等场景算力需求激增 智能化应用普及:大模型推理 需求爆炸式增长 数据安全挑战:数据隐私及安 数据安全挑战:数据隐私及安 全需求增强 85% 整机性能提升高达 1 7 倍 AI 推理性能提升高达 2 50% 中小参数模型起建成本降低 3 4 白皮书 | 用友采用第五代英特尔® 至强® 可扩展处理器加速自然语言处理 (NLP) 应用 助力企业服务数智化转型 图 3. 第五代英特尔® 至强® 可扩展处理器具备强大性能 为 AI 加速而生的处理器 以针对工作负载优化的性能实现业务增长和飞跃10 积分 | 38 页 | 12.52 MB | 5 月前3
北京大学-DeepSeek原理和落地应用2025…… l 行业模型(垂直模型、垂类模型) Ø 教育、医疗、金融等 大模型的前世今生 •人工智能:让机器具备动物智能,人类智能,非人类智能(超人类智能) •运算推理:规则核心;自动化 •知识工程:知识核心;知识库+推理机 •机器学习:学习核心;数据智能(统计学习方法,数据建模) •常规机器学习方法:逻辑回归,决策森林,支持向量机,马尔科夫链,….. •人工神经网络:与人脑最大的共同点是名字,机制和架构并不一样 ref:中文大模型基准测评2024年度报告(2025.01.08) 推理模型 生成模型与推理大模型的对比 比较项 OpenAI GPT-4o(生成模型) OpenAI o1(推理模型) 模型定位 专注于通用自然语言处理和多模态能力,适合日常对 话、内容生成、翻译以及图文、音频、视频等信息处 理、生成、对话等。 侧重于复杂推理与逻辑能力,擅长数学、编程和自然语言推理任 务,适合高难度问题求解和专业领域应用。一般是在生成模型的 务,适合高难度问题求解和专业领域应用。一般是在生成模型的 基础上通过RL方法强化CoT能力而来 推理能力 在日常语言任务中表现均衡,但在复杂逻辑推理(如 数学题求解)上准确率较低。 在复杂推理任务表现卓越,尤其擅长数学、代码推理任务。 多模态支持 支持文本、图像、音频乃至视频输入,可处理多种模 态信息。 当前主要支持文本输入,不具备图像处理等多模态能力。 应用场景 适合广泛通用任务,如对话、内容生成、多模态信息 处理以10 积分 | 57 页 | 9.65 MB | 5 月前3
中国移动:云智算技术白皮书(2025)4 异构混训 .............................. 15 2.5.3 推理框架 .....................................16 2.5.3.1 推理并行效能优化 ...................... 16 4 2.5.3.2 推理网关优化 .......................... 16 2.5.3.3 融合算子监控 超现有资源池化的调度能力;在网络层面,AI 训练中 TB 级参数同步对时延极为 敏感,传统网络架构难以满足低时延、高吞吐的传输要求;在服务形态上,单一 的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI 开发全链 路的需求,迫切需要构建适应智能时代的云计算新范式。 1.2 云智算的内涵 云智算是通过算网基础设施与人工智能核心技术深度融合,提供一体化算网 资源、全栈式开发环境、一 IaaS、PaaS、SaaS 三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。一是 AI IaaS,即算网一 体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练 推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵 活调度、即取即用。二是 AI PaaS,即面向各类 AI 开发者的工具平台服务,提 供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境,显著提升全社会0 积分 | 30 页 | 716.31 KB | 5 月前3
2024年中国人工智能产业研究报告业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期:2024年中国AI产业规模为2697亿元,增速26 主要原因为大模型在实际业务场景的表现未完全满足客户需求,且建设成本较高,较多项目仍 处于探索阶段。 2)算力需求结构性转变:2024年部分地区智算中心出现闲置,但这主要是供需错配导致。随 着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 2)可行逻辑-原本小模型在某些场景能 力无法达到,大模型具备可行性 3)创新逻辑-大模型发 掘了客户需求,在需求侧未提出要求情况下创造新场景 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推理效率优化和新型注意力机制等方面持续探索,推动AI产业向更 高水平迈进。 宏观环境 产业动态 发展趋势 1)市场规模增速略低于预期:2024年中国AI产业规模为2697亿元,增速26 主要原因为大模型在实际业务场景的表现未完全满足客户需求,且建设成本较高,较多项目仍 处于探索阶段。 2)算力需求结构性转变:2024年部分地区智算中心出现闲置,但这主要是供需错配导致。随 着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 2)可行逻辑-原本小模型在某些场景能 力无法达到,大模型具备可行性 3)创新逻辑-大模型发 掘了客户需求,在需求侧未提出要求情况下创造新场景 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。10 积分 | 51 页 | 3.35 MB | 6 月前3
从英伟达GTC看AI工厂的投资机会-华泰证券公司推出针对大模型优化过的新训练芯片 H100 NVL,和过去的 A100 相比, 训练速度提高 10 倍,成本降低一个数量级。目前,AI 推理上,一般采用 2018 年发布的 T4 芯片,这次公司发布出面向视频生成和图像生成的新推理芯片 L4 和 L40,其中 L40 推理性能是 T4 的 10 倍。受美国出口管制限制,中国 目前只能采购实测性能比 A100 低 1/3 的 A800,因此训练同一个体量的模 型,Picasso 是一项视觉语言模型制作服务,BioNeMo 提供用于药物研发的生成式 AI 模型。 我们认为,ChatGPT 等应用引发对 AI 算力的需求,加速计算和生成式 AI 推理将带动训练 /推理芯片需求的爆发。 图表5: 英伟达 NVIDIA DGX Cloud 图表6: 英伟达 NVIDIA AI Foundations 资料来源:英伟达 GTC2023,华泰研究 DGX H100 服务器,配有 8 个 H100 GPU 模组, 配有 Transfofmer 引擎以支持处理类似 ChatGPT 的生成式训练模型,FP8 精度在大型语言模型相较上一代 A00 的训练和推理能力分别提升 9/30 倍。8 个 H100 模组通过 NVLINK Switch 相连,确保 GPU 之间的合作和通信。目前 DGX 100 已全面投产,后期有望面向全球企业。 图表9: DGX0 积分 | 16 页 | 1.37 MB | 5 月前3
智能金融:AI驱动的金融变革(45页 PPT)Grok-3 20 万张卡 思维链推理 上下文对话 语料学习 ChatGPT BART Encoder-Decoder QWQ-32B 两阶段强化学习 BERT Only Encoder GPT Only Decoder RoBERTa Only Encoder GPT Only Decoder Gemma-3 多模态推理融合 思维链推理 DeepSeek-R1 高探索自由度 = 推理能力自我觉醒 (更长的思维链、 更深层次的 推理路径) 低可控:生成文本可 读性差、语言混乱 拒绝采样: 筛选高质量样本 20 万条 通用数据 在探索自 由度、学 习效率、 行为可控 性 找到动 态平衡 第一阶段训练:增强推理能力,生成高质量推理数据 推理导向强化学习 (准确率奖励 + 可读性奖励) 第二阶段训练:增强通用能力,避免灾难性遗忘 推理导向强化学习 (准确率奖励 + 格式奖励) DeepSeek-R1 (强推理模型) 671B DeepSeek-R1-Zero (强推理模型) DeepSeek-V3 (基础模型) 面向全场景的强化学习 (规则奖励 + 奖励模型) 纯强化学习训练 多阶段增强训练 R1-Zero 生成的 长思维链数据 综合性能 更强20 积分 | 45 页 | 4.10 MB | 1 天前3
解码DeepSeek构建医药行业新质生产力代表技术路线“⼤数据、⼤算⼒、通⽤范式”,验证⼤语⾔模型的可⾏性。 • GPT3/4 在深度推理和问题解决⽅⾯有所⽋缺, OpenAI-o1 通过思维链( Chain of Thought )增强推理能⼒,将复杂问题 分 解成更⼩、更易处理的步骤;⽽ DeepSeek R1 在展现卓越推理能⼒同时, 训练和推理成本极低 GPT 为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” BERT BERT 在文本分类、命名实体识别等 在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗 AI 小模型年代主要技术路线 “ 大数据、小算力、专用决策” DeepSeek-R1 基于 DS-v3 构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI 技术演变 路线 数据来源: 1. 甲⼦光年智库梳理, 2023 年; 5 体验: 哎哟 不错噢 低成本,超出⽤户预期的“智能” 增长:破圈,两个⽉到⼀亿⽤户的速度 亿)。作为通⽤⼤ 语⾔模 型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊ • DeepSeek-R1 是基于 DeepSeek-V3-Base 训练⽣成的强化推理能⼒模型, 在 数学、代码⽣成和逻辑推断等复杂推理任务上表现优异 更低的研发成本 * 更⾼效资源利⽤ $5.5M vs. OpenAI’s $100M+ 使⽤ ~20 积分 | 32 页 | 3.98 MB | 5 月前3
腾讯云:2025年解码DeepSeek构建医药行业新质生产力报告GPT3/4在深度推理和问题解决⽅⾯有所⽋缺,OpenAI-o1通过思维链(ChainvofvThought)增强推理能⼒,将复杂问题分 解成更⼩、更易处理的步骤;⽽DeepSeek R1在展现卓越推理能⼒同时,训练和推理成本极低 BERT BERT在文本分类、命名实体识别等 语言理解任务表现出色。也是医疗AI 小模型年代主要技术路线 “大数据、小算力、专用决策” GPT 为内容创造和自动推理开辟可能性 为内容创造和自动推理开辟可能性 “大数据、大算力、通用模式” 基于DS-v3构建推理模 型,通过强化学习提升推 理能力,且训练成本极低 AI技术演变路线 5 理解Chatgpt,J⼀个AI领域的“⼯程奇迹” Chatbot: ⽂本交互式应⽤ Gpt3: 预训练⼤模型 Prompt engineering 提⽰词⼯程 RLHF 强化学习 Nvidia A100(A800) ⾼性能卡 SFT 监督微调 RDMA 语⾔模型,拥有6710亿参数(激活参数370亿)。作为通⽤⼤语⾔模 型,其在在知识类任务(知识问答、内容⽣成等)领域表现出⾊ • DeepSeek-R1 是基于 DeepSeek-V3-Base 训练⽣成的强化推理能⼒模型,在 数学、代码⽣成和逻辑推断等复杂推理任务上表现优异 更低的研发成本* 更⾼效资源利⽤ $5.5M%vs.%OpenAI’s%$100M+ 使⽤~2,000%GPUs,%竞品使⽤% 10,000+%GPUs10 积分 | 32 页 | 14.20 MB | 5 月前3
共 136 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14
