思考 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

北大：DeepSeek-R1及类强推理模型开发解读

主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 RL series) 蒸馏 vs. 强化学习驱动：国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用从文本模态到多模态其他讨论： Over-Thinking 过度思考等未来方向分析探讨模态穿透赋能推理边界拓展： Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱强推理下的安全：形式化验证 Formal Verification 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力？得益于纯大规模强化学习， DeepSeek-R1 具备强大推理能力与长文本思考能力，继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在： R1-Zero 从基础模型开始构建，完全依赖强化学习，而不使用人类专家标注的监督微调（

10 积分 | 76 页 | 6.72 MB | 1 年前
3
北京大学-DeepSeek原理和落地应用2025

程问题和科学研究；在思路清晰度要求高的场景具有明显优势，比如采访大纲、方案梳理。用户交互体验提供流畅的实时对话体验，支持多种输入模态；用户界面友好，适合大众使用。可自主链式思考，不需要太多的过程指令，整体交互节奏较慢。 D e e p S e e k R 1 PART 02 DeepSeek公司 2025年1月20日推出DeepSeek-R1推理模型作为由知名重点是为了搞定复杂的推理情况，比如深度的逻辑分析和解决问题性能展现在数学题、多语言任务还有编码任务里表现不错，像Cmath能得90.7分， Human Eval编码任务通过率是65.2% 在需要逻辑思考的测试里很棒，比如 DROP任务F1分数能达到92.2%，AIME 2024的通过率是79.8% 应用的范围适合大规模的自然语言处理工作，像对话式AI、多语言翻译还有内容生成等等，能给企业提供高效的AI方案，劣势 n 语言理解和生成能力 n 世界知识能力 n 一定的推理能力 n 幻觉（生成错误答案） n 知识库有限 n 上下文窗口限制推理模型（DeepSeek-R1)工作原理让模型进行慢思考思维链（Chain of Thought）在不损失能力的情况下缩小模型蒸馏（Distillation）让模型自我探索和训练强化学习（Reinforcement Learning）

10 积分 | 57 页 | 9.65 MB | 1 年前
3
2025年DeepSeek手册：DeepSeek给我们带来的创业机会

推理能力难以泛化，成本高昂全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」  大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判之三模型越做越专  除了少数科技巨头，大多数公司都专注于做专业大模型智能体推动大模型快速落地  能够调用各种工具，具有行动能力  调用企业专业知识，更懂企业  将日常重复性业务流程形成Playbook，实现流程自动化  通过目标拆解，多次调用大模型以及专家模型协同，形成慢思考能力传统软件是辅助人的工具，Agent是能够自主工作的数字员工，是新的生产力政企、创业者必读 22 DeepSeek出现之前的十大预判之九开源效果追赶上闭源  技术开放，吸引广大开发人员和用户使用预训练算力前提下，大幅提升模型性能 DeepSeek颠覆式创新——技术创新 26 政企、创业者必读  预训练模型如GPT——疯狂读书，积累知识，Scaling law撞墙  预训练模型思考深度不够  算力见顶，变成少数巨头游戏预训练大模型推理大模型预训练大模型难以通往AGI之路  推理模型如R1——通过逻辑链条推导答案，分解规划，自我反思  预训练范式像是记忆和模仿，强化学习范

10 积分 | 76 页 | 5.02 MB | 1 年前
3
2025年自动化人工智能报告

人工智能的泛化。如今，广泛的可访问和始终存在的AI将驱动新的全过程的自主水平该业务，演变能力通过科技、数据及人工智能。它将带来近乎无限的创新的可能性并且增长，但也挑战企业对系统的信心他们思考信任的方式。我们之前见过这种情况。1997年，加里·卡斯帕罗夫在与IBM的深蓝（Deep Blue）的六盘棋比赛中失利。 1 这是第一次计算机击败国际象棋大师，经过数十年的测试，人类与机器在此游戏中对抗。这场胜利引发了一场关一个全面的骨干架构是将AI实验转化为企业级解决方案的关键。它将智能扩展到整个组织以及现有的工作流程中，并实现可重复性，因此解决方案可以一次性制作并重复使用。模型：大型生成式AI模型以及经典机器学习和深度学习模型执行批判性思考和推理功能，以将数据转化为可行的成果。代理商：设计为问题解决者，以最小的人为干预处理任务，并在时间推移中学习和成长，人工智能代理将规划、反思和适应性融入其中。一个人可以利用这种力量做什么？一家企业如何在变革与颠覆，请参阅我们的研究成果。重构以数字化核心为基石我们处于众多可能路径的起点。向前。实现全部潜力的关键。因为它的是受影响。首先——企业需要意识到，随着他们在技术系统中的自主性日益增长，他们需要以不同的方式思考他们对这些系统的信任程度，以及他们可能需要施加哪些约束。Sakana AI，一家AI研究公司，通过测试他们名为“AI科学家”的新系统，完美地展示了这一点。 14 该系统自主使用大型语言模型进行科学研究，在实

10 积分 | 66 页 | 5.50 MB | 1 年前
3
2025年五大趋势报告：人智共创未来点燃创新纪元

点燃创新纪元 2 事实上，领导者没有时间审查每一项创新。随着智能体 AI 在组织中发挥的作用不断增强，领导者需要下放更多决策权，才能真正加快步伐。他们仍然需要制定目标并明确前进规则，但必须赋权团队重新思考工作流程，并用新的方式部署 AI 智能体，从而大幅度提高绩效。在这种环境下，领导者相当于在敏捷性和安全性之间走钢丝，尽力维持韧性与风险之间的平衡。这绝非易事。为了解领导者如何实现这一目标，IBM 员与特定领域的 AI 智能体结合，以提高绩效表现。事实上，87% 的受访高管预计人类工作会被生成式 AI 增强，而不是被取代。 3 这意味着，比起学习新的技能或工具，员工必须彻底重新思考如何开展工作，以便充分释放生成式 AI 的潜力。全球每年大约有 5% 的劳动力需要持续进行再培训，而 AI 的快速发展让这一比例急剧攀升。全球范围内的受访 CEO 估计，2024 年在这两者之间取得适当的平衡变得日益困难。展望未来，60% 的政府领导者认为冲击的发生频率可能会增加，70% 的受访者认为冲击的强度和影响将会增加。 18 这迫使企业领导者评估其组织的数据存放地点，并重新思考组织的运营方式及地理位置。2024 年， 86% 的受访高管表示其选址战略受到了地缘政治的干扰，预计在 2026 年这一比例将上升到 93%。确定企业关键资源和技术所在的选址战略也受到了

10 积分 | 28 页 | 2.66 MB | 1 年前
3
2024年中国人工智能产业研究报告

5系列模型，进一步加大模型参数，主要通过无监督训练提升了模型通用能力，在模型准确率及幻觉率方面达成显著优化。但Altman同样表示这将是最后一代“非思维链”模型，后面GPT 5将采取融合技术路径，纳入推理侧思考。 • 以OpenAI为例，在GPT 4o模型中将视觉理解模型GPT4V、视觉生成模型Sora、声音模型Whisper等模型模态融合，通过GPT 4o模型在文本、语音、图像等多维度实现高效交互， DeepSeek开源R1系列推理思考模型，将思维链过程开放公开，极大推动全产业推理思考模型的技术进步，也让人们对AI能力有了更深刻感知。系统一直觉和本能系统二理性 • 快思考：快速、自动、直觉性、无意识 • 原本GPT系列思考形态更类似于系统一 • 慢思考：缓慢、需要努力、逻辑性、有意识 • 推理模型加强推理思考能力，思考形态往系统二倾斜 95% 5% 自大模型发布以来，Scaling 人类反馈数据训练奖励模型，评估输出质量；以及强化学习（RL），利用奖励模型反馈优化模型，最终生成更符合人类偏好的输出等。由于代码、数学等领域更适配模型评估与奖励反馈环节，推理模型在这些领域的深度思考能力更强，而在文学、医药、科研等领域，因存在大量实验数据和非唯一最优解等影响，后训练的效果提升相对有限。从落地质效来看，DeepSeek通过创新的模型结构和训练任务优化，如多令牌预测（MTP）、

10 积分 | 51 页 | 3.35 MB | 1 年前
3
2024年中国人工智能产业研究报告

5系列模型，进一步加大模型参数，主要通过无监督训练提升了模型通用能力，在模型准确率及幻觉率方面达成显著优化。但Altman同样表示这将是最后一代“非思维链”模型，后面GPT 5将采取融合技术路径，纳入推理侧思考。 • 以OpenAI为例，在GPT 4o模型中将视觉理解模型GPT4V、视觉生成模型Sora、声音模型Whisper等模型模态融合，通过GPT 4o模型在文本、语音、图像等多维度实现高效交互， DeepSeek开源R1系列推理思考模型，将思维链过程开放公开，极大推动全产业推理思考模型的技术进步，也让人们对AI能力有了更深刻感知。系统一直觉和本能系统二理性 • 快思考：快速、自动、直觉性、无意识 • 原本GPT系列思考形态更类似于系统一 • 慢思考：缓慢、需要努力、逻辑性、有意识 • 推理模型加强推理思考能力，思考形态往系统二倾斜 95% 5% 自大模型发布以来，Scaling 人类反馈数据训练奖励模型，评估输出质量；以及强化学习（RL），利用奖励模型反馈优化模型，最终生成更符合人类偏好的输出等。由于代码、数学等领域更适配模型评估与奖励反馈环节，推理模型在这些领域的深度思考能力更强，而在文学、医药、科研等领域，因存在大量实验数据和非唯一最优解等影响，后训练的效果提升相对有限。从落地质效来看，DeepSeek通过创新的模型结构和训练任务优化，如多令牌预测（MTP）、

0 积分 | 51 页 | 3.35 MB | 1 年前
3
解码DeepSeek构建医药行业新质生产力

从海量数据中提炼⾼价值信息，提升模型学习效率 • 蒸馏垂类⼩模型能⼒，不输于全尺⼨模型 GRPO( 群体相对策略优化 ) • ⼤道⾄简，⽤强化学习跳出题海和⼩测让模型⾃⼰学会思考 DeepSeek 的创新突破效果体验惊艳，成本极致压缩 8 成本优势技术震撼开源引爆垂直适配 • 550 万美元预训练成本达到 GPT-4 级别性能，打破“算⼒军备数据价值在⼤模型背景下进⼀步被凸显 Ds 推理思考能⼒以及医保控费压⼒ 15 主动权 →⼤模型成为患者信息来源 • “ 数字健康”和⽣态“破壁跨圈”，⽐如可穿戴设备与 AI 分析相结合 →⼤模型汇聚和分析数据 • 个性化诊疗和健康管理为药物研发和精准医学提供⽀持⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通→数据要素商业化变数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理（ DRG/DIP ） DS 推理思考能⼒以及医保控费压⼒（需求⾼，难度⼤） → 药品定价策略 • PR 先⾏，但过去“纸⾯数据、⾮标数据”等困境能得到极⼤缓解，医院数据的应⽤价值可以得到释放医学数据结构化提取、标准化

0 积分 | 32 页 | 3.98 MB | 1 年前
3
腾讯云：2025年解码DeepSeek构建医药行业新质生产力报告

FPBn混合精度训练 • 从海量数据中提炼⾼价值信息，提升模型学习效率 • 蒸馏垂类⼩模型能⼒，不输于全尺⼨模型数据蒸馏技术 • ⼤道⾄简，⽤强化学习跳出题海和⼩测让模型⾃⼰学会思考 GRPO(群体相对策略优化) 效果体验惊艳，成本极致压缩 8 为什么⼈⼈都爱DeepSeek? 成本优势 • 550万美元预训练成本达到GPT-4级别性能，打破“算⼒军备竞赛”魔咒个性化诊疗和健康管理患者 • 电⼦病历和数据管理⾰新⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理（DRG/DIP） Ds推理思考能⼒以及医保控费压⼒医院 • 学习/培训模式发⽣改变 • 医⽣临床决策影响模式发⽣改变 • 科研与学术⽅式和效率医⽣ • 数据驱动的精细化监管：⽐如药占⽐/集采 vs&药品经济学为药物研发和精准医学提供⽀持⼤模型语义理解加速医学数据治理和流通 • 医院数据开放和流通→数据要素商业化变数据价值在⼤模型背景下进⼀步被凸显 • 精细化运营管理（DRG/DIP） DS推理思考能⼒以及医保控费压⼒（需求⾼，难度⼤） →药品定价策略医院 • PR先⾏，但过去“纸⾯数据、⾮标数据”等困境能得到极⼤缓解，医院数据的应⽤价值可以得到释放医学数据结构化提取、标准化

10 积分 | 32 页 | 14.20 MB | 1 年前
3
火山引擎&IDC：2024年中国企业多云战略白皮书

展格局。IDC预测，到��年，已经建立数字业务平台的组织将拥有比竞争对手高出��%的数字化市场份额，并拥有更强的追踪投资回报率和执行数字收入举措的能力。一系列的变革将给企业的云战略演进带来强劲冲击。企业应努力思考如何构建与业务协同发展、适度超前的IT架构，基于技术优势带动业务创新和商业模式创新，推进企业整体发展目标的达成。以云为核心的IT基础设施规划与企业业务规划密切相关，在业务发展的每一个阶段都应起到核心推动作用。快速增长期巩固期+ 新一轮探索期试点建设，小规模部署和应用灵活扩展支持业务增长资源持续整合优化+ 面向未来的布局和规划 �� 在经历初创期的IT系统快速交付后，企业需要不断思考IT系统的灵活扩展、整合优化以及面向未来的统筹规划问题。大多数企业在业务与数字化的协同发展中，都普遍经历了以下典型阶段：初步探索期：业务发展伊始，企业往往采用试点验证的思路，小幅投入IT资新的业务发展挑战，企业需要不断依托先进的、面向未来的云能力。 �� 因此，企业有必要深入思考上云需求的变化，这些变化可能源自于新业务的拓展、已有云服务缺陷的改进以及新的云技术、人工智能技术发展需求等；这些因素将促使企业寻求更加灵活多样的云服务和IT系统组合。事实上，很多企业已经采用多云战略或正在思考规划下一朵云的必要性，通过新的云基础设施和云服务，实现多云统筹下的成本优化、技术能力提升和IT可靠性增强，从而在竞争激

0 积分 | 56 页 | 1.97 MB | 1 年前
3

共 23 条前往

页

分类

语言

格式

北大：DeepSeek-R1及类强推理模型开发解读

北京大学-DeepSeek原理和落地应用2025

2025年DeepSeek手册：DeepSeek给我们带来的创业机会

2025年自动化人工智能报告

2025年五大趋势报告：人智共创未来点燃创新纪元

2024年中国人工智能产业研究报告

2024年中国人工智能产业研究报告

解码DeepSeek构建医药行业新质生产力

腾讯云：2025年解码DeepSeek构建医药行业新质生产力报告

火山引擎&IDC：2024年中国企业多云战略白皮书