2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告Deliberative Alignment ➢ 补充拓展:DeepSeek-V3 解读 3 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; ➢ 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强 回顾:Pre-Training Scaling Law ➢ Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量C、模 型参数量N和数据大小D之间的关系 6 回顾:Post-Training Scaling Law ➢ Post-Training 阶段,随着训练时计算量(来自RL的Training阶段)和 Test-Time 计算量 (例如Test-Time10 积分 | 76 页 | 8.39 MB | 6 月前3
华为昇腾DeepSeek解决方案E NTS 目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T token 数据集上基 于自 研 HAI-LLM 训练系统总计训练了 1394h ( 58.08 天) 性能优 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 & 互联网 硬件级优化 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏0 积分 | 32 页 | 2.52 MB | 5 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025■ 万亿模型计算次数 C≈ 6* N * D 1 ≈ .5*1025 OpenAI."Scaling Laws for Neural Language Models",2020 ■ 万亿大模型预训练系统成本估计 ■ 条件:计算量 C≈ 6 * N * D ≈1.5*1 025 ■ 最低时间、成本估计 ■ 单 H800(25 万 ):1.5*1010 秒 (174000 天 ) ■ 亿美元 2, 购买最新 GPU ■ 例子:购买 2.5 万 A100 GPU ( 英伟达挣钱 ) ■ 3, 用最新 GPU 训练性能领先的大模型 ■ 例子: 2023 年出 ChatGPT, 垄断市场 (290 亿美元估值 ) ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 例子:营收小、整体亏钱 2025 年特朗普的“星际之门”为 OpenAl 筹 5000 亿美元 国内融资 ( 亿美金 ) ■ 可行性分析:资金没问题,尤其优质生产力领域 2, 购买最新 GPU ■ 可行性分析:美国可以发禁令 3 , 用 GPU 训练性能领先的大模型 ■ 可行性分析:国内 Al 人才没问题 ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 可行性分析:国内做工业化低成本有绝对优势 国内人工智能的发展模式、可行性分析 美国限制中国 AI 发展的策略 Y10 积分 | 23 页 | 7.53 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025的参数规模是 GPT-3 的 10 倍以上 ,达到 1.8 万 亿, 2021 年 11 月阿里推出的 M6 模型的参数量达 10 万亿。 3.1 大模型的概 念 训练数据量大 计算资源需求高 参数数量庞大 大模型的设计和训练旨在提供更强大、 更准确的模型性能 , 以应对更复杂、 更庞大的数据集或任务。 大模型通常能够学习 到 更细微的模式和规律 ,具有更强的泛化能力和表达能力 学习能力强 ,能够理解更复杂的语意和语 境 。这使得它们能够产生更准确、 更连贯的回答 可迁移性高 学习到的知识和能力可以在不同 的任务和领域中迁移和应用 。 这 意味着一次训练就可以将模 型应 用于多种任务,无需重新 训练 语言生成能力 大模型可以生成更自然 、更流 利 的语言,减少了生成输出时 呈现 的错误或令人困惑的问题 3.1 大模型的概 念 3.2 大模型的发展历 程 大模型发展历经三个阶段 其中一种模型是预训练模型 ,预训 练模型包含了预训练大模型(可以简称为“大模型”) ,预训练大模型包含了预训练大语言模型(可以简称为“大语言模 型”) ,预训练大语言模型的典型代表包括 OpenAI 的 GPT 和百度的文心 ERNIE , ChatGPT 是基于 GPT 开发的大模型 产品, 文心一言是基于文心 ERNIE 开发的大模型产品 人工智能 机器学习 深度学习 预训练大模型10 积分 | 123 页 | 15.88 MB | 6 月前3
英特尔-工业人工智能白皮书2025年版立预测模型,预测每项任务的完成时间,并评估整个 项目的完成时间,有助于提前发现潜在延迟风险,让 团队合理分配时间和其他资源,保证项目按时或提前 完成。 • 自动化代码编写与优化:AI 编程助手利用深度学习 算法和大量代码数据训练模型,通过分析代码的结构 和模式,并根据开发者的需求,自动生成函数、类、 模块等代码,甚至优化现有代码,从而帮助开发者加 速代码生成,减少错误。 • 优化产品结构与应用模拟:通过形态识别技术,将 相机的加持下,可以识别被配送货物的形状、尺寸和 条形码,自动分拣和归类,提高仓库分拣效率和准确 性。利用大数据分析和机器学习优化配送路线,实时 监控物流配送过程,提高配送效率、降低成本。 • 财务与人力管理:通过训练模型,可以自动读取发 票和收据,将其转换为数字格式,直接导入会计系 统,减少了数据录入和处理的时间和错误 。使用自 然语言处理 (NLP) 和机器学习算法,能快速分析候 选人简历,识别出与职位相关的教育背景、工作经历 机器学习模型,能够处 理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。大模型通常包括大语言模型 (LLM)、视觉 大模型 (CV)、多模态大模型等各种类型。 大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测,能够处 理更加复杂的任务和数据。 展开来讲,大模型技术有以下几项基本特征: 1. 普遍基于 Transformer0 积分 | 82 页 | 5.13 MB | 5 月前3
AI跃迁派:2025年DeepSeek零基础完全指南强化学习驱动:通过“试错+奖励”机制自我进化,类似游戏 AI 自学通关 2.划时代意义:中国 AI 的破局之战 DeepSeek 的诞生不仅是技术突破,更是国家战略级的里程碑: 成本革命: ⚫ 训练成本仅 558 万美元(仅为美国同类模型的 1/20) ⚫ 推理速度提升 3 倍,生成文字速度从 20 字/秒提升至 60 字/秒 行业重塑: ⚫ 迫使国际巨头降价(如 AnthropicClaude AnthropicClaude 降价 30%) ⚫ 首款登顶全球 140 国应用榜的国产 AI 模型 国家战略: ⚫ 突破“卡脖子”技术:仅用 2000 块国产昇腾芯片完成训练 ⚫ 构建自主技术生态:带动华为昇腾、寒武纪等国产芯片产业发展 3.功能定位:你的全能数字助手 DeepSeek 不是冷冰冰的工具,而是能融入生活的智能伙伴: 4.技术普惠:AI 种财务异常信号 ⚫ 生活助手:比价全网购物平台,推荐性价比最高商品 3.技术普惠:让 AI 像水电一样触手可及 DeepSeek 通过两大革新打破技术壁垒: 1.白菜价训练:用 2000 块国产昇腾芯片就能训练专业模型,大学生也能参与 AI 开发 2.手机端运行:1.5B 压缩版模型在千元机上流畅运行,山区医生可用 AI 辅助诊断 三、安装与使用全攻略 1.多端部署指南:全平台无障碍接入10 积分 | 21 页 | 1.01 MB | 6 月前3
山东大学:DeepSeek 应用与部署例 , 能详细给出学习计划 ,包括快速预览、 深入学习核心特性、 实战与总结等阶段。 • 硅基流动: 注册即送 2000 万 Tokens ,提供多个基于 DeepSeek - R1 蒸馏训练的模型 ,如 DeepSeek - R1 - Distill - Llama - 70B 等 ,在推理能力上表现出色。 • 阿里云百炼: 提供多个 DeepSeek 系列模型 ,如 DeepSeek 模型蒸馏 • 蒸馏是一种机器学习技术 , 其中较小的模型( “学生模型” )被训练来模仿 较大、 预训练模型( “教师模型” ) 的行为。 • 1. 数据蒸馏 在数据蒸馏中 ,教师模型生成合成数据或伪标签 ,然后这些数据用于训练学 生 模型。 • 2. Logits 蒸馏 在 logits 蒸馏中 ,学生模型被训练来匹配教师模型的 logits ,而不仅仅是 最 终的预测。这种方法 于问答系统和文档检索应用。 6. LlamaIndex 官网: https://docs.llamaindex.ai/ • 功能:简化外部知识库与 LLM 的集成 ,支持动态数据摄取 和 自定义索引 ,可与多种预训练语言模型配合使用。 7. txtai GitHub 主页: https://github.com/neuml/txtai 功能:一体化嵌入数据库 ,提供自然语言搜索、可自定义管 道 ,具备轻量级高效的特点10 积分 | 79 页 | 6.52 MB | 5 月前3
共 7 条
- 1
