华为昇腾DeepSeek解决方案提升每批训练数据的使用效率 ,强化训练信号 • 优化模型表达能力 ,提升 next-token 的预测效果 • 可参考投机采样改造 MTP 模块 ,加速推理效率 MTP : Multi-Token Prediction 多 token 预测提升模 型效果 • MTP 模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用 MTP 模块,基础模型能够独立完成正常推 理 • 参考投机采样, 核心 收益效果 Huawei Proprietary - Restricted Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行 ,训练需求持续增 长 ① 技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐 Scaling Law ,加速探索 AGI ② 工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升, 出现平权现象,引发新一波的“百模千态” qLoRA 微调 CCLoRA 支持 Fused_MLP 不支持 长序列微调 长序列 CP 方案 支持 核心技术 H800 A2 FP8 +20%~25% 不支持 无辅助负载均衡损失 评分效果提升 评分效果提升 DualPipe 计算通信比 1:1->8:1, +8~12% 计算通信比 3:1->6:1, +4~6% 跨节点 All2All 优化 RMSNorm+MLA 部分重计算 省 2~3G0 积分 | 32 页 | 2.52 MB | 5 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025算力 存力 运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力:算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集:数据集越大 (x 轴 ), 模型效果越好 ■ 模型参数:参数越多 (x 轴 ), 模型效果越好 算 力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute10 积分 | 23 页 | 7.53 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 Distribution 直觉,后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本(5,576,000美元 )带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 21 DeepSeek-R1 。 ➢ 随着测试阶段算力和训练阶段探索算力的增加,根据后训练Scaling Law,模型的表现将持续得到改善。 ➢ 理想的数据构建应当覆盖广泛的类别,并且难度分级明确,这有利于实现类似课程学习的效果,逐步提高模 型的能力。 ➢ 在奖励建模时,必须确保基于奖励模型的奖励机制不会被轻易攻陷。平衡推理长度与推理正确率之间 的关系。例如,针对一个序列中的下一个动作,若存在一个是错误答案而另一个是正确答案的情况,10 积分 | 76 页 | 8.39 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025领域的性能和准确度,相当 于 AI 成 为“行业专家” 垂直大模型 L2 是指那些针对特定任务或场景的大 模型 。 它们通常使用任务相关的 数 据进行预训练或微调, 以提高 在该 任务上的性能和效果 3.4 大模型的分 类 按照应用领域的不同 ,大模型主要可以分为 L0 、 L1 、 L2 三个 层级 推理大模型 推理大模型的概念大规模传播应该开始于 2 0 2 4 年 理那些需要 多步骤逻辑推导才能解决的 复杂问题。 3.4 大模型的分 类 大语言模型可以分为通用大模型和推理大模型 3.4 大模型的分 类 n 推理大模型 DeepSeek R1 的对话效果 非推理问题 : ” 法国的首都是哪里 ? ” (答案直接 、 无需推导 ) 推理问题: ” 一列火车以每小时 60 英里的速度行驶 3 小时 , 行驶距离是多少? ” (需先理解 ”距离 能力 ,但在特定任务上的表现往往 不 够精准。 解决方案: ( 1 )模型微调;( 2 )本地知识 库 模型微调技术要点 ( 1 )高质量的标注数据: 标注数 据 的质量直接影响微调的效果 , 需 要确 保数据标注的准确性和一致性。 ( 2 )合理的微调策略: 选择合适 的 微调算法和超参数 ,避免过拟合 或欠 拟合问题。 4.4 本地部署大模型方 案 在监督微调阶段 ,模型会学习一个10 积分 | 123 页 | 15.88 MB | 5 月前3
AI跃迁派:2025年DeepSeek零基础完全指南AI 的隐藏能力 ①数据直通车 操作流程: 1.粘贴 Excel 销售数据→输入“分析 Q4 各品类销售额占比” 2.追加“生成可视化代码(Pythonmatplotlib)” 效果:10 分钟完成原本需 1 天的数据分析报告 ②多 AI 联合作战 指令模板: “先让 DeepSeekR1 制定《智能手环市场调研方案》,再用 GPT-4 生成问卷文案,最后 用 训练能力(如标注数据获得收益) 教育革命: ⚫ 脑机接口实现“技能直输”,1 小时掌握基础编程 ⚫ AI 导师跟踪学习轨迹,动态调整教学策略 ③元宇宙基建 数字孪生引擎:城市管理者可“预演”政策实施效果 虚拟化身经济: ⚫ 用户 AI 分身同时参与 10 场跨国会议 ⚫ 非遗传承人创建数字分身传授濒危技艺 3.伦理治理:构建人机共生新秩序 面对指数级进化的 AI,人类需建立“三层防护体系”:10 积分 | 21 页 | 1.01 MB | 5 月前3
山东大学:DeepSeek 应用与部署自动化交易与算法交易 - 金融产品设计与定价 - 合规管理与报告生成 • 6. DeepSeek 赋能健康医 美 - 个性化治疗方案设计 - 客户管理与智能咨询 - 市场分析与需求预测 - 治疗效果预测与优化 - 智能营销与个性化推荐 - 健康数据管理与分析 - 医美产品设计与优化 - 合规管理与报告生成 • 5. DeepSeek 赋能跨境贸 易 - 市场分析与需求预测 - 供应链优化与物流管理10 积分 | 79 页 | 6.52 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版通过这次改造,机房的节能率超过了 30%,并在最热月份实现了平均能效达到 4.32 的卓越表现,其中 Smart Control 的 AI 控制相比 BA 自控基础上额外提供了 18% 的节能效果。在 6 月份的高温季节,通过对比测试显示,新一代智慧控制系统相较 于常规 BA 控制系统能效提升了 14.89%。Smart Control 方案凭借其三大核心能力 — 系统仿真预测、全局实时优化以及健0 积分 | 82 页 | 5.13 MB | 5 月前3
共 7 条
- 1
