效果 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

华为昇腾DeepSeek解决方案

提升每批训练数据的使用效率，强化训练信号 • 优化模型表达能力，提升 next-token 的预测效果 • 可参考投机采样改造 MTP 模块，加速推理效率 MTP ： Multi-Token Prediction 多 token 预测提升模型效果 • MTP 模块仅在训练中使用，提升模型训练效果，推理阶段可以不使用 MTP 模块，基础模型能够独立完成正常推理 • 参考投机采样，核心收益效果 Huawei Proprietary - Restricted Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行，训练需求持续增长 ① 技术摸高：头部玩家将战略坚定投入预训练基础模型创新，丰富模型组合，追逐 Scaling Law ，加速探索 AGI ② 工程创新：新的范式降低后训练和蒸馏门槛，模型效果大幅提升，出现平权现象，引发新一波的“百模千态” qLoRA 微调 CCLoRA 支持 Fused_MLP 不支持长序列微调长序列 CP 方案支持核心技术 H800 A2 FP8 +20%~25% 不支持无辅助负载均衡损失评分效果提升评分效果提升 DualPipe 计算通信比 1:1->8:1, +8~12% 计算通信比 3:1->6:1, +4~6% 跨节点 All2All 优化 RMSNorm+MLA 部分重计算省 2~3G

0 积分 | 32 页 | 2.52 MB | 9 月前
3
浙江大学-DeepSeek模型优势：算力、成本角度解读2025

算力存力运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力：算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集：数据集越大 (x 轴 ), 模型效果越好 ■ 模型参数：参数越多 (x 轴 ), 模型效果越好算力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute

10 积分 | 23 页 | 7.53 MB | 9 月前
3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

OpenAI o1 开启后训练 Post-Training 时代下的RL新范式：后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念，并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力？ ➢ 得益于纯大规模强化学习，DeepSeek-R1 Distribution 直觉，后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本（5,576,000美元）带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 21 DeepSeek-R1 。 ➢ 随着测试阶段算力和训练阶段探索算力的增加，根据后训练Scaling Law，模型的表现将持续得到改善。 ➢ 理想的数据构建应当覆盖广泛的类别，并且难度分级明确，这有利于实现类似课程学习的效果，逐步提高模型的能力。 ➢ 在奖励建模时，必须确保基于奖励模型的奖励机制不会被轻易攻陷。平衡推理长度与推理正确率之间的关系。例如，针对一个序列中的下一个动作，若存在一个是错误答案而另一个是正确答案的情况，

10 积分 | 76 页 | 8.39 MB | 9 月前
3
DeepSeek大模型赋能高校教学和科研2025

领域的性能和准确度，相当于 AI 成为“行业专家” 垂直大模型 L2 是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调，以提高在该任务上的性能和效果 3.4 大模型的分类按照应用领域的不同，大模型主要可以分为 L0 、 L1 、 L2 三个层级推理大模型推理大模型的概念大规模传播应该开始于 2 0 2 4 年理那些需要多步骤逻辑推导才能解决的复杂问题。 3.4 大模型的分类大语言模型可以分为通用大模型和推理大模型 3.4 大模型的分类 n 推理大模型 DeepSeek R1 的对话效果非推理问题： ” 法国的首都是哪里？ ” （答案直接、无需推导）推理问题： ” 一列火车以每小时 60 英里的速度行驶 3 小时，行驶距离是多少？ ” （需先理解 ”距离能力，但在特定任务上的表现往往不够精准。解决方案：（ 1 ）模型微调；（ 2 ）本地知识库模型微调技术要点（ 1 ）高质量的标注数据：标注数据的质量直接影响微调的效果，需要确保数据标注的准确性和一致性。（ 2 ）合理的微调策略：选择合适的微调算法和超参数，避免过拟合或欠拟合问题。 4.4 本地部署大模型方案在监督微调阶段，模型会学习一个

10 积分 | 123 页 | 15.88 MB | 9 月前
3
AI跃迁派：2025年DeepSeek零基础完全指南

AI 的隐藏能力 ①数据直通车操作流程： 1.粘贴 Excel 销售数据→输入“分析 Q4 各品类销售额占比” 2.追加“生成可视化代码（Pythonmatplotlib）” 效果：10 分钟完成原本需 1 天的数据分析报告 ②多 AI 联合作战指令模板： “先让 DeepSeekR1 制定《智能手环市场调研方案》，再用 GPT-4 生成问卷文案，最后用训练能力（如标注数据获得收益）教育革命： ⚫ 脑机接口实现“技能直输”，1 小时掌握基础编程 ⚫ AI 导师跟踪学习轨迹，动态调整教学策略 ③元宇宙基建数字孪生引擎：城市管理者可“预演”政策实施效果虚拟化身经济： ⚫ 用户 AI 分身同时参与 10 场跨国会议 ⚫ 非遗传承人创建数字分身传授濒危技艺 3.伦理治理：构建人机共生新秩序面对指数级进化的 AI，人类需建立“三层防护体系”：

10 积分 | 21 页 | 1.01 MB | 9 月前
3
山东大学：DeepSeek 应用与部署

自动化交易与算法交易 - 金融产品设计与定价 - 合规管理与报告生成 • 6. DeepSeek 赋能健康医美 - 个性化治疗方案设计 - 客户管理与智能咨询 - 市场分析与需求预测 - 治疗效果预测与优化 - 智能营销与个性化推荐 - 健康数据管理与分析 - 医美产品设计与优化 - 合规管理与报告生成 • 5. DeepSeek 赋能跨境贸易 - 市场分析与需求预测 - 供应链优化与物流管理

10 积分 | 79 页 | 6.52 MB | 9 月前
3
英特尔-工业人工智能白皮书2025年版

通过这次改造，机房的节能率超过了 30%，并在最热月份实现了平均能效达到 4.32 的卓越表现，其中 Smart Control 的 AI 控制相比 BA 自控基础上额外提供了 18% 的节能效果。在 6 月份的高温季节，通过对比测试显示，新一代智慧控制系统相较于常规 BA 控制系统能效提升了 14.89%。Smart Control 方案凭借其三大核心能力 — 系统仿真预测、全局实时优化以及健

0 积分 | 82 页 | 5.13 MB | 9 月前
3

共 7 条前往

页

分类

语言

格式

华为昇腾DeepSeek解决方案

浙江大学-DeepSeek模型优势：算力、成本角度解读2025

2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

DeepSeek大模型赋能高校教学和科研2025

AI跃迁派：2025年DeepSeek零基础完全指南

山东大学：DeepSeek 应用与部署

英特尔-工业人工智能白皮书2025年版