积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(7)技术工具(7)

语言

全部中文(简体)(7)

格式

全部PPT文档 PPT(4)PDF文档 PDF(3)
 
本次搜索耗时 0.014 秒,为您找到相关结果约 7 个.
  • 全部
  • 人工智能
  • 技术工具
  • 全部
  • 中文(简体)
  • 全部
  • PPT文档 PPT
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 华为昇腾DeepSeek解决方案

    提升每批训练数据的使用效率 ,强化训练信号 • 优化模型表达能力 ,提升 next-token 的预测效果 • 可参考投机采样改造 MTP 模块 ,加速推理效率 MTP : Multi-Token Prediction 多 token 预测提升模 型效果 • MTP 模块仅在训练中使用,提升模型训练效果,推理阶段可以不使用 MTP 模块,基础模型能够独立完成正常推 理 • 参考投机采样, 核心 收益效果 Huawei Proprietary - Restricted Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行 ,训练需求持续增 长 ① 技术摸高:头部玩家将战略坚定投入预训练基础模型创新,丰富模型组合,追逐 Scaling Law ,加速探索 AGI ② 工程创新:新的范式降低后训练和蒸馏门槛,模型效果大幅提升, 出现平权现象,引发新一波的“百模千态” qLoRA 微调 CCLoRA 支持 Fused_MLP 不支持 长序列微调 长序列 CP 方案 支持 核心技术 H800 A2 FP8 +20%~25% 不支持 无辅助负载均衡损失 评分效果提升 评分效果提升 DualPipe 计算通信比 1:1->8:1, +8~12% 计算通信比 3:1->6:1, +4~6% 跨节点 All2All 优化 RMSNorm+MLA 部分重计算 省 2~3G
    0 积分 | 32 页 | 2.52 MB | 5 月前
    3
  • ppt文档 浙江大学-DeepSeek模型优势:算力、成本角度解读2025

    算力 存力 运力 ■ 大模型扩展规律 ( 资本非常喜欢确定性故事 ) ■ 算力:算力越大 (X 轴 ), 模型效果越好 (Test Loss 小 ) ■ 数据集:数据集越大 (x 轴 ), 模型效果越好 ■ 模型参数:参数越多 (x 轴 ), 模型效果越好 算 力 L=(Cmin/2.3·108) )-0.050 10-3 10-1 Compute
    10 积分 | 23 页 | 7.53 MB | 5 月前
    3
  • pdf文档 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

    OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 Distribution 直觉,后期RL探索过程进一步挖掘激活 ➢ 大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本(5,576,000美元 )带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 21 DeepSeek-R1 。 ➢ 随着测试阶段算力和训练阶段探索算力的增加,根据后训练Scaling Law,模型的表现将持续得到改善。 ➢ 理想的数据构建应当覆盖广泛的类别,并且难度分级明确,这有利于实现类似课程学习的效果,逐步提高模 型的能力。 ➢ 在奖励建模时,必须确保基于奖励模型的奖励机制不会被轻易攻陷。平衡推理长度与推理正确率之间 的关系。例如,针对一个序列中的下一个动作,若存在一个是错误答案而另一个是正确答案的情况,
    10 积分 | 76 页 | 8.39 MB | 5 月前
    3
  • ppt文档 DeepSeek大模型赋能高校教学和科研2025

    领域的性能和准确度,相当 于 AI 成 为“行业专家” 垂直大模型 L2 是指那些针对特定任务或场景的大 模型 。 它们通常使用任务相关的 数 据进行预训练或微调, 以提高 在该 任务上的性能和效果 3.4 大模型的分 类 按照应用领域的不同 ,大模型主要可以分为 L0 、 L1 、 L2 三个 层级 推理大模型 推理大模型的概念大规模传播应该开始于 2 0 2 4 年 理那些需要 多步骤逻辑推导才能解决的 复杂问题。 3.4 大模型的分 类 大语言模型可以分为通用大模型和推理大模型 3.4 大模型的分 类 n 推理大模型 DeepSeek R1 的对话效果 非推理问题 : ” 法国的首都是哪里 ? ” (答案直接 、 无需推导 ) 推理问题: ” 一列火车以每小时 60 英里的速度行驶 3 小时 , 行驶距离是多少? ” (需先理解 ”距离 能力 ,但在特定任务上的表现往往 不 够精准。 解决方案: ( 1 )模型微调;( 2 )本地知识 库 模型微调技术要点 ( 1 )高质量的标注数据: 标注数 据 的质量直接影响微调的效果 , 需 要确 保数据标注的准确性和一致性。 ( 2 )合理的微调策略: 选择合适 的 微调算法和超参数 ,避免过拟合 或欠 拟合问题。 4.4 本地部署大模型方 案 在监督微调阶段 ,模型会学习一个
    10 积分 | 123 页 | 15.88 MB | 5 月前
    3
  • pdf文档 AI跃迁派:2025年DeepSeek零基础完全指南

    AI 的隐藏能力 ①数据直通车 操作流程: 1.粘贴 Excel 销售数据→输入“分析 Q4 各品类销售额占比” 2.追加“生成可视化代码(Pythonmatplotlib)” 效果:10 分钟完成原本需 1 天的数据分析报告 ②多 AI 联合作战 指令模板: “先让 DeepSeekR1 制定《智能手环市场调研方案》,再用 GPT-4 生成问卷文案,最后 用 训练能力(如标注数据获得收益) 教育革命: ⚫ 脑机接口实现“技能直输”,1 小时掌握基础编程 ⚫ AI 导师跟踪学习轨迹,动态调整教学策略 ③元宇宙基建 数字孪生引擎:城市管理者可“预演”政策实施效果 虚拟化身经济: ⚫ 用户 AI 分身同时参与 10 场跨国会议 ⚫ 非遗传承人创建数字分身传授濒危技艺 3.伦理治理:构建人机共生新秩序 面对指数级进化的 AI,人类需建立“三层防护体系”:
    10 积分 | 21 页 | 1.01 MB | 5 月前
    3
  • ppt文档 山东大学:DeepSeek 应用与部署

    自动化交易与算法交易 - 金融产品设计与定价 - 合规管理与报告生成 • 6. DeepSeek 赋能健康医 美 - 个性化治疗方案设计 - 客户管理与智能咨询 - 市场分析与需求预测 - 治疗效果预测与优化 - 智能营销与个性化推荐 - 健康数据管理与分析 - 医美产品设计与优化 - 合规管理与报告生成 • 5. DeepSeek 赋能跨境贸 易 - 市场分析与需求预测 - 供应链优化与物流管理
    10 积分 | 79 页 | 6.52 MB | 5 月前
    3
  • pdf文档 英特尔-工业人工智能白皮书2025年版

    通过这次改造,机房的节能率超过了 30%,并在最热月份实现了平均能效达到 4.32 的卓越表现,其中 Smart Control 的 AI 控制相比 BA 自控基础上额外提供了 18% 的节能效果。在 6 月份的高温季节,通过对比测试显示,新一代智慧控制系统相较 于常规 BA 控制系统能效提升了 14.89%。Smart Control 方案凭借其三大核心能力 — 系统仿真预测、全局实时优化以及健
    0 积分 | 82 页 | 5.13 MB | 5 月前
    3
共 7 条
  • 1
前往
页
相关搜索词
华为DeepSeek解决方案解决方案浙江大学浙江大学模型优势算力成本角度解读2025R1Kimi1.5及类推理推理模型开发报告赋能高校教学科研AI跃迁基础完全指南山东东大山东大学应用部署英特特尔英特尔工业人工智能人工智能白皮皮书白皮书年版
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩