华为昇腾DeepSeek解决方案把握 DeepSeek 时刻,携手同 行 华为昇腾 AI 解决方案汇报 2025 年 2 月 DeepSeek 洞察及昇腾适配进展 华为昇腾 AI 基础软硬件介绍 CO NT E NTS 目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 AI 技术 DeepSeek 是 AI 发展史上的一个关键里程碑,但远未达到 AI 终点 AI 模型算法: GPT 、 LLaMA AI 框架: PY 、 TF 异构计算架构: CUDA 互联技术: AI 框架:昇思、飞桨 … 异构计算架构: CANN … 互联技术:灵衢 AI 芯片:昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级,模型能力 = 算力 x 数据 x 思考 + 逻辑推理 DeepSeek-V3/R1 OpenAI-o1/o3 算力 x 数据 重新定义 Scaling Law 延续智能涌现的 方向 20170 积分 | 32 页 | 2.52 MB | 5 月前3
山东大学:DeepSeek 应用与部署DeepSeek 应用与部 署 听听真我数字人讲 DeepSeek AIGC 发展历 程 AIGC 2014-2024 自然语言处理与语言模型 大语言模型 LLM : 2018 — 2024 DeepSeek 介 绍 DeepSeek : 2023 — DeepSeek : 技术创新——模型架构 | V2 ( Multi-Head Latent Attention ) ) DeepSeek : 技术创新—模型架构 | V3 PPO : Proximal Policy Optimization GRPO : Group Relative Policy Optimization 强化学习让智能体( Agent )在环境 ( Environment )中不断尝试、学习 ,并优化自己 的策略( Policy ) ,最终获得最大化的奖励 ( ( Reward )。 DeepSeek : 技术创新—推理模型 | RL DeepSeek 应用场 景 DeepSeek 的能力层级 • 1. 基础能力层 多模态数据融合与结构化理解 ,包括跨模态语义对齐(文本、 图像、 音频、 视频、 代 码、传感器数据统一语义) 和动态数据治理(解决数据缺失、 噪音干扰、 概念飘逸等) , 支持 200 多 种数据格式自动解析。 •10 积分 | 79 页 | 6.52 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025DeepSeek 每个人都可以读懂的大模型科普报告(高校篇) DeepSeek 大模型赋能高校教学和科 研 厦门大学大数据教学团队作品 2025 年 2 月 25 日 厦门大学 林子雨 副教授 国 内 高 校 大 数 据 教 学 的 重 要 贡 献 者 团队负责人 :林子雨 副教授 年轻力量: 核心成员全部 46 周岁以下 结构合理: 教学型、 科研型、 实验工程师 专注专业: 从 团队联系方式: ziyulin@xmu.edu.cn 厦门大学大数据教学团队 1. 人工智能发展简史 2. 人工智能思维 3. 大模型: 人工智能的前沿 4. 高校本地部署 DeepSeek 大模 型 5. AIGC 应用与实践 6. 基于大模型的智能体 7. AI 赋能高校科研 8. AI 赋能高校教学 目录 厦门大学大数据教学团队作品 2025 人工智能的诞 生 1.3 人工智能的发展阶 段 从 1956 年人工智能元年至今 ,人工智能的发展历程经历了漫长的岁月 ,大致可以划分为以下 6 个 阶段 OpenAI Operator DeepSeek R1 1.4 未来人工智能发展 5 个阶 段 2. 人工智能思维 厦门大学大数据教学团队作品 拥有和人工智能协作的能力, 懂得如何运用人工智能 2. 人工智能思 维 具备区分人的能力10 积分 | 123 页 | 15.88 MB | 5 月前3
AI跃迁派:2025年DeepSeek零基础完全指南《DeepSeek 零基础完全指南》 公众号“AI 跃迁派”出品 一、DeepSeek 全景认知 1.颠覆性定义:人人都能用的认知引擎 DeepSeek(深度求索)是中国首个全栈开源的大语言模型,由杭州深度求索人工智能 公司研发,定位为“认知智能引擎”。简单来说,它是一个能像人类一样思考、学习和解 决问题的超级 AI 工具。 核心能力: ⚫ 复杂推理:像学霸解数学题一样处理逻辑难题(R1 混合专家系统:遇到问题自动召唤“专业团队”,比如数学题找数学专家模 块,写诗找创意模块 ⚫ 强化学习驱动:通过“试错+奖励”机制自我进化,类似游戏 AI 自学通关 2.划时代意义:中国 AI 的破局之战 DeepSeek 的诞生不仅是技术突破,更是国家战略级的里程碑: 成本革命: ⚫ 训练成本仅 558 万美元(仅为美国同类模型的 1/20) ⚫ 推理速度提升 3 倍,生成文字速度从 20 块国产昇腾芯片完成训练 ⚫ 构建自主技术生态:带动华为昇腾、寒武纪等国产芯片产业发展 3.功能定位:你的全能数字助手 DeepSeek 不是冷冰冰的工具,而是能融入生活的智能伙伴: 4.技术普惠:AI 民主化的中国方案 DeepSeek 通过两大创新让 AI 技术“飞入寻常百姓家”: 1.开源开放:代码和模型权重全部公开,学生也能用个人电脑跑 AI 2.知识蒸馏:把10 积分 | 21 页 | 1.01 MB | 5 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025DeepSeek 模型优势:算力、成本角度 解读 2025 年 2 月 ■ 什么算力 ?“ 对信息数据进行计算,实现目标结果的能力” ■ 传统算力:信息计算力 ■ 现代算力:信息计算力、数据存储力、网络运载力 算力的基本概念 大脑 草绳、石子 算盘、算筹 ▶ 计算器、计算机 ■ 原生算力:大脑 ( 可处理复杂逻辑,但不能高速处理简单运算 7nm 工艺的国内芯 片 存力: 2024 年禁止 HBM 芯片 光刻机: 2024 年限制荷兰 ASML 出口 7nm 光刻机到 中国 时代背景:算力卡脖子 deepsee k DeepSeek 等国内大模型的“上甘岭”时刻 Al 算法与系统协同深度优化 反斜面坑道 ( 战术穿插 ) 范弗利特弹药量 ( 地毯轰 炸 ) 大资金、大算力、大模型 6.2*107 DeepSeek v3 2024 年 12 月 2.8*106 5.6*106 DeepSeek V3 公开的单次极低预训练成 本 DeepSeek 全部训练单次成本: 5,576,000 美 元 单张 H800 GPU 每小时租赁成本: 2 美 元 泛大 模型 / 指标 DeepSeek V1 DeepSeek V2 DeepSeek V3 Llama10 积分 | 23 页 | 7.53 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 北大对齐小组 陈博远 北京大学2022级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero Zero 及 R1 技术剖析 ➢ Pipeline 总览 \ DeepSeek-V3 Base \ DeepSeek-R1 Zero 及 R1 细节分析 ➢ RL 算法的创新:GRPO及其技术细节 ➢ DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 \ 推理范式的涌现 ➢ DeepSeek-R1 社会及经济效益 ➢ 技术对比探讨 ➢ STaR-based Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment ➢ 补充拓展:DeepSeek-V3 解读 3 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling10 积分 | 76 页 | 8.39 MB | 5 月前3
共 6 条
- 1
