华为昇腾DeepSeek解决方案DS 对通过从模型结构到训推全流程的极致工程优化, 大幅提升 AI 的计算效率, 提升模型落地经济性 • 中国 AI 公司首次以关键创新贡献者的身份加入到全 球 AI 竞争中,冲击美国 AI 霸权 • 打破 NV+OpenAI 的资金、技术、人才的垄断,全球 重新思考中美技术路线的选择 泛化性和经济性大幅提升 LLM 进入“ CV Resnet 时刻” 补齐最后一块自主创新的版图 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 & 互联网 硬件级优化 绕过 GUDA 进行 PTX 编程 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 Qwen/LLaMa 1.5B 7B 14B 32B 70B ) DeepSeek-R1 以 DeepSeek-V3 Base ( 671B )为基础模型, 使 用 GRPO 算法作为 RL 框架来提升 Reasoning 性能 Huawei Proprietary - Restricted Distribution 5 张量低秩压缩以降低 KV Cache 资源开销:相比于传统 MHA ,0 积分 | 32 页 | 2.52 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: Post-Training 阶段,随着训练时计算量(来自RL的Training阶段)和 Test-Time 计算量 (例如Test-Time Search)的增长,模型性能(例如数学推理能力)也会随之提升 ➢ Post-Training Scaling Laws 下 训练时计算量 多了一个新的变量:Self-Play 探索时 LLM Inference 的计算量 [1] https://openai 回顾:Post-Training Scaling Law 为什么我们需要后训练 Scaling-Law ? ➢ 随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减;如果想要深度提升模 型推理能力和长程问题能力,基于RL的 Post-Training 将会成为下一个突破点。 ➢ 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成 式方10 积分 | 76 页 | 8.39 MB | 6 月前3
英特尔-工业人工智能白皮书2025年版等众多环节,它通过处理和分析海量工业数 据,帮助企业在上述各个环节中做出最优的智能化决策,从而在多个环节全方位实现提质、增效、降 本,增强竞争力。 在日趋激烈的工业市场竞争中,寻求部署新技术来提升综合竞争力,是企业的生存之道。而引领工业 革命浪潮的 AI 技术和大模型,是企业从多维度重塑自身生产方式、实现新质生产力的关键。 通过这本白皮书,工业领域的企业和合作伙伴可以更系统、更全面地了解 (AI) 行业观察 工业 AI,是 AI 技术在工业领域的应用,它通过机器学习、深度学习、计算机视觉等先进的计算智能方法,实现对工业生产 过程的优化和智能化,最终帮助企业提高生产效率、降低成本、提升产品质量,实现数字化转型。 2023 年 12 月,由信通院牵头、多家单位联合编制的《工业大模型技术应用与发展报告》指出,AI 与大模型将加速赋能新型 工业化,预计从 2022 年至 2032 年,工业 通过深度学习识别设备上的 条形码、二维码或设备特征,自动读取设备信息如型 号、序列号等;AI 的自然语言处理功能,可以自动 提取设备手册或标签上的文字信息,获取设备规格、 性能指标等关键参数。这些都能显著提升设备入库管 理的效率和准确性。 在设备运维管理方面,利用机器学习算法,对部署在 设备上的温度、压力、振动等各种传感器给出的监测 数据进行处理分析,实时监控设备运行状态,并可通 过模式识别算法检测数据中的异常,预测可能出现的0 积分 | 82 页 | 5.13 MB | 5 月前3
AI跃迁派:2025年DeepSeek零基础完全指南DeepSeek 的诞生不仅是技术突破,更是国家战略级的里程碑: 成本革命: ⚫ 训练成本仅 558 万美元(仅为美国同类模型的 1/20) ⚫ 推理速度提升 3 倍,生成文字速度从 20 字/秒提升至 60 字/秒 行业重塑: ⚫ 迫使国际巨头降价(如 AnthropicClaude 降价 30%) ⚫ 首款登顶全球 140 国应用榜的国产 AI 模型 ,写诗转接 “文学教授” ⚫ MLA 多头潜在注意力:让 AI 像章鱼同时处理多任务,普通电脑也能流畅运行 ⚫ DualPipe 通信技术:优化 AI“脑细胞”之间的协作效率,响应速度提升 50% 2.功能模块:你的私人 AI 军团 DeepSeek 通过三大功能模块,满足从日常生活到专业领域的全场景需求: 模块 1:基础版(V3)——效率倍增器 适用人群:学生、白领、自媒体创作者 尝试用“请总结这份文档的三个核心要点”等明确指令 四、高效提示词工程 1.黄金提问法则:像指挥特种兵一样精准 DeepSeek 的提示词设计遵循“目标导向+场景适配”原则,掌握以下技巧可让 AI 输出质 量提升 300%: ①四要素提问法 公式:身份+场景+目标+限制条件 -案例: ⚫ 职场:“作为跨境电商运营(身份),要优化亚马逊产品标题(场景),要求包含关 键词‘ergono10 积分 | 21 页 | 1.01 MB | 6 月前3
DeepSeek大模型赋能高校教学和科研2025性能均超越了其他开源模型 , 甚至与顶尖的闭源大模型 GPT-4o 不相上下 , 尤 其在数学推理上 , DeepSeek-V3 更是遥遥领先。 DeepSeek-V3 以多项 开创性 技术 ,大幅提升了模型的性能和训练效率。 DeepSeek-V3 在性能比 肩 GPT- 4o 的同时 ,研发却只花了 558 万美元 , 训练成本不到后者的二十分之一。 因 为表现太过优越 , DeepSeek 监督微调 强化学习 不足之处: n 本地知识库 RAG ( Retrieval-Augmented Generation ) , 即检索增强生成 ,是一种结合检索技术和生成模型的技术框 架, 旨在提升模型生成内容的准确性和相关性 其核心思想是: 在生成答案前 , 先从外部知识库中检索相关信息 , 再将检索结果与用户输入结合 ,指导生成模 型 输出更可靠的回答。 简单地说 ,就是利用已有的文档、 如人脸识别、 车 牌 识别等。 这项技术对于安防监控、 智能搜索、 自动驾驶等领域的发展至关重要 通过对图像进行增强处理 , AIGC 可以增加图像的饱满感和增强细节 , 使图像质量得到提升。 这 在提升照片的视觉效果、 改善图像的清晰度和细节方面非常有用 AIGC 还可以修复损坏的图像 , 如去除噪声、 填充缺失的部分等。 这项技术对于保护和恢复古 老 的艺术作品、 修复损坏的照片等具有重要意义10 积分 | 123 页 | 15.88 MB | 6 月前3
从智慧教育到智慧课堂:理论、规范与实践Learning environment 变换学习 组织形式 (桌椅文化) 根据教学内容和学生学习需求,适时调整变换教学 组织形式,提升学习效率。如,扇形、马蹄形、半圆 形、圆形等座位排序,便于学生讨论交流,缩短师生、 生生之间的心理距离,提升学生的群体合作意识,便 于群体智慧共享。 学习环境:根据学习需求调整学生座位 3 Learning environment 学习环境:以课程内容布置教室 从指导决策。 通过开放式应用和灵活性 加工, IBM 帮助教育实现 智能化 智能工作 绿色与其它 新智慧 能源结构 IBM 帮助教育创建智慧设施, 在减少成本的前提下,提供能 源和安全。 提升学生、教育和社会的 成果 为教师和学生提供个性化 学习资源 保证实现投资目标 通过灵活性系统实现 环境改变 IBM 智慧课堂 1:1 学习 可视化 共享服务 Client10 积分 | 74 页 | 10.39 MB | 6 月前3
共 6 条
- 1
