华为昇腾DeepSeek解决方案混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏 MOE 提质 降本 技术创新 硬件级、算法级、架构级、工程级、开 源生态 5 大技术创新,轰动全球 低成本 架构创新 工程奇迹 开源生态 4 Huawei Proprietary - Restricted Distribution DeepSeek R1: 在 Reasoning 任务达到了世界水平( OpenAI- o1 ) 以 2 阶段 SFT+2 阶段 RL 完成,从而解决 R1-Zero 可读性差、 多种 语言混合问题 本次开源同时发布了 6 个基于 一体机 钉钉一体机 电信息壤一体机 昇腾社区 新致金融一体机 同花顺一体机 …… …… 诸多厂家推出一体化方案对 外提供服务 / 自用 硬件 + 开源模型 +RL 套件 +ISV/ 云,商业模式逐渐成熟 DeepSeek 能力提升成为各行业生产力工具,加速推理落地千行 百业 DeepSeek 催熟大模型落地技术, 降低推理部署门 槛 行业大模型0 积分 | 32 页 | 2.52 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强大的推理能力与长文本思考能力,DeepSeek R1在复杂任务上表现卓越,成为开源领域的又 一里程碑,标志着开源社区在与闭源大模型(如 OpenAI o1 系列)的竞争中迈出了关键性一步。 ➢ DeepSeek-R1 在数学代码任务上表现突出 ➢ Deepseek R1在AIME2024上获得了79 Align-Anything 框架支持任意到任意模态对齐,这在目前开源社区中是独一无二的。它填补了现有 框架仅支持单一模态或少数模态对齐的空白,为全模态大模型的对齐提供了统一和通用的解决方案; 数据集:开源涵盖12种模态 的400K对齐数据集 算法:开源面向任意模态、涵盖 SFT、RLHF、DPO等主流对齐 微调算法的训练代码 模型:开源指令跟随微调后的 Chameleon、LLaMA3.2-Vision10 积分 | 76 页 | 8.39 MB | 6 月前3
AI跃迁派:2025年DeepSeek零基础完全指南《DeepSeek 零基础完全指南》 公众号“AI 跃迁派”出品 一、DeepSeek 全景认知 1.颠覆性定义:人人都能用的认知引擎 DeepSeek(深度求索)是中国首个全栈开源的大语言模型,由杭州深度求索人工智能 公司研发,定位为“认知智能引擎”。简单来说,它是一个能像人类一样思考、学习和解 决问题的超级 AI 工具。 核心能力: ⚫ 复杂推理:像学霸解数学题一样处理逻辑难题(R1 通过两大创新让 AI 技术“飞入寻常百姓家”: 1.开源开放:代码和模型权重全部公开,学生也能用个人电脑跑 AI 2.知识蒸馏:把 70B 参数大模型压缩到 1.5B,手机都能运行专业级 AI 5.国际影响:技术出海的东方智慧 ⚫ 在东南亚、中东等地区,DeepSeek 成为数智主权建设工具,帮助发展中国家摆脱 对西方技术的依赖 ⚫ 开源策略吸引全球 20 万开发者,形成中美双极化的 助手参加职业资格考试 ③经济形态 ⚫ 零边际成本创业: 个人开发者通过 DeepSeekAPI,3 天开发出月入 10 万的智能客服系统 ⚫ 分布式经济: 非洲初创团队基于开源模型开发农业咨询 AI,成本仅为 GPT-4 方案的 1/20 4.伦理与挑战 在享受技术红利的同时需警惕风险: ①数字鸿沟 ⚫ 技术垄断:掌握提示词工程的人群收入差距扩大10 积分 | 21 页 | 1.01 MB | 6 月前3
DeepSeek大模型赋能高校教学和科研2025日 ,杭州一家名为“深度求索”( DeepSeek ) 的中国初创公 司, 发布了全新一代大模型 DeepSeek-V3 。 在多个基准测试中 , DeepSeek-V3 的 性能均超越了其他开源模型 , 甚至与顶尖的闭源大模型 GPT-4o 不相上下 , 尤 其在数学推理上 , DeepSeek-V3 更是遥遥领先。 DeepSeek-V3 以多项 开创性 技术 ,大幅提升了模型的性能和训练效率。 ,容易出现算力资源分散管理、 忙闲不 均、 共享不畅等问题 ,拖慢科研成果产出效率 大模型的技术栈复杂。 即使是目前广 受欢迎的 DeepSeek , 在业界看来 , 其落地门槛仍然很高 比如拿到一个开源的 DeepSeek 模型后 ,要先做算力适配 , 一种简单粗暴的做法是多买一些已经适配过的卡 ,把它给 装进去 ,再结合用户的私有数据 ,去做常规的 RAG 或微 调。 这种方式简单易操作 ,获得更小参数的模型 ,来降低算力需求 4.4 本地部署大模型方 案 高校本地部署大模型面临的问题: n 2025 年 2 月 10 日 ,清华大学 AI 团队发布 KTransformers 开源项目迎来重大更新 ,成功打破大模型推 理算 力门槛。 此前 ,拥有 671B 参数的 MoE 架构大模型 DeepSeek-R1 在推理时困难重重。 推理服务 器常因高 负荷宕机 , 专属版云服务器按10 积分 | 123 页 | 15.88 MB | 6 月前3
英特尔-工业人工智能白皮书2025年版矢量单元相比,XMX AI 引擎完成 AI 推理操作的计算 能力是其 16 倍,可为大幅提升边缘 AI 应用的生产力。 开放和基于标准的 GPU 编程工具 OpenVINO™ 英特尔® 提供了开源的 OpenVINO™ 工具包,为 AI 工作负载提供了在英特尔锐炫™ GPU 上最大的加速和优化。同时, OpenVINO™ 可简化和优化跨不同平台运行的 AI 推理代码开发。一次编码,即可在 GPU、CPU 基础工具包的补充,包括以下工具: • 英特尔® Fortran 编译器 • 英特尔® Fortran 编译器经典版 • 英特尔® MPI 库 英特尔® 渲染工具包 英特尔® 渲染工具包是一套强大的开源渲染、光线追踪、去 噪和路径引导库,用于 AI 合成数据生成、数字孪生、高保 真和高性能可视化,以及沉浸式内容创作。利用这些库和 英特尔® CPU 与 GPU 硬件,实现优化的渲染性能,构成一 神经网络压缩器 • 英特尔® AI 参考模型 • Modin(pandas 的即插即用替代品) 英特尔® OpenVINO™ 工具套件发行版 英特尔® OpenVINO™ 工具套件发行版一个开源工具包,它 加速了 AI 推理,降低了延迟,提高了吞吐量,同时保持了 准确性,减少了模型占用空间,并优化了硬件使用。该工具 包用于简化了 AI 开发和深度学习在计算机视觉、大型语言 模型 (LLM)、生成性0 积分 | 82 页 | 5.13 MB | 5 月前3
山东大学:DeepSeek 应用与部署token 数量以模型返回为准 ,您可以从返回结果的 usage 中查看。 阿里云部署 Deepseek 以 DeepSeek-R1 满血版为例进行演示 ,通过百炼模型服务进行 DeepSeek 开源模型调用 ,可以 根 据实际需求选择其他参数规模的 DeepSeek 模型。百炼平台的 API 提供标准化接口 ,无需自 行搭建 模型服务基础设施 ,且具备负载均衡和自动扩缩容机制 ,保障 API10 积分 | 79 页 | 6.52 MB | 5 月前3
共 6 条
- 1
