华为昇腾DeepSeek解决方案研 HAI-LLM 训练系统总计训练了 1394h ( 58.08 天) 性能优 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 & 互联网 硬件级优化 绕过 GUDA 进行 PTX 编程 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 硅基流动 已上线 清昴 已上线 讯飞 测试中 运营商 电信天翼云 已上线 联通云 已上线 移动云 已上线 南京、福建、浙江移动 已上线 上海、江苏电信 已上线 国计民生行业 龙岗区政府 已上线 北京银行 已上线 广大证券 已上线 北京、南京、西安、武 汉、苏州、无锡等公共 服务平台 已上线 招行 测试中 工行 测试中 太保 测试中 模型名称 Atlas 300I Duo DeepSeekV3/R1/Janus-Pro 及 6 个蒸馏模 型 基于昇腾开箱即用,配套版本已上线各大开源 社区 DeepSeek 发布两周, 3 大社区全系列模型上线 40+ 客户 / 伙伴基于昇腾已上线, 15+ 测试中(预计两周内全部上 线) 12 Huawei Proprietary - Restricted Distribution 编程辅助 智能客服 … 个性化学习辅导 创意写作0 积分 | 32 页 | 2.52 MB | 1 年前3
英特尔-工业人工智能白皮书2025年版atforms/details/alder- lake-p.html 1. 性能测试结果基于配置信息中显示的日期进行的测试,且可能并未反映所有公开可用的安全更新。预测或模拟结果使用英特尔内部分析或架构模拟或建模,该等结果仅供您参考。系统 硬件、软件或配置中的任何差异将可能影响您的实际性能。关于性能和基准测试程序结果的更多信息,请访问:intel.cn/PerformanceIndex 16 Milan:由 Numenta 测试,截至 2022 年 11 月 28 日。1 个节点,AWS m6a.48xlarge 上的 2 个 AMD EPYC 7R13,768 GB DDR4-3200, Ubuntu 20.04 内核 5.15,OpenVINO™ 2022.3,BERT-Large,序列长度 512,批大小为 1。英特尔® 至强® 8480+:由 Numenta 测试,截至 2022 年 11 22.04 内核 5.17,OpenVINO™ 2022.3,Numenta 优化的 BERT-Large,序列长度 512,批大小为 1。 英特尔® 至强® Max 9468:由 Numenta 测试,截至 2022 年 11 月 30 日。1 个节点,2 个英特尔® 至强® Max 9468,128 GB HBM2e 3200 MT/s,Ubuntu 22.04 内核 5.15,OpenVINO™0 积分 | 82 页 | 5.13 MB | 1 年前3
DeepSeek大模型赋能高校教学和科研2025AIGC 应用与实践 6. 基于大模型的智能体 7. AI 赋能高校科研 8. AI 赋能高校教学 目录 厦门大学大数据教学团队作品 2025 年 2 月 1.1 图灵测试 1.2 人工智能的诞生 1.3 人工智能的发展阶段 1.4 未来人工智能发展的五个阶 段 1. 人工智能发展简 史 厦门大学大数据教学团队作品 1950 年 , “计算机之父”和“人工智能之父”艾伦 ,这就是 人 工智能领域著名的“图灵测试”。 如图所示 ,其基本思想是测试者 在 与被测试者(一个人和一台机 器) 隔离的情况下 ,通过一些装 置(如 键盘)向被测试者随意提 问。进行 多次测试后 ,如果被测 试者机器让 平均每个测试者做出 超过 30% 的误 判 ,那么这台机器 就通过了测试 , 并被认为具有人 类智能 1.1 图灵测试 人工智能的诞生可以追溯到 1 月国内大模型排行 榜 2024 年 12 月 26 日 ,杭州一家名为“深度求索”( DeepSeek ) 的中国初创公 司, 发布了全新一代大模型 DeepSeek-V3 。 在多个基准测试中 , DeepSeek-V3 的 性能均超越了其他开源模型 , 甚至与顶尖的闭源大模型 GPT-4o 不相上下 , 尤 其在数学推理上 , DeepSeek-V3 更是遥遥领先。 DeepSeek-V310 积分 | 123 页 | 15.88 MB | 1 年前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告场景中的视 觉推理能力。 ➢ 合成视觉推理数据 是人工生成的,包括程序化创建的图像和场景,旨在提高特定的视觉推理技能,例如理解 空间关系、几何模式和物体交互。这些合成数据集提供了可控环境,用于测试模型的视觉推理能力,并且可以 无限生成训练样本。 ➢ 文本渲染数据 是通过将文本内容转换为视觉格式创建的,使模型能够在不同模态下保持一致的文本处理能力。 通过将文本文档、代码片段和结构化数据转 深度,如逐层加深反思、验证、回溯等行为范式的形成。它允许模型自然地探索到验证、回溯、总结、 反思的行为模式,这些对于提高模型在推理任务中的表现至关重要。 ➢ 后训练Pipeline对于提升模型推理能力的重要性不可忽视。 ➢ 随着测试阶段算力和训练阶段探索算力的增加,根据后训练Scaling Law,模型的表现将持续得到改善。 ➢ 理想的数据构建应当覆盖广泛的类别,并且难度分级明确,这有利于实现类似课程学习的效果,逐步提高模 个涵盖数学竞赛、博士级科学问题及奥林匹克竞赛题目等,这些问题经 过难度、多样性和质量的严格筛选,并包含详细的推理轨迹与答案。 类似课程学习的效果。 ➢ 采样策略优化:预算强制法有效地控制了模型在测试阶段的计算资源消耗。 ➢ 当模型生成的思考标记超过预设限制时,插入“end-of-thinking token”来终止思考过程并促使模型转向答案生成阶段 ➢ 若需要增加计算投入,则会暂时阻止end-of-thinking10 积分 | 76 页 | 8.39 MB | 1 年前3
山东大学:DeepSeek 应用与部署终极能力层 自主进化与创造性突破 ,包括概念空间探索(通过对抗网络探索新合金成分等) 、 范式转移预警(监控跨领域知识流、 识别技术革命前兆) 和自编程能力(自动模块设计、 代码编 写、 测试用例) 。 " 恨聪明 但没那么听话 " DeepseekV3 Deepseek R1 Deepseek r1 鞅的证 明 Deepseek r1 Roy 安全准则组合模型推 理 Deepseek Hugging Face” , 再点击左上方搜索图标搜索 deepseek 选择模型。 注意参数规 模 不同 ,性能和硬件需求有差异。 例如 , 1.5B 适合体验尝鲜 , 7B 适合普通创 作及开 发测试 , 8B 适合对内容要求更高的场景 , 14B 适合专业及深度内容创作。 LM Studio+DeepSeek LM Studio 可以通 过 huggaface 下载 Deepseek 各种蒸10 积分 | 79 页 | 6.52 MB | 1 年前3
具身智能科技前瞻探索(第3期):多任务操作、第一人称世界模型、低光照与模糊感知control 》 2026/3/31 北京人形机器人创新中心提出了状态条件扩散中间件 Heracles, 通过隐式状态驱动自适应机制桥接精准运动跟踪与生成式合成 , 在 101 个未见运动 序列测试中完成率达到 90.6%, 迭代恢复任务完成率达到 90.0%, 实现了人形机器人在极端扰动下的类人恢复能力与零样本跟踪保真度的统一。 5.1 Heracles 《具身智能科技前瞻探索》 第10 积分 | 25 页 | 1.12 MB | 22 天前3
共 6 条
- 1
