2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告mathematics \ logic reasoning 等带有明确解答过程的问题 ➢ 语言一致性奖励:引入 language consistency reward 衡量长推理链 可读性(通过计算CoT过程中目标语言的占比) ➢ 推理准确率奖励:结合 accuracy of reasoning tasks and reward for language consistency ➢ 成效:通过 GRPO 算法还引入了一些额外的优化策略(奖励缩放和策略裁剪),提升训练的稳定性。 ➢ From PPO to GRPO: ➢ PPO 作为 Actor-Critic 算法被广泛运用于 Post-Training, 核心目标是最大化下面的目标函数 ➢ 其中, 𝜋𝜃和 𝜋𝜃𝑜𝑙𝑑 分别表示当前策略模型和旧策略模型,q, o是从问题数据集和旧策略 𝜋𝜃𝑜𝑙𝑑中 采样的输入和输出, 𝐴𝑡是基于广义优势估 。 ➢ GRPO:无需像PPO额外近似价值函数,而是利用同一问题下多个采样输出的平均奖励作为基线。具体而 言,对于每个问题 ,GRPO从旧策略𝜋𝜃𝑜𝑙𝑑中采样一组输出,并通过最大化以下目标优化策略模型: ➢ 通过群组相对方式计算优势值,与奖励模型的对比性质(通常基于同一问题的输出比较训练)天然 契合;此外,GRPO直接将策略模型与参考模型的KL散度作为正则项加入损失函数,而非将其混入10 积分 | 76 页 | 8.39 MB | 6 月前3
DeepSeek大模型赋能高校教学和科研2025是指在计算机视觉( Computer Vision , CV )领 域中使用的大模型 ,通常用 于图像处理和分析 。 这类模型通过在大规模图 像数据上进行训练, 可 以实现各种视觉任务 , 如图像分类 、 目标检测 、 图像分割 、姿态估计 、人脸识别等 。代表性产品 包括 VIT 系列 ( Google ) 、文心 UFO 、华为盘古 CV 、 INTERN (商汤)等 3.4 大模型的分 类 主流大模型“幻觉”评测 3.7 大模型的应用领域 厦门大学大数据教学团队作品 ( 2 )计算机视觉 大模型在计算机视觉领域也有广泛应用 ,可以用于图像分类(识别 图 像中的物体和场景)、 目标检测(能够定位并识别图像中的特定 物 体)、图像生成(如风格迁移、图像超分辨率增强)、人脸识 别(用 于安全验证和身份识别)、医学影像分析(辅助医生诊断疾 病)等 ( 1 ) 自然语言处理 需显式引导推理步骤(如通过“思 维链” 提示) ,否则可能跳过关键 逻辑。 n 依赖提示语补偿能力短板(如要求 分步思考、提供示例)。 n 提示语更简洁 ,只需明确任务目标 和需求(因其已内化推理逻辑)。 n 无需逐步指导 ,模型自动生成结构 化推理过程(若强行拆解步骤 , 反 而可能限制其能力)。 5.1.5 AIGC 大模型的提示词 推理模型 提示词之道:10 积分 | 123 页 | 15.88 MB | 6 月前3
AI跃迁派:2025年DeepSeek零基础完全指南的提示词设计遵循“目标导向+场景适配”原则,掌握以下技巧可让 AI 输出质 量提升 300%: ①四要素提问法 公式:身份+场景+目标+限制条件 -案例: ⚫ 职场:“作为跨境电商运营(身份),要优化亚马逊产品标题(场景),要求包含关 键词‘ergonomicofficechair’且字符≤200(限制),参考竞品 BestSeller 前十的标题 结构(目标)” ⚫ 教育:“高三学生(身份)复习导数压轴题(场景),需要 5 道难度递进的变式题 (目标),答案需附分步解析(限制)” ②角色扮演法 技术原理:激活 AI 的“专家模块” 实战指令: ⚫ 商业分析:“假设你是麦肯锡顾问,分析新能源汽车充电桩市场的三大风险点,用 SWOT 框架呈现” ⚫ 创意写作:“用鲁迅杂文风格,写一篇讽刺 AI 过度依赖现象的短文,结尾需反转升10 积分 | 21 页 | 1.01 MB | 6 月前3
华为昇腾DeepSeek解决方案模块串联保持完整的因果关系链 ② 训练策略 • 每个 MTP 模块输出预测 token 的概率分布 • 每个 MTP 模块计算对应的交叉熵损失函数 • 多个 MTP 模块的损失函数加权平均得到最终训练目标 ③ 关键作用 • 提升每批训练数据的使用效率 ,强化训练信号 • 优化模型表达能力 ,提升 next-token 的预测效果 • 可参考投机采样改造 MTP 模块 ,加速推理效率 13B 7B 7B 7B 7B DeepSeek 系列模型昇腾训练产品适配计划及微调部署建议 DeepSeek 系列预训练完成昇腾适配,目标性能 1.1x NV DeepSeek 系列模型微调目标性能 1.1x 业界( Q1 ) 场景 核心技术 A2 DeepSeek 适配 LoRA 微调 CCLoRA 支持 25Q1 支持 Fused_MLP 1:1->8:1, +8~12% 计算通信比 3:1->6:1, +4~6% 跨节点 All2All 优化 RMSNorm+MLA 部分重计算 省 2~3G 内存 省 2~3G 内存 微调算法 目标性能 部署建议 LoRA 微调 1.1x 业界 8 机 Atlas 800T A2 qLoRA 微调 1.1x 业界 4 机 Atlas 800T A2 全参微调 1.1x 业界 32 机 Atlas0 积分 | 32 页 | 2.52 MB | 5 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025DeepSeek 模型优势:算力、成本角度 解读 2025 年 2 月 ■ 什么算力 ?“ 对信息数据进行计算,实现目标结果的能力” ■ 传统算力:信息计算力 ■ 现代算力:信息计算力、数据存储力、网络运载力 算力的基本概念 大脑 草绳、石子 算盘、算筹 ▶ 计算器、计算机 ■ 原生算力:大脑 ( 可处理复杂逻辑,但不能高速处理简单运算10 积分 | 23 页 | 7.53 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版本。内置加速器为目标工作负载提供 额外的提升,实现更高的性能和效率。 利用 CPU 的强大 AI 性能 英特尔® 至强® 6 性能核处理器旨在支持许多要求严苛的 AI 用例。P-core(性能核)通过英特尔® Advanced Matrix Extensions (英特尔® AMX)等加速功能,INT8、BF16 和 FP16(新)等数据类型。因此,性能核可帮助满足从目标检测到中型 GenAI 以下两点: 软件层面 有了上一阶段的提示词输入,大模型(目 前在 Qwen 和 Phi3 上验证)会将其拆解 为一连串的子任务序列,子任务序列和图 像视觉信息结合就构成了更加准确的执行 目标,例如一个子任务,移动到红色盘子 上方,结合视觉信息找到的红色盘子,计 算得出上方的坐标信息,经过 interpreter 时也会做代码级别的验证,之后就可以给 到 MoveIt2 路径规划,来规划出中间的一 常样本来学习正常情况下的产品特征。在实际应用中,这种对大量样本的依赖往往是不现实的,特别是在涉及用户数据隐私 保护或新生产线快速部署的场景中。 为了解决这一问题,零样本或少样本异常检测 (ZSAD or FSAD) 目标是在没有或仅有极少量目标类别样本的情况下,依然 能够有效地执行异常检测任务。这要求模型具备一定的泛化能力,能够在没有先验知识的情况下识别未知的异常类型。 具体来说,可以通过将产品的正常特征与异常特征用自然语0 积分 | 82 页 | 5.13 MB | 5 月前3
从智慧教育到智慧课堂:理论、规范与实践绿色与其它 新智慧 能源结构 IBM 帮助教育创建智慧设施, 在减少成本的前提下,提供能 源和安全。 提升学生、教育和社会的 成果 为教师和学生提供个性化 学习资源 保证实现投资目标 通过灵活性系统实现 环境改变 IBM 智慧课堂 1:1 学习 可视化 共享服务 Client Application Client Application Client10 积分 | 74 页 | 10.39 MB | 6 月前3
山东大学:DeepSeek 应用与部署多 种数据格式自动解析。 • 2. 中级能力层 领域问题建模与复杂推理 ,包括领域自适应学习(建立医、 教育、 金融垂直应用于 模型) 、 因果推理引擎(建立因果图模型) 和多目标优化决策(求解帕 累托最有解) 。 • 3. 高级能力层 复杂系统建模与自主决策 ,包括数字孪生仿真系统(构建物理于数字融合虚拟环境 模拟天气等) 、 多智能体协同优化(将每个个体作为智能体通过联邦学习模拟群体行为)10 积分 | 79 页 | 6.52 MB | 5 月前3
共 8 条
- 1
