英特尔-工业人工智能白皮书2025年版工业大模型可广泛应用于汽车造型设计等领域。例如,在汽车造型设计中,设计师可通过对话、画图等方式与大模 型交互,完善创意灵感,生成 3D 汽车数字模型,并能对模型进行风格调整、零部件编辑及颜色更换等操作。这能 使原本需要 1-2 年的设计周期大幅缩短。 车身表面的涂漆质量是衡量整车品质的重要指标之一,它不仅关系到车辆的美观性,更事关车辆的防腐性、耐久性 等问题。漆面喷涂环节工艺繁多复杂,易出现颗粒、缩孔、焊渣、 更加个性化、智能化、功能强大的手机、PC 等消费电子产品,是驱动消费电子产品更新换代和市场复苏的关键 因素。 消费电子产品将是大模型部署的新阵地。围绕用户的个性化需求,包括不同的使用场景和使用习惯等,大模型的部 署需要根据用户特征对模型进行差异化增强。为了保护数据隐私,与用户隐私相关的应用模型的训练,将在端侧而 非云上进行,这也对边缘端的算力提出了更高要求。 09 01 工业人工智能 (AI) 行业观察 关键指标。 半导体晶圆制造过程极为复杂、精密,任何微小缺陷都可能影响芯片性能。晶圆中常见的缺陷包括表面的划痕、裂 纹、污染物、凸起,表面翘曲,切割瑕疵、晶体缺陷等。这些缺陷大多细微不易察觉,通常需要微米级甚至更小的 检测精度。人工检测效率低下,易出错,无法满足大规模生产的效率需求;传统的机器视觉检测算法,无法满足对 多种缺陷的检测需求。 采用大模型结合机器视觉成像技术,首先使用大规模无标0 积分 | 82 页 | 5.13 MB | 5 月前3
 2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告的计算量 [1] https://openai.com/index/learning-to-reason-with-llms/ 7 回顾:Post-Training Scaling Law 为什么我们需要后训练 Scaling-Law ? ➢ 随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减;如果想要深度提升模 型推理能力和长程问题能力,基于RL的 Post-Training Post-Training 将会成为下一个突破点。 ➢ 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成 式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws [1]。 [1] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110和 ➢ 没有使用Reward Model, 因为ORM和PRM等基于神经网络的都可能遭受reward hacking 而retraining reward model 需要大量的计算资源,可能会复杂化整个流程 ➢ 训练模板:选择最简单的 Thinking Process,直接观察到最直接的RL过程下的表现 基于规则的奖励 (Rule-Based Reward) :10 积分 | 76 页 | 8.39 MB | 6 月前3
 DeepSeek大模型赋能高校教学和科研2025,如果模型在回复你之前有一 长 串的思考过程(这个过程必须可以显 示输 出) ,探索了很多不同的路径之后 给出答 案 ,那么有这个能力的大模型就 是推理大 模型。推理模型的核心在于处 理那些需要 多步骤逻辑推导才能解决的 复杂问题。 3.4 大模型的分 类 大语言模型可以分为通用大模型和推理大模型 3.4 大模型的分 类 n 推理大模型 DeepSeek R1 的对话效果 非推理问题 解决复杂逻辑谜题 ,编写复杂算法 ,数学证明 撰写新闻稿 ,翻译文章 , 生成产品描述 , 回 答 常识问题 成本 通常更高 通常更低 在应用方面二者各有擅长的领域 , 而不是简单的谁强谁弱问题 n 如果你需要完成数据分析、 逻辑推理、 代码生成等逻辑性较强且较为复杂的任务 ,请选择推理大模 型 n 如果你面临创意写作、 文本生成、 意图识别等发散性较强且较为创意多样的任务 ,请选择通用大模 型 3.4 模型基于概率分布生成内容 , 在某 些情 况下会选择一些看似合理但实际错误的路 径。 大 模型幻觉会影响信息的准确性和可靠性 , 在信息 传播、 学术研究等领域可能带来不良影响。 因此, 在使用大模型时 , 需要对其输出内容进 行仔细验 证和甄别。 3.6.3 主流大模型“幻觉”评测 3.7 大模型的应用领域 厦门大学大数据教学团队作品 ( 2 )计算机视觉 大模型在计算机视觉领域也有广泛应用 ,可以用于图像分类(识别10 积分 | 123 页 | 15.88 MB | 6 月前3
 华为昇腾DeepSeek解决方案Restricted Distribution 5 张量低秩压缩以降低 KV Cache 资源开销:相比于传统 MHA , MLA 通过降 维 操作使得存储的张量维度大幅减小。(下图中仅红色阴影部分需要存 储) (bs, ℎ) (bs, ℎ) 2bsℎ (bs, ℎ) (bs, ℎ) bsℎ′ 压缩后宽度ℎ′ ≪ 隐藏层宽度ℎ MLA 架构: 1 )分别对 Query 、 ,不同 batch 从不同的 device 上开始流水 ③ 每卡显存占用略微增大 DualPipe :双流并行优化计算和通信, All-to-All 通信开销接近 0 • 双向管道训练 ,需要存两份参数来进行训练( Parameter 2x ) • 模型总参数量 671B ,每个卡上 4 个 routed expert 对应 26.8B , 同时 考虑到 PP-16 和 FP8 应用落地的门槛 降低学习复杂度 简化强化学习流程 降低后训练复杂度 推理优化 单次推理效率倍级提升 一次预测多个 token 推理倍级提升 FP16/BF16 1 前 1 后单流水 需要裁判模型评估 1 次 1token 预测 MHA/GQA 分组共享减少缓存 GPT4 16 专家选 2 FP8 混合精度 双向流水并行 新老策略组队评估 1 次多 Token 预 测 MLA0 积分 | 32 页 | 2.52 MB | 5 月前3
 从智慧教育到智慧课堂:理论、规范与实践/ App Image  在一个刀片上(每个刀片上具有 10-12 个桌 面图像)支持多种操作系统  对于新的桌面体验来讲,用户需要最小的适 应性。  虚拟桌面架构  通过分享应用环境,每个刀片 支持 50-100 个用户  需要用户适应新的桌面体验  终端服务  基于 1:1 理念,每位学习者拥有一台 PC 或者服务器  桌面超薄式设备  流操作形态和应用 终端服务:  按比例具有低成本优势  用户分享式操作系统  用户不具有管理者权限  低成本的弱功能客户机 Windows 流提供如下功能:  图形和视频优化  低能源服务器架构  需要功能强大弱功能客户机 智慧课堂: IBM 桌面虚拟化的三种实体模型 刀片或传统 Servers 智慧课堂:基于云计算的虚拟计算 WFU NCA&T OC12 (622 Mbps Circuit)10 积分 | 74 页 | 10.39 MB | 6 月前3
 浙江大学-DeepSeek模型优势:算力、成本角度解读2025( 可高速简单运算,不能处理复杂逻 辑 ) 算力的发展 “I think there is a world market for maybe five computers." ( 我想全世界只需要五台电脑 ) --Thomas Watson,IBM 创始人, 1943 ■ 大型机时代:数字化未开始,算力需求潜力未发掘 大型机时代 1940- 1980 计算机算力的发展 大型机时代 2020 ■ 大型机时代:数字化未开始,算力需求潜力未发掘 ■ PC 时代:一个应用只需一台电脑,算力够 ■ 云计算时代:应用需要超过一台机器的算力,算力基本够 ■ 人工智能时代:算力开始不足,需大量高性能 Al 加速器 计算机算力的发展 人工智能大模型算力估计 ■ 人工智能大模型算力估计 ■ 1, 数据量 ( D )10 积分 | 23 页 | 7.53 MB | 5 月前3
 AI跃迁派:2025年DeepSeek零基础完全指南关 键词‘ergonomicofficechair’且字符≤200(限制),参考竞品 BestSeller 前十的标题 结构(目标)” ⚫ 教育:“高三学生(身份)复习导数压轴题(场景),需要 5 道难度递进的变式题 (目标),答案需附分步解析(限制)” ②角色扮演法 技术原理:激活 AI 的“专家模块” 实战指令: ⚫ 商业分析:“假设你是麦肯锡顾问,分析新能源汽车充电桩市场的三大风险点,用10 积分 | 21 页 | 1.01 MB | 6 月前3
共 7 条
- 1
 
