电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求DeepSeekR1/V3 推理服务。 l DeepSeek 通过 MLA 和 DeepSeekMoE 实现高效的推理和低成本训练,构建 DualPipe 算法和混合精度训练优化计算与通信负载;通过 ( 分阶段 ) 强化学习实现 性能突破。 多头潜在注意力 (MLA) 通过低秩联合压缩技术,大幅削减了注意力键 (keys) 和值 (values) 的存储空间,显著降低了内存需求。 DeepSeekMoE 架构采 用了更为精细粒度 了训练速度,还大幅降低了 GPU 内存的消耗。 DeepSeek-R1-Zero 通过强化学习架构创新实现突破性性能,核心技术创新体现在训 练效能优化策略、双维度评价体系、 结构化训练范式三个维度。 DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 GPT-4o 等模型的训练成本 约为 1 亿美元。 l 2025 年 1 月, DeepSeek-R1 发布,性能对标 OpenAI-o1 正式版。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提 升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI-o1 正式版。同时 DeepSeek 开源 R1 推理模型,允许所有人在遵循0 积分 | 38 页 | 1.95 MB | 6 月前3
电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域源 模 型 , 并 在 性 能 上 和 GPT-4o 以 及 Claude-3.5-Sonnet不分伯仲,训练成本约为558万美元。1月20日, DeepSeek开源R1模型,后训练阶段大规模使用了强化学习技术,在仅有 极少标注数据的情况下,性能比肩OpenAI o1正式版,不仅极大提升了 模型推理能力,也大幅降低了训练成本。同时,DeepSeek-R1蒸馏了6个 小模型,其中32B和70B模型在多项能力上实现对标OpenAI 等开源模型,并在性能上和 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲,训练成本仅约为 558 万美元。1 月 20 日,DeepSeek 开源 R1 模型,后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。 图 1:DeepSeek R1 性能比肩 OpenAI0 积分 | 23 页 | 2.65 MB | 6 月前3
电子行业深度报告:AI系列深度,AI+降本增效拓宽应用,硬件端落地场景丰富-20230712-东吴证券-28页升级至四代,模型能力高速提升。ChatGPT 是由 OpenAI 开发的自然语言生成 模型,采用 Transformer 神经网络架构(又称 GPT-3.5 架构),基于大量的语料库使用指 示学习和人工反馈的强化学习(RLHF)来指导模型训练。模型可理解并生成对各种主 题的类似人类的响应,是 AIGC 技术进展的成果。2023 年 3 月 15 日,OpenAI 正式官宣 了多模态大模型 GPT-4,ChatGPT4 请务必阅读正文之后的免责声明部分 东吴证券研究所 行业深度报告 16 / 28 程序,将在未来几周扩展至其他国家。该 APP 可向用户提供定制化建议、激发创作灵 感,或者让用户实现个性化学习。此外,Open AI 还表示将很快推出 Android 版 ChatGPT 应用。 2023 年 5 月 11 日,谷歌在 I/O 大会上发布 Android14,首次引入魔法撰写(Magic0 积分 | 28 页 | 2.68 MB | 6 月前3
服饰时尚行业数字化转型白皮书-百胜软件&Thoughtworks(资料来源:智研咨询发布《中国纺织服装行业市场发展环境及前景研究报告》) 1)服饰时尚行业产业链构成 整体来看,服饰时尚产业链可以分为上游、中游和下游三个主要环节: 上游主要包括天然纤维(棉花、麻、蚕茧丝等)、化学纤维(人造纤维、合成纤维等)、辅料(拉链、纽扣、缝纫线、弹力绳等)以及 生产设备等行业;中游主要包括纺织服装生产与品牌厂商;下游主要包括专卖店、商场、超市、电商等线上线下销售渠道。 上游主要是原10 积分 | 39 页 | 14.97 MB | 6 月前3
智慧的城市在中国2008年我们都经历了不平凡的一年,回想起来,很多事情都对城市的应急系统提出了重大 考验。一个“智慧的城市”,市民和企业的安全是永恒重要的重要话题。安全的概念包括:突发 自然灾害,比如地震洪水、飓风,还有其他公共安全事件,比如化学用品大面积泄露、火灾、 塌方、传染病等等。当这些威胁性事件发生时,政府应该有能力迅速了解应急事件,有效展开 救援,合理安排生产恢复;在事件发生之前,政府还应该有能力提供不同级别的预警,并且 控制事发后损失到最小。0 积分 | 89 页 | 5.09 MB | 5 月前3
电子行业:AI大模型需要什么样的硬件?-20240621-华泰证券-40页训练平台:用于训练机器人的基础模型。包含英伟达推出的“Project GR00T”人形机 器人通用模型、以及其他主流的 VLM/LLM 等生成式 AI 通用基础模型,可以在此基础 上进行感知、决策、规控等方面训练和强化学习。 2) 仿真平台:在 Omniverse 基础上打造了机器人仿真平台 Isaac SIM。在数字孪生环境中, 实现和真实环境一样的开发和测试效果,如获取真实环境中难以得到的数据,可以加快 开发流程和减少开发成本。0 积分 | 40 页 | 2.60 MB | 6 月前3
经济开发区“智慧园区”可行性研究分析报告手段,有效帮助企业 改进安全生产条件和提高安监部门对企业危险源监控主体的监管能 力。 ●重大危险源登记:建立重大危险源的台账,基于重大危险源 的评价评估方法体系,加强对存在重大事故隐患的危险化学品、特 种设备、石油化工等高危行业中普遍存在的各类重大危险源的辨识 和安全监管。 ●风险评估:对重大危险源的风险评估和危险性分析,在此基 础上,构建重大危险源预警指标体系和分析模型,通过重大危险源10 积分 | 164 页 | 16.45 MB | 5 月前3
共 7 条
- 1
