DeepSeek大模型赋能高校教学和科研2025系 3.4 大模型分类 3. 大模型:人工智能的前 沿 3.5 大模型原理 3.6 大模型产品 3.7 大模型应用领 域 厦门大学大数据教学团队作品 大模型通常指的是大规模的人工智能模型 ,是一种基于深度学习技术 ,具 有 海量参数、强大的学习能力和泛化能力 ,能够处理和生成多种类型数据的 人 工智能模型。 通常说的大模型的“大”的特点体现在: 2020 年 , OpenAI 公司推出了 沉淀期和爆发 期 3.2 大模型的发展历 程 3.2 大模型的发展历 程 大模型发展对算力的需求演变 人工智能包含了机器学习 ,机器学习包含了深度学习 ,深度学习可以采用不同的模型 , 其中一种模型是预训练模型 ,预训 练模型包含了预训练大模型(可以简称为“大模型”) ,预训练大模型包含了预训练大语言模型(可以简称为“大语言模 型”) ,预训练大语言模型的典型代表包括 OpenAI OpenAI 定义推理模型 在 OpenAI 的官网上 , OpenAI 定义推理模 型是在回答之前进行思考 , 并在回复用户 之前 ,在内部生成一长串的思维链过程。 思维链是一种提示大语言模型进行逐步推 理的方法。它让模型在得出最终答案之前 , 先显式地写出推理的中间步骤。这就像人 类解决复杂问题时会先把思考过程写下来 一样。10 积分 | 123 页 | 15.88 MB | 7 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告和 标签来包 裹推理过程,使用和 标签来包裹最终答案。 ➢ 语言一致性奖励:惩罚在推理过程中使用了多种语言的输出,鼓励模型尽可能地使用一种目 标语言进行推理,从而保证模型输出的语言风格一致性 27 DeepSeek-R1 社会和经济效益 ➢ 低成本高质量语言模型边界的探索,扩展的具体方法和侧重点改变:最初是模型规模, 然后是数 K1.5 Main Result DS-R1 Main Result ➢ 二者都关注RL的方法带来的提升,MCTS 和 PRM 没有被使用 (Reward Hacking 的考虑) ➢ MCTS 是一种 Structure, A* 也是 Structure, 人为加入 Inductive Bias 强求LLM按照结构化先验进 行思考可能会限制模型的能力; ➢ PRM 容易被 Reward Hacking 11284 40 技术对比讨论:蒸馏 vs 强化学习 Discussion ➢ Kimi K1.5 中 Long2Short 方法指的是将长文本 CoT 模型的知识迁移到短文本 CoT 模型,本质上是一种「蒸馏」, 不过目标和策略更多样,不仅要性能,还要 token 效率;更多地关注对教师模型推理策略的学习,而不仅是输出。 ➢ S1 模型通过少成本获得超过o1-preview的表现: ➢ 高质10 积分 | 76 页 | 8.39 MB | 7 月前3
从智慧教育到智慧课堂:理论、规范与实践网络服务能够提供协作和生产 效率 基于虚拟桌面的课堂、实 验室和手机接入 弱功能客户机和移动设备为用 户提供便捷式接入系统 虚拟云服务:为分布式校 园和课堂提供集中式支持。 作为一种选择, IBM 可 以承担传递服务 开放资源和电子学习 & 电 子档案袋、课件、内容和 服务 商务智能为学生绩效提供新的 视角 利用开放资源,虚拟旧计 算机桌面应用和服务,降 低成本 增强体验感。 课室灯光:更加绿色与环保 课室黑板:绿色板 智慧课堂的类型 实用型未来教室 指在传统教室基础上,改进优化教室的物理环境,增添适量数字 化设备,初步实现传统教室的数字化、多功能化的一种未来教室 类型。 优势 环境简易变革,实现教学理念及方式大幅改进 低投入,高产出 使用简单,师生能够快速适应新环境 小步子逐步实施,保证教育生态平衡发展 互动型未来教室10 积分 | 74 页 | 10.39 MB | 7 月前3
英特尔-工业人工智能白皮书2025年版ture-and-technology/visual- technology/arc-discrete-graphics.html 29 02 英特尔 ® 技术方案 oneAPI 是一种跨行业、开放、基于标准的统一编程模型。它定义了一个通用、统一和开放的多架构和多供应商软件平台, 确保在不同硬件供应商和加速器技术之间的功能代码可移植性和性能可移植性。oneAPI 的核心语言是 SYCL,它可以被用 训练时优化,这是一套在例如 PyTorch* 和 TensorFlow* 2.x 这样的深度学习框架内进行训练时模型优化的高级方法,支 持诸如量化感知训练、结构化和非结构化剪枝等方法。 • 权重压缩,这是是一种用于减少 AI 大模型大小并加速推理的方法。 模型部署 使用 OpenVINO™ 运行模型以来 OpenVINO™ 运行时,一组带有 C 和 Python 绑定的 C++ 库,提供了一个通用的 API,在 Vector Storage Anomaly Classification 41 02 英特尔 ® 技术方案 基于预训练的 CLIP 模型的零样本/少样本异常检测算法 如图所示,展示了一种基于 CLIP 模型(Contrastive Language-Image Pre-training 对比学习语言-图像预训练)的异常检测 方法,该方法利用利用预训练的 CLIP 模型,其强大的文本和图像的理解能力来进行异常分类。0 积分 | 82 页 | 5.13 MB | 7 月前3
山东大学:DeepSeek 应用与部署什么是模型蒸馏? “ 模型蒸馏”就是把大模型学到的本领, 用“浓缩”的方式教给小模型的过程, 在保证一定精度 的 同时, 大幅降低运算成本和硬件要求。 模型蒸馏 • 蒸馏是一种机器学习技术 , 其中较小的模型( “学生模型” )被训练来模仿 较大、 预训练模型( “教师模型” ) 的行为。 • 1. 数据蒸馏 在数据蒸馏中 ,教师模型生成合成数据或伪标签 ,然后这些数据用于训练学10 积分 | 79 页 | 6.52 MB | 7 月前3
华为昇腾DeepSeek解决方案目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 AI0 积分 | 32 页 | 2.52 MB | 7 月前3
共 6 条
- 1
