AI跃迁派:2025年DeepSeek零基础完全指南DeepSeek(深度求索)是中国首个全栈开源的大语言模型,由杭州深度求索人工智能 公司研发,定位为“认知智能引擎”。简单来说,它是一个能像人类一样思考、学习和解 决问题的超级 AI 工具。 核心能力: ⚫ 复杂推理:像学霸解数学题一样处理逻辑难题(R1 模型) ⚫ 多模态融合:能理解文字、图片、文件等多种信息(未来还将支持语音和视频) ⚫ 超长上下文:一口气读完 3-4 万字的长文档(64Ktoken ⚫ 在东南亚、中东等地区,DeepSeek 成为数智主权建设工具,帮助发展中国家摆脱 对西方技术的依赖 ⚫ 开源策略吸引全球 20 万开发者,形成中美双极化的 AI 生态格局 二、核心能力图谱 1.技术特性:AI 界的“六边形战士” DeepSeek 之所以成为现象级 AI 工具,关键在于它在效率、成本、能力三大维度实现 了突破性平衡: 技术黑话翻译: ⚫ 功能模块:你的私人 AI 军团 DeepSeek 通过三大功能模块,满足从日常生活到专业领域的全场景需求: 模块 1:基础版(V3)——效率倍增器 适用人群:学生、白领、自媒体创作者 核心技能: ⚫ 文案生产:3 分钟生成周报/演讲稿/小红书爆款文案(带 Emoji 和话题标签) ⚫ 知识管家:自动整理会议录音→生成思维导图→提炼待办事项 ⚫ 语言翻译:支持 4210 积分 | 21 页 | 1.01 MB | 5 月前3
英特尔-工业人工智能白皮书2025年版加新的层或修改现有层的结构,来扩展大模型的功能和性能。 1.3 工业大模型 1.3.1 大模型 06 01 工业人工智能 (AI) 行业观察 具体来看,工业大模型主要通过以下四种核心能力,为工业应用赋能: 1.3.3 工业大模型的应用范畴 第一,语言理解与知识问答能力。 利用大模型对于自然语言的理解能力,能理解和识 别用户意图,使员工能通过自然语言就能与机器进 行交互;另外通过为大模型外挂知识库,增强知识 相关的应用模型的训练,将在端侧而 非云上进行,这也对边缘端的算力提出了更高要求。 09 01 工业人工智能 (AI) 行业观察 新材料的 快速筛选 加速设计 锂电池未来的技术核心竞争点在于材料。快速筛选出高能效的材料,是掌握竞争优势的关键。大模型通过高通量计 算与数据库构建、分子生成模型和高通量筛选策略等步骤,能从数百万种材料中,快速筛选出具有高能效潜力的材 料,缩短新材料的发现周期。 酷睿™ 移动处理器 14 02 英特尔 ® 技术方案 主要特性 性能和效率 • 英特尔® 7 制程工艺 • 多达 14 个核心和 20 个线程,具有高性能混合架构 • Intel® Thread Director6 使您的核心与工作负载相匹配 • 高达 24 MB Intel® 智能缓存 确定性实时性 • 利用英特尔® TCC 进行实时计算 • 支持时间敏感型网络0 积分 | 82 页 | 5.13 MB | 5 月前3
DeepSeek大模型赋能高校教学和科研2025厦门大学大数据教学团队作品 2025 年 2 月 25 日 厦门大学 林子雨 副教授 国 内 高 校 大 数 据 教 学 的 重 要 贡 献 者 团队负责人 :林子雨 副教授 年轻力量: 核心成员全部 46 周岁以下 结构合理: 教学型、 科研型、 实验工程师 专注专业: 从 2013 年至今 , 11 年专注于大数据教学 团队特点: 眼光前瞻、 紧跟技术、 创新实干、 执行力 强 影响力高: 先显式地写出推理的中间步骤。这就像人 类解决复杂问题时会先把思考过程写下来 一样。 推理模型的核心 也就是说 ,如果模型在回复你之前有一 长 串的思考过程(这个过程必须可以显 示输 出) ,探索了很多不同的路径之后 给出答 案 ,那么有这个能力的大模型就 是推理大 模型。推理模型的核心在于处 理那些需要 多步骤逻辑推导才能解决的 复杂问题。 3.4 大模型的分 类 大语言模型可以分为通用大模型和推理大模型 ,这种架构是一种专门用于自然语言处理的“编码 - 解码器”架构。 在训练过程中 ,大模 型将输入的单词以向量的形式传递给神经网络 ,然后通过网络的编码解码以及自注意力机制 ,建立起每个单词之间联系的 权 重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算 ,并把相关性又 编码 叠加在每个单词中。 这样 ,大模型能够更好地理解和生成自然文本 , 同时还能够表现出一定的逻辑思维和推理能力10 积分 | 123 页 | 15.88 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力? ➢ 得益于纯大规模强化学习,DeepSeek-R1 DeepSeek-R1 长度泛化复现:https://zhuanlan.zhihu.com/p/21290410831 22 DeepSeek-R1 技术剖析:GRPO 赋能RL-Scale ➢ GRPO核心思想是通过构建多个模型输出的群组,并计算群组内的相对奖励来估计基线,从而避免 了传统策略优化算法中需要使用与策略模型大小相同的评论模型。 ➢ 大幅度降低 RL 训练的计算成本,同时还能保证模型能够有效地学习到策略。 算法还引入了一些额外的优化策略(奖励缩放和策略裁剪),提升训练的稳定性。 ➢ From PPO to GRPO: ➢ PPO 作为 Actor-Critic 算法被广泛运用于 Post-Training, 核心目标是最大化下面的目标函数 ➢ 其中, 𝜋𝜃和 𝜋𝜃𝑜𝑙𝑑 分别表示当前策略模型和旧策略模型,q, o是从问题数据集和旧策略 𝜋𝜃𝑜𝑙𝑑中 采样的输入和输出, 𝐴𝑡是10 积分 | 76 页 | 8.39 MB | 5 月前3
浙江大学-DeepSeek模型优势:算力、成本角度解读2025Nr Router hll Top-K, OOO0 … … OOOO Input Hidden ut ■ 核心技术 DeepSeekMoE: 显者减少计算量 ( 穷则战术穿插 ) ■ 针对美国的算力禁令 ■ 核心思想: 1 共享专家 +256 路由专家,激活 8 个路由专家 ■ 共享专家: 捕获通用知识、降低知识冗余 ■ 路由专家: 量大、细粒度、灵活组合、方便知识表达 DeepSeek."DeepSeekMoE:Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models",2024 核心技术 DeepSeekMoE: 显著减少计算 量 DeepSeek 为代表的国内大模型咬住国外最先进大模型 ■ 模型性能:不要指望全面优势, “城头变幻大王旗” ■ 成本:低 ( 战术穿插10 积分 | 23 页 | 7.53 MB | 5 月前3
从智慧教育到智慧课堂:理论、规范与实践建设国家范围的 教育基础设施 使新加坡成为全 球教育领域使用 信息技术的创新 中心 5 智慧教 育 已 成 韩国 " 智 慧 教 育 推 进 战 略 " 2011 年 数字教科书的普及推广 核心 6 智慧教 育 已 成 马来西亚 1999 年“智慧学校 计划” 2010 年将所有学 校都转型为智能学 校 台湾桃源县 “ 智慧台湾 U 桃园 计划” 从 e 化教育向 u 化 全球教育 资源无缝 整合共享 无处不在 的开放、 按需学习 基于大数 据的科学 分析与评 价 绿色高效 的教育管 理 技 术 特 征 情景感知 无缝连接 可视化 按需推送 智慧 教育 核心 特征 全向交互 智能管控 12 情境感知 情境感知是智慧教育最基础的功能特征,依据情 境感知数据自适应地为用户提供推送式服务。 13 内在 个人学习状态感知内容 外在学习环境感知内容 无缝切换,学习过程 实现无缝迁移 具体 体现 16 全向交 互 • 自然交互 • 深度互动 • 过程记录 17 智能管 控 教育环境、资源、管理与服务的智能管理是智慧教 育的核心特征。 智能控制 智能诊断 智能分析 智能调节 智能调度 18 按需推 送 智能教育要达成“人人教、人人学”的美好愿望,教育 资源可以按需获取和使用,教与学可以按需开展。10 积分 | 74 页 | 10.39 MB | 5 月前3
华为昇腾DeepSeek解决方案MLA 低秩压缩减少缓存 DeepSeekMoE 更稀疏 256 选 8+1 训练精度 PP 并行算法 强化学习 Attention MOE Token 预测 业界 LLM 大模 型 核心 收益效果 Huawei Proprietary - Restricted Distribution DeepSeek 9 大模型从技术摸高走向技术摸高 + 工程创新并行 ,训练需求持续增 DeepSeek 系列模型微调目标性能 1.1x 业界( Q1 ) 场景 核心技术 A2 DeepSeek 适配 LoRA 微调 CCLoRA 支持 25Q1 支持 Fused_MLP 支持 qLoRA 微调 CCLoRA 支持 Fused_MLP 不支持 长序列微调 长序列 CP 方案 支持 核心技术 H800 A2 FP8 +20%~25% 不支持 无辅助负载均衡损失 评分效果提升 DeepSeek 模型 A2 适配情况 DeepSeek V3 已适配 DeepSeek R1 已适配 DeepSeek Janus-Pro 已适配 支持 CCLoRA 、 Fused_MLP 核心技术,提升微调训练吞吐性 能 支持 DualPipe 、跨节点 All2All 等优 化 Huawei Proprietary - Restricted Distribution 23 DeepSeek0 积分 | 32 页 | 2.52 MB | 5 月前3
山东大学:DeepSeek 应用与部署• 秘塔 AI 搜索: 接入满血版 DeepSeek - R1 推理模型 , 无广告且搜索结果直达。 以学习 JDK21 新特性 为 例 , 能详细给出学习计划 ,包括快速预览、 深入学习核心特性、 实战与总结等阶段。 • 硅基流动: 注册即送 2000 万 Tokens ,提供多个基于 DeepSeek - R1 蒸馏训练的模型 ,如 DeepSeek - R1 - Distill10 积分 | 79 页 | 6.52 MB | 5 月前3
共 8 条
- 1
