基础架构 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

AI跃迁派：2025年DeepSeek零基础完全指南

《DeepSeek 零基础完全指南》公众号“AI 跃迁派”出品一、DeepSeek 全景认知 1.颠覆性定义：人人都能用的认知引擎 DeepSeek（深度求索）是中国首个全栈开源的大语言模型，由杭州深度求索人工智能公司研发，定位为“认知智能引擎”。简单来说，它是一个能像人类一样思考、学习和解决问题的超级 AI 工具。核心能力： ⚫ 复杂推理：像学霸解数学题一样处理逻辑难题（R1 复杂推理：像学霸解数学题一样处理逻辑难题（R1 模型） ⚫ 多模态融合：能理解文字、图片、文件等多种信息（未来还将支持语音和视频） ⚫ 超长上下文：一口气读完 3-4 万字的长文档（64Ktoken 容量）技术架构： ⚫ MLA 多头潜在注意力：像多线程处理信息，显存占用降低 50%，适合普通电脑运行 ⚫ MoE 混合专家系统：遇到问题自动召唤“专业团队”，比如数学题找数学专家模块，写诗找创意模块 AI“脑细胞”之间的协作效率，响应速度提升 50% 2.功能模块：你的私人 AI 军团 DeepSeek 通过三大功能模块，满足从日常生活到专业领域的全场景需求：模块 1：基础版（V3）——效率倍增器适用人群：学生、白领、自媒体创作者核心技能： ⚫ 文案生产：3 分钟生成周报/演讲稿/小红书爆款文案（带 Emoji 和话题标签） ⚫ 知识管家：自动

10 积分 | 21 页 | 1.01 MB | 1 年前
3
华为昇腾DeepSeek解决方案

把握 DeepSeek 时刻，携手同行华为昇腾 AI 解决方案汇报 2025 年 2 月 DeepSeek 洞察及昇腾适配进展华为昇腾 AI 基础软硬件介绍 CO NT E NTS 目录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法，同等算力的战略投资，加速探索下一代 AI 技术 DeepSeek 是 AI 发展史上的一个关键里程碑，但远未达到 AI 终点 AI 模型算法： GPT 、 LLaMA AI 框架： PY 、 TF 异构计算架构： CUDA 互联技术： NV Link AI 芯片： NV 、 AMD • DS 对强化学习的创新使用，可以让大模型便捷的获得通用性 + 专用性，可以满足各应用场景需求重新思考中美技术路线的选择泛化性和经济性大幅提升 LLM 进入“ CV Resnet 时刻” 补齐最后一块自主创新的版图真正形成中美两条 AI 技术路线 AI 框架：昇思、飞桨 … 异构计算架构： CANN … 互联技术：灵衢 AI 芯片：昇腾、寒武纪 … DeepSeek-R1 进一步验证“算力即性能” Scaling Law 升级，模型能力 = 算力 x 数据 x 思考

0 积分 | 32 页 | 2.52 MB | 1 年前
3
英特尔-工业人工智能白皮书2025年版

....................................................................29 2.2.1 英特尔® oneAPI 工具包 — 跨架构性能加速 .................................................................................29 2.2.2 OpenVINO™ 展开来讲，大模型技术有以下几项基本特征： 1. 普遍基于 Transformer 架构。Transformer 架构通过引入自注意力 (Self-Attention) 机制，在处理序列数据时，能同时关注输入序列的所有元素，并直接建立任意两个元素之间的联系，从而捕捉序列中的长距离依赖关系，实现对输入序列的高效处理和理解。由于不依赖序列顺序，Transformer 架构在模型训练和推理时的并行处理能力更强，效率更高。 2 化能力，能够有效处理多种从未见过的数据或新任务，甚至能处理一些与训练数据截然不同的任务。这使得大模型能应用于多种任务和场景，具有广泛的适用性。 4. 灵活性和可定制性。大模型通常具有灵活的架构和可定制的参数，可以根据特定需求对通用大模型进行定制和优化。通过微调 (Fine-tuning) 技术，预训练的大模型可以快速适应新的任务和数据集，而无需从头开始训练。此外，还可以通过添加新

0 积分 | 82 页 | 5.13 MB | 1 年前
3
从智慧教育到智慧课堂：理论、规范与实践

2008 年 IBM 提出智慧地球战略智慧教育已成共识新加坡 2006 年iN2015 计划智慧教育计划提出建立学习者为中心的个性化学习空间建设国家范围的教育基础设施使新加坡成为全球教育领域使用信息技术的创新中心 5 智慧教育已成韩国 " 智慧教育推进战略 " 2011 年数字教科书的普及推广核心 6 智慧教教育（泛在教育）美国 IBM 智慧教育解决方案：教育数据的收集、管理与分析，为学习者提供独特的学习体验，教学制度优化 7 智慧教育智慧教育什么是智慧教育？在信息化基础之上建构的信息时代的教育新秩序，是信息时代的教育新形态、教育的“新常态”，是信息化元素充分融入教育以后，在“时代催化剂”的作用下教育发生的“化学反应”。信息化教育时代催化剂智慧教育” 核心特征全向交互智能管控 12 情境感知情境感知是智慧教育最基础的功能特征，依据情境感知数据自适应地为用户提供推送式服务。 13 内在个人学习状态感知内容外在学习环境感知内容 感知学习者的专业知识背景； 感知学习者的学习状态，如焦虑、烦躁、开心等； 感知学习者的知识背景、知识基础、知识缺陷等； 感知学习者的认知风格、学习风格等； 感知学习者的学习与交往需

10 积分 | 74 页 | 10.39 MB | 1 年前
3
山东大学：DeepSeek 应用与部署

2018 — 2024 DeepSeek 介绍 DeepSeek ： 2023 — DeepSeek ：技术创新——模型架构 | V2 （ Multi-Head Latent Attention ） DeepSeek ：技术创新—模型架构 | V3 PPO ： Proximal Policy Optimization GRPO ： Group Relative Policy ，最终获得最大化的奖励（ Reward ）。 DeepSeek ：技术创新—推理模型 | RL DeepSeek 应用场景 DeepSeek 的能力层级 • 1. 基础能力层多模态数据融合与结构化理解，包括跨模态语义对齐（文本、图像、音频、视频、代码、传感器数据统一语义）和动态数据治理（解决数据缺失、噪音干扰、概念飘逸等），支持 200 满血版为例进行演示，通过百炼模型服务进行 DeepSeek 开源模型调用，可以根据实际需求选择其他参数规模的 DeepSeek 模型。百炼平台的 API 提供标准化接口，无需自行搭建模型服务基础设施，且具备负载均衡和自动扩缩容机制，保障 API 调用稳定性。搭配 Chatbox 可视化界面客户端，进一步简化了调用流程，无需在命令行中操作，通过图形化界面即可轻松配置和使用

10 积分 | 79 页 | 6.52 MB | 1 年前
3
DeepSeek大模型赋能高校教学和科研2025

与会者们不仅对人工智能的研究和应用前景进行了深入探讨，还提出了许多重要的观点和思路，为人工智能的发展奠定了基础。这次会议的召开标志着人工智能作为一个独立学科的正式诞生，因此，达特茅斯会议被称为“人工智能的开端” ， 1956 年也被称为“人工智能元年”。这次会议不仅为人工智能的研究和发展奠定了基础，还为人类带来了巨大的变革和进步 1.2 人工智能的诞生 1.3 人工智能的发展阶段人工智能思维厦门大学大数据教学团队作品拥有和人工智能协作的能力，懂得如何运用人工智能 2. 人工智能思维具备区分人的能力和机器的能力协作区分了解每个人都应了解人工智能的基础运行模式 2024 年 12 月，人工智能教母级人物、斯坦福大学终身教授李飞飞在公开演讲中说道： “斯坦福应该录取最会用 ChatGPT 的前 2000 名学生”。 2025 年 1 可能直接输出简短答案（如” 180 英里”）推理模型的特点在于显式展示中间推导过程 3.4 大模型的分类特性推理大模型通用大模型适用场景复杂推理、解谜、数学、编码难题文本生成、翻译、摘要、基础知识问答复杂问题解决能力优秀，能进行深度思考和逻辑推理一般，难以处理多步骤的复杂问题运算效率较低，推理时间较长，资源消耗大较高，响应速度快，资源消耗相对较小幻觉风险

10 积分 | 123 页 | 15.88 MB | 1 年前
3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

得益于纯大规模强化学习，DeepSeek-R1 具备强大推理能力与长文本思考能力，继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在： ➢ R1-Zero 从基础模型开始构建，完全依赖强化学习，而不使用人类专家标注的监督微调（SFT）； ➢ 随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力； ➢ 随着推理路径增长，模型表现出自我修复和启发式搜索的能力； DeepSeek-R1 技术 Pipeline 总览 ➢ DeepSeek-R1 Zero 的问题：长推理过程可读性差、语言混合，帮助性低 ➢ Research Questions: ➢ 能否在Zero基础上兼顾推理性能的同时，提升模型的帮助性和安全性？例如产生 Clear & Coherent CoT 并且展现出通用能力的模型 R1； ➢ 能否利用一些高质量反思数据集做 Cold Start 从而加速RL的收敛或帮助提升推理表现大规模RL起到了激活和发掘预训练阶段积累的知识和推理能力的作用 ➢ DeepSeek-V3 低成本（5,576,000美元）带来惊艳效果 ➢ MoE 架构 671B 激活37B \ 使用 Multi-head Latent Attention (MLA) 架构 ➢ 2048张 H800 计算: ~54天 21 DeepSeek-R1 技术剖析：RL 加持下的 Length 泛化&推理范式涌现 ➢ 大

10 积分 | 76 页 | 8.39 MB | 1 年前
3
浙江大学-DeepSeek模型优势：算力、成本角度解读2025

垄断市场 (290 亿美元估值 ) ■ 4, 用训练的 GPU 给客户提供高质量模型服务 ■ 例子：营收小、整体亏钱 2025 年特朗普的“星际之门”为 OpenAl 筹 5000 亿美元 Al 基础设施 ! 国际人工智能企业 OpenAI 的商业模式 ■ 国内人工智能商业模式 ( 循环以下四步 ) ■ 1, 国内融资 ( 亿美金 ) ■ 可行性分析：资金没问题，尤其优质生产力领域 2

10 积分 | 23 页 | 7.53 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式