山东大学:DeepSeek 应用与部署
6.52 MB
79 页
0 下载
40 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
DeepSeek 应用与部 署 听听真我数字人讲 DeepSeek AIGC 发展历 程 AIGC 2014-2024 自然语言处理与语言模型 大语言模型 LLM : 2018 — 2024 DeepSeek 介 绍 DeepSeek : 2023 — DeepSeek : 技术创新——模型架构 | V2 ( Multi-Head Latent Attention ) DeepSeek : 技术创新—模型架构 | V3 PPO : Proximal Policy Optimization GRPO : Group Relative Policy Optimization 强化学习让智能体( Agent )在环境 ( Environment )中不断尝试、学习 ,并优化自己 的策略( Policy ) ,最终获得最大化的奖励 ( Reward )。 DeepSeek : 技术创新—推理模型 | RL DeepSeek 应用场 景 DeepSeek 的能力层级 • 1. 基础能力层 多模态数据融合与结构化理解 ,包括跨模态语义对齐(文本、 图像、 音频、 视频、 代 码、传感器数据统一语义) 和动态数据治理(解决数据缺失、 噪音干扰、 概念飘逸等) , 支持 200 多 种数据格式自动解析。 • 2. 中级能力层 领域问题建模与复杂推理 ,包括领域自适应学习(建立医、 教育、 金融垂直应用于 模型) 、 因果推理引擎(建立因果图模型) 和多目标优化决策(求解帕 累托最有解) 。 • 3. 高级能力层 复杂系统建模与自主决策 ,包括数字孪生仿真系统(构建物理于数字融合虚拟环境 模拟天气等) 、 多智能体协同优化(将每个个体作为智能体通过联邦学习模拟群体行为) 和元认 知调 控机制(实施监控自身决策、 动态分配资源、 自动触发行为) 。 • 4. 终极能力层 自主进化与创造性突破 ,包括概念空间探索(通过对抗网络探索新合金成分等) 、 范式转移预警(监控跨领域知识流、 识别技术革命前兆) 和自编程能力(自动模块设计、 代码编 写、 测试用例) 。 " 恨聪明 但没那么听话 " DeepseekV3 Deepseek R1 Deepseek r1 鞅的证 明 Deepseek r1 Roy 安全准则组合模型推 理 Deepseek r1 推理玻尿酸配 方 DeepSeek 提示词工 程 提示词工程 Deepseek 十类提示 词 • 1. 内容生成类 :文本生成、代码生成、创 意生成和数据模拟。 • 2. 信息处理类 :文本摘要、信息抽取、 情感分析和多语言翻译。 • 3. 对话交互类 :角色扮演、多轮对话、 反问引导。 • 4. 技能应用类 :数学计算、代码解释、 逻辑推理。 • 5. 个性化定制类 :风格迁移、知识库绑 定、偏好记忆。 • 6. 系统操作类:模式切换、资源优化、 记 忆管理。 • 7. 知识查询类:事实核查、概念解释、 溯 源检索。 • 8. 教育与研究类:题目生成、论文润色、 实验设计。 • 9. 多模态处理类: 图文互译、表格解析、 视频脚本。 • 10. 伦理与安全类: 内容审核、价值观对 齐、风险预警。 DeepSeek 部署方 案 Deepseek ! Deepseek 部署全线 图 移动手机应用 本地部署蒸馏小模型 第三方 UI 客户管接入服务 云端网站接入服 务 Deepseek 模型及蒸馏模 型 Chatbox API 及网络调 用 Chatbox API 及网络调 用 API 及蒸馏模 型 API 及蒸馏模 型 本地网络调用 API 接 入 DeepseeK 替代部署方案 • 本地部署蒸馏小模型: 可通过 o llama 平台、 LM Studio 平台快速本地部署基于 Llama 和 Qwen 蒸馏 的 DeepSeek - R1 推理模型 ,涵盖多种不同参数规模 ,适合想在本地运行模型的用户。 • 第三方 UI 客户管接入服务: 可通过 Anything LLM 、 Cherry Studio 、 Chatbox 等选择 API 接入。 • 秘塔 AI 搜索: 接入满血版 DeepSeek - R1 推理模型 , 无广告且搜索结果直达。 以学习 JDK21 新特性 为 例 , 能详细给出学习计划 ,包括快速预览、 深入学习核心特性、 实战与总结等阶段。 • 硅基流动: 注册即送 2000 万 Tokens ,提供多个基于 DeepSeek - R1 蒸馏训练的模型 ,如 DeepSeek - R1 - Distill - Llama - 70B 等 ,在推理能力上表现出色。 • 阿里云百炼: 提供多个 DeepSeek 系列模型 ,如 DeepSeek - V3 、 DeepSeek - R1 - Distill - Qwen - 1.5B 等 , 部分限时免费 ,涵盖文本生成等功能。 • 百度智能云: 千帆 Model Builder 全面支持 DeepSeek - R1/V3 调用 ,且限时免费 ,其模型在百科知 识、 数学推理等任务表现突出。 • 英伟达: 可通过特定接口调用 DeepSeek - R1 671B 全量模型 ,获取 API Key 后能进行相关操作。 DeepSeek API 调 用 API 调用方 法 • DeepSeek API model ='deepseek-chat' 即可调用 DeepSeek-V3 model ='deepseek-reasoner' ,即可调用 DeepSeek-R1 。 Token 用量计算 • token 是模型用来表示自然语言文本的基本单位 , 也是我们的计费单元 , 可 以直观的理解为“字 ”或“词 ” ; 通常 1 个中文词语、 1 个英文单词、 1 个数字 或 1 个符号计为 1 个 token 。 • 一般情况下模型中 token 和字数的换算比例大致如下: • 1 个英文字符 ≈ 0.3 个 token 。 • 1 个中文字符 ≈ 0.6 个 token 。 • 但因为不同模型的分词不同 , 所以换算比例也存在差异 , 每一次实际处 理 token 数量以模型返回为准 ,您可以从返回结果的 usage 中查看。 阿里云部署 Deepseek 以 DeepSeek-R1 满血版为例进行演示 ,通过百炼模型服务进行 DeepSeek 开源模型调用 ,可以 根 据实际需求选择其他参数规模的 DeepSeek 模型。百炼平台的 API 提供标准化接口 ,无需自 行搭建 模型服务基础设施 ,且具备负载均衡和自动扩缩容机制 ,保障 API 调用稳定性。搭配 Chatbox 可视 化界面客户端 ,进一步简化了调用流程 ,无需在命令行中操作 ,通过图形化界面即 可轻松配置和使用 https://chatboxai.app/zh#downl oad DeepSeek 模型。 DeepSee k DeepSeek-R1 - Ditill-Qwen-32B DeepSeek-R1 - Ditill-Ollama-7B DeepSeek-R1 - Ditill-Qwen-14B DeepSeek-R1 - Distill-Ollama-7B DeepSeek-R1 - Ditill-Qwen-7B DeepSeek DeepSeek-R1 - Ditill-Qwen- 1.5B DeepSeek- V3 DeepSeek- R1 腾讯云部署流程 • Cloud Studio :登录腾讯云官网 ,进入 Cloud Studio ,可一键部署 ,即开即用 ,能快速体验 7B 以下 DeepSeek - R1 蒸馏模型。 • 云原生构建:登录腾讯云 ,云原生构建相关服务 ,一键体验 DeepSeek ,无需等待下载 ,支持 1.5b/7b/8b/14b/32b 多款模型。 • TI 平台:登录腾讯云 TI 平台 ,提供专属算力、多种尺寸模型、 0 代码模型部署等功能。 • HAI :登录腾讯云 HAI 控制台 ,新建 DeepSeek - R1 应用 ,创建完成后可通过站内信获取密码 ,选择可 视化 界面( ChatbotUI )或命令行( JupyterLab )直接调用 DeepSeek - R1 模型。 • 云应用:登录腾讯云找到云应用服务 ,直接购买成品 DeepSeek 应用 ,或利用云应用定制化软件功能 , 快速 部署 AI 应用或定制传统软件。 • 搜索方案:大模型知识引擎:注册并登录腾讯云 ,在控制台搜索“大模型知识引擎” 体验”开通服务。新 建 应用并配置基础信息 ,选择 DeepSeek - R1/V3 模型 ,即可在右侧调试窗口提问搜索。 • API 接口: 申请腾讯云 DeepSeek API 接口 ,获取 API Key 后 ,可在自己的应用或程序中通过调用 API 来 实现 DeepSeek 模型的搜索功能。 腾讯云 API 调用 开发者首选, DeepSeek 部署简单、直观、高效! HAI 提供 GPU 算力和 o llama 环境 ,支持 1.5B, 7B, 8B, 32B 等多个 DeepSeek-R1 蒸馏模 型。 企业级首选 , DeepSeek 部署稳定、 安全、 易用! 腾讯云智能全栈 AI 服务上架 DeepSeek 系列模 型 创建应用 华为云 +silconflow 邀请码: z0sI0urY 邀请链接: https://cloud.siliconflow.cn/i/z0sI0urY 通过创建 API key 调 用 模型微调工程 u 对话模型微调 u 生图模型微调 华为云模型微调 老师模型 模型蒸馏工程 DeepSeek : 推理模型 | 推理能力 蒸馏 DeepSeek 蒸馏模 型 学生模型 小模型:相当于一枚小学生 ,知识面非常有限 ,但是胜在 没 教授那么大谱 ,给个板凳坐着就够了(部署成本低 ,推 理成 本低)。 老师模型和学生模型 大模型:像一位见多识广、知识储备庞大的“大教 授” ,无所不知 ,但是“供养”他很贵。 什么是模型蒸馏? “ 模型蒸馏”就是把大模型学到的本领, 用“浓缩”的方式教给小模型的过程, 在保证一定精度 的 同时, 大幅降低运算成本和硬件要求。 模型蒸馏 • 蒸馏是一种机器学习技术 , 其中较小的模型( “学生模型” )被训练来模仿 较大、 预训练模型( “教师模型” ) 的行为。 • 1. 数据蒸馏 在数据蒸馏中 ,教师模型生成合成数据或伪标签 ,然后这些数据用于训练学 生 模型。 • 2. Logits 蒸馏 在 logits 蒸馏中 ,学生模型被训练来匹配教师模型的 logits ,而不仅仅是 最 终的预测。这种方法保留了更多关于教师模型置信水平和决策过程的信息。 • 3. 特征蒸馏 特征蒸馏涉及将教师模型中间层的知识转移到学生模型中。通过对齐两个模 型的隐藏表示 ,学生模型可以学习到更丰富和更抽象的特征。 蒸馏、微调、 RAG 微调: 又叫精调 ,相当于学生意识到自己某门课有 短 板 ,然后自己找参考书恶补了一下 ,从而补上短 板 蒸馏: 是学生通过模仿老师的解题思路 ,达到和老 师 相似的知识水平。 RAG : 直译过来叫做“检索增强生成 ” 。 相当于这题我不会, 但是我有“小抄 ” , 我回 答的时候, 就看一眼小抄, 然后再综合我脑子里的已有知识, 进行回答。 蒸馏、微调、 RAG DeepSeek 本地部 署 1. GPU 要求 推荐 NVIDIA 显卡( RTX 3090/4090/A100 等) 显存要求: ■ 7B 模型: 至少 16GB 显存 ■ 13B/20B 模型: 至少 24GB 显存 ■ 70B 模型: 需多卡并行(如 2xA100 ) 支持 CUDA 11.7+ 和 cuDNN 8.5+ 2. 系统要求 Linux ( Ubuntu 20.04+ ) 或 Windows WSL2 Python 3.8+ ,推荐使用 Anaconda/Mini cond a 管理环境 DeepSeek 本地部署 - 硬件环境准 备 DeepSeek 本地部署 - 部署办法 方法 1 :使用 Hugging Face Transformers 方法 2 :使用 vLLM 加速推 理 方法 3 : Docker 部 署 Anything LLM 接入 • 下载安装 • 打开官网 ,根据自己的系统选择下载对应的版本。 • • 安装文件 ,按照安装向导的提示进行操作 ,默认路径安装或修改默认安装路径都可以。安装完成后 ,点击完成自动跳 转 到 AnythingLLM 界面。 • 模型配置• LLM Selection (大语言模型选择):选择 Ollama ,如果本地已通过 Ollama 部署了 DeepSeek 等模型, AnythingLLM 会自动检测。这意味着模型和聊天记录仅在运行 Ollama 模型的机器上可访问 ,保证了数据的安全性和隐 私 性。 • Embedding Preference (嵌入偏好):使用 AnythingLLM Embedder 嵌入工具 ,文档文本会在 AnythingLLM 的 实例上私密嵌入 ,文本数据的处理和转换在本地进行 ,不会泄露给第三方。 • Vector Database (向 量数据库):使用 LanceDB 作为向量数据库, 向量和文档文本都存储在 AnythingLLM 实例上 ,进一步确保数据的私密性和安全性。 • 接入 DeepSeek 模型 • 通过 Ollama 接入:先在本地通过 Ollama 部署 DeepSeek 模型 ,然后在 AnythingLLM 中选择 O llama 作为语言模型推理后端 , AnythingLLM 会自动连接到本地 Ollama 服务中的 DeepSeek 模型。 通过 • DeepSeek R1 API 接入:在 AnythingLLM 工作区右侧点击设置 ,选择聊天设置 ,更改 LLM 模型为 DeepSeek ,输入 API Key 并选择 DeepSeek R1 模型 ,点击更新工作区即可。 • 搭建本地知识库 • 在 AnythingLLM 左侧工作区找到上传按钮 ,选中要上传的文档 ,点击移动到工作区 ,再点击“ Save and Embed” ,对文档进行切分和词向量化。 完成后 • ,点击图钉按钮 ,将文档设置为当前对话的背景文档 ,即可在聊 天窗口基于上传的文档内容与模型进行对话 本地部署方法 Ollama+Deepseek LM Studio+DeepSeek Anything LM+Ollama+Deepseek + 向量模型( Embessing Model ) Dify +Ollama +Deepseek + 向量模型( Embessing Model ) Anyt i i LM 调用模型 L l S l io 下载模型 DeepSeek 模型 u m t a M O f y ng D h L l S l io 下载模型 DeepSeek 模型 u m t a M O u 下载 Ollama u 运行 Ollama u 运行 Ollama run deepseek-r1 O llama LM Studio 本地部署 • 前期准备: 确保设备满足一定硬件要求 , 显卡需 GTX 1060 ( 6GB ) 及以上 , 推荐 RTX3060 及以上; 内存 8GB 及以上 , 推荐 16GB 及更高; C 盘剩余 20GB 空间 , 建议 使用 NVMe 固态硬盘 。 • 安装 LM Studio 客户端: 在官网 lmstudio.a i 下载对应操作系统的安装包 ,双击 运 行并按提示完成安装。 启动后 , 点击右下角设置图标将语言改为简体中文。 • 加载模型: 自行下载获取模型 , 下载到本地后 , 点击左上方文件夹图标选择模型 目 录导入; 若不会找模型 , 可在 LM Studio 的设置里 , 勾选 “ Use LM Studio's Hugging Face” , 再点击左上方搜索图标搜索 deepseek 选择模型。 注意参数规 模 不同 ,性能和硬件需求有差异。 例如 , 1.5B 适合体验尝鲜 , 7B 适合普通创 作及开 发测试 , 8B 适合对内容要求更高的场景 , 14B 适合专业及深度内容创作。 LM Studio+DeepSeek LM Studio 可以通 过 huggaface 下载 Deepseek 各种蒸 馏模型( GGUF ) DeepSeek UI 客户端使 用 Anything LM+ Ollama+ Deepseek LLM 首选项 向量数据库 Embedder 首选 项 文本分割 RAG 数据库工 程 RAG 中的 Embedding 模 型 Embedding 模型贯穿 RAG 流程多 环节 Cherry LM+DeepSeek API 大模型智能体工程 五大 AI Agent 多智能体开发框 架 微软 Magentic-One Git hub 地址: https://github.com/micr osoft/autogen/tree/ main/python/packages/autogen- magentic - one LangGraph : Git hub 地址: https://g it hub.com/langchain-ai/langgraph 微软 AutoGen : Git hub 地址: https://g it hub.com/microsoft/autogen Git hub 地址: https://g it hub.com/crewAIInc/crewAI Git hub 地址: https://g it hub.com/openai/swarm OpenAI Swarm : CrewA I DeepSeek 业务流应 用 DeepSeek 业务流应用 • Coze+Deepse
| ||
下载文档到本地,方便使用
共 79 页, 还有
1 页可预览,
继续阅读
文档评分


DeepSeek AI大模型在工程造价上的应用方案
北京大学-DeepSeek原理和落地应用2025